This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Stop foldInsertEltToCmpSelect from changing reg banks
ClosedPublic

Authored by mbrkusanin on Mar 12 2021, 8:39 AM.

Download Raw Diff

Details

Reviewers

foad
arsenm

Commits

rG9601849984a7: [AMDGPU][GlobalISel] Stop foldInsertEltToCmpSelect from changing reg banks

Summary

This function can change regbank for registers which already have a selected
bank. Depending on the instruction where these registers were used it can
cause instruction selection to fail.

Diff Detail

Event Timeline

mbrkusanin created this revision.Mar 12 2021, 8:39 AM

Herald added subscribers: kerbowa, hiraditya, t-tye and 7 others. · View Herald TranscriptMar 12 2021, 8:39 AM

mbrkusanin requested review of this revision.Mar 12 2021, 8:39 AM

Herald added a subscriber: wdng. · View Herald TranscriptMar 12 2021, 8:39 AM

Harbormaster completed remote builds in B93508: Diff 330254.Mar 12 2021, 10:14 AM

Needs a new testcase that failed to select

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
2018	I don't understand how this came to change the bank of an already assigned register. The bank should already be correct here? Why isn't the problem earlier in the initial bank selection?

arsenm requested changes to this revision.Mar 22 2021, 2:41 PM

This revision now requires changes to proceed.Mar 22 2021, 2:41 PM

The issue is in G_AMDGPU_S_BUFFER_LOAD where first we select sgpr for %4. However when selecting a bank for G_INSERT_VECTOR_ELT then foldInsertEltToCmpSelect will change it to vgpr and instruction-select will fail later on.

This can also be seen in other tests like insert_vector_elt_v4i32_v_s_s
where before the patch we had:
%1:vgpr(s32) = COPY $sgpr0
and now it is:
%1:sgpr(s32) = COPY $sgpr0
but this does not bother instruction-select.

Specifically in the new test:
%4:sgpr(s32) = G_AMDGPU_S_BUFFER_LOAD %0(<4 x s32>), %3(s32), 0 :: (dereferenceable invariant load 4)
was changed into
%4:vgpr(s32) = G_AMDGPU_S_BUFFER_LOAD %0(<4 x s32>), %3(s32), 0 :: (dereferenceable invariant load 4)
after foldInsertEltToCmpSelect

Harbormaster completed remote builds in B96498: Diff 334395.Mar 31 2021, 3:58 AM

In D98515#2660982, @mbrkusanin wrote:

%1:vgpr(s32) = COPY $sgpr0

I wonder if we should ban this in the verifier. It's not wrong, but it sure feels like bad form to allow cross bank copies involving physical registers

In D98515#2661286, @arsenm wrote:

In D98515#2660982, @mbrkusanin wrote:

%1:vgpr(s32) = COPY $sgpr0

I wonder if we should ban this in the verifier. It's not wrong, but it sure feels like bad form to allow cross bank copies involving physical registers

I guess that should be a separate patch and not related to this?

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

2018

Can you clarify what you mean by this?
The register in issue is %4. Below is the diff for state before and after foldInsertEltToCmpSelect for the new test. G_INSERT_VECTOR_ELT is expanded but the function in question also affects destination of G_AMDGPU_S_BUFFER_LOAD and that is what I'm trying to avoid changing. I don't believe that the issue was somehow in selecting sgpr for %4 but rather in line 2023* when we overwrite the bank for it.

   %1:sgpr(<2 x s32>) = COPY $sgpr4_sgpr5
   %2:vgpr(s32) = COPY $vgpr0
   %3:sgpr(s32) = G_CONSTANT i32 0
-  %4:sgpr(s32) = G_AMDGPU_S_BUFFER_LOAD %0:sgpr(<4 x s32>), %3:sgpr(s32), 0 :: (dereferenceable invariant load 4)
+  %4:vgpr(s32) = G_AMDGPU_S_BUFFER_LOAD %0:sgpr(<4 x s32>), %3:sgpr(s32), 0 :: (dereferenceable invariant load 4)
   %6:vgpr(<2 x s32>) = COPY %1:sgpr(<2 x s32>)
-  %5:vgpr(<2 x s32>) = G_INSERT_VECTOR_ELT %6:vgpr, %4:sgpr(s32), %2:vgpr(s32)
+  %7:vgpr(s32), %8:vgpr(s32) = G_UNMERGE_VALUES %6:vgpr(<2 x s32>)
+  %9:sgpr(s32) = G_CONSTANT i32 0
+  %10:vcc(s1) = G_ICMP intpred(eq), %2:vgpr(s32), %9:sgpr
+  %11:vgpr(s32) = G_SELECT %10:vcc(s1), %4:vgpr, %7:vgpr
+  %12:sgpr(s32) = G_CONSTANT i32 1
+  %13:vcc(s1) = G_ICMP intpred(eq), %2:vgpr(s32), %12:sgpr
+  %14:vgpr(s32) = G_SELECT %13:vcc(s1), %4:vgpr, %8:vgpr
+  %5:vgpr(<2 x s32>) = G_BUILD_VECTOR %11:vgpr(s32), %14:vgpr(s32)
   S_ENDPGM 0, implicit %5:vgpr(<2 x s32>)

2038

*this overwrites the bank for operand 2 which is the destination of G_AMDGPU_S_BUFFER_LOAD.

arsenm requested changes to this revision.May 6 2021, 6:05 PM

arsenm added inline comments.

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
2017	OK I see what's happening now. I think this should introduce a new utility function to try to constrain a register to a register bank, or insert a copy if not (similar to the existing ones for concrete register classes). This should also be called below in place of the setRegBank where this is overwritten

This revision now requires changes to proceed.May 6 2021, 6:05 PM

The function would look something like this.

Where do you think we should put this new function? MachineRegisterInfo? AMDGPURegisterBankInfo?

Harbormaster completed remote builds in B104510: Diff 345452.May 14 2021, 9:37 AM

arsenm added inline comments.May 14 2021, 10:51 AM

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1970	How about constrainRegToBank?
1977	setInstrAndDebugLoc Isn't this set where you want it to be already? Can you just avoid all the iterator changes?

mbrkusanin updated this revision to Diff 346165.May 18 2021, 6:48 AM

mbrkusanin marked an inline comment as not done.

mbrkusanin added inline comments.

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp
1977	If we set reg banks before creating select we can avoid iterator changes.

Harbormaster completed remote builds in B105034: Diff 346165.May 18 2021, 10:24 AM

Patch looks much nicer now, thanks.

arsenm accepted this revision.May 24 2021, 5:19 PM

This revision is now accepted and ready to land.May 24 2021, 5:19 PM

18c5444702893fd63b0a99ec7133dd714284f9d2

foad added inline comments.May 26 2021, 12:28 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll
2–4	Did you mean to commit this? Can you fix the tests instead of disabling the RUN lines?

mbrkusanin added a commit: rG9601849984a7: [AMDGPU][GlobalISel] Stop foldInsertEltToCmpSelect from changing reg banks.May 26 2021, 3:00 AM

mbrkusanin added inline comments.May 26 2021, 3:01 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll
2–4	Sorry, missed this. It's updated now.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPURegisterBankInfo.cpp

5 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

insertelement.i8.ll

128 lines

insertelement.ll

69 lines

regbankselect-insert-vector-elt.mir

33 lines

Diff 330254

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

Show First 20 Lines • Show All 1,961 Lines • ▼ Show 20 Lines	bool AMDGPURegisterBankInfo::foldExtractEltToCmpSelect(
MRI.setRegBank(MI.getOperand(0).getReg(), DstBank);		MRI.setRegBank(MI.getOperand(0).getReg(), DstBank);
MI.eraseFromParent();		MI.eraseFromParent();

return true;		return true;
}		}

bool AMDGPURegisterBankInfo::foldInsertEltToCmpSelect(		bool AMDGPURegisterBankInfo::foldInsertEltToCmpSelect(
MachineInstr &MI, MachineRegisterInfo &MRI,		MachineInstr &MI, MachineRegisterInfo &MRI,
const OperandsMapper &OpdMapper) const {		const OperandsMapper &OpdMapper) const {
		arsenmUnsubmitted Not Done Reply Inline Actions How about constrainRegToBank? arsenm: How about constrainRegToBank?

Register VecReg = MI.getOperand(1).getReg();		Register VecReg = MI.getOperand(1).getReg();
Register Idx = MI.getOperand(3).getReg();		Register Idx = MI.getOperand(3).getReg();

const RegisterBank &IdxBank =		const RegisterBank &IdxBank =
*OpdMapper.getInstrMapping().getOperandMapping(3).BreakDown[0].RegBank;		*OpdMapper.getInstrMapping().getOperandMapping(3).BreakDown[0].RegBank;

		arsenmUnsubmitted Not Done Reply Inline Actions setInstrAndDebugLoc Isn't this set where you want it to be already? Can you just avoid all the iterator changes? arsenm: setInstrAndDebugLoc Isn't this set where you want it to be already? Can you just avoid all the…
		mbrkusaninAuthorUnsubmitted Not Done Reply Inline Actions If we set reg banks before creating select we can avoid iterator changes. mbrkusanin: If we set reg banks before creating select we can avoid iterator changes.
bool IsDivergentIdx = IdxBank != AMDGPU::SGPRRegBank;		bool IsDivergentIdx = IdxBank != AMDGPU::SGPRRegBank;

LLT VecTy = MRI.getType(VecReg);		LLT VecTy = MRI.getType(VecReg);
unsigned EltSize = VecTy.getScalarSizeInBits();		unsigned EltSize = VecTy.getScalarSizeInBits();
unsigned NumElem = VecTy.getNumElements();		unsigned NumElem = VecTy.getNumElements();

if (!SITargetLowering::shouldExpandVectorDynExt(EltSize, NumElem,		if (!SITargetLowering::shouldExpandVectorDynExt(EltSize, NumElem,
IsDivergentIdx))		IsDivergentIdx))
Show All 22 Lines	if (CCBank == AMDGPU::VCCRegBank && IdxBank == AMDGPU::SGPRRegBank) {
MRI.setRegBank(Idx, AMDGPU::VGPRRegBank);		MRI.setRegBank(Idx, AMDGPU::VGPRRegBank);
}		}

LLT EltTy = VecTy.getScalarType();		LLT EltTy = VecTy.getScalarType();
SmallVector<Register, 2> InsRegs(OpdMapper.getVRegs(2));		SmallVector<Register, 2> InsRegs(OpdMapper.getVRegs(2));
unsigned NumLanes = InsRegs.size();		unsigned NumLanes = InsRegs.size();
if (!NumLanes) {		if (!NumLanes) {
NumLanes = 1;		NumLanes = 1;
InsRegs.push_back(MI.getOperand(2).getReg());		Register InReg = MI.getOperand(2).getReg();
		if (DstBank == AMDGPU::VGPRRegBank && InsBank == AMDGPU::SGPRRegBank)
		arsenmUnsubmitted Not Done Reply Inline Actions OK I see what's happening now. I think this should introduce a new utility function to try to constrain a register to a register bank, or insert a copy if not (similar to the existing ones for concrete register classes). This should also be called below in place of the setRegBank where this is overwritten arsenm: OK I see what's happening now. I think this should introduce a new utility function to try to…
		InReg = B.buildCopy(MRI.getType(InReg), InReg).getReg(0);
		arsenmUnsubmitted Not Done Reply Inline Actions I don't understand how this came to change the bank of an already assigned register. The bank should already be correct here? Why isn't the problem earlier in the initial bank selection? arsenm: I don't understand how this came to change the bank of an already assigned register. The bank…
		mbrkusaninAuthorUnsubmitted Done Reply Inline Actions Can you clarify what you mean by this? The register in issue is %4. Below is the diff for state before and after foldInsertEltToCmpSelect for the new test. G_INSERT_VECTOR_ELT is expanded but the function in question also affects destination of G_AMDGPU_S_BUFFER_LOAD and that is what I'm trying to avoid changing. I don't believe that the issue was somehow in selecting sgpr for %4 but rather in line 2023* when we overwrite the bank for it. %1:sgpr(<2 x s32>) = COPY $sgpr4_sgpr5 %2:vgpr(s32) = COPY $vgpr0 %3:sgpr(s32) = G_CONSTANT i32 0 - %4:sgpr(s32) = G_AMDGPU_S_BUFFER_LOAD %0:sgpr(<4 x s32>), %3:sgpr(s32), 0 :: (dereferenceable invariant load 4) + %4:vgpr(s32) = G_AMDGPU_S_BUFFER_LOAD %0:sgpr(<4 x s32>), %3:sgpr(s32), 0 :: (dereferenceable invariant load 4) %6:vgpr(<2 x s32>) = COPY %1:sgpr(<2 x s32>) - %5:vgpr(<2 x s32>) = G_INSERT_VECTOR_ELT %6:vgpr, %4:sgpr(s32), %2:vgpr(s32) + %7:vgpr(s32), %8:vgpr(s32) = G_UNMERGE_VALUES %6:vgpr(<2 x s32>) + %9:sgpr(s32) = G_CONSTANT i32 0 + %10:vcc(s1) = G_ICMP intpred(eq), %2:vgpr(s32), %9:sgpr + %11:vgpr(s32) = G_SELECT %10:vcc(s1), %4:vgpr, %7:vgpr + %12:sgpr(s32) = G_CONSTANT i32 1 + %13:vcc(s1) = G_ICMP intpred(eq), %2:vgpr(s32), %12:sgpr + %14:vgpr(s32) = G_SELECT %13:vcc(s1), %4:vgpr, %8:vgpr + %5:vgpr(<2 x s32>) = G_BUILD_VECTOR %11:vgpr(s32), %14:vgpr(s32) S_ENDPGM 0, implicit %5:vgpr(<2 x s32>) mbrkusanin: Can you clarify what you mean by this? The register in issue is %4. Below is the diff for state…
		InsRegs.push_back(InReg);
} else {		} else {
EltTy = MRI.getType(InsRegs[0]);		EltTy = MRI.getType(InsRegs[0]);
}		}

auto UnmergeToEltTy = B.buildUnmerge(EltTy, VecReg);		auto UnmergeToEltTy = B.buildUnmerge(EltTy, VecReg);
SmallVector<Register, 16> Ops(NumElem * NumLanes);		SmallVector<Register, 16> Ops(NumElem * NumLanes);

for (unsigned I = 0; I < NumElem; ++I) {		for (unsigned I = 0; I < NumElem; ++I) {
auto IC = B.buildConstant(S32, I);		auto IC = B.buildConstant(S32, I);
MRI.setRegBank(IC->getOperand(0).getReg(), AMDGPU::SGPRRegBank);		MRI.setRegBank(IC->getOperand(0).getReg(), AMDGPU::SGPRRegBank);
auto Cmp = B.buildICmp(CmpInst::ICMP_EQ, CCTy, Idx, IC);		auto Cmp = B.buildICmp(CmpInst::ICMP_EQ, CCTy, Idx, IC);
MRI.setRegBank(Cmp->getOperand(0).getReg(), CCBank);		MRI.setRegBank(Cmp->getOperand(0).getReg(), CCBank);

for (unsigned L = 0; L < NumLanes; ++L) {		for (unsigned L = 0; L < NumLanes; ++L) {
auto S = B.buildSelect(EltTy, Cmp, InsRegs[L],		auto S = B.buildSelect(EltTy, Cmp, InsRegs[L],
UnmergeToEltTy.getReg(I * NumLanes + L));		UnmergeToEltTy.getReg(I * NumLanes + L));

for (unsigned N : { 0, 2, 3 })		for (unsigned N : { 0, 2, 3 })
MRI.setRegBank(S->getOperand(N).getReg(), DstBank);		MRI.setRegBank(S->getOperand(N).getReg(), DstBank);
		mbrkusaninAuthorUnsubmitted Done Reply Inline Actions this overwrites the bank for operand 2 which is the destination of G_AMDGPU_S_BUFFER_LOAD. mbrkusanin:* *this overwrites the bank for operand 2 which is the destination of G_AMDGPU_S_BUFFER_LOAD.

Ops[I * NumLanes + L] = S->getOperand(0).getReg();		Ops[I * NumLanes + L] = S->getOperand(0).getReg();
}		}
}		}

LLT MergeTy = LLT::vector(Ops.size(), EltTy);		LLT MergeTy = LLT::vector(Ops.size(), EltTy);
if (MergeTy == MRI.getType(MI.getOperand(0).getReg())) {		if (MergeTy == MRI.getType(MI.getOperand(0).getReg())) {
B.buildBuildVector(MI.getOperand(0), Ops);		B.buildBuildVector(MI.getOperand(0), Ops);
▲ Show 20 Lines • Show All 2,347 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX9 %s		; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX9 %s
; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX8 %s		; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX8 %s
; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX7 %s		; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck --check-prefix=GFX7 %s

define amdgpu_ps void @insertelement_s_v2i8_s_s(<2 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 inreg %idx) {		define amdgpu_ps void @insertelement_s_v2i8_s_s(<2 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 inreg %idx) {
; GFX9-LABEL: insertelement_s_v2i8_s_s:		; GFX9-LABEL: insertelement_s_v2i8_s_s:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v0, 0
; GFX9-NEXT: global_load_ushort v1, v1, s[2:3]		; GFX9-NEXT: global_load_ushort v0, v0, s[2:3]
; GFX9-NEXT: v_mov_b32_e32 v0, s4		; GFX9-NEXT: v_mov_b32_e32 v1, s4
; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0		; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v1		; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1		; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
; GFX9-NEXT: v_cndmask_b32_e32 v0, v2, v0, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX9-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX9-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v0, 0		; GFX9-NEXT: v_mov_b32_e32 v0, 0
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: insertelement_s_v2i8_s_s:		; GFX8-LABEL: insertelement_s_v2i8_s_s:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_mov_b32_e32 v0, s2		; GFX8-NEXT: v_mov_b32_e32 v0, s2
; GFX8-NEXT: v_mov_b32_e32 v1, s3		; GFX8-NEXT: v_mov_b32_e32 v1, s3
; GFX8-NEXT: flat_load_ushort v0, v[0:1]		; GFX8-NEXT: flat_load_ushort v0, v[0:1]
; GFX8-NEXT: v_mov_b32_e32 v2, s4		; GFX8-NEXT: v_mov_b32_e32 v1, s4
; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0		; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1		; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, 0		; GFX8-NEXT: v_mov_b32_e32 v0, 0
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v2i8_s_s:		; GFX7-LABEL: insertelement_s_v2i8_s_s:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s0, s2		; GFX7-NEXT: s_mov_b32 s0, s2
; GFX7-NEXT: s_mov_b32 s1, s3		; GFX7-NEXT: s_mov_b32 s1, s3
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v0, off, s[0:3], 0
; GFX7-NEXT: v_mov_b32_e32 v0, s4		; GFX7-NEXT: v_mov_b32_e32 v2, s4
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 0
; GFX7-NEXT: v_mov_b32_e32 v2, 0xff		; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v1		; GFX7-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v0, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1		; GFX7-NEXT: v_cmp_eq_u32_e64 vcc, s5, 1
; GFX7-NEXT: v_cndmask_b32_e32 v0, v3, v0, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v2, v3, v2, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v2		; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, v1, v2		; GFX7-NEXT: v_and_b32_e32 v1, v2, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
%vec = load <2 x i8>, <2 x i8> addrspace(4)* %ptr		%vec = load <2 x i8>, <2 x i8> addrspace(4)* %ptr
%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx		%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx
store <2 x i8> %insert, <2 x i8> addrspace(1)* null		store <2 x i8> %insert, <2 x i8> addrspace(1)* null
ret void		ret void
}		}

define amdgpu_ps void @insertelement_v_v2i8_s_s(<2 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {		define amdgpu_ps void @insertelement_v_v2i8_s_s(<2 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 inreg %idx) {
; GFX9-LABEL: insertelement_v_v2i8_s_s:		; GFX9-LABEL: insertelement_v_v2i8_s_s:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: global_load_ushort v0, v[0:1], off		; GFX9-NEXT: global_load_ushort v0, v[0:1], off
; GFX9-NEXT: v_mov_b32_e32 v2, s2		; GFX9-NEXT: v_mov_b32_e32 v1, s2
; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0		; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; GFX9-NEXT: v_lshrrev_b32_e32 v2, 8, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1		; GFX9-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GFX9-NEXT: v_and_b32_e32 v1, 0xff, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX9-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v0, 0		; GFX9-NEXT: v_mov_b32_e32 v0, 0
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: insertelement_v_v2i8_s_s:		; GFX8-LABEL: insertelement_v_v2i8_s_s:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: flat_load_ushort v0, v[0:1]		; GFX8-NEXT: flat_load_ushort v0, v[0:1]
; GFX8-NEXT: v_mov_b32_e32 v2, s2		; GFX8-NEXT: v_mov_b32_e32 v1, s2
; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0		; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1		; GFX8-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v2, v1, vcc
; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, 0		; GFX8-NEXT: v_mov_b32_e32 v0, 0
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
▲ Show 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	; GFX7-NEXT: s_endpgm
%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx		%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx
store <2 x i8> %insert, <2 x i8> addrspace(1)* null		store <2 x i8> %insert, <2 x i8> addrspace(1)* null
ret void		ret void
}		}

define amdgpu_ps void @insertelement_s_v2i8_s_v(<2 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {		define amdgpu_ps void @insertelement_s_v2i8_s_v(<2 x i8> addrspace(4)* inreg %ptr, i8 inreg %val, i32 %idx) {
; GFX9-LABEL: insertelement_s_v2i8_s_v:		; GFX9-LABEL: insertelement_s_v2i8_s_v:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: v_mov_b32_e32 v2, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: global_load_ushort v2, v2, s[2:3]		; GFX9-NEXT: global_load_ushort v1, v1, s[2:3]
; GFX9-NEXT: v_mov_b32_e32 v1, s4		; GFX9-NEXT: v_mov_b32_e32 v2, s4
; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v2		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v1
; GFX9-NEXT: v_cndmask_b32_e32 v2, v2, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v1, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX9-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX9-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX9-NEXT: v_or_b32_sdwa v2, v2, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v0, 0		; GFX9-NEXT: v_mov_b32_e32 v0, 0
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: insertelement_s_v2i8_s_v:		; GFX8-LABEL: insertelement_s_v2i8_s_v:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: v_mov_b32_e32 v1, s2		; GFX8-NEXT: v_mov_b32_e32 v1, s2
; GFX8-NEXT: v_mov_b32_e32 v2, s3		; GFX8-NEXT: v_mov_b32_e32 v2, s3
; GFX8-NEXT: flat_load_ushort v1, v[1:2]		; GFX8-NEXT: flat_load_ushort v1, v[1:2]
; GFX8-NEXT: v_mov_b32_e32 v3, s4		; GFX8-NEXT: v_mov_b32_e32 v2, s4
; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v2, 8, v1		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v1
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v2, vcc
; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0		; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v2, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v3, v2, vcc
; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0		; GFX8-NEXT: v_and_b32_e32 v0, 0xff, v0
; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0		; GFX8-NEXT: v_lshlrev_b16_e32 v0, 8, v0
; GFX8-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v1, v0 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, 0		; GFX8-NEXT: v_mov_b32_e32 v0, 0
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_s_v2i8_s_v:		; GFX7-LABEL: insertelement_s_v2i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
; GFX7-NEXT: s_mov_b32 s0, s2		; GFX7-NEXT: s_mov_b32 s0, s2
; GFX7-NEXT: s_mov_b32 s1, s3		; GFX7-NEXT: s_mov_b32 s1, s3
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s2, -1
; GFX7-NEXT: s_mov_b32 s3, 0xf000		; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: buffer_load_ushort v2, off, s[0:3], 0		; GFX7-NEXT: buffer_load_ushort v1, off, s[0:3], 0
; GFX7-NEXT: v_mov_b32_e32 v1, s4		; GFX7-NEXT: v_mov_b32_e32 v3, s4
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
; GFX7-NEXT: v_mov_b32_e32 v3, 0xff		; GFX7-NEXT: v_mov_b32_e32 v2, 0xff
; GFX7-NEXT: s_mov_b64 s[0:1], 0		; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v2		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v1
; GFX7-NEXT: v_cndmask_b32_e32 v2, v2, v1, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v4, v1, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v4, v3, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v3		; GFX7-NEXT: v_and_b32_e32 v0, v0, v2
; GFX7-NEXT: v_and_b32_e32 v1, v2, v3		; GFX7-NEXT: v_and_b32_e32 v1, v1, v2
; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0		; GFX7-NEXT: v_lshlrev_b32_e32 v0, 8, v0
; GFX7-NEXT: v_or_b32_e32 v0, v1, v0		; GFX7-NEXT: v_or_b32_e32 v0, v1, v0
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
%vec = load <2 x i8>, <2 x i8> addrspace(4)* %ptr		%vec = load <2 x i8>, <2 x i8> addrspace(4)* %ptr
%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx		%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx
store <2 x i8> %insert, <2 x i8> addrspace(1)* null		store <2 x i8> %insert, <2 x i8> addrspace(1)* null
ret void		ret void
▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	; GFX7-NEXT: s_endpgm
store <2 x i8> %insert, <2 x i8> addrspace(1)* null		store <2 x i8> %insert, <2 x i8> addrspace(1)* null
ret void		ret void
}		}

define amdgpu_ps void @insertelement_v_v2i8_s_v(<2 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {		define amdgpu_ps void @insertelement_v_v2i8_s_v(<2 x i8> addrspace(1)* %ptr, i8 inreg %val, i32 %idx) {
; GFX9-LABEL: insertelement_v_v2i8_s_v:		; GFX9-LABEL: insertelement_v_v2i8_s_v:
; GFX9: ; %bb.0:		; GFX9: ; %bb.0:
; GFX9-NEXT: global_load_ushort v0, v[0:1], off		; GFX9-NEXT: global_load_ushort v0, v[0:1], off
; GFX9-NEXT: v_mov_b32_e32 v3, s2		; GFX9-NEXT: v_mov_b32_e32 v1, s2
; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; GFX9-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2		; GFX9-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
; GFX9-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX9-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
; GFX9-NEXT: v_and_b32_e32 v1, 0xff, v1		; GFX9-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX9-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX9-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX9-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX9-NEXT: v_mov_b32_e32 v0, 0		; GFX9-NEXT: v_mov_b32_e32 v0, 0
; GFX9-NEXT: v_mov_b32_e32 v1, 0		; GFX9-NEXT: v_mov_b32_e32 v1, 0
; GFX9-NEXT: global_store_short v[0:1], v2, off		; GFX9-NEXT: global_store_short v[0:1], v2, off
; GFX9-NEXT: s_endpgm		; GFX9-NEXT: s_endpgm
;		;
; GFX8-LABEL: insertelement_v_v2i8_s_v:		; GFX8-LABEL: insertelement_v_v2i8_s_v:
; GFX8: ; %bb.0:		; GFX8: ; %bb.0:
; GFX8-NEXT: flat_load_ushort v0, v[0:1]		; GFX8-NEXT: flat_load_ushort v0, v[0:1]
; GFX8-NEXT: v_mov_b32_e32 v3, s2		; GFX8-NEXT: v_mov_b32_e32 v1, s2
; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2		; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
; GFX8-NEXT: s_waitcnt vmcnt(0)		; GFX8-NEXT: s_waitcnt vmcnt(0)
; GFX8-NEXT: v_lshrrev_b32_e32 v1, 8, v0		; GFX8-NEXT: v_lshrrev_b32_e32 v3, 8, v0
; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v0, v0, v1, vcc
; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2		; GFX8-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
; GFX8-NEXT: v_cndmask_b32_e32 v1, v1, v3, vcc		; GFX8-NEXT: v_cndmask_b32_e32 v1, v3, v1, vcc
; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1		; GFX8-NEXT: v_and_b32_e32 v1, 0xff, v1
; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1		; GFX8-NEXT: v_lshlrev_b16_e32 v1, 8, v1
; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD		; GFX8-NEXT: v_or_b32_sdwa v2, v0, v1 dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:BYTE_0 src1_sel:DWORD
; GFX8-NEXT: v_mov_b32_e32 v0, 0		; GFX8-NEXT: v_mov_b32_e32 v0, 0
; GFX8-NEXT: v_mov_b32_e32 v1, 0		; GFX8-NEXT: v_mov_b32_e32 v1, 0
; GFX8-NEXT: flat_store_short v[0:1], v2		; GFX8-NEXT: flat_store_short v[0:1], v2
; GFX8-NEXT: s_endpgm		; GFX8-NEXT: s_endpgm
;		;
; GFX7-LABEL: insertelement_v_v2i8_s_v:		; GFX7-LABEL: insertelement_v_v2i8_s_v:
; GFX7: ; %bb.0:		; GFX7: ; %bb.0:
		; GFX7-NEXT: s_mov_b32 s6, 0
		; GFX7-NEXT: s_mov_b32 s7, 0xf000
		; GFX7-NEXT: s_mov_b64 s[4:5], 0
		; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[4:7], 0 addr64
; GFX7-NEXT: v_mov_b32_e32 v3, s2		; GFX7-NEXT: v_mov_b32_e32 v3, s2
; GFX7-NEXT: s_mov_b32 s2, 0
; GFX7-NEXT: s_mov_b32 s3, 0xf000
; GFX7-NEXT: s_mov_b64 s[0:1], 0
; GFX7-NEXT: buffer_load_ushort v0, v[0:1], s[0:3], 0 addr64
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 0, v2
; GFX7-NEXT: v_mov_b32_e32 v1, 0xff		; GFX7-NEXT: v_mov_b32_e32 v1, 0xff
; GFX7-NEXT: s_mov_b32 s2, -1		; GFX7-NEXT: s_mov_b32 s6, -1
; GFX7-NEXT: s_waitcnt vmcnt(0)		; GFX7-NEXT: s_waitcnt vmcnt(0)
; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0		; GFX7-NEXT: v_lshrrev_b32_e32 v4, 8, v0
; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2		; GFX7-NEXT: v_cmp_eq_u32_e32 vcc, 1, v2
; GFX7-NEXT: v_cndmask_b32_e32 v2, v4, v3, vcc		; GFX7-NEXT: v_cndmask_b32_e32 v2, v4, v3, vcc
; GFX7-NEXT: v_and_b32_e32 v0, v0, v1		; GFX7-NEXT: v_and_b32_e32 v0, v0, v1
; GFX7-NEXT: v_and_b32_e32 v1, v2, v1		; GFX7-NEXT: v_and_b32_e32 v1, v2, v1
; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1		; GFX7-NEXT: v_lshlrev_b32_e32 v1, 8, v1
; GFX7-NEXT: v_or_b32_e32 v0, v0, v1		; GFX7-NEXT: v_or_b32_e32 v0, v0, v1
; GFX7-NEXT: buffer_store_short v0, off, s[0:3], 0		; GFX7-NEXT: buffer_store_short v0, off, s[4:7], 0
; GFX7-NEXT: s_endpgm		; GFX7-NEXT: s_endpgm
%vec = load <2 x i8>, <2 x i8> addrspace(1)* %ptr		%vec = load <2 x i8>, <2 x i8> addrspace(1)* %ptr
%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx		%insert = insertelement <2 x i8> %vec, i8 %val, i32 %idx
store <2 x i8> %insert, <2 x i8> addrspace(1)* null		store <2 x i8> %insert, <2 x i8> addrspace(1)* null
ret void		ret void
}		}

define amdgpu_ps void @insertelement_v_v2i8_v_s(<2 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {		define amdgpu_ps void @insertelement_v_v2i8_v_s(<2 x i8> addrspace(1)* %ptr, i8 %val, i32 inreg %idx) {
▲ Show 20 Lines • Show All 5,480 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GPRIDX %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GPRIDX %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=MOVREL %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=MOVREL %s
	; RUN: not --crash llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs -o /dev/null %s 2>&1 \| FileCheck -check-prefix=ERR %s			; RUN: not --crash llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=fiji -verify-machineinstrs -o /dev/null %s 2>&1 \| FileCheck -check-prefix=ERR %s
				foadUnsubmitted Not Done Reply Inline Actions Did you mean to commit this? Can you fix the tests instead of disabling the RUN lines? foad: Did you mean to commit this? Can you fix the tests instead of disabling the RUN lines?
				mbrkusaninAuthorUnsubmitted Done Reply Inline Actions Sorry, missed this. It's updated now. mbrkusanin: Sorry, missed this. It's updated now.

	; FIXME: Need constant bus fixup pre-gfx10 for movrel			; FIXME: Need constant bus fixup pre-gfx10 for movrel
	; ERR: Bad machine code: VOP* instruction violates constant bus restriction			; ERR: Bad machine code: VOP* instruction violates constant bus restriction

	define amdgpu_ps <8 x i32> @dyn_insertelement_v8i32_s_s_s(<8 x i32> inreg %vec, i32 inreg %val, i32 inreg %idx) {			define amdgpu_ps <8 x i32> @dyn_insertelement_v8i32_s_s_s(<8 x i32> inreg %vec, i32 inreg %val, i32 inreg %idx) {
	; GPRIDX-LABEL: dyn_insertelement_v8i32_s_s_s:			; GPRIDX-LABEL: dyn_insertelement_v8i32_s_s_s:
	; GPRIDX: ; %bb.0: ; %entry			; GPRIDX: ; %bb.0: ; %entry
	; GPRIDX-NEXT: s_cmp_eq_u32 s11, 0			; GPRIDX-NEXT: s_cmp_eq_u32 s11, 0
	▲ Show 20 Lines • Show All 174 Lines • ▼ Show 20 Lines
	; GPRIDX-NEXT: s_mov_b32 s3, s5			; GPRIDX-NEXT: s_mov_b32 s3, s5
	; GPRIDX-NEXT: s_mov_b32 s5, s7			; GPRIDX-NEXT: s_mov_b32 s5, s7
	; GPRIDX-NEXT: s_mov_b32 s7, s9			; GPRIDX-NEXT: s_mov_b32 s7, s9
	; GPRIDX-NEXT: s_mov_b32 s0, s2			; GPRIDX-NEXT: s_mov_b32 s0, s2
	; GPRIDX-NEXT: s_mov_b32 s2, s4			; GPRIDX-NEXT: s_mov_b32 s2, s4
	; GPRIDX-NEXT: s_mov_b32 s4, s6			; GPRIDX-NEXT: s_mov_b32 s4, s6
	; GPRIDX-NEXT: s_mov_b32 s6, s8			; GPRIDX-NEXT: s_mov_b32 s6, s8
	; GPRIDX-NEXT: v_mov_b32_e32 v15, s7			; GPRIDX-NEXT: v_mov_b32_e32 v15, s7
	; GPRIDX-NEXT: v_mov_b32_e32 v7, s10
	; GPRIDX-NEXT: v_mov_b32_e32 v8, s0			; GPRIDX-NEXT: v_mov_b32_e32 v8, s0
				; GPRIDX-NEXT: v_mov_b32_e32 v7, s10
	; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GPRIDX-NEXT: v_cndmask_b32_e32 v8, v8, v7, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v8, v8, v7, vcc
	; GPRIDX-NEXT: v_mov_b32_e32 v9, s1			; GPRIDX-NEXT: v_mov_b32_e32 v9, s1
	; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0			; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 1, v0
	; GPRIDX-NEXT: v_cndmask_b32_e32 v1, v9, v7, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v1, v9, v7, vcc
	; GPRIDX-NEXT: v_mov_b32_e32 v10, s2			; GPRIDX-NEXT: v_mov_b32_e32 v10, s2
	; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 2, v0			; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 2, v0
	; GPRIDX-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc
	Show All 20 Lines
	; MOVREL-NEXT: s_mov_b32 s3, s5			; MOVREL-NEXT: s_mov_b32 s3, s5
	; MOVREL-NEXT: s_mov_b32 s5, s7			; MOVREL-NEXT: s_mov_b32 s5, s7
	; MOVREL-NEXT: s_mov_b32 s7, s9			; MOVREL-NEXT: s_mov_b32 s7, s9
	; MOVREL-NEXT: s_mov_b32 s0, s2			; MOVREL-NEXT: s_mov_b32 s0, s2
	; MOVREL-NEXT: s_mov_b32 s2, s4			; MOVREL-NEXT: s_mov_b32 s2, s4
	; MOVREL-NEXT: s_mov_b32 s4, s6			; MOVREL-NEXT: s_mov_b32 s4, s6
	; MOVREL-NEXT: s_mov_b32 s6, s8			; MOVREL-NEXT: s_mov_b32 s6, s8
	; MOVREL-NEXT: v_mov_b32_e32 v15, s7			; MOVREL-NEXT: v_mov_b32_e32 v15, s7
	; MOVREL-NEXT: v_mov_b32_e32 v7, s10
	; MOVREL-NEXT: v_mov_b32_e32 v8, s0			; MOVREL-NEXT: v_mov_b32_e32 v8, s0
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; MOVREL-NEXT: v_mov_b32_e32 v9, s1			; MOVREL-NEXT: v_mov_b32_e32 v9, s1
	; MOVREL-NEXT: v_mov_b32_e32 v10, s2			; MOVREL-NEXT: v_mov_b32_e32 v10, s2
	; MOVREL-NEXT: v_mov_b32_e32 v11, s3			; MOVREL-NEXT: v_mov_b32_e32 v11, s3
	; MOVREL-NEXT: v_mov_b32_e32 v12, s4			; MOVREL-NEXT: v_mov_b32_e32 v12, s4
	; MOVREL-NEXT: v_cndmask_b32_e32 v8, v8, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v8, v8, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v0
	; MOVREL-NEXT: v_mov_b32_e32 v13, s5			; MOVREL-NEXT: v_mov_b32_e32 v13, s5
	; MOVREL-NEXT: v_mov_b32_e32 v14, s6			; MOVREL-NEXT: v_mov_b32_e32 v14, s6
	; MOVREL-NEXT: v_cndmask_b32_e32 v1, v9, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v1, v9, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v0
	; MOVREL-NEXT: v_cndmask_b32_e32 v2, v10, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v2, v10, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v0
	; MOVREL-NEXT: v_cndmask_b32_e32 v3, v11, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v3, v11, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 4, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 4, v0
	; MOVREL-NEXT: v_cndmask_b32_e32 v4, v12, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v4, v12, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 5, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 5, v0
	; MOVREL-NEXT: v_cndmask_b32_e32 v5, v13, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v5, v13, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 6, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 6, v0
	; MOVREL-NEXT: v_cndmask_b32_e32 v6, v14, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v6, v14, s10, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 7, v0			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 7, v0
	; MOVREL-NEXT: v_mov_b32_e32 v0, v8			; MOVREL-NEXT: v_mov_b32_e32 v0, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v7, v15, v7, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v7, v15, s10, vcc_lo
	; MOVREL-NEXT: ; return to shader part epilog			; MOVREL-NEXT: ; return to shader part epilog
	entry:			entry:
	%insert = insertelement <8 x float> %vec, float %val, i32 %idx			%insert = insertelement <8 x float> %vec, float %val, i32 %idx
	ret <8 x float> %insert			ret <8 x float> %insert
	}			}

	define amdgpu_ps <8 x float> @dyn_insertelement_v8f32_s_v_s(<8 x float> inreg %vec, float %val, i32 inreg %idx) {			define amdgpu_ps <8 x float> @dyn_insertelement_v8f32_s_v_s(<8 x float> inreg %vec, float %val, i32 inreg %idx) {
	; GPRIDX-LABEL: dyn_insertelement_v8f32_s_v_s:			; GPRIDX-LABEL: dyn_insertelement_v8f32_s_v_s:
	▲ Show 20 Lines • Show All 93 Lines • ▼ Show 20 Lines
	; GPRIDX-NEXT: v_cmp_eq_u32_e64 vcc, s3, 6			; GPRIDX-NEXT: v_cmp_eq_u32_e64 vcc, s3, 6
	; GPRIDX-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc
	; GPRIDX-NEXT: v_cmp_eq_u32_e64 vcc, s3, 7			; GPRIDX-NEXT: v_cmp_eq_u32_e64 vcc, s3, 7
	; GPRIDX-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc
	; GPRIDX-NEXT: ; return to shader part epilog			; GPRIDX-NEXT: ; return to shader part epilog
	;			;
	; MOVREL-LABEL: dyn_insertelement_v8f32_v_s_s:			; MOVREL-LABEL: dyn_insertelement_v8f32_v_s_s:
	; MOVREL: ; %bb.0: ; %entry			; MOVREL: ; %bb.0: ; %entry
	; MOVREL-NEXT: v_mov_b32_e32 v8, s2			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 0
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 0			; MOVREL-NEXT: v_cndmask_b32_e64 v0, v0, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v0, v0, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 1
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 1			; MOVREL-NEXT: v_cndmask_b32_e64 v1, v1, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v1, v1, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 2
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 2			; MOVREL-NEXT: v_cndmask_b32_e64 v2, v2, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v2, v2, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 3
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 3			; MOVREL-NEXT: v_cndmask_b32_e64 v3, v3, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v3, v3, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 4
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 4			; MOVREL-NEXT: v_cndmask_b32_e64 v4, v4, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v4, v4, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 5
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 5			; MOVREL-NEXT: v_cndmask_b32_e64 v5, v5, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v5, v5, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 6
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 6			; MOVREL-NEXT: v_cndmask_b32_e64 v6, v6, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v6, v6, v8, vcc_lo			; MOVREL-NEXT: v_cmp_eq_u32_e64 s0, s3, 7
	; MOVREL-NEXT: v_cmp_eq_u32_e64 vcc_lo, s3, 7			; MOVREL-NEXT: v_cndmask_b32_e64 v7, v7, s2, s0
	; MOVREL-NEXT: v_cndmask_b32_e32 v7, v7, v8, vcc_lo
	; MOVREL-NEXT: ; return to shader part epilog			; MOVREL-NEXT: ; return to shader part epilog
	entry:			entry:
	%insert = insertelement <8 x float> %vec, float %val, i32 %idx			%insert = insertelement <8 x float> %vec, float %val, i32 %idx
	ret <8 x float> %insert			ret <8 x float> %insert
	}			}

	define amdgpu_ps <8 x float> @dyn_insertelement_v8f32_s_v_v(<8 x float> inreg %vec, float %val, i32 %idx) {			define amdgpu_ps <8 x float> @dyn_insertelement_v8f32_s_v_v(<8 x float> inreg %vec, float %val, i32 %idx) {
	; GPRIDX-LABEL: dyn_insertelement_v8f32_s_v_v:			; GPRIDX-LABEL: dyn_insertelement_v8f32_s_v_v:
	▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 6, v8			; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 6, v8
	; GPRIDX-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc
	; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 7, v8			; GPRIDX-NEXT: v_cmp_eq_u32_e32 vcc, 7, v8
	; GPRIDX-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc			; GPRIDX-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc
	; GPRIDX-NEXT: ; return to shader part epilog			; GPRIDX-NEXT: ; return to shader part epilog
	;			;
	; MOVREL-LABEL: dyn_insertelement_v8f32_v_s_v:			; MOVREL-LABEL: dyn_insertelement_v8f32_v_s_v:
	; MOVREL: ; %bb.0: ; %entry			; MOVREL: ; %bb.0: ; %entry
	; MOVREL-NEXT: v_mov_b32_e32 v9, s2
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v0, v0, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v0, v0, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 1, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v1, v1, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v1, v1, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 2, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v2, v2, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v2, v2, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 3, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v3, v3, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v3, v3, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 4, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 4, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v4, v4, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v4, v4, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 5, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 5, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v5, v5, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v5, v5, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 6, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 6, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v6, v6, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v6, v6, s2, vcc_lo
	; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 7, v8			; MOVREL-NEXT: v_cmp_eq_u32_e32 vcc_lo, 7, v8
	; MOVREL-NEXT: v_cndmask_b32_e32 v7, v7, v9, vcc_lo			; MOVREL-NEXT: v_cndmask_b32_e64 v7, v7, s2, vcc_lo
	; MOVREL-NEXT: ; return to shader part epilog			; MOVREL-NEXT: ; return to shader part epilog
	entry:			entry:
	%insert = insertelement <8 x float> %vec, float %val, i32 %idx			%insert = insertelement <8 x float> %vec, float %val, i32 %idx
	ret <8 x float> %insert			ret <8 x float> %insert
	}			}

	define amdgpu_ps <8 x float> @dyn_insertelement_v8f32_v_v_s(<8 x float> %vec, float %val, i32 inreg %idx) {			define amdgpu_ps <8 x float> @dyn_insertelement_v8f32_v_v_s(<8 x float> %vec, float %val, i32 inreg %idx) {
	; GPRIDX-LABEL: dyn_insertelement_v8f32_v_v_s:			; GPRIDX-LABEL: dyn_insertelement_v8f32_v_v_s:
	▲ Show 20 Lines • Show All 4,045 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-insert-vector-elt.mir

	Show All 40 Lines
	legalized: true			legalized: true

	body: \|			body: \|
	bb.0:			bb.0:
	liveins: $vgpr0_vgpr1_vgpr2_vgpr3, $sgpr0, $sgpr1			liveins: $vgpr0_vgpr1_vgpr2_vgpr3, $sgpr0, $sgpr1

	; CHECK-LABEL: name: insert_vector_elt_v4i32_v_s_s			; CHECK-LABEL: name: insert_vector_elt_v4i32_v_s_s
	; CHECK: [[COPY:%[0-9]+]]:vgpr(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3			; CHECK: [[COPY:%[0-9]+]]:vgpr(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3
	; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $sgpr0			; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr0
	; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1			; CHECK: [[COPY2:%[0-9]+]]:sgpr(s32) = COPY $sgpr1
	; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)			; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY2]](s32)
				; CHECK: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
	; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[COPY]](<4 x s32>)			; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[COPY]](<4 x s32>)
	; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0			; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
	; CHECK: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C]]			; CHECK: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C]]
	; CHECK: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[UV]]			; CHECK: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY4]], [[UV]]
	; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1			; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
	; CHECK: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C1]]			; CHECK: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C1]]
	; CHECK: [[SELECT1:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP1]](s1), [[COPY1]], [[UV1]]			; CHECK: [[SELECT1:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP1]](s1), [[COPY4]], [[UV1]]
	; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2			; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
	; CHECK: [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C2]]			; CHECK: [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C2]]
	; CHECK: [[SELECT2:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP2]](s1), [[COPY1]], [[UV2]]			; CHECK: [[SELECT2:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP2]](s1), [[COPY4]], [[UV2]]
	; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 3			; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 3
	; CHECK: [[ICMP3:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C3]]			; CHECK: [[ICMP3:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY3]](s32), [[C3]]
	; CHECK: [[SELECT3:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP3]](s1), [[COPY1]], [[UV3]]			; CHECK: [[SELECT3:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP3]](s1), [[COPY4]], [[UV3]]
	; CHECK: [[BUILD_VECTOR:%[0-9]+]]:vgpr(<4 x s32>) = G_BUILD_VECTOR [[SELECT]](s32), [[SELECT1]](s32), [[SELECT2]](s32), [[SELECT3]](s32)			; CHECK: [[BUILD_VECTOR:%[0-9]+]]:vgpr(<4 x s32>) = G_BUILD_VECTOR [[SELECT]](s32), [[SELECT1]](s32), [[SELECT2]](s32), [[SELECT3]](s32)
	; CHECK: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<4 x s32>)			; CHECK: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<4 x s32>)
	%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3			%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3
	%1:_(s32) = COPY $sgpr0			%1:_(s32) = COPY $sgpr0
	%2:_(s32) = COPY $sgpr1			%2:_(s32) = COPY $sgpr1
	%3:_(<4 x s32>) = G_INSERT_VECTOR_ELT %0, %1, %2			%3:_(<4 x s32>) = G_INSERT_VECTOR_ELT %0, %1, %2
	$vgpr0_vgpr1_vgpr2_vgpr3 = COPY %3			$vgpr0_vgpr1_vgpr2_vgpr3 = COPY %3
	...			...
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines

	body: \|			body: \|
	bb.0:			bb.0:
	liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4, $vgpr0			liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4, $vgpr0

	; CHECK-LABEL: name: insert_vector_elt_v4i32_s_s_v			; CHECK-LABEL: name: insert_vector_elt_v4i32_s_s_v
	; CHECK: liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4, $vgpr0			; CHECK: liveins: $sgpr0_sgpr1_sgpr2_sgpr3, $sgpr4, $vgpr0
	; CHECK: [[COPY:%[0-9]+]]:sgpr(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3			; CHECK: [[COPY:%[0-9]+]]:sgpr(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3
	; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $sgpr4			; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr4
	; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0			; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
	; CHECK: [[COPY3:%[0-9]+]]:vgpr(<4 x s32>) = COPY [[COPY]](<4 x s32>)			; CHECK: [[COPY3:%[0-9]+]]:vgpr(<4 x s32>) = COPY [[COPY]](<4 x s32>)
				; CHECK: [[COPY4:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
	; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[COPY3]](<4 x s32>)			; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[COPY3]](<4 x s32>)
	; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0			; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
	; CHECK: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C]]			; CHECK: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C]]
	; CHECK: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[UV]]			; CHECK: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY4]], [[UV]]
	; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1			; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
	; CHECK: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C1]]			; CHECK: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C1]]
	; CHECK: [[SELECT1:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP1]](s1), [[COPY1]], [[UV1]]			; CHECK: [[SELECT1:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP1]](s1), [[COPY4]], [[UV1]]
	; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2			; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
	; CHECK: [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C2]]			; CHECK: [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C2]]
	; CHECK: [[SELECT2:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP2]](s1), [[COPY1]], [[UV2]]			; CHECK: [[SELECT2:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP2]](s1), [[COPY4]], [[UV2]]
	; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 3			; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 3
	; CHECK: [[ICMP3:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C3]]			; CHECK: [[ICMP3:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C3]]
	; CHECK: [[SELECT3:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP3]](s1), [[COPY1]], [[UV3]]			; CHECK: [[SELECT3:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP3]](s1), [[COPY4]], [[UV3]]
	; CHECK: [[BUILD_VECTOR:%[0-9]+]]:vgpr(<4 x s32>) = G_BUILD_VECTOR [[SELECT]](s32), [[SELECT1]](s32), [[SELECT2]](s32), [[SELECT3]](s32)			; CHECK: [[BUILD_VECTOR:%[0-9]+]]:vgpr(<4 x s32>) = G_BUILD_VECTOR [[SELECT]](s32), [[SELECT1]](s32), [[SELECT2]](s32), [[SELECT3]](s32)
	; CHECK: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<4 x s32>)			; CHECK: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<4 x s32>)
	%0:_(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3			%0:_(<4 x s32>) = COPY $sgpr0_sgpr1_sgpr2_sgpr3
	%1:_(s32) = COPY $sgpr4			%1:_(s32) = COPY $sgpr4
	%2:_(s32) = COPY $vgpr0			%2:_(s32) = COPY $vgpr0
	%3:_(<4 x s32>) = G_INSERT_VECTOR_ELT %0, %1, %2			%3:_(<4 x s32>) = G_INSERT_VECTOR_ELT %0, %1, %2
	$vgpr0_vgpr1_vgpr2_vgpr3 = COPY %3			$vgpr0_vgpr1_vgpr2_vgpr3 = COPY %3
	...			...
	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines

	body: \|			body: \|
	bb.0:			bb.0:
	liveins: $vgpr0_vgpr1_vgpr2_vgpr3, $sgpr4, $vgpr0			liveins: $vgpr0_vgpr1_vgpr2_vgpr3, $sgpr4, $vgpr0

	; CHECK-LABEL: name: insert_vector_elt_var_v4i32_v_s_v			; CHECK-LABEL: name: insert_vector_elt_var_v4i32_v_s_v
	; CHECK: liveins: $vgpr0_vgpr1_vgpr2_vgpr3, $sgpr4, $vgpr0			; CHECK: liveins: $vgpr0_vgpr1_vgpr2_vgpr3, $sgpr4, $vgpr0
	; CHECK: [[COPY:%[0-9]+]]:vgpr(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3			; CHECK: [[COPY:%[0-9]+]]:vgpr(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3
	; CHECK: [[COPY1:%[0-9]+]]:vgpr(s32) = COPY $sgpr4			; CHECK: [[COPY1:%[0-9]+]]:sgpr(s32) = COPY $sgpr4
	; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0			; CHECK: [[COPY2:%[0-9]+]]:vgpr(s32) = COPY $vgpr0
				; CHECK: [[COPY3:%[0-9]+]]:vgpr(s32) = COPY [[COPY1]](s32)
	; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[COPY]](<4 x s32>)			; CHECK: [[UV:%[0-9]+]]:vgpr(s32), [[UV1:%[0-9]+]]:vgpr(s32), [[UV2:%[0-9]+]]:vgpr(s32), [[UV3:%[0-9]+]]:vgpr(s32) = G_UNMERGE_VALUES [[COPY]](<4 x s32>)
	; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0			; CHECK: [[C:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 0
	; CHECK: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C]]			; CHECK: [[ICMP:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C]]
	; CHECK: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY1]], [[UV]]			; CHECK: [[SELECT:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP]](s1), [[COPY3]], [[UV]]
	; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1			; CHECK: [[C1:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 1
	; CHECK: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C1]]			; CHECK: [[ICMP1:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C1]]
	; CHECK: [[SELECT1:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP1]](s1), [[COPY1]], [[UV1]]			; CHECK: [[SELECT1:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP1]](s1), [[COPY3]], [[UV1]]
	; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2			; CHECK: [[C2:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 2
	; CHECK: [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C2]]			; CHECK: [[ICMP2:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C2]]
	; CHECK: [[SELECT2:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP2]](s1), [[COPY1]], [[UV2]]			; CHECK: [[SELECT2:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP2]](s1), [[COPY3]], [[UV2]]
	; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 3			; CHECK: [[C3:%[0-9]+]]:sgpr(s32) = G_CONSTANT i32 3
	; CHECK: [[ICMP3:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C3]]			; CHECK: [[ICMP3:%[0-9]+]]:vcc(s1) = G_ICMP intpred(eq), [[COPY2]](s32), [[C3]]
	; CHECK: [[SELECT3:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP3]](s1), [[COPY1]], [[UV3]]			; CHECK: [[SELECT3:%[0-9]+]]:vgpr(s32) = G_SELECT [[ICMP3]](s1), [[COPY3]], [[UV3]]
	; CHECK: [[BUILD_VECTOR:%[0-9]+]]:vgpr(<4 x s32>) = G_BUILD_VECTOR [[SELECT]](s32), [[SELECT1]](s32), [[SELECT2]](s32), [[SELECT3]](s32)			; CHECK: [[BUILD_VECTOR:%[0-9]+]]:vgpr(<4 x s32>) = G_BUILD_VECTOR [[SELECT]](s32), [[SELECT1]](s32), [[SELECT2]](s32), [[SELECT3]](s32)
	; CHECK: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<4 x s32>)			; CHECK: $vgpr0_vgpr1_vgpr2_vgpr3 = COPY [[BUILD_VECTOR]](<4 x s32>)
	%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3			%0:_(<4 x s32>) = COPY $vgpr0_vgpr1_vgpr2_vgpr3
	%1:_(s32) = COPY $sgpr4			%1:_(s32) = COPY $sgpr4
	%2:_(s32) = COPY $vgpr0			%2:_(s32) = COPY $vgpr0
	%3:_(<4 x s32>) = G_INSERT_VECTOR_ELT %0, %1, %2			%3:_(<4 x s32>) = G_INSERT_VECTOR_ELT %0, %1, %2
	$vgpr0_vgpr1_vgpr2_vgpr3 = COPY %3			$vgpr0_vgpr1_vgpr2_vgpr3 = COPY %3
	...			...
	▲ Show 20 Lines • Show All 486 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU][GlobalISel] Stop foldInsertEltToCmpSelect from changing reg banksClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 330254

llvm/lib/Target/AMDGPU/AMDGPURegisterBankInfo.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.i8.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/insertelement.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/regbankselect-insert-vector-elt.mir

[AMDGPU][GlobalISel] Stop foldInsertEltToCmpSelect from changing reg banks
ClosedPublic