This is an archive of the discontinued LLVM Phabricator instance.

llvm/lib/Target/AMDGPU/GCNRegBankReassign.cpp
107–129	Is push_front more expensive if we are calling it for every candidate? Probably just always push_back?
457	Make this an assertion combined with other change to collectCandidate suggested below?
613	Presumably we don't need to do this if we are not using weights at all (i.e. no sorting)? Perhaps "if (UseWeight)" all of this?

rampitec added inline comments.Aug 20 2020, 12:04 AM

llvm/lib/Target/AMDGPU/GCNRegBankReassign.cpp
107–129	It's a list, cost of insertion is O(1).
613	Good point. It is cheap, but still.

rampitec updated this revision to Diff 286721.Aug 20 2020, 12:11 AM

rampitec marked 3 inline comments as done.

rampitec added inline comments.Aug 20 2020, 12:20 AM

llvm/lib/Target/AMDGPU/GCNRegBankReassign.cpp
613	Actually since it is cheap it makes sense to keep loop depth weight. The operand forwarding part is expensive, but the sort is not. I will experiment tomorrow and return sort and MLI part, just disable operand scan part.

Hm... On practice that is std::list::sort() takes most of the time. Maybe it is vaible to change the list to a vector of lists, where vector is sorted by equal weights.

In fact the slowest part was sorting. I just have changed data structure to avoid sorting. Weight calculation itself turns to be not that much expensive.

This almost halves time the pass takes.

LGTM

This revision is now accepted and ready to land.Aug 21 2020, 12:12 AM

foad added a subscriber: foad.Aug 21 2020, 12:12 AM

Closed by commit rG9a9a092e61d4: [AMDGPU] Avoid sorting stalls in regbank-reassign (authored by rampitec). · Explain WhyAug 21 2020, 11:50 AM

This revision was automatically updated to reflect the committed changes.

rampitec added a commit: rG9a9a092e61d4: [AMDGPU] Avoid sorting stalls in regbank-reassign.

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

GCNRegBankReassign.cpp

72 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

llvm.amdgcn.image.sample.g16.ll

44 lines

uaddsat.ll

14 lines

atomic_optimizations_local_pointer.ll

132 lines

llvm.amdgcn.image.sample.a16.dim.ll

68 lines

llvm.amdgcn.image.sample.g16.encode.ll

16 lines

llvm.amdgcn.image.sample.g16.ll

16 lines

regbank-reassign.mir

2 lines

Diff 287075

llvm/lib/Target/AMDGPU/GCNRegBankReassign.cpp

Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines	public:
Register Reg;		Register Reg;
unsigned SubReg;		unsigned SubReg;
unsigned Mask;		unsigned Mask;
};		};

class Candidate {		class Candidate {
public:		public:
Candidate(MachineInstr *mi, Register reg, unsigned subreg,		Candidate(MachineInstr *mi, Register reg, unsigned subreg,
unsigned freebanks, unsigned weight)		unsigned freebanks)
: MI(mi), Reg(reg), SubReg(subreg), FreeBanks(freebanks),		: MI(mi), Reg(reg), SubReg(subreg), FreeBanks(freebanks) {}
Weight(weight) {}

bool operator< (const Candidate& RHS) const { return Weight < RHS.Weight; }

#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)		#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)
void dump(const GCNRegBankReassign *P) const {		void dump(const GCNRegBankReassign *P) const {
MI->dump();		MI->dump();
dbgs() << P->printReg(Reg) << " to banks ";		dbgs() << P->printReg(Reg) << " to banks ";
dumpFreeBanks(FreeBanks);		dumpFreeBanks(FreeBanks);
dbgs() << " weight " << Weight << '\n';		dbgs() << '\n';
}		}
#endif		#endif

MachineInstr *MI;		MachineInstr *MI;
Register Reg;		Register Reg;
unsigned SubReg;		unsigned SubReg;
unsigned FreeBanks;		unsigned FreeBanks;
unsigned Weight;
};		};

class CandidateList : public std::list<Candidate> {		class CandidateList : public std::map<unsigned, std::list<Candidate>> {
public:		public:
// Speedup subsequent sort.		void push(unsigned Weight, const Candidate&& C) {
void push(const Candidate&& C) {		operator[](Weight).push_front(C);
if (C.Weight) push_back(C);		}
else push_front(C);
		Candidate &back() {
		return rbegin()->second.back();
}		}

		void pop_back() {
		rbegin()->second.pop_back();
		if (rbegin()->second.empty())
		erase(rbegin()->first);
		}

		#if !defined(NDEBUG) \|\| defined(LLVM_ENABLE_DUMP)
		void dump(const GCNRegBankReassign *P) const {
		dbgs() << "\nCandidates:\n\n";
		for (auto &B : *this) {
		dbgs() << " Weight " << B.first << ":\n";
		for (auto &C : B.second)
		C.dump(P);
		}
		dbgs() << "\n\n";
		critsonUnsubmitted Done Reply Inline Actions Is push_front more expensive if we are calling it for every candidate? Probably just always push_back? critson: Is push_front more expensive if we are calling it for every candidate? Probably just always…
		rampitecAuthorUnsubmitted Done Reply Inline Actions It's a list, cost of insertion is O(1). rampitec: It's a list, cost of insertion is O(1).
		}
		#endif
};		};

public:		public:
static char ID;		static char ID;

public:		public:
GCNRegBankReassign() : MachineFunctionPass(ID) {		GCNRegBankReassign() : MachineFunctionPass(ID) {
initializeGCNRegBankReassignPass(*PassRegistry::getPassRegistry());		initializeGCNRegBankReassignPass(*PassRegistry::getPassRegistry());
▲ Show 20 Lines • Show All 309 Lines • ▼ Show 20 Lines	GCNRegBankReassign::analyzeInst(const MachineInstr &MI, Register Reg,
return std::make_pair(StallCycles, UsedBanks);		return std::make_pair(StallCycles, UsedBanks);
}		}

unsigned GCNRegBankReassign::getOperandGatherWeight(const MachineInstr& MI,		unsigned GCNRegBankReassign::getOperandGatherWeight(const MachineInstr& MI,
Register Reg1,		Register Reg1,
Register Reg2,		Register Reg2,
unsigned StallCycles) const		unsigned StallCycles) const
{		{
unsigned Defs = 0;		unsigned Defs = 0;
		critsonUnsubmitted Done Reply Inline Actions Make this an assertion combined with other change to collectCandidate suggested below? critson: Make this an assertion combined with other change to collectCandidate suggested below?
MachineBasicBlock::const_instr_iterator Def(MI.getIterator());		MachineBasicBlock::const_instr_iterator Def(MI.getIterator());
MachineBasicBlock::const_instr_iterator B(MI.getParent()->instr_begin());		MachineBasicBlock::const_instr_iterator B(MI.getParent()->instr_begin());
for (unsigned S = StallCycles; S && Def != B && Defs != 3; --S) {		for (unsigned S = StallCycles; S && Def != B && Defs != 3; --S) {
if (MI.isDebugInstr())		if (MI.isDebugInstr())
continue;		continue;
--Def;		--Def;
if (Def->getOpcode() == TargetOpcode::IMPLICIT_DEF)		if (Def->getOpcode() == TargetOpcode::IMPLICIT_DEF)
continue;		continue;
▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines	for (unsigned J = I + 1; J != E; ++J) {
unsigned Mask2 = OperandMasks[J].Mask;		unsigned Mask2 = OperandMasks[J].Mask;
unsigned Size1 = countPopulation(Mask1);		unsigned Size1 = countPopulation(Mask1);
unsigned Size2 = countPopulation(Mask2);		unsigned Size2 = countPopulation(Mask2);

LLVM_DEBUG(dbgs() << "Conflicting operands: " << printReg(Reg1, SubReg1) <<		LLVM_DEBUG(dbgs() << "Conflicting operands: " << printReg(Reg1, SubReg1) <<
" and " << printReg(Reg2, SubReg2) << '\n');		" and " << printReg(Reg2, SubReg2) << '\n');

unsigned Weight = getOperandGatherWeight(MI, Reg1, Reg2, StallCycles);		unsigned Weight = getOperandGatherWeight(MI, Reg1, Reg2, StallCycles);
Weight += MLI->getLoopDepth(MI.getParent()) * 10;		Weight += MLI->getLoopDepth(MI.getParent()) * 10;
		critsonUnsubmitted Done Reply Inline Actions Presumably we don't need to do this if we are not using weights at all (i.e. no sorting)? Perhaps "if (UseWeight)" all of this? critson: Presumably we don't need to do this if we are not using weights at all (i.e. no sorting)?
		rampitecAuthorUnsubmitted Done Reply Inline Actions Good point. It is cheap, but still. rampitec: Good point. It is cheap, but still.
		rampitecAuthorUnsubmitted Done Reply Inline Actions Actually since it is cheap it makes sense to keep loop depth weight. The operand forwarding part is expensive, but the sort is not. I will experiment tomorrow and return sort and MLI part, just disable operand scan part. rampitec: Actually since it is cheap it makes sense to keep loop depth weight. The operand forwarding…

LLVM_DEBUG(dbgs() << "Stall weight = " << Weight << '\n');		LLVM_DEBUG(dbgs() << "Stall weight = " << Weight << '\n');

unsigned FreeBanks1 = getFreeBanks(Reg1, SubReg1, Mask1, UsedBanks);		unsigned FreeBanks1 = getFreeBanks(Reg1, SubReg1, Mask1, UsedBanks);
unsigned FreeBanks2 = getFreeBanks(Reg2, SubReg2, Mask2, UsedBanks);		unsigned FreeBanks2 = getFreeBanks(Reg2, SubReg2, Mask2, UsedBanks);
if (FreeBanks1)		if (FreeBanks1)
Candidates.push(Candidate(&MI, Reg1, SubReg1, FreeBanks1,		Candidates.push(Weight + ((Size2 > Size1) ? 1 : 0),
Weight + ((Size2 > Size1) ? 1 : 0)));		Candidate(&MI, Reg1, SubReg1, FreeBanks1));
if (FreeBanks2)		if (FreeBanks2)
Candidates.push(Candidate(&MI, Reg2, SubReg2, FreeBanks2,		Candidates.push(Weight + ((Size1 > Size2) ? 1 : 0),
Weight + ((Size1 > Size2) ? 1 : 0)));		Candidate(&MI, Reg2, SubReg2, FreeBanks2));
}		}
}		}
}		}

unsigned GCNRegBankReassign::computeStallCycles(Register SrcReg, Register Reg,		unsigned GCNRegBankReassign::computeStallCycles(Register SrcReg, Register Reg,
unsigned SubReg, int Bank,		unsigned SubReg, int Bank,
bool Collect) {		bool Collect) {
unsigned TotalStallCycles = 0;		unsigned TotalStallCycles = 0;
▲ Show 20 Lines • Show All 139 Lines • ▼ Show 20 Lines	for (MachineBasicBlock &MBB : MF) {

LLVM_DEBUG(if (Collect) { dbgs() << '\n'; });		LLVM_DEBUG(if (Collect) { dbgs() << '\n'; });
}		}

return TotalStallCycles;		return TotalStallCycles;
}		}

void GCNRegBankReassign::removeCandidates(Register Reg) {		void GCNRegBankReassign::removeCandidates(Register Reg) {
Candidates.remove_if([Reg, this](const Candidate& C) {		typename CandidateList::iterator Next;
		for (auto I = Candidates.begin(), E = Candidates.end(); I != E; I = Next) {
		Next = std::next(I);
		I->second.remove_if([Reg, this](const Candidate& C) {
return C.MI->readsRegister(Reg, TRI);		return C.MI->readsRegister(Reg, TRI);
});		});
		if (I->second.empty())
		Candidates.erase(I);
		}
}		}

bool GCNRegBankReassign::verifyCycles(MachineFunction &MF,		bool GCNRegBankReassign::verifyCycles(MachineFunction &MF,
unsigned OriginalCycles,		unsigned OriginalCycles,
unsigned CyclesSaved) {		unsigned CyclesSaved) {
unsigned StallCycles = collectCandidates(MF, false);		unsigned StallCycles = collectCandidates(MF, false);
LLVM_DEBUG(dbgs() << "=== After the pass " << StallCycles		LLVM_DEBUG(dbgs() << "=== After the pass " << StallCycles
<< " stall cycles left\n");		<< " stall cycles left\n");
Show All 28 Lines	LLVM_DEBUG(dbgs() << "=== RegBanks reassign analysis on function " << MF.getName()
<< '\n');		<< '\n');

unsigned StallCycles = collectCandidates(MF);		unsigned StallCycles = collectCandidates(MF);
NumStallsDetected += StallCycles;		NumStallsDetected += StallCycles;

LLVM_DEBUG(dbgs() << "=== " << StallCycles << " stall cycles detected in "		LLVM_DEBUG(dbgs() << "=== " << StallCycles << " stall cycles detected in "
"function " << MF.getName() << '\n');		"function " << MF.getName() << '\n');

Candidates.sort();		LLVM_DEBUG(Candidates.dump(this));

LLVM_DEBUG(dbgs() << "\nCandidates:\n\n";
for (auto C : Candidates) C.dump(this);
dbgs() << "\n\n");

unsigned CyclesSaved = 0;		unsigned CyclesSaved = 0;
while (!Candidates.empty()) {		while (!Candidates.empty()) {
Candidate C = Candidates.back();		Candidate C = Candidates.back();
unsigned LocalCyclesSaved = tryReassign(C);		unsigned LocalCyclesSaved = tryReassign(C);
CyclesSaved += LocalCyclesSaved;		CyclesSaved += LocalCyclesSaved;

if (VerifyStallCycles > 1 && !verifyCycles(MF, StallCycles, CyclesSaved))		if (VerifyStallCycles > 1 && !verifyCycles(MF, StallCycles, CyclesSaved))
report_fatal_error("RegBank reassign stall cycles verification failed.");		report_fatal_error("RegBank reassign stall cycles verification failed.");

Candidates.pop_back();		Candidates.pop_back();
if (LocalCyclesSaved) {		if (LocalCyclesSaved) {
removeCandidates(C.Reg);		removeCandidates(C.Reg);
computeStallCycles(C.Reg, AMDGPU::NoRegister, 0, -1, true);		computeStallCycles(C.Reg, AMDGPU::NoRegister, 0, -1, true);
Candidates.sort();

LLVM_DEBUG(dbgs() << "\nCandidates:\n\n";		LLVM_DEBUG(Candidates.dump(this));
for (auto C : Candidates)
C.dump(this);
dbgs() << "\n\n");
}		}
}		}
NumStallsRecovered += CyclesSaved;		NumStallsRecovered += CyclesSaved;

LLVM_DEBUG(dbgs() << "=== After the pass " << CyclesSaved		LLVM_DEBUG(dbgs() << "=== After the pass " << CyclesSaved
<< " cycles saved in function " << MF.getName() << '\n');		<< " cycles saved in function " << MF.getName() << '\n');

Candidates.clear();		Candidates.clear();

if (VerifyStallCycles == 1 && !verifyCycles(MF, StallCycles, CyclesSaved))		if (VerifyStallCycles == 1 && !verifyCycles(MF, StallCycles, CyclesSaved))
report_fatal_error("RegBank reassign stall cycles verification failed.");		report_fatal_error("RegBank reassign stall cycles verification failed.");

RegsUsed.clear();		RegsUsed.clear();

return CyclesSaved > 0;		return CyclesSaved > 0;
}		}

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

Show All 15 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_d_2d:		; GFX10-LABEL: sample_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v6, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v6, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_or_b32 v3, v2, v6, v3		; GFX10-NEXT: v_and_or_b32 v7, v0, v6, v1
; GFX10-NEXT: v_and_or_b32 v10, v0, v6, v1		; GFX10-NEXT: v_and_or_b32 v2, v2, v6, v3
; GFX10-NEXT: image_sample_d_g16 v[0:3], [v10, v3, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_d_g16 v[0:3], [v7, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {		define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
Show All 34 Lines

define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_c_d_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_c_d_2d:		; GFX10-LABEL: sample_c_d_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_or_b32 v1, v1, v7, v2		; GFX10-NEXT: v_and_or_b32 v11, v1, v7, v2
; GFX10-NEXT: v_and_or_b32 v3, v3, v7, v4		; GFX10-NEXT: v_and_or_b32 v2, v3, v7, v4
; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_c_d_g16 v[0:3], [v0, v11, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
Show All 11 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v9, 16, v3
; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX10-NEXT: v_lshlrev_b32_e32 v9, 16, v3
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_or_b32 v3, v2, v7, v9		; GFX10-NEXT: v_and_or_b32 v11, v0, v7, v1
; GFX10-NEXT: v_and_or_b32 v0, v0, v7, v1		; GFX10-NEXT: v_and_or_b32 v1, v2, v7, v9
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v3, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v11, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_cd_2d:		; GFX10-LABEL: sample_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v6, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v6, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_or_b32 v3, v2, v6, v3		; GFX10-NEXT: v_and_or_b32 v7, v0, v6, v1
; GFX10-NEXT: v_and_or_b32 v10, v0, v6, v1		; GFX10-NEXT: v_and_or_b32 v2, v2, v6, v3
; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v10, v3, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_cd_g16 v[0:3], [v7, v2, v4, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {		define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
Show All 14 Lines

define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {		define amdgpu_ps <4 x float> @sample_c_cd_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t) {
; GFX10-LABEL: sample_c_cd_2d:		; GFX10-LABEL: sample_c_cd_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4		; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_or_b32 v1, v1, v7, v2		; GFX10-NEXT: v_and_or_b32 v11, v1, v7, v2
; GFX10-NEXT: v_and_or_b32 v3, v3, v7, v4		; GFX10-NEXT: v_and_or_b32 v2, v3, v7, v4
; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v1, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], [v0, v11, v2, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
Show All 11 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_cd_cl_2d:		; GFX10-LABEL: sample_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v9, 16, v3
; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1		; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
		; GFX10-NEXT: v_lshlrev_b32_e32 v9, 16, v3
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_or_b32 v3, v2, v7, v9		; GFX10-NEXT: v_and_or_b32 v11, v0, v7, v1
; GFX10-NEXT: v_and_or_b32 v0, v0, v7, v1		; GFX10-NEXT: v_and_or_b32 v1, v2, v7, v9
; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v3, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v11, v1, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
▲ Show 20 Lines • Show All 91 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/uaddsat.ll

	Show First 20 Lines • Show All 2,977 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: v_uaddsat_v2i64:			; GFX10-LABEL: v_uaddsat_v2i64:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_mov_b32_e32 v10, v4			; GFX10-NEXT: v_mov_b32_e32 v10, v4
	; GFX10-NEXT: v_mov_b32_e32 v11, v5			; GFX10-NEXT: v_mov_b32_e32 v11, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v6			; GFX10-NEXT: v_mov_b32_e32 v15, v6
	; GFX10-NEXT: v_mov_b32_e32 v9, v7			; GFX10-NEXT: v_mov_b32_e32 v16, v7
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_add_co_u32_e64 v0, vcc_lo, v0, v10			; GFX10-NEXT: v_add_co_u32_e64 v0, vcc_lo, v0, v10
	; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, v1, v11, vcc_lo			; GFX10-NEXT: v_add_co_ci_u32_e32 v1, vcc_lo, v1, v11, vcc_lo
	; GFX10-NEXT: v_add_co_u32_e64 v2, vcc_lo, v2, v8			; GFX10-NEXT: v_add_co_u32_e64 v5, vcc_lo, v2, v15
	; GFX10-NEXT: v_add_co_ci_u32_e32 v3, vcc_lo, v3, v9, vcc_lo			; GFX10-NEXT: v_add_co_ci_u32_e32 v6, vcc_lo, v3, v16, vcc_lo
	; GFX10-NEXT: v_cmp_lt_u64_e32 vcc_lo, v[0:1], v[10:11]			; GFX10-NEXT: v_cmp_lt_u64_e32 vcc_lo, v[0:1], v[10:11]
	; GFX10-NEXT: v_cmp_lt_u64_e64 s4, v[2:3], v[8:9]			; GFX10-NEXT: v_cmp_lt_u64_e64 s4, v[5:6], v[15:16]
	; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, -1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v0, v0, -1, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, -1, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e64 v1, v1, -1, vcc_lo
	; GFX10-NEXT: v_cndmask_b32_e64 v2, v2, -1, s4			; GFX10-NEXT: v_cndmask_b32_e64 v2, v5, -1, s4
	; GFX10-NEXT: v_cndmask_b32_e64 v3, v3, -1, s4			; GFX10-NEXT: v_cndmask_b32_e64 v3, v6, -1, s4
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%result = call <2 x i64> @llvm.uadd.sat.v2i64(<2 x i64> %lhs, <2 x i64> %rhs)			%result = call <2 x i64> @llvm.uadd.sat.v2i64(<2 x i64> %lhs, <2 x i64> %rhs)
	ret <2 x i64> %result			ret <2 x i64> %result
	}			}

	define amdgpu_ps <2 x i64> @s_uaddsat_v2i64(<2 x i64> inreg %lhs, <2 x i64> inreg %rhs) {			define amdgpu_ps <2 x i64> @s_uaddsat_v2i64(<2 x i64> inreg %lhs, <2 x i64> inreg %rhs) {
	; GFX6-LABEL: s_uaddsat_v2i64:			; GFX6-LABEL: s_uaddsat_v2i64:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	▲ Show 20 Lines • Show All 994 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/atomic_optimizations_local_pointer.ll

	Show First 20 Lines • Show All 505 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB2_2			; GFX1064-NEXT: s_cbranch_execz BB2_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v0, v0, v7			; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB2_2:			; GFX1064-NEXT: BB2_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB2_2			; GFX1032-NEXT: s_cbranch_execz BB2_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v0, v0, v7			; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB2_2:			; GFX1032-NEXT: BB2_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB3_2			; GFX1064-NEXT: s_cbranch_execz BB3_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v0, v0, v7			; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB3_2:			; GFX1064-NEXT: BB3_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB3_2			; GFX1032-NEXT: s_cbranch_execz BB3_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v0, v0, v7			; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB3_2:			; GFX1032-NEXT: BB3_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB4_2			; GFX1064-NEXT: s_cbranch_execz BB4_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_add_rtn_u32 v0, v0, v7			; GFX1064-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB4_2:			; GFX1064-NEXT: BB4_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB4_2			; GFX1032-NEXT: s_cbranch_execz BB4_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_add_rtn_u32 v0, v0, v7			; GFX1032-NEXT: ds_add_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB4_2:			; GFX1032-NEXT: BB4_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 1,002 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB10_2			; GFX1064-NEXT: s_cbranch_execz BB10_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_sub_rtn_u32 v0, v0, v7			; GFX1064-NEXT: ds_sub_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB10_2:			; GFX1064-NEXT: BB10_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB10_2			; GFX1032-NEXT: s_cbranch_execz BB10_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_sub_rtn_u32 v0, v0, v7			; GFX1032-NEXT: ds_sub_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB10_2:			; GFX1032-NEXT: BB10_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 662 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB14_2			; GFX1064-NEXT: s_cbranch_execz BB14_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_and_rtn_b32 v0, v0, v7			; GFX1064-NEXT: ds_and_rtn_b32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB14_2:			; GFX1064-NEXT: BB14_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 30 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB14_2			; GFX1032-NEXT: s_cbranch_execz BB14_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_and_rtn_b32 v0, v0, v7			; GFX1032-NEXT: ds_and_rtn_b32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB14_2:			; GFX1032-NEXT: BB14_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB15_2			; GFX1064-NEXT: s_cbranch_execz BB15_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_or_rtn_b32 v0, v0, v7			; GFX1064-NEXT: ds_or_rtn_b32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB15_2:			; GFX1064-NEXT: BB15_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB15_2			; GFX1032-NEXT: s_cbranch_execz BB15_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_or_rtn_b32 v0, v0, v7			; GFX1032-NEXT: ds_or_rtn_b32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB15_2:			; GFX1032-NEXT: BB15_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB16_2			; GFX1064-NEXT: s_cbranch_execz BB16_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_xor_rtn_b32 v0, v0, v7			; GFX1064-NEXT: ds_xor_rtn_b32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB16_2:			; GFX1064-NEXT: BB16_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB16_2			; GFX1032-NEXT: s_cbranch_execz BB16_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_xor_rtn_b32 v0, v0, v7			; GFX1032-NEXT: ds_xor_rtn_b32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB16_2:			; GFX1032-NEXT: BB16_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB17_2			; GFX1064-NEXT: s_cbranch_execz BB17_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_max_rtn_i32 v0, v0, v7			; GFX1064-NEXT: ds_max_rtn_i32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB17_2:			; GFX1064-NEXT: BB17_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 30 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB17_2			; GFX1032-NEXT: s_cbranch_execz BB17_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_max_rtn_i32 v0, v0, v7			; GFX1032-NEXT: ds_max_rtn_i32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB17_2:			; GFX1032-NEXT: BB17_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 348 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB19_2			; GFX1064-NEXT: s_cbranch_execz BB19_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_min_rtn_i32 v0, v0, v7			; GFX1064-NEXT: ds_min_rtn_i32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB19_2:			; GFX1064-NEXT: BB19_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 30 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB19_2			; GFX1032-NEXT: s_cbranch_execz BB19_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_min_rtn_i32 v0, v0, v7			; GFX1032-NEXT: ds_min_rtn_i32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB19_2:			; GFX1032-NEXT: BB19_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 351 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v0
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB21_2			; GFX1064-NEXT: s_cbranch_execz BB21_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_max_rtn_u32 v0, v0, v7			; GFX1064-NEXT: ds_max_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB21_2:			; GFX1064-NEXT: BB21_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 31 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v0
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB21_2			; GFX1032-NEXT: s_cbranch_execz BB21_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_max_rtn_u32 v0, v0, v7			; GFX1032-NEXT: ds_max_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB21_2:			; GFX1032-NEXT: BB21_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 345 Lines • ▼ Show 20 Lines
	; GFX1064-NEXT: v_readlane_b32 s3, v2, 63			; GFX1064-NEXT: v_readlane_b32 s3, v2, 63
	; GFX1064-NEXT: v_writelane_b32 v1, s6, 48			; GFX1064-NEXT: v_writelane_b32 v1, s6, 48
	; GFX1064-NEXT: s_mov_b64 exec, s[4:5]			; GFX1064-NEXT: s_mov_b64 exec, s[4:5]
	; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4			; GFX1064-NEXT: v_cmp_eq_u32_e32 vcc, 0, v4
	; GFX1064-NEXT: ; implicit-def: $vgpr0			; GFX1064-NEXT: ; implicit-def: $vgpr0
	; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc			; GFX1064-NEXT: s_and_saveexec_b64 s[4:5], vcc
	; GFX1064-NEXT: s_cbranch_execz BB23_2			; GFX1064-NEXT: s_cbranch_execz BB23_2
	; GFX1064-NEXT: ; %bb.1:			; GFX1064-NEXT: ; %bb.1:
	; GFX1064-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1064-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1064-NEXT: v_mov_b32_e32 v7, s3			; GFX1064-NEXT: v_mov_b32_e32 v4, s3
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1064-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1064-NEXT: ds_min_rtn_u32 v0, v0, v7			; GFX1064-NEXT: ds_min_rtn_u32 v0, v7, v4
	; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1064-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1064-NEXT: buffer_gl0_inv			; GFX1064-NEXT: buffer_gl0_inv
	; GFX1064-NEXT: buffer_gl1_inv			; GFX1064-NEXT: buffer_gl1_inv
	; GFX1064-NEXT: BB23_2:			; GFX1064-NEXT: BB23_2:
	; GFX1064-NEXT: s_waitcnt_depctr 0xffe3			; GFX1064-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]			; GFX1064-NEXT: s_or_b64 exec, exec, s[4:5]
	; GFX1064-NEXT: v_readfirstlane_b32 s3, v0			; GFX1064-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1064-NEXT: v_mov_b32_e32 v0, v1			; GFX1064-NEXT: v_mov_b32_e32 v0, v1
	Show All 30 Lines
	; GFX1032-NEXT: v_readlane_b32 s5, v2, 15			; GFX1032-NEXT: v_readlane_b32 s5, v2, 15
	; GFX1032-NEXT: v_writelane_b32 v1, s5, 16			; GFX1032-NEXT: v_writelane_b32 v1, s5, 16
	; GFX1032-NEXT: s_mov_b32 exec_lo, s4			; GFX1032-NEXT: s_mov_b32 exec_lo, s4
	; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4			; GFX1032-NEXT: v_cmp_eq_u32_e32 vcc_lo, 0, v4
	; GFX1032-NEXT: ; implicit-def: $vgpr0			; GFX1032-NEXT: ; implicit-def: $vgpr0
	; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo			; GFX1032-NEXT: s_and_saveexec_b32 s4, vcc_lo
	; GFX1032-NEXT: s_cbranch_execz BB23_2			; GFX1032-NEXT: s_cbranch_execz BB23_2
	; GFX1032-NEXT: ; %bb.1:			; GFX1032-NEXT: ; %bb.1:
	; GFX1032-NEXT: v_mov_b32_e32 v0, local_var32@abs32@lo			; GFX1032-NEXT: v_mov_b32_e32 v7, local_var32@abs32@lo
	; GFX1032-NEXT: v_mov_b32_e32 v7, s3			; GFX1032-NEXT: v_mov_b32_e32 v4, s3
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0			; GFX1032-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX1032-NEXT: ds_min_rtn_u32 v0, v0, v7			; GFX1032-NEXT: ds_min_rtn_u32 v0, v7, v4
	; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)			; GFX1032-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
	; GFX1032-NEXT: buffer_gl0_inv			; GFX1032-NEXT: buffer_gl0_inv
	; GFX1032-NEXT: buffer_gl1_inv			; GFX1032-NEXT: buffer_gl1_inv
	; GFX1032-NEXT: BB23_2:			; GFX1032-NEXT: BB23_2:
	; GFX1032-NEXT: s_waitcnt_depctr 0xffe3			; GFX1032-NEXT: s_waitcnt_depctr 0xffe3
	; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4			; GFX1032-NEXT: s_or_b32 exec_lo, exec_lo, s4
	; GFX1032-NEXT: v_readfirstlane_b32 s3, v0			; GFX1032-NEXT: v_readfirstlane_b32 s3, v0
	; GFX1032-NEXT: v_mov_b32_e32 v0, v1			; GFX1032-NEXT: v_mov_b32_e32 v0, v1
	▲ Show 20 Lines • Show All 194 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.a16.dim.ll

	Show First 20 Lines • Show All 670 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_2d:			; GFX10-LABEL: sample_c_d_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
				; GFX10-NEXT: v_and_b32_e32 v5, v10, v5
	; GFX10-NEXT: v_and_b32_e32 v3, v10, v3			; GFX10-NEXT: v_and_b32_e32 v3, v10, v3
	; GFX10-NEXT: v_and_b32_e32 v1, v10, v1			; GFX10-NEXT: v_and_b32_e32 v1, v10, v1
	; GFX10-NEXT: v_and_b32_e32 v5, v10, v5			; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v6, v6, 16, v5			; GFX10-NEXT: image_sample_c_d v[0:3], [v0, v2, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: image_sample_c_d v[0:3], [v0, v1, v3, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 31 Lines
	; GFX9-NEXT: image_sample_d_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_d_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_d_cl_2d:			; GFX10-LABEL: sample_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
	; GFX10-NEXT: v_and_b32_e32 v4, v7, v4			; GFX10-NEXT: v_and_b32_e32 v4, v7, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v7, v2			; GFX10-NEXT: v_and_b32_e32 v2, v7, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v4			; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v5, v3, 16, v2
	; GFX10-NEXT: image_sample_d_cl v[0:3], [v0, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: v_lshl_or_b32 v3, v1, 16, v0
				; GFX10-NEXT: image_sample_d_cl v[0:3], [v3, v5, v4, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 34 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_cl_2d:			; GFX10-LABEL: sample_c_d_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v5, v8, v5			; GFX10-NEXT: v_and_b32_e32 v5, v8, v5
	; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
	; GFX10-NEXT: v_and_b32_e32 v3, v8, v3			; GFX10-NEXT: v_and_b32_e32 v3, v8, v3
				; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5			; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v6, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
	; GFX10-NEXT: image_sample_c_d_cl v[0:3], [v0, v1, v6, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_d_cl v[0:3], [v0, v2, v3, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s) {
	▲ Show 20 Lines • Show All 79 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_cd_2d:			; GFX10-LABEL: sample_c_cd_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
				; GFX10-NEXT: v_and_b32_e32 v5, v10, v5
	; GFX10-NEXT: v_and_b32_e32 v3, v10, v3			; GFX10-NEXT: v_and_b32_e32 v3, v10, v3
	; GFX10-NEXT: v_and_b32_e32 v1, v10, v1			; GFX10-NEXT: v_and_b32_e32 v1, v10, v1
	; GFX10-NEXT: v_and_b32_e32 v5, v10, v5			; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
	; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
	; GFX10-NEXT: v_lshl_or_b32 v6, v6, 16, v5			; GFX10-NEXT: image_sample_c_cd v[0:3], [v0, v2, v3, v5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: image_sample_c_cd v[0:3], [v0, v1, v3, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 31 Lines
	; GFX9-NEXT: image_sample_cd_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16			; GFX9-NEXT: image_sample_cd_cl v[0:3], v[3:6], s[0:7], s[8:11] dmask:0xf a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_cd_cl_2d:			; GFX10-LABEL: sample_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
	; GFX10-NEXT: v_and_b32_e32 v4, v7, v4			; GFX10-NEXT: v_and_b32_e32 v4, v7, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v7, v2			; GFX10-NEXT: v_and_b32_e32 v2, v7, v2
	; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0			; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
	; GFX10-NEXT: v_lshl_or_b32 v5, v5, 16, v4			; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v5, v3, 16, v2
	; GFX10-NEXT: image_sample_cd_cl v[0:3], [v0, v3, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: v_lshl_or_b32 v3, v1, 16, v0
				; GFX10-NEXT: image_sample_cd_cl v[0:3], [v3, v5, v4, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f16(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, half %s, half %clamp) {
	Show All 34 Lines
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_cd_cl_2d:			; GFX10-LABEL: sample_c_cd_cl_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
	; GFX10-NEXT: v_and_b32_e32 v5, v8, v5			; GFX10-NEXT: v_and_b32_e32 v5, v8, v5
	; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
	; GFX10-NEXT: v_and_b32_e32 v3, v8, v3			; GFX10-NEXT: v_and_b32_e32 v3, v8, v3
				; GFX10-NEXT: v_and_b32_e32 v1, v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5			; GFX10-NEXT: v_lshl_or_b32 v5, v6, 16, v5
	; GFX10-NEXT: v_lshl_or_b32 v1, v2, 16, v1			; GFX10-NEXT: v_lshl_or_b32 v3, v4, 16, v3
	; GFX10-NEXT: v_lshl_or_b32 v6, v4, 16, v3			; GFX10-NEXT: v_lshl_or_b32 v2, v2, 16, v1
	; GFX10-NEXT: image_sample_c_cd_cl v[0:3], [v0, v1, v6, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_cd_cl v[0:3], [v0, v2, v3, v5, v7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %lod) {			define amdgpu_ps <4 x float> @sample_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %lod) {
	▲ Show 20 Lines • Show All 182 Lines • ▼ Show 20 Lines
	; GFX9-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 a16 da			; GFX9-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_o_2darray_V1:			; GFX10-LABEL: sample_c_d_o_2darray_V1:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
				; GFX10-NEXT: v_and_b32_e32 v6, v9, v6
	; GFX10-NEXT: v_and_b32_e32 v4, v9, v4			; GFX10-NEXT: v_and_b32_e32 v4, v9, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v9, v2			; GFX10-NEXT: v_and_b32_e32 v2, v9, v2
	; GFX10-NEXT: v_and_b32_e32 v6, v9, v6			; GFX10-NEXT: v_lshl_or_b32 v6, v7, 16, v6
	; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4			; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v7, v7, 16, v6			; GFX10-NEXT: image_sample_c_d_o v0, [v0, v1, v3, v4, v6, v8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: image_sample_c_d_o v0, [v0, v1, v2, v4, v7, v8], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f16(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f16.f16(i32 4, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {			define amdgpu_ps <2 x float> @sample_c_d_o_2darray_V2(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice) {
	Show All 12 Lines
	; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 a16 da			; GFX9-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: sample_c_d_o_2darray_V2:			; GFX10-LABEL: sample_c_d_o_2darray_V2:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX10-NEXT: ; implicit-def: $vcc_hi			; GFX10-NEXT: ; implicit-def: $vcc_hi
				; GFX10-NEXT: v_and_b32_e32 v6, v9, v6
	; GFX10-NEXT: v_and_b32_e32 v4, v9, v4			; GFX10-NEXT: v_and_b32_e32 v4, v9, v4
	; GFX10-NEXT: v_and_b32_e32 v2, v9, v2			; GFX10-NEXT: v_and_b32_e32 v2, v9, v2
	; GFX10-NEXT: v_and_b32_e32 v6, v9, v6			; GFX10-NEXT: v_lshl_or_b32 v6, v7, 16, v6
	; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4			; GFX10-NEXT: v_lshl_or_b32 v4, v5, 16, v4
	; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2			; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2
	; GFX10-NEXT: v_lshl_or_b32 v7, v7, 16, v6			; GFX10-NEXT: image_sample_c_d_o v[0:1], [v0, v1, v3, v4, v6, v8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: image_sample_c_d_o v[0:1], [v0, v1, v2, v4, v7, v8], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	declare <4 x float> @llvm.amdgcn.image.sample.1d.v4f32.f16(i32, half, <8 x i32>, <4 x i32>, i1, i32, i32) #1			declare <4 x float> @llvm.amdgcn.image.sample.1d.v4f32.f16(i32, half, <8 x i32>, <4 x i32>, i1, i32, i32) #1
	▲ Show 20 Lines • Show All 58 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.encode.ll

Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff ; encoding: [0xff,0x02,0x0e,0x7e,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff ; encoding: [0xff,0x02,0x0e,0x7e,0xff,0xff,0x00,0x00]
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_b32_e32 v0, v7, v0 ; encoding: [0x07,0x01,0x00,0x36]
; GFX10-NEXT: v_and_b32_e32 v2, v7, v2 ; encoding: [0x07,0x05,0x04,0x36]		; GFX10-NEXT: v_and_b32_e32 v2, v7, v2 ; encoding: [0x07,0x05,0x04,0x36]
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]		; GFX10-NEXT: v_and_b32_e32 v0, v7, v0 ; encoding: [0x07,0x01,0x00,0x36]
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2 ; encoding: [0x03,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]		; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v3, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0x8c,0xf0,0x00,0x00,0x40,0x00,0x03,0x04,0x05,0x06]		; GFX10-NEXT: v_lshl_or_b32 v3, v1, 16, v0 ; encoding: [0x03,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v3, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0x8c,0xf0,0x03,0x00,0x40,0x00,0x02,0x04,0x05,0x06]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_cd_cl_2d:		; GFX10-LABEL: sample_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff ; encoding: [0xff,0x02,0x0e,0x7e,0xff,0xff,0x00,0x00]		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff ; encoding: [0xff,0x02,0x0e,0x7e,0xff,0xff,0x00,0x00]
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_b32_e32 v0, v7, v0 ; encoding: [0x07,0x01,0x00,0x36]
; GFX10-NEXT: v_and_b32_e32 v2, v7, v2 ; encoding: [0x07,0x05,0x04,0x36]		; GFX10-NEXT: v_and_b32_e32 v2, v7, v2 ; encoding: [0x07,0x05,0x04,0x36]
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0 ; encoding: [0x00,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]		; GFX10-NEXT: v_and_b32_e32 v0, v7, v0 ; encoding: [0x07,0x01,0x00,0x36]
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2 ; encoding: [0x03,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]		; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2 ; encoding: [0x02,0x00,0x6f,0xd7,0x03,0x21,0x09,0x04]
; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v3, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa4,0xf1,0x00,0x00,0x40,0x00,0x03,0x04,0x05,0x06]		; GFX10-NEXT: v_lshl_or_b32 v3, v1, 16, v0 ; encoding: [0x03,0x00,0x6f,0xd7,0x01,0x21,0x01,0x04]
		; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v3, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D ; encoding: [0x0b,0x0f,0xa4,0xf1,0x03,0x00,0x40,0x00,0x02,0x04,0x05,0x06]
; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]		; GFX10-NEXT: s_waitcnt vmcnt(0) ; encoding: [0x70,0x3f,0x8c,0xbf]
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
▲ Show 20 Lines • Show All 87 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.ll

Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_d_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_d_cl_2d:		; GFX10-LABEL: sample_d_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
; GFX10-NEXT: v_and_b32_e32 v2, v7, v2		; GFX10-NEXT: v_and_b32_e32 v2, v7, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v0, v3, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: v_lshl_or_b32 v3, v1, 16, v0
		; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], [v3, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
▲ Show 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	main_body:
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {		define amdgpu_ps <4 x float> @sample_cd_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp) {
; GFX10-LABEL: sample_cd_cl_2d:		; GFX10-LABEL: sample_cd_cl_2d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff		; GFX10-NEXT: v_mov_b32_e32 v7, 0xffff
; GFX10-NEXT: ; implicit-def: $vcc_hi		; GFX10-NEXT: ; implicit-def: $vcc_hi
; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
; GFX10-NEXT: v_and_b32_e32 v2, v7, v2		; GFX10-NEXT: v_and_b32_e32 v2, v7, v2
; GFX10-NEXT: v_lshl_or_b32 v0, v1, 16, v0		; GFX10-NEXT: v_and_b32_e32 v0, v7, v0
; GFX10-NEXT: v_lshl_or_b32 v3, v3, 16, v2		; GFX10-NEXT: v_lshl_or_b32 v2, v3, 16, v2
; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v0, v3, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D		; GFX10-NEXT: v_lshl_or_b32 v3, v1, 16, v0
		; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], [v3, v2, v4, v5, v6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {		define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
▲ Show 20 Lines • Show All 87 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/regbank-reassign.mir

	Show First 20 Lines • Show All 313 Lines • ▼ Show 20 Lines
	body: \|			body: \|
	bb.0:			bb.0:
	%0 = IMPLICIT_DEF			%0 = IMPLICIT_DEF
	%1 = S_AND_B32 %0, undef $sgpr0, implicit-def $scc			%1 = S_AND_B32 %0, undef $sgpr0, implicit-def $scc
	S_ENDPGM 0			S_ENDPGM 0
	...			...

	# GCN-LABEL: smem_bundle{{$}}			# GCN-LABEL: smem_bundle{{$}}
	# GCN: S_BUFFER_LOAD_DWORD_SGPR renamable $sgpr0_sgpr1_sgpr2_sgpr3, renamable $sgpr15, 0, 0
	# GCN: S_BUFFER_LOAD_DWORD_SGPR renamable $sgpr0_sgpr1_sgpr2_sgpr3, renamable $sgpr14, 0, 0			# GCN: S_BUFFER_LOAD_DWORD_SGPR renamable $sgpr0_sgpr1_sgpr2_sgpr3, renamable $sgpr14, 0, 0
				# GCN: S_BUFFER_LOAD_DWORD_SGPR renamable $sgpr0_sgpr1_sgpr2_sgpr3, renamable $sgpr15, 0, 0
	---			---
	name: smem_bundle			name: smem_bundle
	tracksRegLiveness: true			tracksRegLiveness: true
	registers:			registers:
	- { id: 0, class: sgpr_128, preferred-register: '$sgpr0_sgpr1_sgpr2_sgpr3' }			- { id: 0, class: sgpr_128, preferred-register: '$sgpr0_sgpr1_sgpr2_sgpr3' }
	- { id: 1, class: sreg_32_xm0_xexec, preferred-register: '$sgpr16' }			- { id: 1, class: sreg_32_xm0_xexec, preferred-register: '$sgpr16' }
	- { id: 2, class: sreg_32_xm0_xexec, preferred-register: '$sgpr17' }			- { id: 2, class: sreg_32_xm0_xexec, preferred-register: '$sgpr17' }
	- { id: 3, class: sreg_32_xm0_xexec, preferred-register: '$sgpr4' }			- { id: 3, class: sreg_32_xm0_xexec, preferred-register: '$sgpr4' }
	▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Avoid sorting stalls in regbank-reassignClosedPublic

Details

Diff Detail

Event Timeline