This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU/SI: Select constant loads with non-uniform addresses to MUBUF instructions
ClosedPublic

Authored by • tstellarAMD on Dec 10 2015, 10:42 AM.

Download Raw Diff

Details

Reviewers

Commits

rGa6f24c6565e0: AMDGPU/SI: Select constant loads with non-uniform addresses to MUBUF…
rL255672: AMDGPU/SI: Select constant loads with non-uniform addresses to MUBUF…

Summary

We were previously selecting all constant loads to SMRD instructions and legalizing
the SMRDs with non-uniform addresses during the SIFixSGPRCopesPass.

This new solution is more simple and also generates much better code, because
the instruction selector is able to take advantage of all the MUBUF addressing
modes that are legalization pass wasn't able to.

We also no longer need to generate v_add_* instructions when we
have a uniform pointer and a non-uniform offset, as this is now folded into the
MUBUF instruction during instruction selection.

Diff Detail

Repository: rL LLVM

Event Timeline

• tstellarAMD updated this revision to Diff 42446.Dec 10 2015, 10:42 AM

• tstellarAMD retitled this revision from to AMDGPU/SI: Select constant loads with non-uniform addresses to MUBUF instructions.

• tstellarAMD updated this object.

• tstellarAMD added a reviewer: arsenm.

• tstellarAMD added a subscriber: llvm-commits.

Herald added a subscriber: arsenm. · View Herald TranscriptDec 10 2015, 10:42 AM

• tstellarAMD added a parent revision: D15424: AMDGPU/SI: Add getShaderType() function to Utils/.Dec 10 2015, 10:42 AM

arsenm added inline comments.Dec 10 2015, 11:10 AM

lib/Target/AMDGPU/AMDGPUAnnotateUniformValues.cpp
37–39 ↗	(On Diff #42446)	This + AllBranchesUniform don't seem to be used anywhere
87 ↗	(On Diff #42446)	Should return true as the conservative default if not recording when changes are actually made
lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
282–283 ↗	(On Diff #42446)	Why is this run after the control flow annotate pass?
lib/Target/AMDGPU/AMDGPUTargetTransformInfo.cpp
95–96 ↗	(On Diff #42446)	I think the implementation of isSourceOfDivergence should be committed as a separate patch
111–118 ↗	(On Diff #42446)	I think we should just move these into the public header so we get the enum IDs. I think mesa already directly uses these, so it's where they belong anyway.
119 ↗	(On Diff #42446)	Do image/sample instructions need to be considered divergent? We also need some of the cross lane intrinsics but I'm not sure we have those yet
125 ↗	(On Diff #42446)	s/threads/workitems in a wavefront/
137–138 ↗	(On Diff #42446)	I think this should be split into a function called something like isArgPassedInSGPR with a comment about how inreg is interpreted
141–142 ↗	(On Diff #42446)	Ty->isInt32Ty() / isFloatTy() would be better
lib/Target/AMDGPU/SIISelLowering.cpp
514 ↗	(On Diff #42446)	This maybe should check constant isa<Constant> which happens occasionally for LDS
lib/Target/AMDGPU/SIInstructions.td
2111 ↗	(On Diff #42446)	A smaller number would be better. 10 is probably more than enough

arsenm added inline comments.Dec 10 2015, 11:31 AM

lib/Target/AMDGPU/SIISelLowering.cpp
514 ↗	(On Diff #42446)	Probably also the various kinds of symbols

Split isSourceOfDivergence() implementation to another patch.

• tstellarAMD marked 4 inline comments as done.Dec 11 2015, 7:45 PM

• tstellarAMD added inline comments.

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp
285–288 ↗	(On Diff #42625)	No particular reason. I'll probably move it when I finish uniform branching.
lib/Target/AMDGPU/SIInstructions.td
2111 ↗	(On Diff #42625)	Some of the MUBUF patterns have complexity over 25, so I changed this to 100.

LGTM

This revision is now accepted and ready to land.Dec 14 2015, 9:57 AM

Closed by commit rL255672: AMDGPU/SI: Select constant loads with non-uniform addresses to MUBUF… (authored by tstellar). · Explain WhyDec 15 2015, 12:59 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

AMDGPU/

AMDGPU.h

3 lines

AMDGPUAnnotateUniformValues.cpp

84 lines

AMDGPUTargetMachine.cpp

3 lines

1 line

1 line

23 lines

10 lines

19 lines

test/

CodeGen/

AMDGPU/

salu-to-valu.ll

77 lines

Diff 42896

llvm/trunk/lib/Target/AMDGPU/AMDGPU.h

	Show First 20 Lines • Show All 65 Lines • ▼ Show 20 Lines
	extern char &SILoadStoreOptimizerID;			extern char &SILoadStoreOptimizerID;

	// Passes common to R600 and SI			// Passes common to R600 and SI
	FunctionPass *createAMDGPUPromoteAlloca(const AMDGPUSubtarget &ST);			FunctionPass *createAMDGPUPromoteAlloca(const AMDGPUSubtarget &ST);
	Pass *createAMDGPUStructurizeCFGPass();			Pass *createAMDGPUStructurizeCFGPass();
	FunctionPass *createAMDGPUISelDag(TargetMachine &tm);			FunctionPass *createAMDGPUISelDag(TargetMachine &tm);
	ModulePass *createAMDGPUAlwaysInlinePass();			ModulePass *createAMDGPUAlwaysInlinePass();
	ModulePass *createAMDGPUOpenCLImageTypeLoweringPass();			ModulePass *createAMDGPUOpenCLImageTypeLoweringPass();
				FunctionPass *createAMDGPUAnnotateUniformValues();

	void initializeSIFixControlFlowLiveIntervalsPass(PassRegistry&);			void initializeSIFixControlFlowLiveIntervalsPass(PassRegistry&);
	extern char &SIFixControlFlowLiveIntervalsID;			extern char &SIFixControlFlowLiveIntervalsID;

	void initializeSIFixSGPRLiveRangesPass(PassRegistry&);			void initializeSIFixSGPRLiveRangesPass(PassRegistry&);
	extern char &SIFixSGPRLiveRangesID;			extern char &SIFixSGPRLiveRangesID;

				void initializeAMDGPUAnnotateUniformValuesPass(PassRegistry&);
				extern char &AMDGPUAnnotateUniformValuesPassID;

	extern Target TheAMDGPUTarget;			extern Target TheAMDGPUTarget;
	extern Target TheGCNTarget;			extern Target TheGCNTarget;

	namespace AMDGPU {			namespace AMDGPU {
	enum TargetIndex {			enum TargetIndex {
	TI_CONSTDATA_START,			TI_CONSTDATA_START,
	TI_SCRATCH_RSRC_DWORD0,			TI_SCRATCH_RSRC_DWORD0,
	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUAnnotateUniformValues.cpp

				//===-- AMDGPUAnnotateUniformValues.cpp - ---------------------------------===//
				//
				// The LLVM Compiler Infrastructure
				//
				// This file is distributed under the University of Illinois Open Source
				// License. See LICENSE.TXT for details.
				//
				//===----------------------------------------------------------------------===//
				//
				/// \file
				/// This pass adds amdgpu.uniform metadata to IR values so this information
				/// can be used during instruction selection.
				//
				//===----------------------------------------------------------------------===//

				#include "AMDGPU.h"
				#include "AMDGPUIntrinsicInfo.h"
				#include "llvm/Analysis/DivergenceAnalysis.h"
				#include "llvm/IR/InstVisitor.h"
				#include "llvm/IR/IRBuilder.h"
				#include "llvm/Support/Debug.h"
				#include "llvm/Support/raw_ostream.h"

				#define DEBUG_TYPE "amdgpu-annotate-uniform"

				using namespace llvm;

				namespace {

				class AMDGPUAnnotateUniformValues : public FunctionPass,
				public InstVisitor<AMDGPUAnnotateUniformValues> {
				DivergenceAnalysis *DA;

				public:
				static char ID;
				AMDGPUAnnotateUniformValues() :
				FunctionPass(ID) { }
				bool doInitialization(Module &M) override;
				bool runOnFunction(Function &F) override;
				const char *getPassName() const override { return "AMDGPU Annotate Uniform Values"; }
				void getAnalysisUsage(AnalysisUsage &AU) const override {
				AU.addRequired<DivergenceAnalysis>();
				AU.setPreservesAll();
				}

				void visitLoadInst(LoadInst &I);

				};

				} // End anonymous namespace

				INITIALIZE_PASS_BEGIN(AMDGPUAnnotateUniformValues, DEBUG_TYPE,
				"Add AMDGPU uniform metadata", false, false)
				INITIALIZE_PASS_DEPENDENCY(DivergenceAnalysis)
				INITIALIZE_PASS_END(AMDGPUAnnotateUniformValues, DEBUG_TYPE,
				"Add AMDGPU uniform metadata", false, false)

				char AMDGPUAnnotateUniformValues::ID = 0;

				void AMDGPUAnnotateUniformValues::visitLoadInst(LoadInst &I) {
				Value *Ptr = I.getPointerOperand();
				if (!DA->isUniform(Ptr))
				return;

				if (Instruction *PtrI = dyn_cast<Instruction>(Ptr))
				PtrI->setMetadata("amdgpu.uniform", MDNode::get(I.getContext(), {}));

				}

				bool AMDGPUAnnotateUniformValues::doInitialization(Module &M) {
				return false;
				}

				bool AMDGPUAnnotateUniformValues::runOnFunction(Function &F) {
				DA = &getAnalysis<DivergenceAnalysis>();
				visit(F);

				return true;
				}

				FunctionPass *
				llvm::createAMDGPUAnnotateUniformValues() {
				return new AMDGPUAnnotateUniformValues();
				}

llvm/trunk/lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	extern "C" void LLVMInitializeAMDGPUTarget() {
PassRegistry *PR = PassRegistry::getPassRegistry();		PassRegistry *PR = PassRegistry::getPassRegistry();
initializeSILowerI1CopiesPass(*PR);		initializeSILowerI1CopiesPass(*PR);
initializeSIFixSGPRCopiesPass(*PR);		initializeSIFixSGPRCopiesPass(*PR);
initializeSIFoldOperandsPass(*PR);		initializeSIFoldOperandsPass(*PR);
initializeSIFixSGPRLiveRangesPass(*PR);		initializeSIFixSGPRLiveRangesPass(*PR);
initializeSIFixControlFlowLiveIntervalsPass(*PR);		initializeSIFixControlFlowLiveIntervalsPass(*PR);
initializeSILoadStoreOptimizerPass(*PR);		initializeSILoadStoreOptimizerPass(*PR);
initializeAMDGPUAnnotateKernelFeaturesPass(*PR);		initializeAMDGPUAnnotateKernelFeaturesPass(*PR);
		initializeAMDGPUAnnotateUniformValuesPass(*PR);
}		}

static std::unique_ptr<TargetLoweringObjectFile> createTLOF(const Triple &TT) {		static std::unique_ptr<TargetLoweringObjectFile> createTLOF(const Triple &TT) {
if (TT.getOS() == Triple::AMDHSA)		if (TT.getOS() == Triple::AMDHSA)
return make_unique<AMDGPUHSATargetObjectFile>();		return make_unique<AMDGPUHSATargetObjectFile>();

return make_unique<AMDGPUTargetObjectFile>();		return make_unique<AMDGPUTargetObjectFile>();
}		}
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	bool GCNPassConfig::addPreISel() {

// FIXME: We need to run a pass to propagate the attributes when calls are		// FIXME: We need to run a pass to propagate the attributes when calls are
// supported.		// supported.
addPass(&AMDGPUAnnotateKernelFeaturesID);		addPass(&AMDGPUAnnotateKernelFeaturesID);

addPass(createSinkingPass());		addPass(createSinkingPass());
addPass(createSITypeRewriter());		addPass(createSITypeRewriter());
addPass(createSIAnnotateControlFlowPass());		addPass(createSIAnnotateControlFlowPass());
		addPass(createAMDGPUAnnotateUniformValues());

return false;		return false;
}		}

bool GCNPassConfig::addInstSelector() {		bool GCNPassConfig::addInstSelector() {
AMDGPUPassConfig::addInstSelector();		AMDGPUPassConfig::addInstSelector();
addPass(createSILowerI1CopiesPass());		addPass(createSILowerI1CopiesPass());
addPass(&SIFixSGPRCopiesID);		addPass(&SIFixSGPRCopiesID);
addPass(createSIFoldOperandsPass());		addPass(createSIFoldOperandsPass());
▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/CMakeLists.txt

	Show All 10 Lines
	tablegen(LLVM AMDGPUGenAsmWriter.inc -gen-asm-writer)			tablegen(LLVM AMDGPUGenAsmWriter.inc -gen-asm-writer)
	tablegen(LLVM AMDGPUGenAsmMatcher.inc -gen-asm-matcher)			tablegen(LLVM AMDGPUGenAsmMatcher.inc -gen-asm-matcher)
	add_public_tablegen_target(AMDGPUCommonTableGen)			add_public_tablegen_target(AMDGPUCommonTableGen)

	add_llvm_target(AMDGPUCodeGen			add_llvm_target(AMDGPUCodeGen
	AMDILCFGStructurizer.cpp			AMDILCFGStructurizer.cpp
	AMDGPUAlwaysInlinePass.cpp			AMDGPUAlwaysInlinePass.cpp
	AMDGPUAnnotateKernelFeatures.cpp			AMDGPUAnnotateKernelFeatures.cpp
				AMDGPUAnnotateUniformValues.cpp
	AMDGPUAsmPrinter.cpp			AMDGPUAsmPrinter.cpp
	AMDGPUDiagnosticInfoUnsupported.cpp			AMDGPUDiagnosticInfoUnsupported.cpp
	AMDGPUFrameLowering.cpp			AMDGPUFrameLowering.cpp
	AMDGPUTargetObjectFile.cpp			AMDGPUTargetObjectFile.cpp
	AMDGPUIntrinsicInfo.cpp			AMDGPUIntrinsicInfo.cpp
	AMDGPUISelDAGToDAG.cpp			AMDGPUISelDAGToDAG.cpp
	AMDGPUMCInstLower.cpp			AMDGPUMCInstLower.cpp
	AMDGPUMachineFunction.cpp			AMDGPUMachineFunction.cpp
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 74 Lines • ▼ Show 20 Lines	bool allowsMisalignedMemoryAccesses(EVT VT, unsigned AS,
bool *IsFast) const override;		bool *IsFast) const override;

EVT getOptimalMemOpType(uint64_t Size, unsigned DstAlign,		EVT getOptimalMemOpType(uint64_t Size, unsigned DstAlign,
unsigned SrcAlign, bool IsMemset,		unsigned SrcAlign, bool IsMemset,
bool ZeroMemset,		bool ZeroMemset,
bool MemcpyStrSrc,		bool MemcpyStrSrc,
MachineFunction &MF) const override;		MachineFunction &MF) const override;

		bool isMemOpUniform(const SDNode *N) const;
bool isNoopAddrSpaceCast(unsigned SrcAS, unsigned DestAS) const override;		bool isNoopAddrSpaceCast(unsigned SrcAS, unsigned DestAS) const override;

TargetLoweringBase::LegalizeTypeAction		TargetLoweringBase::LegalizeTypeAction
getPreferredVectorAction(EVT VT) const override;		getPreferredVectorAction(EVT VT) const override;

bool shouldConvertConstantLoadToIntImm(const APInt &Imm,		bool shouldConvertConstantLoadToIntImm(const APInt &Imm,
Type *Ty) const override;		Type *Ty) const override;

Show All 40 Lines

llvm/trunk/lib/Target/AMDGPU/SIISelLowering.cpp

Show First 20 Lines • Show All 498 Lines • ▼ Show 20 Lines	return AS == AMDGPUAS::GLOBAL_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS;		AS == AMDGPUAS::CONSTANT_ADDRESS;
}		}

bool SITargetLowering::isNoopAddrSpaceCast(unsigned SrcAS,		bool SITargetLowering::isNoopAddrSpaceCast(unsigned SrcAS,
unsigned DestAS) const {		unsigned DestAS) const {
return isFlatGlobalAddrSpace(SrcAS) && isFlatGlobalAddrSpace(DestAS);		return isFlatGlobalAddrSpace(SrcAS) && isFlatGlobalAddrSpace(DestAS);
}		}


		bool SITargetLowering::isMemOpUniform(const SDNode *N) const {
		const MemSDNode *MemNode = cast<MemSDNode>(N);
		const Value *Ptr = MemNode->getMemOperand()->getValue();

		// UndefValue means this is a load of a kernel input. These are uniform.
		// Sometimes LDS instructions have constant pointers
		if (isa<UndefValue>(Ptr) \|\| isa<Argument>(Ptr) \|\| isa<Constant>(Ptr) \|\|
		isa<GlobalValue>(Ptr))
		return true;

		const Instruction *I = dyn_cast_or_null<Instruction>(Ptr);
		return I && I->getMetadata("amdgpu.uniform");
		}

TargetLoweringBase::LegalizeTypeAction		TargetLoweringBase::LegalizeTypeAction
SITargetLowering::getPreferredVectorAction(EVT VT) const {		SITargetLowering::getPreferredVectorAction(EVT VT) const {
if (VT.getVectorNumElements() != 1 && VT.getScalarType().bitsLE(MVT::i16))		if (VT.getVectorNumElements() != 1 && VT.getScalarType().bitsLE(MVT::i16))
return TypeSplitVector;		return TypeSplitVector;

return TargetLoweringBase::getPreferredVectorAction(VT);		return TargetLoweringBase::getPreferredVectorAction(VT);
}		}

▲ Show 20 Lines • Show All 808 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
if (Op.getValueType().isVector()) {		if (Op.getValueType().isVector()) {
assert(Op.getValueType().getVectorElementType() == MVT::i32 &&		assert(Op.getValueType().getVectorElementType() == MVT::i32 &&
"Custom lowering for non-i32 vectors hasn't been implemented.");		"Custom lowering for non-i32 vectors hasn't been implemented.");
unsigned NumElements = Op.getValueType().getVectorNumElements();		unsigned NumElements = Op.getValueType().getVectorNumElements();
assert(NumElements != 2 && "v2 loads are supported for all address spaces.");		assert(NumElements != 2 && "v2 loads are supported for all address spaces.");

switch (Load->getAddressSpace()) {		switch (Load->getAddressSpace()) {
default: break;		default: break;
		case AMDGPUAS::CONSTANT_ADDRESS:
		if (isMemOpUniform(Load))
		break;
		// Non-uniform loads will be selected to MUBUF instructions, so they
		// have the same legalization requires ments as global and private
		// loads.
		//
		// Fall-through
case AMDGPUAS::GLOBAL_ADDRESS:		case AMDGPUAS::GLOBAL_ADDRESS:
case AMDGPUAS::PRIVATE_ADDRESS:		case AMDGPUAS::PRIVATE_ADDRESS:
if (NumElements >= 8)		if (NumElements >= 8)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);

// v4 loads are supported for private and global memory.		// v4 loads are supported for private and global memory.
if (NumElements <= 4)		if (NumElements <= 4)
break;		break;
▲ Show 20 Lines • Show All 1,170 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstrInfo.td

	Show First 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
	def SIsampled : SDSample<"AMDGPUISD::SAMPLED">;			def SIsampled : SDSample<"AMDGPUISD::SAMPLED">;
	def SIsamplel : SDSample<"AMDGPUISD::SAMPLEL">;			def SIsamplel : SDSample<"AMDGPUISD::SAMPLEL">;

	def SIconstdata_ptr : SDNode<			def SIconstdata_ptr : SDNode<
	"AMDGPUISD::CONST_DATA_PTR", SDTypeProfile <1, 1, [SDTCisVT<0, i64>,			"AMDGPUISD::CONST_DATA_PTR", SDTypeProfile <1, 1, [SDTCisVT<0, i64>,
	SDTCisVT<0, i64>]>			SDTCisVT<0, i64>]>
	>;			>;

				def mubuf_load : PatFrag <(ops node:$ptr), (load node:$ptr), [{
				return isGlobalLoad(cast<LoadSDNode>(N)) \|\|
				isConstantLoad(cast<LoadSDNode>(N), -1);
				}]>;

				def smrd_load : PatFrag <(ops node:$ptr), (load node:$ptr), [{
				return isConstantLoad(cast<LoadSDNode>(N), -1) &&
				static_cast<const SITargetLowering *>(getTargetLowering())->isMemOpUniform(N);
				}]>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// SDNodes and PatFrag for local loads and stores to enable s_mov_b32 m0, -1			// SDNodes and PatFrag for local loads and stores to enable s_mov_b32 m0, -1
	// to be glued to the memory instructions.			// to be glued to the memory instructions.
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def SIld_local : SDNode <"ISD::LOAD", SDTLoad,			def SIld_local : SDNode <"ISD::LOAD", SDTLoad,
	[SDNPHasChain, SDNPMayLoad, SDNPMemOperand, SDNPInGlue]			[SDNPHasChain, SDNPMayLoad, SDNPMemOperand, SDNPInGlue]
	>;			>;
	▲ Show 20 Lines • Show All 2,691 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 947 Lines • ▼ Show 20 Lines
	>;			>;
	defm BUFFER_LOAD_USHORT : MUBUF_Load_Helper <			defm BUFFER_LOAD_USHORT : MUBUF_Load_Helper <
	mubuf<0x0a, 0x12>, "buffer_load_ushort", VGPR_32, i32, az_extloadi16_global			mubuf<0x0a, 0x12>, "buffer_load_ushort", VGPR_32, i32, az_extloadi16_global
	>;			>;
	defm BUFFER_LOAD_SSHORT : MUBUF_Load_Helper <			defm BUFFER_LOAD_SSHORT : MUBUF_Load_Helper <
	mubuf<0x0b, 0x13>, "buffer_load_sshort", VGPR_32, i32, sextloadi16_global			mubuf<0x0b, 0x13>, "buffer_load_sshort", VGPR_32, i32, sextloadi16_global
	>;			>;
	defm BUFFER_LOAD_DWORD : MUBUF_Load_Helper <			defm BUFFER_LOAD_DWORD : MUBUF_Load_Helper <
	mubuf<0x0c, 0x14>, "buffer_load_dword", VGPR_32, i32, global_load			mubuf<0x0c, 0x14>, "buffer_load_dword", VGPR_32, i32, mubuf_load
	>;			>;
	defm BUFFER_LOAD_DWORDX2 : MUBUF_Load_Helper <			defm BUFFER_LOAD_DWORDX2 : MUBUF_Load_Helper <
	mubuf<0x0d, 0x15>, "buffer_load_dwordx2", VReg_64, v2i32, global_load			mubuf<0x0d, 0x15>, "buffer_load_dwordx2", VReg_64, v2i32, mubuf_load
	>;			>;
	defm BUFFER_LOAD_DWORDX4 : MUBUF_Load_Helper <			defm BUFFER_LOAD_DWORDX4 : MUBUF_Load_Helper <
	mubuf<0x0e, 0x17>, "buffer_load_dwordx4", VReg_128, v4i32, global_load			mubuf<0x0e, 0x17>, "buffer_load_dwordx4", VReg_128, v4i32, mubuf_load
	>;			>;

	defm BUFFER_STORE_BYTE : MUBUF_Store_Helper <			defm BUFFER_STORE_BYTE : MUBUF_Store_Helper <
	mubuf<0x18>, "buffer_store_byte", VGPR_32, i32, truncstorei8_global			mubuf<0x18>, "buffer_store_byte", VGPR_32, i32, truncstorei8_global
	>;			>;

	defm BUFFER_STORE_SHORT : MUBUF_Store_Helper <			defm BUFFER_STORE_SHORT : MUBUF_Store_Helper <
	mubuf<0x1a>, "buffer_store_short", VGPR_32, i32, truncstorei16_global			mubuf<0x1a>, "buffer_store_short", VGPR_32, i32, truncstorei16_global
	▲ Show 20 Lines • Show All 1,111 Lines • ▼ Show 20 Lines
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// SMRD Patterns			// SMRD Patterns
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	multiclass SMRD_Pattern <string Instr, ValueType vt> {			multiclass SMRD_Pattern <string Instr, ValueType vt> {

	// 1. IMM offset			// 1. IMM offset
	def : Pat <			def : Pat <
	(constant_load (SMRDImm i64:$sbase, i32:$offset)),			(smrd_load (SMRDImm i64:$sbase, i32:$offset)),
	(vt (!cast<SMRD>(Instr#"_IMM") $sbase, $offset))			(vt (!cast<SMRD>(Instr#"_IMM") $sbase, $offset))
	>;			>;

	// 2. SGPR offset			// 2. SGPR offset
	def : Pat <			def : Pat <
	(constant_load (SMRDSgpr i64:$sbase, i32:$offset)),			(smrd_load (SMRDSgpr i64:$sbase, i32:$offset)),
	(vt (!cast<SMRD>(Instr#"_SGPR") $sbase, $offset))			(vt (!cast<SMRD>(Instr#"_SGPR") $sbase, $offset))
	>;			>;

	def : Pat <			def : Pat <
	(constant_load (SMRDImm32 i64:$sbase, i32:$offset)),			(smrd_load (SMRDImm32 i64:$sbase, i32:$offset)),
	(vt (!cast<SMRD>(Instr#"_IMM_ci") $sbase, $offset))			(vt (!cast<SMRD>(Instr#"_IMM_ci") $sbase, $offset))
	> {			> {
	let Predicates = [isCIOnly];			let Predicates = [isCIOnly];
	}			}
	}			}

				// Global and constant loads can be selected to either MUBUF or SMRD
				// instructions, but SMRD instructions are faster so we want the instruction
				// selector to prefer those.
				let AddedComplexity = 100 in {

	defm : SMRD_Pattern <"S_LOAD_DWORD", i32>;			defm : SMRD_Pattern <"S_LOAD_DWORD", i32>;
	defm : SMRD_Pattern <"S_LOAD_DWORDX2", v2i32>;			defm : SMRD_Pattern <"S_LOAD_DWORDX2", v2i32>;
	defm : SMRD_Pattern <"S_LOAD_DWORDX4", v4i32>;			defm : SMRD_Pattern <"S_LOAD_DWORDX4", v4i32>;
	defm : SMRD_Pattern <"S_LOAD_DWORDX8", v32i8>;			defm : SMRD_Pattern <"S_LOAD_DWORDX8", v32i8>;
	defm : SMRD_Pattern <"S_LOAD_DWORDX8", v8i32>;			defm : SMRD_Pattern <"S_LOAD_DWORDX8", v8i32>;
	defm : SMRD_Pattern <"S_LOAD_DWORDX16", v16i32>;			defm : SMRD_Pattern <"S_LOAD_DWORDX16", v16i32>;

	// 1. Offset as an immediate			// 1. Offset as an immediate
	Show All 12 Lines

	def : Pat <			def : Pat <
	(SIload_constant v4i32:$sbase, (SMRDBufferImm32 i32:$offset)),			(SIload_constant v4i32:$sbase, (SMRDBufferImm32 i32:$offset)),
	(S_BUFFER_LOAD_DWORD_IMM_ci $sbase, $offset)			(S_BUFFER_LOAD_DWORD_IMM_ci $sbase, $offset)
	>;			>;

	} // End Predicates = [isCI]			} // End Predicates = [isCI]

				} // End let AddedComplexity = 10000

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// SOP1 Patterns			// SOP1 Patterns
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def : Pat <			def : Pat <
	(i64 (ctpop i64:$src)),			(i64 (ctpop i64:$src)),
	(i64 (REG_SEQUENCE SReg_64,			(i64 (REG_SEQUENCE SReg_64,
	(S_BCNT1_I32_B64 $src), sub0,			(S_BCNT1_I32_B64 $src), sub0,
	▲ Show 20 Lines • Show All 1,133 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/salu-to-valu.ll

Show First 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	endif: ; preds = %else, %if
%tmp6 = load i32, i32 addrspace(2)* %tmp5		%tmp6 = load i32, i32 addrspace(2)* %tmp5
store i32 %tmp6, i32 addrspace(1)* %out		store i32 %tmp6, i32 addrspace(1)* %out
ret void		ret void
}		}

; Test moving an SMRD with an immediate offset to the VALU		; Test moving an SMRD with an immediate offset to the VALU

; GCN-LABEL: {{^}}smrd_valu2:		; GCN-LABEL: {{^}}smrd_valu2:
; GCN: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:16{{$}}		; GCN-NOT: v_add
		; GCN: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], 0 addr64 offset:16{{$}}
define void @smrd_valu2(i32 addrspace(1)* %out, [8 x i32] addrspace(2)* %in) #1 {		define void @smrd_valu2(i32 addrspace(1)* %out, [8 x i32] addrspace(2)* %in) #1 {
entry:		entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp1 = add i32 %tmp, 4		%tmp1 = add i32 %tmp, 4
%tmp2 = getelementptr [8 x i32], [8 x i32] addrspace(2)* %in, i32 %tmp, i32 4		%tmp2 = getelementptr [8 x i32], [8 x i32] addrspace(2)* %in, i32 %tmp, i32 4
%tmp3 = load i32, i32 addrspace(2)* %tmp2		%tmp3 = load i32, i32 addrspace(2)* %tmp2
store i32 %tmp3, i32 addrspace(1)* %out		store i32 %tmp3, i32 addrspace(1)* %out
ret void		ret void
}		}

; Use a big offset that will use the SMRD literal offset on CI		; Use a big offset that will use the SMRD literal offset on CI
; GCN-LABEL: {{^}}smrd_valu_ci_offset:		; GCN-LABEL: {{^}}smrd_valu_ci_offset:
; GCN: s_movk_i32 s[[OFFSET:[0-9]+]], 0x4e20{{$}}		; GCN-NOT: v_add
; GCN: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN: s_movk_i32 [[OFFSET:s[0-9]+]], 0x4e20{{$}}
		; GCN-NOT: v_add
		; GCN: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET]] addr64{{$}}
; GCN: v_add_i32_e32		; GCN: v_add_i32_e32
; GCN: buffer_store_dword		; GCN: buffer_store_dword
define void @smrd_valu_ci_offset(i32 addrspace(1)* %out, i32 addrspace(2)* %in, i32 %c) #1 {		define void @smrd_valu_ci_offset(i32 addrspace(1)* %out, i32 addrspace(2)* %in, i32 %c) #1 {
entry:		entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp2 = getelementptr i32, i32 addrspace(2)* %in, i32 %tmp		%tmp2 = getelementptr i32, i32 addrspace(2)* %in, i32 %tmp
%tmp3 = getelementptr i32, i32 addrspace(2)* %tmp2, i32 5000		%tmp3 = getelementptr i32, i32 addrspace(2)* %tmp2, i32 5000
%tmp4 = load i32, i32 addrspace(2)* %tmp3		%tmp4 = load i32, i32 addrspace(2)* %tmp3
%tmp5 = add i32 %tmp4, %c		%tmp5 = add i32 %tmp4, %c
store i32 %tmp5, i32 addrspace(1)* %out		store i32 %tmp5, i32 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}smrd_valu_ci_offset_x2:		; GCN-LABEL: {{^}}smrd_valu_ci_offset_x2:
; GCN: s_mov_b32 s[[OFFSET:[0-9]+]], 0x9c40{{$}}		; GCN-NOT: v_add
; GCN: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN: s_mov_b32 [[OFFSET:s[0-9]+]], 0x9c40{{$}}
		; GCN-NOT: v_add
		; GCN: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET]] addr64{{$}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: buffer_store_dwordx2		; GCN: buffer_store_dwordx2
define void @smrd_valu_ci_offset_x2(i64 addrspace(1)* %out, i64 addrspace(2)* %in, i64 %c) #1 {		define void @smrd_valu_ci_offset_x2(i64 addrspace(1)* %out, i64 addrspace(2)* %in, i64 %c) #1 {
entry:		entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp2 = getelementptr i64, i64 addrspace(2)* %in, i32 %tmp		%tmp2 = getelementptr i64, i64 addrspace(2)* %in, i32 %tmp
%tmp3 = getelementptr i64, i64 addrspace(2)* %tmp2, i32 5000		%tmp3 = getelementptr i64, i64 addrspace(2)* %tmp2, i32 5000
%tmp4 = load i64, i64 addrspace(2)* %tmp3		%tmp4 = load i64, i64 addrspace(2)* %tmp3
%tmp5 = or i64 %tmp4, %c		%tmp5 = or i64 %tmp4, %c
store i64 %tmp5, i64 addrspace(1)* %out		store i64 %tmp5, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}smrd_valu_ci_offset_x4:		; GCN-LABEL: {{^}}smrd_valu_ci_offset_x4:
; GCN: s_movk_i32 s[[OFFSET:[0-9]+]], 0x4d20{{$}}		; GCN-NOT: v_add
; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN: s_movk_i32 [[OFFSET:s[0-9]+]], 0x4d20{{$}}
		; GCN-NOT: v_add
		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET]] addr64{{$}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define void @smrd_valu_ci_offset_x4(<4 x i32> addrspace(1)* %out, <4 x i32> addrspace(2)* %in, <4 x i32> %c) #1 {		define void @smrd_valu_ci_offset_x4(<4 x i32> addrspace(1)* %out, <4 x i32> addrspace(2)* %in, <4 x i32> %c) #1 {
entry:		entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp2 = getelementptr <4 x i32>, <4 x i32> addrspace(2)* %in, i32 %tmp		%tmp2 = getelementptr <4 x i32>, <4 x i32> addrspace(2)* %in, i32 %tmp
%tmp3 = getelementptr <4 x i32>, <4 x i32> addrspace(2)* %tmp2, i32 1234		%tmp3 = getelementptr <4 x i32>, <4 x i32> addrspace(2)* %tmp2, i32 1234
%tmp4 = load <4 x i32>, <4 x i32> addrspace(2)* %tmp3		%tmp4 = load <4 x i32>, <4 x i32> addrspace(2)* %tmp3
%tmp5 = or <4 x i32> %tmp4, %c		%tmp5 = or <4 x i32> %tmp4, %c
store <4 x i32> %tmp5, <4 x i32> addrspace(1)* %out		store <4 x i32> %tmp5, <4 x i32> addrspace(1)* %out
ret void		ret void
}		}

; Original scalar load uses SGPR offset on SI and 32-bit literal on		; Original scalar load uses SGPR offset on SI and 32-bit literal on
; CI.		; CI.

; GCN-LABEL: {{^}}smrd_valu_ci_offset_x8:		; GCN-LABEL: {{^}}smrd_valu_ci_offset_x8:
; GCN: s_mov_b32 s[[OFFSET0:[0-9]+]], 0x9a40{{$}}		; GCN-NOT: v_add
; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET0]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN: s_mov_b32 [[OFFSET0:s[0-9]+]], 0x9a40{{$}}
		; GCN-NOT: v_add
; SI: s_add_i32 s[[OFFSET1:[0-9]+]], s[[OFFSET0]], 16		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET0]] addr64{{$}}
; SI: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET1]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN-NOT: v_add
		; GCN: s_mov_b32 [[OFFSET1:s[0-9]+]], 0x9a50{{$}}
; CI: s_mov_b32 s[[OFFSET1:[0-9]+]], 0x9a50{{$}}		; GCN-NOT: v_add
; CI: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET1]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET1]] addr64{{$}}

; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
; GCN: buffer_store_dwordx4		; GCN: buffer_store_dwordx4
define void @smrd_valu_ci_offset_x8(<8 x i32> addrspace(1)* %out, <8 x i32> addrspace(2)* %in, <8 x i32> %c) #1 {		define void @smrd_valu_ci_offset_x8(<8 x i32> addrspace(1)* %out, <8 x i32> addrspace(2)* %in, <8 x i32> %c) #1 {
entry:		entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp2 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %in, i32 %tmp		%tmp2 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %in, i32 %tmp
%tmp3 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %tmp2, i32 1234		%tmp3 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %tmp2, i32 1234
%tmp4 = load <8 x i32>, <8 x i32> addrspace(2)* %tmp3		%tmp4 = load <8 x i32>, <8 x i32> addrspace(2)* %tmp3
%tmp5 = or <8 x i32> %tmp4, %c		%tmp5 = or <8 x i32> %tmp4, %c
store <8 x i32> %tmp5, <8 x i32> addrspace(1)* %out		store <8 x i32> %tmp5, <8 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: should use immediate offset instead of using s_add_i32 for adding to constant.
; GCN-LABEL: {{^}}smrd_valu_ci_offset_x16:		; GCN-LABEL: {{^}}smrd_valu_ci_offset_x16:

; GCN-DAG: s_mov_b32 s[[OFFSET0:[0-9]+]], 0x13480{{$}}		; GCN-NOT: v_add
; SI-DAG: s_add_i32 s[[OFFSET1:[0-9]+]], s[[OFFSET0]], 16		; GCN: s_mov_b32 [[OFFSET0:s[0-9]+]], 0x13480{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET0]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN-NOT: v_add
		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET0]] addr64{{$}}
; CI-DAG: s_mov_b32 s[[OFFSET1:[0-9]+]], 0x13490{{$}}		; GCN-NOT: v_add
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET1]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN: s_mov_b32 [[OFFSET1:s[0-9]+]], 0x13490{{$}}
		; GCN-NOT: v_add
; SI-DAG: s_add_i32 s[[OFFSET2:[0-9]+]], s[[OFFSET0]], 32		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET1]] addr64{{$}}
; CI-DAG: s_mov_b32 s[[OFFSET2:[0-9]+]], 0x134a0		; GCN-NOT: v_add
		; GCN: s_mov_b32 [[OFFSET2:s[0-9]+]], 0x134a0{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET2]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN-NOT: v_add
; GCN-DAG: s_add_i32 s[[OFFSET3:[0-9]+]], s[[OFFSET2]], 16		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET2]] addr64{{$}}
; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET3]]:{{[0-9]+}}], 0 addr64{{$}}		; GCN-NOT: v_add
		; GCN: s_mov_b32 [[OFFSET3:s[0-9]+]], 0x134b0{{$}}
		; GCN-NOT: v_add
		; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+:[0-9]+}}], [[OFFSET3]] addr64{{$}}

; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}		; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
Show All 37 Lines	entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp1 = add i32 %tmp, 4		%tmp1 = add i32 %tmp, 4
%tmp2 = getelementptr [1024 x i32], [1024 x i32] addrspace(2)* %in, i32 %tmp, i32 255		%tmp2 = getelementptr [1024 x i32], [1024 x i32] addrspace(2)* %in, i32 %tmp, i32 255
%tmp3 = load i32, i32 addrspace(2)* %tmp2		%tmp3 = load i32, i32 addrspace(2)* %tmp2
store i32 %tmp3, i32 addrspace(1)* %out		store i32 %tmp3, i32 addrspace(1)* %out
ret void		ret void
}		}

; Offset is too big to fit in SMRD 8-bit offset, but small enough to
; fit in MUBUF offset.
; FIXME: We should be using the offset but we don't

; GCN-LABEL: {{^}}smrd_valu2_mubuf_offset:		; GCN-LABEL: {{^}}smrd_valu2_mubuf_offset:
; SI: s_movk_i32 s[[OFFSET:[0-9]+]], 0x400{{$}}		; GCN-NOT: v_add
; SI: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET]]:{{[0-9]+\]}}, 0 addr64{{$}}		; GCN: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:1024{{$}}

; CI: buffer_load_dword v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:1024{{$}}
define void @smrd_valu2_mubuf_offset(i32 addrspace(1)* %out, [1024 x i32] addrspace(2)* %in) #1 {		define void @smrd_valu2_mubuf_offset(i32 addrspace(1)* %out, [1024 x i32] addrspace(2)* %in) #1 {
entry:		entry:
%tmp = call i32 @llvm.r600.read.tidig.x() #0		%tmp = call i32 @llvm.r600.read.tidig.x() #0
%tmp1 = add i32 %tmp, 4		%tmp1 = add i32 %tmp, 4
%tmp2 = getelementptr [1024 x i32], [1024 x i32] addrspace(2)* %in, i32 %tmp, i32 256		%tmp2 = getelementptr [1024 x i32], [1024 x i32] addrspace(2)* %in, i32 %tmp, i32 256
%tmp3 = load i32, i32 addrspace(2)* %tmp2		%tmp3 = load i32, i32 addrspace(2)* %tmp2
store i32 %tmp3, i32 addrspace(1)* %out		store i32 %tmp3, i32 addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 136 Lines • Show Last 20 Lines