This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Move d16 load matching to preprocess step
ClosedPublic

Authored by arsenm on Mar 8 2019, 8:26 AM.

Download Raw Diff

Details

Reviewers

rampitec
cfang
nhaehnle

Summary

When matching half of the build_vector to a load, there could still be
a hidden dependency on the other half of the build_vector the pattern
wouldn't detect. If there was an additional chain dependency on the
other value, a cycle could be introduced.

I don't think a tablegen pattern is capable of matching the necessary
conditions, so move this into PreprocessISelDAG. Check isPredecessorOf
for the other value to avoid a cycle. This has a warning that it's
expensive, so this should probably be moved into an MI pass eventually
that will have more freedom to reorder instructions to help match
this. That is currently complicated by the lack of a computeKnownBits
type mechanism for the selected function.

Diff Detail

Event Timeline

arsenm created this revision.Mar 8 2019, 8:26 AM

Herald added subscribers: jdoerfert, t-tye, tpr and 5 others. · View Herald TranscriptMar 8 2019, 8:26 AM

LGTM

This revision is now accepted and ready to land.Mar 8 2019, 11:27 AM

r355731

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPU.td

2 lines

AMDGPUISelDAGToDAG.cpp

209 lines

AMDGPUISelLowering.h

7 lines

AMDGPUISelLowering.cpp

6 lines

AMDGPUInstructions.td

6 lines

4 lines

75 lines

51 lines

101 lines

82 lines

test/

CodeGen/

AMDGPU/

build-vector-insert-elt-infloop.ll

3 lines

chain-hi-to-lo.ll

127 lines

load-hi16.ll

15 lines

Diff 189864

lib/Target/AMDGPU/AMDGPU.td

Show First 20 Lines • Show All 685 Lines • ▼ Show 20 Lines	def HasD16LoadStore : Predicate<"Subtarget->hasD16LoadStore()">,
AssemblerPredicate<"FeatureGFX9Insts">;		AssemblerPredicate<"FeatureGFX9Insts">;

def HasUnpackedD16VMem : Predicate<"Subtarget->hasUnpackedD16VMem()">,		def HasUnpackedD16VMem : Predicate<"Subtarget->hasUnpackedD16VMem()">,
AssemblerPredicate<"FeatureUnpackedD16VMem">;		AssemblerPredicate<"FeatureUnpackedD16VMem">;
def HasPackedD16VMem : Predicate<"!Subtarget->hasUnpackedD16VMem()">,		def HasPackedD16VMem : Predicate<"!Subtarget->hasUnpackedD16VMem()">,
AssemblerPredicate<"!FeatureUnpackedD16VMem">;		AssemblerPredicate<"!FeatureUnpackedD16VMem">;

def D16PreservesUnusedBits :		def D16PreservesUnusedBits :
Predicate<"Subtarget->hasD16LoadStore() && !Subtarget->isSRAMECCEnabled()">,		Predicate<"Subtarget->d16PreservesUnusedBits()">,
AssemblerPredicate<"FeatureGFX9Insts,!FeatureSRAMECC">;		AssemblerPredicate<"FeatureGFX9Insts,!FeatureSRAMECC">;

def LDSRequiresM0Init : Predicate<"Subtarget->ldsRequiresM0Init()">;		def LDSRequiresM0Init : Predicate<"Subtarget->ldsRequiresM0Init()">;
def NotLDSRequiresM0Init : Predicate<"!Subtarget->ldsRequiresM0Init()">;		def NotLDSRequiresM0Init : Predicate<"!Subtarget->ldsRequiresM0Init()">;

def HasDSAddTid : Predicate<"Subtarget->getGeneration() >= AMDGPUSubtarget::GFX9">,		def HasDSAddTid : Predicate<"Subtarget->getGeneration() >= AMDGPUSubtarget::GFX9">,
AssemblerPredicate<"FeatureGFX9Insts">;		AssemblerPredicate<"FeatureGFX9Insts">;

▲ Show 20 Lines • Show All 64 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
#include "llvm/Support/ErrorHandling.h"		#include "llvm/Support/ErrorHandling.h"
#include "llvm/Support/MachineValueType.h"		#include "llvm/Support/MachineValueType.h"
#include "llvm/Support/MathExtras.h"		#include "llvm/Support/MathExtras.h"
#include <cassert>		#include <cassert>
#include <cstdint>		#include <cstdint>
#include <new>		#include <new>
#include <vector>		#include <vector>

		#define DEBUG_TYPE "isel"

using namespace llvm;		using namespace llvm;

namespace llvm {		namespace llvm {

class R600InstrInfo;		class R600InstrInfo;

} // end namespace llvm		} // end namespace llvm

Show All 21 Lines	public:

void getAnalysisUsage(AnalysisUsage &AU) const override {		void getAnalysisUsage(AnalysisUsage &AU) const override {
AU.addRequired<AMDGPUArgumentUsageInfo>();		AU.addRequired<AMDGPUArgumentUsageInfo>();
AU.addRequired<AMDGPUPerfHintAnalysis>();		AU.addRequired<AMDGPUPerfHintAnalysis>();
AU.addRequired<LegacyDivergenceAnalysis>();		AU.addRequired<LegacyDivergenceAnalysis>();
SelectionDAGISel::getAnalysisUsage(AU);		SelectionDAGISel::getAnalysisUsage(AU);
}		}

		bool matchLoadD16FromBuildVector(SDNode *N) const;

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;
		void PreprocessISelDAG() override;
void Select(SDNode *N) override;		void Select(SDNode *N) override;
StringRef getPassName() const override;		StringRef getPassName() const override;
void PostprocessISelDAG() override;		void PostprocessISelDAG() override;

protected:		protected:
void SelectBuildVector(SDNode *N, unsigned RegClassID);		void SelectBuildVector(SDNode *N, unsigned RegClassID);

private:		private:
▲ Show 20 Lines • Show All 88 Lines • ▼ Show 20 Lines	bool SelectVOP3OpSel0(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Clamp) const;		SDValue &Clamp) const;

bool SelectVOP3OpSelMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;		bool SelectVOP3OpSelMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;
bool SelectVOP3OpSelMods0(SDValue In, SDValue &Src, SDValue &SrcMods,		bool SelectVOP3OpSelMods0(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Clamp) const;		SDValue &Clamp) const;
bool SelectVOP3PMadMixModsImpl(SDValue In, SDValue &Src, unsigned &Mods) const;		bool SelectVOP3PMadMixModsImpl(SDValue In, SDValue &Src, unsigned &Mods) const;
bool SelectVOP3PMadMixMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;		bool SelectVOP3PMadMixMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;

		SDValue getHi16Elt(SDValue In) const;
bool SelectHi16Elt(SDValue In, SDValue &Src) const;		bool SelectHi16Elt(SDValue In, SDValue &Src) const;

void SelectADD_SUB_I64(SDNode *N);		void SelectADD_SUB_I64(SDNode *N);
void SelectUADDO_USUBO(SDNode *N);		void SelectUADDO_USUBO(SDNode *N);
void SelectDIV_SCALE(SDNode *N);		void SelectDIV_SCALE(SDNode *N);
void SelectMAD_64_32(SDNode *N);		void SelectMAD_64_32(SDNode *N);
void SelectFMA_W_CHAIN(SDNode *N);		void SelectFMA_W_CHAIN(SDNode *N);
void SelectFMUL_W_CHAIN(SDNode *N);		void SelectFMUL_W_CHAIN(SDNode *N);
Show All 27 Lines	public:
void Select(SDNode *N) override;		void Select(SDNode *N) override;

bool SelectADDRIndirect(SDValue Addr, SDValue &Base,		bool SelectADDRIndirect(SDValue Addr, SDValue &Base,
SDValue &Offset) override;		SDValue &Offset) override;
bool SelectADDRVTX_READ(SDValue Addr, SDValue &Base,		bool SelectADDRVTX_READ(SDValue Addr, SDValue &Base,
SDValue &Offset) override;		SDValue &Offset) override;

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;

		void PreprocessISelDAG() override {}

protected:		protected:
// Include the pieces autogenerated from the target description.		// Include the pieces autogenerated from the target description.
#include "R600GenDAGISel.inc"		#include "R600GenDAGISel.inc"
};		};

		static SDValue stripBitcast(SDValue Val) {
		return Val.getOpcode() == ISD::BITCAST ? Val.getOperand(0) : Val;
		}

		// Figure out if this is really an extract of the high 16-bits of a dword.
		static bool isExtractHiElt(SDValue In, SDValue &Out) {
		In = stripBitcast(In);
		if (In.getOpcode() != ISD::TRUNCATE)
		return false;

		SDValue Srl = In.getOperand(0);
		if (Srl.getOpcode() == ISD::SRL) {
		if (ConstantSDNode *ShiftAmt = dyn_cast<ConstantSDNode>(Srl.getOperand(1))) {
		if (ShiftAmt->getZExtValue() == 16) {
		Out = stripBitcast(Srl.getOperand(0));
		return true;
		}
		}
		}

		return false;
		}

		// Look through operations that obscure just looking at the low 16-bits of the
		// same register.
		static SDValue stripExtractLoElt(SDValue In) {
		if (In.getOpcode() == ISD::TRUNCATE) {
		SDValue Src = In.getOperand(0);
		if (Src.getValueType().getSizeInBits() == 32)
		return stripBitcast(Src);
		}

		return In;
		}

} // end anonymous namespace		} // end anonymous namespace

INITIALIZE_PASS_BEGIN(AMDGPUDAGToDAGISel, "amdgpu-isel",		INITIALIZE_PASS_BEGIN(AMDGPUDAGToDAGISel, "amdgpu-isel",
"AMDGPU DAG->DAG Pattern Instruction Selection", false, false)		"AMDGPU DAG->DAG Pattern Instruction Selection", false, false)
INITIALIZE_PASS_DEPENDENCY(AMDGPUArgumentUsageInfo)		INITIALIZE_PASS_DEPENDENCY(AMDGPUArgumentUsageInfo)
INITIALIZE_PASS_DEPENDENCY(AMDGPUPerfHintAnalysis)		INITIALIZE_PASS_DEPENDENCY(AMDGPUPerfHintAnalysis)
INITIALIZE_PASS_DEPENDENCY(LegacyDivergenceAnalysis)		INITIALIZE_PASS_DEPENDENCY(LegacyDivergenceAnalysis)
INITIALIZE_PASS_END(AMDGPUDAGToDAGISel, "amdgpu-isel",		INITIALIZE_PASS_END(AMDGPUDAGToDAGISel, "amdgpu-isel",
Show All 13 Lines	FunctionPass llvm::createR600ISelDag(TargetMachine TM,
return new R600DAGToDAGISel(TM, OptLevel);		return new R600DAGToDAGISel(TM, OptLevel);
}		}

bool AMDGPUDAGToDAGISel::runOnMachineFunction(MachineFunction &MF) {		bool AMDGPUDAGToDAGISel::runOnMachineFunction(MachineFunction &MF) {
Subtarget = &MF.getSubtarget<GCNSubtarget>();		Subtarget = &MF.getSubtarget<GCNSubtarget>();
return SelectionDAGISel::runOnMachineFunction(MF);		return SelectionDAGISel::runOnMachineFunction(MF);
}		}

		bool AMDGPUDAGToDAGISel::matchLoadD16FromBuildVector(SDNode *N) const {
		assert(Subtarget->d16PreservesUnusedBits());
		MVT VT = N->getValueType(0).getSimpleVT();
		if (VT != MVT::v2i16 && VT != MVT::v2f16)
		return false;

		SDValue Lo = N->getOperand(0);
		SDValue Hi = N->getOperand(1);

		LoadSDNode *LdHi = dyn_cast<LoadSDNode>(stripBitcast(Hi));

		// build_vector lo, (load ptr) -> load_d16_hi ptr, lo
		// build_vector lo, (zextload ptr from i8) -> load_d16_hi_u8 ptr, lo
		// build_vector lo, (sextload ptr from i8) -> load_d16_hi_i8 ptr, lo

		// Need to check for possible indirect dependencies on the other half of the
		// vector to avoid introducing a cycle.
		if (LdHi && Hi.hasOneUse() && !LdHi->isPredecessorOf(Lo.getNode())) {
		SDVTList VTList = CurDAG->getVTList(VT, MVT::Other);

		SDValue TiedIn = CurDAG->getNode(ISD::SCALAR_TO_VECTOR, SDLoc(N), VT, Lo);
		SDValue Ops[] = {
		LdHi->getChain(), LdHi->getBasePtr(), TiedIn
		};

		unsigned LoadOp = AMDGPUISD::LOAD_D16_HI;
		if (LdHi->getMemoryVT() == MVT::i8) {
		LoadOp = LdHi->getExtensionType() == ISD::SEXTLOAD ?
		AMDGPUISD::LOAD_D16_HI_I8 : AMDGPUISD::LOAD_D16_HI_U8;
		} else {
		assert(LdHi->getMemoryVT() == MVT::i16);
		}

		SDValue NewLoadHi =
		CurDAG->getMemIntrinsicNode(LoadOp, SDLoc(LdHi), VTList,
		Ops, LdHi->getMemoryVT(),
		LdHi->getMemOperand());

		CurDAG->ReplaceAllUsesOfValueWith(SDValue(N, 0), NewLoadHi);
		CurDAG->ReplaceAllUsesOfValueWith(SDValue(LdHi, 1), NewLoadHi.getValue(1));
		return true;
		}

		// build_vector (load ptr), hi -> load_d16_lo ptr, hi
		// build_vector (zextload ptr from i8), hi -> load_d16_lo_u8 ptr, hi
		// build_vector (sextload ptr from i8), hi -> load_d16_lo_i8 ptr, hi
		LoadSDNode *LdLo = dyn_cast<LoadSDNode>(stripBitcast(Lo));
		if (LdLo && Lo.hasOneUse()) {
		SDValue TiedIn = getHi16Elt(Hi);
		if (!TiedIn \|\| LdLo->isPredecessorOf(TiedIn.getNode()))
		return false;

		SDVTList VTList = CurDAG->getVTList(VT, MVT::Other);
		unsigned LoadOp = AMDGPUISD::LOAD_D16_LO;
		if (LdLo->getMemoryVT() == MVT::i8) {
		LoadOp = LdLo->getExtensionType() == ISD::SEXTLOAD ?
		AMDGPUISD::LOAD_D16_LO_I8 : AMDGPUISD::LOAD_D16_LO_U8;
		} else {
		assert(LdLo->getMemoryVT() == MVT::i16);
		}

		TiedIn = CurDAG->getNode(ISD::BITCAST, SDLoc(N), VT, TiedIn);

		SDValue Ops[] = {
		LdLo->getChain(), LdLo->getBasePtr(), TiedIn
		};

		SDValue NewLoadLo =
		CurDAG->getMemIntrinsicNode(LoadOp, SDLoc(LdLo), VTList,
		Ops, LdLo->getMemoryVT(),
		LdLo->getMemOperand());

		CurDAG->ReplaceAllUsesOfValueWith(SDValue(N, 0), NewLoadLo);
		CurDAG->ReplaceAllUsesOfValueWith(SDValue(LdLo, 1), NewLoadLo.getValue(1));
		return true;
		}

		return false;
		}

		void AMDGPUDAGToDAGISel::PreprocessISelDAG() {
		if (!Subtarget->d16PreservesUnusedBits())
		return;

		SelectionDAG::allnodes_iterator Position = CurDAG->allnodes_end();

		bool MadeChange = false;
		while (Position != CurDAG->allnodes_begin()) {
		SDNode N = &--Position;
		if (N->use_empty())
		continue;

		switch (N->getOpcode()) {
		case ISD::BUILD_VECTOR:
		MadeChange \|= matchLoadD16FromBuildVector(N);
		break;
		default:
		break;
		}
		}

		if (MadeChange) {
		CurDAG->RemoveDeadNodes();
		LLVM_DEBUG(dbgs() << "After PreProcess:\n";
		CurDAG->dump(););
		}
		}

bool AMDGPUDAGToDAGISel::isNoNanSrc(SDValue N) const {		bool AMDGPUDAGToDAGISel::isNoNanSrc(SDValue N) const {
if (TM.Options.NoNaNsFPMath)		if (TM.Options.NoNaNsFPMath)
return true;		return true;

// TODO: Move into isKnownNeverNaN		// TODO: Move into isKnownNeverNaN
if (N->getFlags().isDefined())		if (N->getFlags().isDefined())
return N->getFlags().hasNoNaNs();		return N->getFlags().hasNoNaNs();

▲ Show 20 Lines • Show All 1,603 Lines • ▼ Show 20 Lines	bool AMDGPUDAGToDAGISel::SelectVOP3OMods(SDValue In, SDValue &Src,

SDLoc DL(In);		SDLoc DL(In);
Clamp = CurDAG->getTargetConstant(0, DL, MVT::i1);		Clamp = CurDAG->getTargetConstant(0, DL, MVT::i1);
Omod = CurDAG->getTargetConstant(0, DL, MVT::i1);		Omod = CurDAG->getTargetConstant(0, DL, MVT::i1);

return true;		return true;
}		}

static SDValue stripBitcast(SDValue Val) {
return Val.getOpcode() == ISD::BITCAST ? Val.getOperand(0) : Val;
}

// Figure out if this is really an extract of the high 16-bits of a dword.
static bool isExtractHiElt(SDValue In, SDValue &Out) {
In = stripBitcast(In);
if (In.getOpcode() != ISD::TRUNCATE)
return false;

SDValue Srl = In.getOperand(0);
if (Srl.getOpcode() == ISD::SRL) {
if (ConstantSDNode *ShiftAmt = dyn_cast<ConstantSDNode>(Srl.getOperand(1))) {
if (ShiftAmt->getZExtValue() == 16) {
Out = stripBitcast(Srl.getOperand(0));
return true;
}
}
}

return false;
}

// Look through operations that obscure just looking at the low 16-bits of the
// same register.
static SDValue stripExtractLoElt(SDValue In) {
if (In.getOpcode() == ISD::TRUNCATE) {
SDValue Src = In.getOperand(0);
if (Src.getValueType().getSizeInBits() == 32)
return stripBitcast(Src);
}

return In;
}

bool AMDGPUDAGToDAGISel::SelectVOP3PMods(SDValue In, SDValue &Src,		bool AMDGPUDAGToDAGISel::SelectVOP3PMods(SDValue In, SDValue &Src,
SDValue &SrcMods) const {		SDValue &SrcMods) const {
unsigned Mods = 0;		unsigned Mods = 0;
Src = In;		Src = In;

if (Src.getOpcode() == ISD::FNEG) {		if (Src.getOpcode() == ISD::FNEG) {
Mods ^= (SISrcMods::NEG \| SISrcMods::NEG_HI);		Mods ^= (SISrcMods::NEG \| SISrcMods::NEG_HI);
Src = Src.getOperand(0);		Src = Src.getOperand(0);
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines
bool AMDGPUDAGToDAGISel::SelectVOP3PMadMixMods(SDValue In, SDValue &Src,		bool AMDGPUDAGToDAGISel::SelectVOP3PMadMixMods(SDValue In, SDValue &Src,
SDValue &SrcMods) const {		SDValue &SrcMods) const {
unsigned Mods = 0;		unsigned Mods = 0;
SelectVOP3PMadMixModsImpl(In, Src, Mods);		SelectVOP3PMadMixModsImpl(In, Src, Mods);
SrcMods = CurDAG->getTargetConstant(Mods, SDLoc(In), MVT::i32);		SrcMods = CurDAG->getTargetConstant(Mods, SDLoc(In), MVT::i32);
return true;		return true;
}		}

		SDValue AMDGPUDAGToDAGISel::getHi16Elt(SDValue In) const {
		if (In.isUndef())
		return CurDAG->getUNDEF(MVT::i32);

		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(In)) {
		SDLoc SL(In);
		return CurDAG->getConstant(C->getZExtValue() << 16, SL, MVT::i32);
		}

		if (ConstantFPSDNode *C = dyn_cast<ConstantFPSDNode>(In)) {
		SDLoc SL(In);
		return CurDAG->getConstant(
		C->getValueAPF().bitcastToAPInt().getZExtValue() << 16, SL, MVT::i32);
		}

		SDValue Src;
		if (isExtractHiElt(In, Src))
		return Src;

		return SDValue();
		}

// TODO: Can we identify things like v_mad_mixhi_f16?		// TODO: Can we identify things like v_mad_mixhi_f16?
bool AMDGPUDAGToDAGISel::SelectHi16Elt(SDValue In, SDValue &Src) const {		bool AMDGPUDAGToDAGISel::SelectHi16Elt(SDValue In, SDValue &Src) const {
if (In.isUndef()) {		if (In.isUndef()) {
Src = In;		Src = In;
return true;		return true;
}		}

if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(In)) {		if (ConstantSDNode *C = dyn_cast<ConstantSDNode>(In)) {
▲ Show 20 Lines • Show All 245 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 463 Lines • ▼ Show 20 Lines	enum NodeType : unsigned {
INTERP_P2,		INTERP_P2,
INTERP_P1LL_F16,		INTERP_P1LL_F16,
INTERP_P1LV_F16,		INTERP_P1LV_F16,
INTERP_P2_F16,		INTERP_P2_F16,
PC_ADD_REL_OFFSET,		PC_ADD_REL_OFFSET,
KILL,		KILL,
DUMMY_CHAIN,		DUMMY_CHAIN,
FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,		FIRST_MEM_OPCODE_NUMBER = ISD::FIRST_TARGET_MEMORY_OPCODE,
		LOAD_D16_HI,
		LOAD_D16_LO,
		LOAD_D16_HI_I8,
		LOAD_D16_HI_U8,
		LOAD_D16_LO_I8,
		LOAD_D16_LO_U8,

STORE_MSKOR,		STORE_MSKOR,
LOAD_CONSTANT,		LOAD_CONSTANT,
TBUFFER_STORE_FORMAT,		TBUFFER_STORE_FORMAT,
TBUFFER_STORE_FORMAT_X3,		TBUFFER_STORE_FORMAT_X3,
TBUFFER_STORE_FORMAT_D16,		TBUFFER_STORE_FORMAT_D16,
TBUFFER_LOAD_FORMAT,		TBUFFER_LOAD_FORMAT,
TBUFFER_LOAD_FORMAT_D16,		TBUFFER_LOAD_FORMAT_D16,
DS_ORDERED_COUNT,		DS_ORDERED_COUNT,
Show All 33 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 4,180 Lines • ▼ Show 20 Lines	const char* AMDGPUTargetLowering::getTargetNodeName(unsigned Opcode) const {
NODE_NAME_CASE(SENDMSG)		NODE_NAME_CASE(SENDMSG)
NODE_NAME_CASE(SENDMSGHALT)		NODE_NAME_CASE(SENDMSGHALT)
NODE_NAME_CASE(INTERP_MOV)		NODE_NAME_CASE(INTERP_MOV)
NODE_NAME_CASE(INTERP_P1)		NODE_NAME_CASE(INTERP_P1)
NODE_NAME_CASE(INTERP_P2)		NODE_NAME_CASE(INTERP_P2)
NODE_NAME_CASE(INTERP_P1LL_F16)		NODE_NAME_CASE(INTERP_P1LL_F16)
NODE_NAME_CASE(INTERP_P1LV_F16)		NODE_NAME_CASE(INTERP_P1LV_F16)
NODE_NAME_CASE(INTERP_P2_F16)		NODE_NAME_CASE(INTERP_P2_F16)
		NODE_NAME_CASE(LOAD_D16_HI)
		NODE_NAME_CASE(LOAD_D16_LO)
		NODE_NAME_CASE(LOAD_D16_HI_I8)
		NODE_NAME_CASE(LOAD_D16_HI_U8)
		NODE_NAME_CASE(LOAD_D16_LO_I8)
		NODE_NAME_CASE(LOAD_D16_LO_U8)
NODE_NAME_CASE(STORE_MSKOR)		NODE_NAME_CASE(STORE_MSKOR)
NODE_NAME_CASE(LOAD_CONSTANT)		NODE_NAME_CASE(LOAD_CONSTANT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_X3)
NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)		NODE_NAME_CASE(TBUFFER_STORE_FORMAT_D16)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT)
NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)		NODE_NAME_CASE(TBUFFER_LOAD_FORMAT_D16)
NODE_NAME_CASE(DS_ORDERED_COUNT)		NODE_NAME_CASE(DS_ORDERED_COUNT)
▲ Show 20 Lines • Show All 335 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUInstructions.td

	Show First 20 Lines • Show All 796 Lines • ▼ Show 20 Lines

	multiclass IntMed3Pat<Instruction med3Inst,			multiclass IntMed3Pat<Instruction med3Inst,
	SDPatternOperator min,			SDPatternOperator min,
	SDPatternOperator max,			SDPatternOperator max,
	SDPatternOperator min_oneuse,			SDPatternOperator min_oneuse,
	SDPatternOperator max_oneuse,			SDPatternOperator max_oneuse,
	ValueType vt = i32> {			ValueType vt = i32> {

	// This matches 16 permutations of			// This matches 16 permutations of
	// min(max(a, b), max(min(a, b), c))			// min(max(a, b), max(min(a, b), c))
	def : AMDGPUPat <			def : AMDGPUPat <
	(min (max_oneuse vt:$src0, vt:$src1),			(min (max_oneuse vt:$src0, vt:$src1),
	(max_oneuse (min_oneuse vt:$src0, vt:$src1), vt:$src2)),			(max_oneuse (min_oneuse vt:$src0, vt:$src1), vt:$src2)),
	(med3Inst vt:$src0, vt:$src1, vt:$src2)			(med3Inst vt:$src0, vt:$src1, vt:$src2)
	>;			>;

	// This matches 16 permutations of			// This matches 16 permutations of
	// max(min(x, y), min(max(x, y), z))			// max(min(x, y), min(max(x, y), z))
	def : AMDGPUPat <			def : AMDGPUPat <
	(max (min_oneuse vt:$src0, vt:$src1),			(max (min_oneuse vt:$src0, vt:$src1),
	(min_oneuse (max_oneuse vt:$src0, vt:$src1), vt:$src2)),			(min_oneuse (max_oneuse vt:$src0, vt:$src1), vt:$src2)),
	(med3Inst $src0, $src1, $src2)			(med3Inst $src0, $src1, $src2)
	>;			>;
	}			}

	// Special conversion patterns			// Special conversion patterns

	def cvt_rpi_i32_f32 : PatFrag <			def cvt_rpi_i32_f32 : PatFrag <
	(ops node:$src),			(ops node:$src),
	(fp_to_sint (ffloor (fadd $src, FP_HALF))),			(fp_to_sint (ffloor (fadd $src, FP_HALF))),
	[{ (void) N; return TM.Options.NoNaNsFPMath; }]			[{ (void) N; return TM.Options.NoNaNsFPMath; }]
	>;			>;

	▲ Show 20 Lines • Show All 51 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUSubtarget.h

Show First 20 Lines • Show All 608 Lines • ▼ Show 20 Lines	public:
bool hasFlatLgkmVMemCountInOrder() const {		bool hasFlatLgkmVMemCountInOrder() const {
return getGeneration() > GFX9;		return getGeneration() > GFX9;
}		}

bool hasD16LoadStore() const {		bool hasD16LoadStore() const {
return getGeneration() >= GFX9;		return getGeneration() >= GFX9;
}		}

		bool d16PreservesUnusedBits() const {
		return hasD16LoadStore() && !isSRAMECCEnabled();
		}

/// Return if most LDS instructions have an m0 use that require m0 to be		/// Return if most LDS instructions have an m0 use that require m0 to be
/// iniitalized.		/// iniitalized.
bool ldsRequiresM0Init() const {		bool ldsRequiresM0Init() const {
return getGeneration() < GFX9;		return getGeneration() < GFX9;
}		}

bool hasAddNoCarry() const {		bool hasAddNoCarry() const {
return AddNoCarryInsts;		return AddNoCarryInsts;
▲ Show 20 Lines • Show All 477 Lines • Show Last 20 Lines

lib/Target/AMDGPU/BUFInstructions.td

Show First 20 Lines • Show All 1,370 Lines • ▼ Show 20 Lines	multiclass MUBUFScratchLoadPat <MUBUF_Pseudo InstrOffen,

def : GCNPat <		def : GCNPat <
(vt (ld (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset))),		(vt (ld (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset))),
(InstrOffset $srsrc, $soffset, $offset, 0, 0, 0)		(InstrOffset $srsrc, $soffset, $offset, 0, 0, 0)
>;		>;
}		}

// XXX - Is it possible to have a complex pattern in a PatFrag?		// XXX - Is it possible to have a complex pattern in a PatFrag?
multiclass MUBUFScratchLoadPat_Hi16 <MUBUF_Pseudo InstrOffen,		multiclass MUBUFScratchLoadPat_D16 <MUBUF_Pseudo InstrOffen,
MUBUF_Pseudo InstrOffset,		MUBUF_Pseudo InstrOffset,
ValueType vt, PatFrag ld> {		ValueType vt, PatFrag ld_frag> {
def : GCNPat <
(build_vector vt:$lo, (vt (ld (MUBUFScratchOffen v4i32:$srsrc, i32:$vaddr,
i32:$soffset, u16imm:$offset)))),
(v2i16 (InstrOffen $vaddr, $srsrc, $soffset, $offset, 0, 0, 0, $lo))
>;

def : GCNPat <
(build_vector f16:$lo, (f16 (bitconvert (vt (ld (MUBUFScratchOffen v4i32:$srsrc, i32:$vaddr,
i32:$soffset, u16imm:$offset)))))),
(v2f16 (InstrOffen $vaddr, $srsrc, $soffset, $offset, 0, 0, 0, $lo))
>;


def : GCNPat <
(build_vector vt:$lo, (vt (ld (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset)))),
(v2i16 (InstrOffset $srsrc, $soffset, $offset, 0, 0, 0, $lo))
>;

def : GCNPat <
(build_vector f16:$lo, (f16 (bitconvert (vt (ld (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset)))))),
(v2f16 (InstrOffset $srsrc, $soffset, $offset, 0, 0, 0, $lo))
>;
}

multiclass MUBUFScratchLoadPat_Lo16 <MUBUF_Pseudo InstrOffen,
MUBUF_Pseudo InstrOffset,
ValueType vt, PatFrag ld> {
def : GCNPat <
(build_vector (vt (ld (MUBUFScratchOffen v4i32:$srsrc, i32:$vaddr,
i32:$soffset, u16imm:$offset))),
(vt (Hi16Elt vt:$hi))),
(v2i16 (InstrOffen $vaddr, $srsrc, $soffset, $offset, 0, 0, 0, $hi))
>;

def : GCNPat <
(build_vector (f16 (bitconvert (vt (ld (MUBUFScratchOffen v4i32:$srsrc, i32:$vaddr,
i32:$soffset, u16imm:$offset))))),
(f16 (Hi16Elt f16:$hi))),
(v2f16 (InstrOffen $vaddr, $srsrc, $soffset, $offset, 0, 0, 0, $hi))
>;

def : GCNPat <		def : GCNPat <
(build_vector (vt (ld (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset))),		(ld_frag (MUBUFScratchOffen v4i32:$srsrc, i32:$vaddr, i32:$soffset, u16imm:$offset), vt:$in),
(vt (Hi16Elt vt:$hi))),		(InstrOffen $vaddr, $srsrc, $soffset, $offset, 0, 0, 0, $in)
(v2i16 (InstrOffset $srsrc, $soffset, $offset, 0, 0, 0, $hi))
>;		>;

def : GCNPat <		def : GCNPat <
(build_vector (f16 (bitconvert (vt (ld (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset))))),		(ld_frag (MUBUFScratchOffset v4i32:$srsrc, i32:$soffset, u16imm:$offset), vt:$in),
(f16 (Hi16Elt f16:$hi))),		(InstrOffset $srsrc, $soffset, $offset, 0, 0, 0, $in)
(v2f16 (InstrOffset $srsrc, $soffset, $offset, 0, 0, 0, $hi))
>;		>;
}		}

defm : MUBUFScratchLoadPat <BUFFER_LOAD_SBYTE_OFFEN, BUFFER_LOAD_SBYTE_OFFSET, i32, sextloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_SBYTE_OFFEN, BUFFER_LOAD_SBYTE_OFFSET, i32, sextloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i32, az_extloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i32, az_extloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_SBYTE_OFFEN, BUFFER_LOAD_SBYTE_OFFSET, i16, sextloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_SBYTE_OFFEN, BUFFER_LOAD_SBYTE_OFFSET, i16, sextloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i16, az_extloadi8_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_UBYTE_OFFEN, BUFFER_LOAD_UBYTE_OFFSET, i16, az_extloadi8_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_SSHORT_OFFEN, BUFFER_LOAD_SSHORT_OFFSET, i32, sextloadi16_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_SSHORT_OFFEN, BUFFER_LOAD_SSHORT_OFFSET, i32, sextloadi16_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i32, az_extloadi16_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i32, az_extloadi16_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i16, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_USHORT_OFFEN, BUFFER_LOAD_USHORT_OFFSET, i16, load_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORD_OFFEN, BUFFER_LOAD_DWORD_OFFSET, i32, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORD_OFFEN, BUFFER_LOAD_DWORD_OFFSET, i32, load_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX2_OFFEN, BUFFER_LOAD_DWORDX2_OFFSET, v2i32, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX2_OFFEN, BUFFER_LOAD_DWORDX2_OFFSET, v2i32, load_private>;
defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX4_OFFEN, BUFFER_LOAD_DWORDX4_OFFSET, v4i32, load_private>;		defm : MUBUFScratchLoadPat <BUFFER_LOAD_DWORDX4_OFFEN, BUFFER_LOAD_DWORDX4_OFFSET, v4i32, load_private>;

let OtherPredicates = [D16PreservesUnusedBits] in {		let OtherPredicates = [D16PreservesUnusedBits] in {
defm : MUBUFScratchLoadPat_Hi16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, i16, load_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, v2i16, load_d16_hi_private>;
defm : MUBUFScratchLoadPat_Hi16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, i16, az_extloadi8_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, v2i16, az_extloadi8_d16_hi_private>;
defm : MUBUFScratchLoadPat_Hi16<BUFFER_LOAD_SBYTE_D16_HI_OFFEN, BUFFER_LOAD_SBYTE_D16_HI_OFFSET, i16, sextloadi8_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SBYTE_D16_HI_OFFEN, BUFFER_LOAD_SBYTE_D16_HI_OFFSET, v2i16, sextloadi8_d16_hi_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_HI_OFFEN, BUFFER_LOAD_SHORT_D16_HI_OFFSET, v2f16, load_d16_hi_private>;
defm : MUBUFScratchLoadPat_Lo16<BUFFER_LOAD_SHORT_D16_OFFEN, BUFFER_LOAD_SHORT_D16_OFFSET, i16, load_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_HI_OFFEN, BUFFER_LOAD_UBYTE_D16_HI_OFFSET, v2f16, az_extloadi8_d16_hi_private>;
defm : MUBUFScratchLoadPat_Lo16<BUFFER_LOAD_UBYTE_D16_OFFEN, BUFFER_LOAD_UBYTE_D16_OFFSET, i16, az_extloadi8_private>;		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SBYTE_D16_HI_OFFEN, BUFFER_LOAD_SBYTE_D16_HI_OFFSET, v2f16, sextloadi8_d16_hi_private>;
defm : MUBUFScratchLoadPat_Lo16<BUFFER_LOAD_SBYTE_D16_OFFEN, BUFFER_LOAD_SBYTE_D16_OFFSET, i16, sextloadi8_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_OFFEN, BUFFER_LOAD_SHORT_D16_OFFSET, v2i16, load_d16_lo_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_OFFEN, BUFFER_LOAD_UBYTE_D16_OFFSET, v2i16, az_extloadi8_d16_lo_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SBYTE_D16_OFFEN, BUFFER_LOAD_SBYTE_D16_OFFSET, v2i16, sextloadi8_d16_lo_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SHORT_D16_OFFEN, BUFFER_LOAD_SHORT_D16_OFFSET, v2f16, load_d16_lo_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_UBYTE_D16_OFFEN, BUFFER_LOAD_UBYTE_D16_OFFSET, v2f16, az_extloadi8_d16_lo_private>;
		defm : MUBUFScratchLoadPat_D16<BUFFER_LOAD_SBYTE_D16_OFFEN, BUFFER_LOAD_SBYTE_D16_OFFSET, v2f16, sextloadi8_d16_lo_private>;
}		}
multiclass MUBUFStore_Atomic_Pattern <MUBUF_Pseudo Instr_ADDR64, MUBUF_Pseudo Instr_OFFSET,		multiclass MUBUFStore_Atomic_Pattern <MUBUF_Pseudo Instr_ADDR64, MUBUF_Pseudo Instr_OFFSET,
ValueType vt, PatFrag atomic_st> {		ValueType vt, PatFrag atomic_st> {
// Store follows atomic op convention so address is forst		// Store follows atomic op convention so address is forst
def : GCNPat <		def : GCNPat <
(atomic_st (MUBUFAddr64 v4i32:$srsrc, i64:$vaddr, i32:$soffset,		(atomic_st (MUBUFAddr64 v4i32:$srsrc, i64:$vaddr, i32:$soffset,
i16:$offset, i1:$slc), vt:$val),		i16:$offset, i1:$slc), vt:$val),
(Instr_ADDR64 $val, $vaddr, $srsrc, $soffset, $offset, 0, $slc, 0)		(Instr_ADDR64 $val, $vaddr, $srsrc, $soffset, $offset, 0, $slc, 0)
▲ Show 20 Lines • Show All 658 Lines • Show Last 20 Lines

lib/Target/AMDGPU/DSInstructions.td

Show First 20 Lines • Show All 605 Lines • ▼ Show 20 Lines	let OtherPredicates = [LDSRequiresM0Init] in {
def : DSReadPat<inst, vt, !cast<PatFrag>(frag#"_m0")>;		def : DSReadPat<inst, vt, !cast<PatFrag>(frag#"_m0")>;
}		}

let OtherPredicates = [NotLDSRequiresM0Init] in {		let OtherPredicates = [NotLDSRequiresM0Init] in {
def : DSReadPat<!cast<DS_Pseudo>(!cast<string>(inst)#"_gfx9"), vt, !cast<PatFrag>(frag)>;		def : DSReadPat<!cast<DS_Pseudo>(!cast<string>(inst)#"_gfx9"), vt, !cast<PatFrag>(frag)>;
}		}
}		}

		class DSReadPat_D16 <DS_Pseudo inst, PatFrag frag, ValueType vt> : GCNPat <
multiclass DSReadPat_Hi16 <DS_Pseudo inst, PatFrag frag, ValueType vt = i16> {		(frag (DS1Addr1Offset i32:$ptr, i32:$offset), vt:$in),
def : GCNPat <		(inst $ptr, (as_i16imm $offset), (i1 0), $in)
(build_vector vt:$lo, (vt (frag (DS1Addr1Offset i32:$ptr, i32:$offset)))),
(v2i16 (inst $ptr, (as_i16imm $offset), (i1 0), $lo))
>;

def : GCNPat <
(build_vector f16:$lo, (f16 (bitconvert (vt (frag (DS1Addr1Offset i32:$ptr, i32:$offset)))))),
(v2f16 (inst $ptr, (as_i16imm $offset), (i1 0), $lo))
>;
}

multiclass DSReadPat_Lo16 <DS_Pseudo inst, PatFrag frag, ValueType vt = i16> {
def : GCNPat <
(build_vector (vt (frag (DS1Addr1Offset i32:$ptr, i32:$offset))), (vt (Hi16Elt vt:$hi))),
(v2i16 (inst $ptr, (as_i16imm $offset), 0, $hi))
>;

def : GCNPat <
(build_vector (f16 (bitconvert (vt (frag (DS1Addr1Offset i32:$ptr, i32:$offset))))), (f16 (Hi16Elt f16:$hi))),
(v2f16 (inst $ptr, (as_i16imm $offset), 0, $hi))
>;		>;
}

defm : DSReadPat_mc <DS_READ_I8, i32, "sextloadi8_local">;		defm : DSReadPat_mc <DS_READ_I8, i32, "sextloadi8_local">;
defm : DSReadPat_mc <DS_READ_U8, i32, "az_extloadi8_local">;		defm : DSReadPat_mc <DS_READ_U8, i32, "az_extloadi8_local">;
defm : DSReadPat_mc <DS_READ_I8, i16, "sextloadi8_local">;		defm : DSReadPat_mc <DS_READ_I8, i16, "sextloadi8_local">;
defm : DSReadPat_mc <DS_READ_U8, i16, "az_extloadi8_local">;		defm : DSReadPat_mc <DS_READ_U8, i16, "az_extloadi8_local">;
defm : DSReadPat_mc <DS_READ_I16, i32, "sextloadi16_local">;		defm : DSReadPat_mc <DS_READ_I16, i32, "sextloadi16_local">;
defm : DSReadPat_mc <DS_READ_I16, i32, "sextloadi16_local">;		defm : DSReadPat_mc <DS_READ_I16, i32, "sextloadi16_local">;
defm : DSReadPat_mc <DS_READ_U16, i32, "az_extloadi16_local">;		defm : DSReadPat_mc <DS_READ_U16, i32, "az_extloadi16_local">;
defm : DSReadPat_mc <DS_READ_U16, i16, "load_local">;		defm : DSReadPat_mc <DS_READ_U16, i16, "load_local">;
defm : DSReadPat_mc <DS_READ_B32, i32, "load_local">;		defm : DSReadPat_mc <DS_READ_B32, i32, "load_local">;
defm : DSReadPat_mc <DS_READ_B32, i32, "atomic_load_32_local">;		defm : DSReadPat_mc <DS_READ_B32, i32, "atomic_load_32_local">;
defm : DSReadPat_mc <DS_READ_B64, i64, "atomic_load_64_local">;		defm : DSReadPat_mc <DS_READ_B64, i64, "atomic_load_64_local">;

let AddedComplexity = 100 in {		let AddedComplexity = 100 in {

defm : DSReadPat_mc <DS_READ_B64, v2i32, "load_align8_local">;		defm : DSReadPat_mc <DS_READ_B64, v2i32, "load_align8_local">;
defm : DSReadPat_mc <DS_READ_B128, v4i32, "load_align16_local">;		defm : DSReadPat_mc <DS_READ_B128, v4i32, "load_align16_local">;

} // End AddedComplexity = 100		} // End AddedComplexity = 100

let OtherPredicates = [D16PreservesUnusedBits] in {		let OtherPredicates = [D16PreservesUnusedBits] in {
let AddedComplexity = 100 in {		def : DSReadPat_D16<DS_READ_U16_D16_HI, load_d16_hi_local, v2i16>;
defm : DSReadPat_Hi16<DS_READ_U16_D16_HI, load_local>;		def : DSReadPat_D16<DS_READ_U16_D16_HI, load_d16_hi_local, v2f16>;
defm : DSReadPat_Hi16<DS_READ_U8_D16_HI, az_extloadi8_local>;		def : DSReadPat_D16<DS_READ_U8_D16_HI, az_extloadi8_d16_hi_local, v2i16>;
defm : DSReadPat_Hi16<DS_READ_I8_D16_HI, sextloadi8_local>;		def : DSReadPat_D16<DS_READ_U8_D16_HI, az_extloadi8_d16_hi_local, v2f16>;
		def : DSReadPat_D16<DS_READ_I8_D16_HI, sextloadi8_d16_hi_local, v2i16>;
defm : DSReadPat_Lo16<DS_READ_U16_D16, load_local>;		def : DSReadPat_D16<DS_READ_I8_D16_HI, sextloadi8_d16_hi_local, v2f16>;
defm : DSReadPat_Lo16<DS_READ_U8_D16, az_extloadi8_local>;
defm : DSReadPat_Lo16<DS_READ_I8_D16, sextloadi8_local>;		def : DSReadPat_D16<DS_READ_U16_D16, load_d16_lo_local, v2i16>;
		def : DSReadPat_D16<DS_READ_U16_D16, load_d16_lo_local, v2f16>;
}		def : DSReadPat_D16<DS_READ_U8_D16, az_extloadi8_d16_lo_local, v2i16>;
		def : DSReadPat_D16<DS_READ_U8_D16, az_extloadi8_d16_lo_local, v2f16>;
		def : DSReadPat_D16<DS_READ_I8_D16, sextloadi8_d16_lo_local, v2i16>;
		def : DSReadPat_D16<DS_READ_I8_D16, sextloadi8_d16_lo_local, v2f16>;
}		}

class DSWritePat <DS_Pseudo inst, ValueType vt, PatFrag frag> : GCNPat <		class DSWritePat <DS_Pseudo inst, ValueType vt, PatFrag frag> : GCNPat <
(frag vt:$value, (DS1Addr1Offset i32:$ptr, i32:$offset)),		(frag vt:$value, (DS1Addr1Offset i32:$ptr, i32:$offset)),
(inst $ptr, $value, (as_i16imm $offset), (i1 0))		(inst $ptr, $value, (as_i16imm $offset), (i1 0))
>;		>;

multiclass DSWritePat_mc <DS_Pseudo inst, ValueType vt, string frag> {		multiclass DSWritePat_mc <DS_Pseudo inst, ValueType vt, string frag> {
▲ Show 20 Lines • Show All 503 Lines • Show Last 20 Lines

lib/Target/AMDGPU/FLATInstructions.td

	Show First 20 Lines • Show All 657 Lines • ▼ Show 20 Lines
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	// Patterns for global loads with no offset.			// Patterns for global loads with no offset.
	class FlatLoadPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <			class FlatLoadPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
	(vt (node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc))),			(vt (node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc))),
	(inst $vaddr, $offset, 0, $slc)			(inst $vaddr, $offset, 0, $slc)
	>;			>;

	multiclass FlatLoadPat_Hi16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt = i16> {			class FlatLoadPat_D16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
	def : GCNPat <			(node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc), vt:$in),
	(build_vector vt:$elt0, (vt (node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc)))),			(inst $vaddr, $offset, 0, $slc, $in)
	(v2i16 (inst $vaddr, $offset, 0, $slc, $elt0))
	>;			>;

	def : GCNPat <			class FlatSignedLoadPat_D16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
	(build_vector f16:$elt0, (f16 (bitconvert (vt (node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc)))))),			(node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc), vt:$in),
	(v2f16 (inst $vaddr, $offset, 0, $slc, $elt0))			(inst $vaddr, $offset, 0, $slc, $in)
	>;			>;
	}

	multiclass FlatSignedLoadPat_Hi16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt = i16> {
	def : GCNPat <
	(build_vector vt:$elt0, (vt (node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc)))),
	(v2i16 (inst $vaddr, $offset, 0, $slc, $elt0))
	>;

	def : GCNPat <
	(build_vector f16:$elt0, (f16 (bitconvert (vt (node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc)))))),
	(v2f16 (inst $vaddr, $offset, 0, $slc, $elt0))
	>;
	}

	multiclass FlatLoadPat_Lo16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt = i16> {
	def : GCNPat <
	(build_vector (vt (node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc))), (vt (Hi16Elt vt:$hi))),
	(v2i16 (inst $vaddr, $offset, 0, $slc, $hi))
	>;

	def : GCNPat <
	(build_vector (f16 (bitconvert (vt (node (FLATOffset i64:$vaddr, i16:$offset, i1:$slc))))), (f16 (Hi16Elt f16:$hi))),
	(v2f16 (inst $vaddr, $offset, 0, $slc, $hi))
	>;
	}

	multiclass FlatSignedLoadPat_Lo16 <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt = i16> {
	def : GCNPat <
	(build_vector (vt (node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc))), (vt (Hi16Elt vt:$hi))),
	(v2i16 (inst $vaddr, $offset, 0, $slc, $hi))
	>;

	def : GCNPat <
	(build_vector (f16 (bitconvert (vt (node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc))))), (f16 (Hi16Elt f16:$hi))),
	(v2f16 (inst $vaddr, $offset, 0, $slc, $hi))
	>;
	}

	class FlatLoadAtomicPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <			class FlatLoadAtomicPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
	(vt (node (FLATAtomic i64:$vaddr, i16:$offset, i1:$slc))),			(vt (node (FLATAtomic i64:$vaddr, i16:$offset, i1:$slc))),
	(inst $vaddr, $offset, 0, $slc)			(inst $vaddr, $offset, 0, $slc)
	>;			>;

	class FlatLoadSignedPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <			class FlatLoadSignedPat <FLAT_Pseudo inst, SDPatternOperator node, ValueType vt> : GCNPat <
	(vt (node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc))),			(vt (node (FLATOffsetSigned i64:$vaddr, i16:$offset, i1:$slc))),
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines

	def : FlatStorePat <FLAT_STORE_BYTE, truncstorei8_flat, i16>;			def : FlatStorePat <FLAT_STORE_BYTE, truncstorei8_flat, i16>;
	def : FlatStorePat <FLAT_STORE_SHORT, store_flat, i16>;			def : FlatStorePat <FLAT_STORE_SHORT, store_flat, i16>;

	let OtherPredicates = [D16PreservesUnusedBits] in {			let OtherPredicates = [D16PreservesUnusedBits] in {
	def : FlatStorePat <FLAT_STORE_SHORT_D16_HI, truncstorei16_hi16_flat, i32>;			def : FlatStorePat <FLAT_STORE_SHORT_D16_HI, truncstorei16_hi16_flat, i32>;
	def : FlatStorePat <FLAT_STORE_BYTE_D16_HI, truncstorei8_hi16_flat, i32>;			def : FlatStorePat <FLAT_STORE_BYTE_D16_HI, truncstorei8_hi16_flat, i32>;

	let AddedComplexity = 3 in {			def : FlatLoadPat_D16 <FLAT_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_flat, v2i16>;
	defm : FlatLoadPat_Hi16 <FLAT_LOAD_UBYTE_D16_HI, az_extloadi8_flat>;			def : FlatLoadPat_D16 <FLAT_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_flat, v2f16>;
	defm : FlatLoadPat_Hi16 <FLAT_LOAD_SBYTE_D16_HI, sextloadi8_flat>;			def : FlatLoadPat_D16 <FLAT_LOAD_SBYTE_D16_HI, sextloadi8_d16_hi_flat, v2i16>;
	defm : FlatLoadPat_Hi16 <FLAT_LOAD_SHORT_D16_HI, load_flat>;			def : FlatLoadPat_D16 <FLAT_LOAD_SBYTE_D16_HI, sextloadi8_d16_hi_flat, v2f16>;
	}			def : FlatLoadPat_D16 <FLAT_LOAD_SHORT_D16_HI, load_d16_hi_flat, v2i16>;
				def : FlatLoadPat_D16 <FLAT_LOAD_SHORT_D16_HI, load_d16_hi_flat, v2f16>;
	let AddedComplexity = 9 in {
	defm : FlatLoadPat_Lo16 <FLAT_LOAD_UBYTE_D16, az_extloadi8_flat>;			def : FlatLoadPat_D16 <FLAT_LOAD_UBYTE_D16, az_extloadi8_d16_lo_flat, v2i16>;
	defm : FlatLoadPat_Lo16 <FLAT_LOAD_SBYTE_D16, sextloadi8_flat>;			def : FlatLoadPat_D16 <FLAT_LOAD_UBYTE_D16, az_extloadi8_d16_lo_flat, v2f16>;
	defm : FlatLoadPat_Lo16 <FLAT_LOAD_SHORT_D16, load_flat>;			def : FlatLoadPat_D16 <FLAT_LOAD_SBYTE_D16, sextloadi8_d16_lo_flat, v2i16>;
	}			def : FlatLoadPat_D16 <FLAT_LOAD_SBYTE_D16, sextloadi8_d16_lo_flat, v2f16>;
				def : FlatLoadPat_D16 <FLAT_LOAD_SHORT_D16, load_d16_lo_flat, v2i16>;
				def : FlatLoadPat_D16 <FLAT_LOAD_SHORT_D16, load_d16_lo_flat, v2f16>;
	}			}

	} // End OtherPredicates = [HasFlatAddressSpace]			} // End OtherPredicates = [HasFlatAddressSpace]

	let OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10 in {			let OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10 in {

	def : FlatLoadSignedPat <GLOBAL_LOAD_UBYTE, az_extloadi8_global, i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_UBYTE, az_extloadi8_global, i32>;
	def : FlatLoadSignedPat <GLOBAL_LOAD_SBYTE, sextloadi8_global, i32>;			def : FlatLoadSignedPat <GLOBAL_LOAD_SBYTE, sextloadi8_global, i32>;
	Show All 17 Lines
	def : FlatStoreSignedPat <GLOBAL_STORE_DWORD, store_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_DWORD, store_global, i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX2, store_global, v2i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX2, store_global, v2i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX4, store_global, v4i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_DWORDX4, store_global, v4i32>;

	let OtherPredicates = [D16PreservesUnusedBits] in {			let OtherPredicates = [D16PreservesUnusedBits] in {
	def : FlatStoreSignedPat <GLOBAL_STORE_SHORT_D16_HI, truncstorei16_hi16_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_SHORT_D16_HI, truncstorei16_hi16_global, i32>;
	def : FlatStoreSignedPat <GLOBAL_STORE_BYTE_D16_HI, truncstorei8_hi16_global, i32>;			def : FlatStoreSignedPat <GLOBAL_STORE_BYTE_D16_HI, truncstorei8_hi16_global, i32>;

	defm : FlatSignedLoadPat_Hi16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_global>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_global, v2i16>;
	defm : FlatSignedLoadPat_Hi16 <GLOBAL_LOAD_SBYTE_D16_HI, sextloadi8_global>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16_HI, az_extloadi8_d16_hi_global, v2f16>;
	defm : FlatSignedLoadPat_Hi16 <GLOBAL_LOAD_SHORT_D16_HI, load_global>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SBYTE_D16_HI, sextloadi8_d16_hi_global, v2i16>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SBYTE_D16_HI, sextloadi8_d16_hi_global, v2f16>;
	defm : FlatSignedLoadPat_Lo16 <GLOBAL_LOAD_UBYTE_D16, az_extloadi8_global>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SHORT_D16_HI, load_d16_hi_global, v2i16>;
	defm : FlatSignedLoadPat_Lo16 <GLOBAL_LOAD_SBYTE_D16, sextloadi8_global>;			def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SHORT_D16_HI, load_d16_hi_global, v2f16>;
	defm : FlatSignedLoadPat_Lo16 <GLOBAL_LOAD_SHORT_D16, load_global>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16, az_extloadi8_d16_lo_global, v2i16>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_UBYTE_D16, az_extloadi8_d16_lo_global, v2f16>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SBYTE_D16, sextloadi8_d16_lo_global, v2i16>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SBYTE_D16, sextloadi8_d16_lo_global, v2f16>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SHORT_D16, load_d16_lo_global, v2i16>;
				def : FlatSignedLoadPat_D16 <GLOBAL_LOAD_SHORT_D16, load_d16_lo_global, v2f16>;
	}			}

	def : FlatStoreSignedAtomicPat <GLOBAL_STORE_DWORD, store_atomic_global, i32>;			def : FlatStoreSignedAtomicPat <GLOBAL_STORE_DWORD, store_atomic_global, i32>;
	def : FlatStoreSignedAtomicPat <GLOBAL_STORE_DWORDX2, store_atomic_global, i64>;			def : FlatStoreSignedAtomicPat <GLOBAL_STORE_DWORDX2, store_atomic_global, i64>;

	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_ADD_RTN, atomic_add_global, i32>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_ADD_RTN, atomic_add_global, i32>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_SUB_RTN, atomic_sub_global, i32>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_SUB_RTN, atomic_sub_global, i32>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_INC_RTN, atomic_inc_global, i32>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_INC_RTN, atomic_inc_global, i32>;
	Show All 17 Lines
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_UMAX_X2_RTN, atomic_umax_global, i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_UMAX_X2_RTN, atomic_umax_global, i64>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_SMIN_X2_RTN, atomic_min_global, i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_SMIN_X2_RTN, atomic_min_global, i64>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_UMIN_X2_RTN, atomic_umin_global, i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_UMIN_X2_RTN, atomic_umin_global, i64>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_OR_X2_RTN, atomic_or_global, i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_OR_X2_RTN, atomic_or_global, i64>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_SWAP_X2_RTN, atomic_swap_global, i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_SWAP_X2_RTN, atomic_swap_global, i64>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_CMPSWAP_X2_RTN, AMDGPUatomic_cmp_swap_global, i64, v2i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_CMPSWAP_X2_RTN, AMDGPUatomic_cmp_swap_global, i64, v2i64>;
	def : FlatSignedAtomicPat <GLOBAL_ATOMIC_XOR_X2_RTN, atomic_xor_global, i64>;			def : FlatSignedAtomicPat <GLOBAL_ATOMIC_XOR_X2_RTN, atomic_xor_global, i64>;

	} // End OtherPredicates = [HasFlatGlobalInsts]			} // End OtherPredicates = [HasFlatGlobalInsts], AddedComplexity = 10


	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// Target			// Target
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// CI			// CI
	▲ Show 20 Lines • Show All 221 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.td

Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
def SIatomic_fmin : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMIN", SDTAtomic2_f32,		def SIatomic_fmin : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMIN", SDTAtomic2_f32,
[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
>;		>;

def SIatomic_fmax : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMAX", SDTAtomic2_f32,		def SIatomic_fmax : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMAX", SDTAtomic2_f32,
[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]		[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
>;		>;

		// load_d16_{lo\|hi} ptr, tied_input
		def SIload_d16 : SDTypeProfile<1, 2, [
		SDTCisPtrTy<1>,
		SDTCisSameAs<0, 2>
		]>;


def SDTtbuffer_load : SDTypeProfile<1, 8,		def SDTtbuffer_load : SDTypeProfile<1, 8,
[ // vdata		[ // vdata
SDTCisVT<1, v4i32>, // rsrc		SDTCisVT<1, v4i32>, // rsrc
SDTCisVT<2, i32>, // vindex(VGPR)		SDTCisVT<2, i32>, // vindex(VGPR)
SDTCisVT<3, i32>, // voffset(VGPR)		SDTCisVT<3, i32>, // voffset(VGPR)
SDTCisVT<4, i32>, // soffset(SGPR)		SDTCisVT<4, i32>, // soffset(SGPR)
SDTCisVT<5, i32>, // offset(imm)		SDTCisVT<5, i32>, // offset(imm)
SDTCisVT<6, i32>, // format(imm)		SDTCisVT<6, i32>, // format(imm)
▲ Show 20 Lines • Show All 102 Lines • ▼ Show 20 Lines	SDTypeProfile<1, 9,
SDTCisVT<9, i1>]>, // idxen(imm)		SDTCisVT<9, i1>]>, // idxen(imm)
[SDNPMemOperand, SDNPHasChain, SDNPMayLoad, SDNPMayStore]		[SDNPMemOperand, SDNPHasChain, SDNPMayLoad, SDNPMayStore]
>;		>;

def SIpc_add_rel_offset : SDNode<"AMDGPUISD::PC_ADD_REL_OFFSET",		def SIpc_add_rel_offset : SDNode<"AMDGPUISD::PC_ADD_REL_OFFSET",
SDTypeProfile<1, 2, [SDTCisVT<0, iPTR>, SDTCisSameAs<0,1>, SDTCisSameAs<0,2>]>		SDTypeProfile<1, 2, [SDTCisVT<0, iPTR>, SDTCisSameAs<0,1>, SDTCisSameAs<0,2>]>
>;		>;

		def SIload_d16_lo : SDNode<"AMDGPUISD::LOAD_D16_LO",
		SIload_d16,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
		>;

		def SIload_d16_lo_u8 : SDNode<"AMDGPUISD::LOAD_D16_LO_U8",
		SIload_d16,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
		>;

		def SIload_d16_lo_i8 : SDNode<"AMDGPUISD::LOAD_D16_LO_I8",
		SIload_d16,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
		>;

		def SIload_d16_hi : SDNode<"AMDGPUISD::LOAD_D16_HI",
		SIload_d16,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
		>;

		def SIload_d16_hi_u8 : SDNode<"AMDGPUISD::LOAD_D16_HI_U8",
		SIload_d16,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
		>;

		def SIload_d16_hi_i8 : SDNode<"AMDGPUISD::LOAD_D16_HI_I8",
		SIload_d16,
		[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]
		>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// ValueType helpers		// ValueType helpers
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// Returns 1 if the source arguments have modifiers, 0 if they do not.		// Returns 1 if the source arguments have modifiers, 0 if they do not.
// XXX - do f16 instructions?		// XXX - do f16 instructions?
class isFloatType<ValueType SrcVT> {		class isFloatType<ValueType SrcVT> {
bit ret =		bit ret =
▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines	for (SDNode *Use : N->uses()) {

unsigned Reg = cast<RegisterSDNode>(Use->getOperand(1))->getReg();		unsigned Reg = cast<RegisterSDNode>(Use->getOperand(1))->getReg();
if (Reg != AMDGPU::SCC)		if (Reg != AMDGPU::SCC)
return false;		return false;
}		}
return true;		return true;
}]>;		}]>;

		//===----------------------------------------------------------------------===//
		// SDNodes PatFrags for d16 loads
		//===----------------------------------------------------------------------===//

		class LoadD16Frag <SDPatternOperator op> : PatFrag<(ops node:$ptr, node:$tied_in), (op node:$ptr, node:$tied_in)>;
		class LocalLoadD16 <SDPatternOperator op> : LoadD16Frag <op>, LocalAddress;
		class GlobalLoadD16 <SDPatternOperator op> : LoadD16Frag <op>, GlobalLoadAddress;
		class PrivateLoadD16 <SDPatternOperator op> : LoadD16Frag <op>, PrivateAddress;
		class FlatLoadD16 <SDPatternOperator op> : LoadD16Frag <op>, FlatLoadAddress;

		def load_d16_hi_local : LocalLoadD16 <SIload_d16_hi>;
		def az_extloadi8_d16_hi_local : LocalLoadD16 <SIload_d16_hi_u8>;
		def sextloadi8_d16_hi_local : LocalLoadD16 <SIload_d16_hi_i8>;

		def load_d16_hi_global : GlobalLoadD16 <SIload_d16_hi>;
		def az_extloadi8_d16_hi_global : GlobalLoadD16 <SIload_d16_hi_u8>;
		def sextloadi8_d16_hi_global : GlobalLoadD16 <SIload_d16_hi_i8>;

		def load_d16_hi_private : PrivateLoadD16 <SIload_d16_hi>;
		def az_extloadi8_d16_hi_private : PrivateLoadD16 <SIload_d16_hi_u8>;
		def sextloadi8_d16_hi_private : PrivateLoadD16 <SIload_d16_hi_i8>;

		def load_d16_hi_flat : FlatLoadD16 <SIload_d16_hi>;
		def az_extloadi8_d16_hi_flat : FlatLoadD16 <SIload_d16_hi_u8>;
		def sextloadi8_d16_hi_flat : FlatLoadD16 <SIload_d16_hi_i8>;


		def load_d16_lo_local : LocalLoadD16 <SIload_d16_lo>;
		def az_extloadi8_d16_lo_local : LocalLoadD16 <SIload_d16_lo_u8>;
		def sextloadi8_d16_lo_local : LocalLoadD16 <SIload_d16_lo_i8>;

		def load_d16_lo_global : GlobalLoadD16 <SIload_d16_lo>;
		def az_extloadi8_d16_lo_global : GlobalLoadD16 <SIload_d16_lo_u8>;
		def sextloadi8_d16_lo_global : GlobalLoadD16 <SIload_d16_lo_i8>;

		def load_d16_lo_private : PrivateLoadD16 <SIload_d16_lo>;
		def az_extloadi8_d16_lo_private : PrivateLoadD16 <SIload_d16_lo_u8>;
		def sextloadi8_d16_lo_private : PrivateLoadD16 <SIload_d16_lo_i8>;

		def load_d16_lo_flat : FlatLoadD16 <SIload_d16_lo>;
		def az_extloadi8_d16_lo_flat : FlatLoadD16 <SIload_d16_lo_u8>;
		def sextloadi8_d16_lo_flat : FlatLoadD16 <SIload_d16_lo_i8>;



def lshr_rev : PatFrag <		def lshr_rev : PatFrag <
(ops node:$src1, node:$src0),		(ops node:$src1, node:$src0),
(srl $src0, $src1)		(srl $src0, $src1)
>;		>;

def ashr_rev : PatFrag <		def ashr_rev : PatFrag <
(ops node:$src1, node:$src0),		(ops node:$src1, node:$src0),
(sra $src0, $src1)		(sra $src0, $src1)
▲ Show 20 Lines • Show All 1,654 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/build-vector-insert-elt-infloop.ll

	; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; There was an infinite loop in DAGCombiner from a target build_vector			; There was an infinite loop in DAGCombiner from a target build_vector
	; combine and a generic insert_vector_elt combine.			; combine and a generic insert_vector_elt combine.

	; GCN-LABEL: {{^}}combine_loop:			; GCN-LABEL: {{^}}combine_loop:
	; GCN: flat_load_ushort			; GCN: flat_load_short_d16_hi
	; GCN: flat_store_short			; GCN: flat_store_short
	; GCN: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
	define amdgpu_kernel void @combine_loop(i16* %arg) #0 {			define amdgpu_kernel void @combine_loop(i16* %arg) #0 {
	bb:			bb:
	br label %bb1			br label %bb1

	bb1:			bb1:
	%tmp = phi <2 x i16> [ <i16 15360, i16 15360>, %bb ], [ %tmp5, %bb1 ]			%tmp = phi <2 x i16> [ <i16 15360, i16 15360>, %bb ], [ %tmp5, %bb1 ]
	%tmp2 = phi half [ 0xH0000, %bb ], [ %tmp8, %bb1 ]			%tmp2 = phi half [ 0xH0000, %bb ], [ %tmp8, %bb1 ]
	%tmp3 = load volatile half, half* null, align 536870912			%tmp3 = load volatile half, half* null, align 536870912
	Show All 10 Lines

test/CodeGen/AMDGPU/chain-hi-to-lo.ll

; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX900 %s

; GCN-LABEL: {{^}}chain_hi_to_lo_private:		; GCN-LABEL: {{^}}chain_hi_to_lo_private:
; GCN: buffer_load_ushort [[DST:v[0-9]+]], off, [[RSRC:s\[[0-9]+:[0-9]+\]]], [[SOFF:s[0-9]+]] offset:2		; GCN: buffer_load_ushort [[DST:v[0-9]+]], off, [[RSRC:s\[[0-9]+:[0-9]+\]]], [[SOFF:s[0-9]+]] offset:2
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: buffer_load_short_d16_hi [[DST]], off, [[RSRC]], [[SOFF]]		; GCN-NEXT: buffer_load_short_d16_hi [[DST]], off, [[RSRC]], [[SOFF]]
define <2 x half> @chain_hi_to_lo_private() {		define <2 x half> @chain_hi_to_lo_private() {
bb:		bb:
%gep_lo = getelementptr inbounds half, half addrspace(5)* null, i64 1		%gep_lo = getelementptr inbounds half, half addrspace(5)* null, i64 1
▲ Show 20 Lines • Show All 160 Lines • ▼ Show 20 Lines	entry:
%loc.2.sroa_idx = getelementptr inbounds [3 x i16], [3 x i16] addrspace(5)* %loc, i32 0, i32 1		%loc.2.sroa_idx = getelementptr inbounds [3 x i16], [3 x i16] addrspace(5)* %loc, i32 0, i32 1
%loc.2.sroa_cast = bitcast i16 addrspace(5)* %loc.2.sroa_idx to <2 x i16> addrspace(5)*		%loc.2.sroa_cast = bitcast i16 addrspace(5)* %loc.2.sroa_idx to <2 x i16> addrspace(5)*
%loc.2. = load <2 x i16>, <2 x i16> addrspace(5)* %loc.2.sroa_cast, align 2		%loc.2. = load <2 x i16>, <2 x i16> addrspace(5)* %loc.2.sroa_cast, align 2
%arrayidx6 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 1		%arrayidx6 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 1
store <2 x i16> %loc.2., <2 x i16> addrspace(1)* %arrayidx6, align 4		store <2 x i16> %loc.2., <2 x i16> addrspace(1)* %arrayidx6, align 4
%loc.0.sroa_cast2 = bitcast [3 x i16] addrspace(5)* %loc to i8 addrspace(5)*		%loc.0.sroa_cast2 = bitcast [3 x i16] addrspace(5)* %loc to i8 addrspace(5)*
ret void		ret void
}		}

		; There is another instruction between the misordered instruction and
		; the value dependent load, so a simple operand check is insufficient.
		; GCN-LABEL: {{^}}chain_hi_to_lo_group_other_dep:
		; GFX900: ds_read_u16_d16_hi v1, v0
		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-NEXT: v_pk_add_u16 v1, v1, 12 op_sel_hi:[1,0]
		; GFX900-NEXT: ds_read_u16_d16 v1, v0 offset:2
		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-NEXT: v_mov_b32_e32 v0, v1
		; GFX900-NEXT: s_setpc_b64
		define <2 x i16> @chain_hi_to_lo_group_other_dep(i16 addrspace(3)* %ptr) {
		bb:
		%gep_lo = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 1
		%load_lo = load i16, i16 addrspace(3)* %gep_lo
		%gep_hi = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 0
		%load_hi = load i16, i16 addrspace(3)* %gep_hi
		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
		ret <2 x i16> %result
		}

		; The volatile operations aren't put on the same chain
		; GCN-LABEL: {{^}}chain_hi_to_lo_group_other_dep_multi_chain:
		; GFX900: ds_read_u16 v1, v0 offset:2
		; GFX900-NEXT: ds_read_u16_d16_hi v0, v0
		; GFX900-NEXT: v_mov_b32_e32 [[MASK:v[0-9]+]], 0xffff
		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-NEXT: v_pk_add_u16 v0, v0, 12 op_sel_hi:[1,0]
		; GFX900-NEXT: v_bfi_b32 v0, [[MASK]], v1, v0
		; GFX900-NEXT: s_setpc_b64
		define <2 x i16> @chain_hi_to_lo_group_other_dep_multi_chain(i16 addrspace(3)* %ptr) {
		bb:
		%gep_lo = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 1
		%load_lo = load volatile i16, i16 addrspace(3)* %gep_lo
		%gep_hi = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 0
		%load_hi = load volatile i16, i16 addrspace(3)* %gep_hi
		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
		ret <2 x i16> %result
		}

		; GCN-LABEL: {{^}}chain_hi_to_lo_private_other_dep:
		; GFX900: buffer_load_short_d16_hi v1, v0, s[0:3], s4 offen
		; GFX900-NEXT: s_waitcnt vmcnt(0)
		; GFX900-NEXT: v_pk_add_u16 v1, v1, 12 op_sel_hi:[1,0]
		; GFX900-NEXT: buffer_load_short_d16 v1, v0, s[0:3], s4 offen offset:2
		; GFX900-NEXT: s_waitcnt vmcnt(0)
		; GFX900-NEXT: v_mov_b32_e32 v0, v1
		; GFX900-NEXT: s_setpc_b64
		define <2 x i16> @chain_hi_to_lo_private_other_dep(i16 addrspace(5)* %ptr) {
		bb:
		%gep_lo = getelementptr inbounds i16, i16 addrspace(5)* %ptr, i64 1
		%load_lo = load i16, i16 addrspace(5)* %gep_lo
		%gep_hi = getelementptr inbounds i16, i16 addrspace(5)* %ptr, i64 0
		%load_hi = load i16, i16 addrspace(5)* %gep_hi
		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
		ret <2 x i16> %result
		}

		; GCN-LABEL: {{^}}chain_hi_to_lo_global_other_dep:
		; GFX900: global_load_ushort v2, v[0:1], off offset:2
		; GFX900-NEXT: global_load_short_d16_hi v0, v[0:1], off
		; GFX900-NEXT: v_mov_b32_e32 [[MASK:v[0-9]+]], 0xffff
		; GFX900-NEXT: s_waitcnt vmcnt(0)
		; GFX900-NEXT: v_pk_add_u16 v0, v0, 12 op_sel_hi:[1,0]
		; GFX900-NEXT: v_bfi_b32 v0, [[MASK]], v2, v0
		; GFX900-NEXT: s_setpc_b64
		define <2 x i16> @chain_hi_to_lo_global_other_dep(i16 addrspace(1)* %ptr) {
		bb:
		%gep_lo = getelementptr inbounds i16, i16 addrspace(1)* %ptr, i64 1
		%load_lo = load volatile i16, i16 addrspace(1)* %gep_lo
		%gep_hi = getelementptr inbounds i16, i16 addrspace(1)* %ptr, i64 0
		%load_hi = load volatile i16, i16 addrspace(1)* %gep_hi
		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
		ret <2 x i16> %result
		}

		; GCN-LABEL: {{^}}chain_hi_to_lo_flat_other_dep:
		; GFX900: flat_load_ushort v2, v[0:1] offset:2
		; GFX900-NEXT: flat_load_short_d16_hi v0, v[0:1]
		; GFX900-NEXT: v_mov_b32_e32 [[MASK:v[0-9]+]], 0xffff
		; GFX900-NEXT: s_waitcnt vmcnt(0) lgkmcnt(0)
		; GFX900-NEXT: v_pk_add_u16 v0, v0, 12 op_sel_hi:[1,0]
		; GFX900-NEXT: v_bfi_b32 v0, v1, v2, v0
		; GFX900-NEXT: s_setpc_b64
		define <2 x i16> @chain_hi_to_lo_flat_other_dep(i16 addrspace(0)* %ptr) {
		bb:
		%gep_lo = getelementptr inbounds i16, i16 addrspace(0)* %ptr, i64 1
		%load_lo = load volatile i16, i16 addrspace(0)* %gep_lo
		%gep_hi = getelementptr inbounds i16, i16 addrspace(0)* %ptr, i64 0
		%load_hi = load volatile i16, i16 addrspace(0)* %gep_hi
		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
		%op.hi = add <2 x i16> %to.hi, <i16 12, i16 12>
		%result = insertelement <2 x i16> %op.hi, i16 %load_lo, i32 0
		ret <2 x i16> %result
		}

		; GCN-LABEL: {{^}}chain_hi_to_lo_group_may_alias_store:
		; GFX900: v_mov_b32_e32 [[K:v[0-9]+]], 0x7b
		; GFX900-NEXT: ds_read_u16 v3, v0
		; GFX900-NEXT: ds_write_b16 v1, [[K]]
		; GFX900-NEXT: ds_read_u16 v0, v0 offset:2
		; GFX900-NEXT: s_waitcnt lgkmcnt(0)
		; GFX900-NEXT: v_and_b32_e32 v0, 0xffff, v0
		; GFX900-NEXT: v_lshl_or_b32 v0, v3, 16, v0
		; GFX900-NEXT: s_setpc_b64
		define <2 x i16> @chain_hi_to_lo_group_may_alias_store(i16 addrspace(3)* %ptr, i16 addrspace(3)* %may.alias) {
		bb:
		%gep_lo = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 1
		%gep_hi = getelementptr inbounds i16, i16 addrspace(3)* %ptr, i64 0
		%load_hi = load i16, i16 addrspace(3)* %gep_hi
		store i16 123, i16 addrspace(3)* %may.alias
		%load_lo = load i16, i16 addrspace(3)* %gep_lo

		%to.hi = insertelement <2 x i16> undef, i16 %load_hi, i32 1
		%result = insertelement <2 x i16> %to.hi, i16 %load_lo, i32 0
		ret <2 x i16> %result
		}

test/CodeGen/AMDGPU/load-hi16.ll

Show First 20 Lines • Show All 874 Lines • ▼ Show 20 Lines	entry:
%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 8		%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 8
%load.lo = load i16, i16 addrspace(3)* %in		%load.lo = load i16, i16 addrspace(3)* %in
%load.hi = load i16, i16 addrspace(3)* %gep		%load.hi = load i16, i16 addrspace(3)* %gep
%build0 = insertelement <2 x i16> undef, i16 %load.lo, i32 0		%build0 = insertelement <2 x i16> undef, i16 %load.lo, i32 0
%build1 = insertelement <2 x i16> %build0, i16 %load.hi, i32 1		%build1 = insertelement <2 x i16> %build0, i16 %load.hi, i32 1
ret <2 x i16> %build1		ret <2 x i16> %build1
}		}

		; FIXME: Remove and
		; GCN-LABEL: {{^}}load_local_v2i16_broadcast:
		; GCN: ds_read_u16 [[LOAD:v[0-9]+]]
		; GCN-NOT: ds_read
		; GFX9: v_and_b32_e32 [[AND:v[0-9]+]], 0xffff, [[LOAD]]
		; GFX9: v_lshl_or_b32 v0, [[LOAD]], 16, [[AND]]
		define <2 x i16> @load_local_v2i16_broadcast(i16 addrspace(3)* %in) #0 {
		entry:
		%gep = getelementptr inbounds i16, i16 addrspace(3)* %in, i32 1
		%load0 = load i16, i16 addrspace(3)* %in
		%build0 = insertelement <2 x i16> undef, i16 %load0, i32 0
		%build1 = insertelement <2 x i16> %build0, i16 %load0, i32 1
		ret <2 x i16> %build1
		}

; GCN-LABEL: {{^}}load_local_lo_hi_v2i16_side_effect:		; GCN-LABEL: {{^}}load_local_lo_hi_v2i16_side_effect:
; GFX900: ds_read_u16 [[LOAD0:v[0-9]+]], v0		; GFX900: ds_read_u16 [[LOAD0:v[0-9]+]], v0
; GFX900: ds_write_b16		; GFX900: ds_write_b16
; GFX900: ds_read_u16_d16_hi [[LOAD0]], v0 offset:16		; GFX900: ds_read_u16_d16_hi [[LOAD0]], v0 offset:16

; NO-D16-HI: ds_read_u16		; NO-D16-HI: ds_read_u16
; NO-D16-HI: ds_write_b16		; NO-D16-HI: ds_write_b16
; NO-D16-HI: ds_read_u16		; NO-D16-HI: ds_read_u16
▲ Show 20 Lines • Show All 88 Lines • Show Last 20 Lines