Diff 43468

llvm/trunk/lib/Target/AMDGPU/AMDGPU.td

	Show First 20 Lines • Show All 102 Lines • ▼ Show 20 Lines
	// base pointer values that won't give the same result as a 16-bit add			// base pointer values that won't give the same result as a 16-bit add
	// are not safe to fold, but this will override the conservative test			// are not safe to fold, but this will override the conservative test
	// for the base pointer.			// for the base pointer.
	def FeatureEnableUnsafeDSOffsetFolding : SubtargetFeature <"unsafe-ds-offset-folding",			def FeatureEnableUnsafeDSOffsetFolding : SubtargetFeature <"unsafe-ds-offset-folding",
	"EnableUnsafeDSOffsetFolding",			"EnableUnsafeDSOffsetFolding",
	"true",			"true",
	"Force using DS instruction immediate offsets on SI">;			"Force using DS instruction immediate offsets on SI">;

				def FeatureFlatForGlobal : SubtargetFeature<"flat-for-global",
				"FlatForGlobal",
				"true",
				"Force to generate flat instruction for global">;

	def FeatureFlatAddressSpace : SubtargetFeature<"flat-address-space",			def FeatureFlatAddressSpace : SubtargetFeature<"flat-address-space",
	"FlatAddressSpace",			"FlatAddressSpace",
	"true",			"true",
	"Support flat address space">;			"Support flat address space">;

	def FeatureVGPRSpilling : SubtargetFeature<"vgpr-spilling",			def FeatureVGPRSpilling : SubtargetFeature<"vgpr-spilling",
	"EnableVGPRSpilling",			"EnableVGPRSpilling",
	"true",			"true",
	▲ Show 20 Lines • Show All 176 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

Show First 20 Lines • Show All 89 Lines • ▼ Show 20 Lines	bool SelectGlobalValueVariableOffset(SDValue Addr, SDValue &BaseReg,
SDValue& Offset);		SDValue& Offset);
bool SelectADDRVTX_READ(SDValue Addr, SDValue &Base, SDValue &Offset);		bool SelectADDRVTX_READ(SDValue Addr, SDValue &Base, SDValue &Offset);
bool SelectADDRIndirect(SDValue Addr, SDValue &Base, SDValue &Offset);		bool SelectADDRIndirect(SDValue Addr, SDValue &Base, SDValue &Offset);
bool isDSOffsetLegal(const SDValue &Base, unsigned Offset,		bool isDSOffsetLegal(const SDValue &Base, unsigned Offset,
unsigned OffsetBits) const;		unsigned OffsetBits) const;
bool SelectDS1Addr1Offset(SDValue Ptr, SDValue &Base, SDValue &Offset) const;		bool SelectDS1Addr1Offset(SDValue Ptr, SDValue &Base, SDValue &Offset) const;
bool SelectDS64Bit4ByteAligned(SDValue Ptr, SDValue &Base, SDValue &Offset0,		bool SelectDS64Bit4ByteAligned(SDValue Ptr, SDValue &Base, SDValue &Offset0,
SDValue &Offset1) const;		SDValue &Offset1) const;
void SelectMUBUF(SDValue Addr, SDValue &SRsrc, SDValue &VAddr,		bool SelectMUBUF(SDValue Addr, SDValue &SRsrc, SDValue &VAddr,
SDValue &SOffset, SDValue &Offset, SDValue &Offen,		SDValue &SOffset, SDValue &Offset, SDValue &Offen,
SDValue &Idxen, SDValue &Addr64, SDValue &GLC, SDValue &SLC,		SDValue &Idxen, SDValue &Addr64, SDValue &GLC, SDValue &SLC,
SDValue &TFE) const;		SDValue &TFE) const;
bool SelectMUBUFAddr64(SDValue Addr, SDValue &SRsrc, SDValue &VAddr,		bool SelectMUBUFAddr64(SDValue Addr, SDValue &SRsrc, SDValue &VAddr,
SDValue &SOffset, SDValue &Offset, SDValue &GLC,		SDValue &SOffset, SDValue &Offset, SDValue &GLC,
SDValue &SLC, SDValue &TFE) const;		SDValue &SLC, SDValue &TFE) const;
bool SelectMUBUFAddr64(SDValue Addr, SDValue &SRsrc,		bool SelectMUBUFAddr64(SDValue Addr, SDValue &SRsrc,
SDValue &VAddr, SDValue &SOffset, SDValue &Offset,		SDValue &VAddr, SDValue &SOffset, SDValue &Offset,
▲ Show 20 Lines • Show All 808 Lines • ▼ Show 20 Lines	bool AMDGPUDAGToDAGISel::SelectDS64Bit4ByteAligned(SDValue Addr, SDValue &Base,
Offset1 = CurDAG->getTargetConstant(1, DL, MVT::i8);		Offset1 = CurDAG->getTargetConstant(1, DL, MVT::i8);
return true;		return true;
}		}

static bool isLegalMUBUFImmOffset(const ConstantSDNode *Imm) {		static bool isLegalMUBUFImmOffset(const ConstantSDNode *Imm) {
return isUInt<12>(Imm->getZExtValue());		return isUInt<12>(Imm->getZExtValue());
}		}

void AMDGPUDAGToDAGISel::SelectMUBUF(SDValue Addr, SDValue &Ptr,		bool AMDGPUDAGToDAGISel::SelectMUBUF(SDValue Addr, SDValue &Ptr,
SDValue &VAddr, SDValue &SOffset,		SDValue &VAddr, SDValue &SOffset,
SDValue &Offset, SDValue &Offen,		SDValue &Offset, SDValue &Offen,
SDValue &Idxen, SDValue &Addr64,		SDValue &Idxen, SDValue &Addr64,
SDValue &GLC, SDValue &SLC,		SDValue &GLC, SDValue &SLC,
SDValue &TFE) const {		SDValue &TFE) const {
		// Subtarget prefers to use flat instruction
		if (Subtarget->useFlatForGlobal())
		return false;

SDLoc DL(Addr);		SDLoc DL(Addr);

GLC = CurDAG->getTargetConstant(0, DL, MVT::i1);		GLC = CurDAG->getTargetConstant(0, DL, MVT::i1);
SLC = CurDAG->getTargetConstant(0, DL, MVT::i1);		SLC = CurDAG->getTargetConstant(0, DL, MVT::i1);
TFE = CurDAG->getTargetConstant(0, DL, MVT::i1);		TFE = CurDAG->getTargetConstant(0, DL, MVT::i1);

Idxen = CurDAG->getTargetConstant(0, DL, MVT::i1);		Idxen = CurDAG->getTargetConstant(0, DL, MVT::i1);
Offen = CurDAG->getTargetConstant(0, DL, MVT::i1);		Offen = CurDAG->getTargetConstant(0, DL, MVT::i1);
Show All 16 Lines	if (N0.getOpcode() == ISD::ADD) {

// (add N0, C1) -> offset		// (add N0, C1) -> offset
VAddr = CurDAG->getTargetConstant(0, DL, MVT::i32);		VAddr = CurDAG->getTargetConstant(0, DL, MVT::i32);
Ptr = N0;		Ptr = N0;
}		}

if (isLegalMUBUFImmOffset(C1)) {		if (isLegalMUBUFImmOffset(C1)) {
Offset = CurDAG->getTargetConstant(C1->getZExtValue(), DL, MVT::i16);		Offset = CurDAG->getTargetConstant(C1->getZExtValue(), DL, MVT::i16);
return;		return true;
} else if (isUInt<32>(C1->getZExtValue())) {		} else if (isUInt<32>(C1->getZExtValue())) {
// Illegal offset, store it in soffset.		// Illegal offset, store it in soffset.
Offset = CurDAG->getTargetConstant(0, DL, MVT::i16);		Offset = CurDAG->getTargetConstant(0, DL, MVT::i16);
SOffset = SDValue(CurDAG->getMachineNode(AMDGPU::S_MOV_B32, DL, MVT::i32,		SOffset = SDValue(CurDAG->getMachineNode(AMDGPU::S_MOV_B32, DL, MVT::i32,
CurDAG->getTargetConstant(C1->getZExtValue(), DL, MVT::i32)),		CurDAG->getTargetConstant(C1->getZExtValue(), DL, MVT::i32)),
0);		0);
return;		return true;
}		}
}		}

if (Addr.getOpcode() == ISD::ADD) {		if (Addr.getOpcode() == ISD::ADD) {
// (add N0, N1) -> addr64		// (add N0, N1) -> addr64
SDValue N0 = Addr.getOperand(0);		SDValue N0 = Addr.getOperand(0);
SDValue N1 = Addr.getOperand(1);		SDValue N1 = Addr.getOperand(1);
Addr64 = CurDAG->getTargetConstant(1, DL, MVT::i1);		Addr64 = CurDAG->getTargetConstant(1, DL, MVT::i1);
Ptr = N0;		Ptr = N0;
VAddr = N1;		VAddr = N1;
Offset = CurDAG->getTargetConstant(0, DL, MVT::i16);		Offset = CurDAG->getTargetConstant(0, DL, MVT::i16);
return;		return true;
}		}

// default case -> offset		// default case -> offset
VAddr = CurDAG->getTargetConstant(0, DL, MVT::i32);		VAddr = CurDAG->getTargetConstant(0, DL, MVT::i32);
Ptr = Addr;		Ptr = Addr;
Offset = CurDAG->getTargetConstant(0, DL, MVT::i16);		Offset = CurDAG->getTargetConstant(0, DL, MVT::i16);

		return true;
}		}

bool AMDGPUDAGToDAGISel::SelectMUBUFAddr64(SDValue Addr, SDValue &SRsrc,		bool AMDGPUDAGToDAGISel::SelectMUBUFAddr64(SDValue Addr, SDValue &SRsrc,
SDValue &VAddr, SDValue &SOffset,		SDValue &VAddr, SDValue &SOffset,
SDValue &Offset, SDValue &GLC,		SDValue &Offset, SDValue &GLC,
SDValue &SLC, SDValue &TFE) const {		SDValue &SLC, SDValue &TFE) const {
SDValue Ptr, Offen, Idxen, Addr64;		SDValue Ptr, Offen, Idxen, Addr64;

// addr64 bit was removed for volcanic islands.		// addr64 bit was removed for volcanic islands.
if (Subtarget->getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS)		if (Subtarget->getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS)
return false;		return false;

SelectMUBUF(Addr, Ptr, VAddr, SOffset, Offset, Offen, Idxen, Addr64,		if (!SelectMUBUF(Addr, Ptr, VAddr, SOffset, Offset, Offen, Idxen, Addr64,
GLC, SLC, TFE);		GLC, SLC, TFE))
		return false;

ConstantSDNode *C = cast<ConstantSDNode>(Addr64);		ConstantSDNode *C = cast<ConstantSDNode>(Addr64);
if (C->getSExtValue()) {		if (C->getSExtValue()) {
SDLoc DL(Addr);		SDLoc DL(Addr);

const SITargetLowering& Lowering =		const SITargetLowering& Lowering =
static_cast<const SITargetLowering>(getTargetLowering());		static_cast<const SITargetLowering>(getTargetLowering());

▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
bool AMDGPUDAGToDAGISel::SelectMUBUFOffset(SDValue Addr, SDValue &SRsrc,		bool AMDGPUDAGToDAGISel::SelectMUBUFOffset(SDValue Addr, SDValue &SRsrc,
SDValue &SOffset, SDValue &Offset,		SDValue &SOffset, SDValue &Offset,
SDValue &GLC, SDValue &SLC,		SDValue &GLC, SDValue &SLC,
SDValue &TFE) const {		SDValue &TFE) const {
SDValue Ptr, VAddr, Offen, Idxen, Addr64;		SDValue Ptr, VAddr, Offen, Idxen, Addr64;
const SIInstrInfo *TII =		const SIInstrInfo *TII =
static_cast<const SIInstrInfo *>(Subtarget->getInstrInfo());		static_cast<const SIInstrInfo *>(Subtarget->getInstrInfo());

SelectMUBUF(Addr, Ptr, VAddr, SOffset, Offset, Offen, Idxen, Addr64,		if (!SelectMUBUF(Addr, Ptr, VAddr, SOffset, Offset, Offen, Idxen, Addr64,
GLC, SLC, TFE);		GLC, SLC, TFE))
		return false;

if (!cast<ConstantSDNode>(Offen)->getSExtValue() &&		if (!cast<ConstantSDNode>(Offen)->getSExtValue() &&
!cast<ConstantSDNode>(Idxen)->getSExtValue() &&		!cast<ConstantSDNode>(Idxen)->getSExtValue() &&
!cast<ConstantSDNode>(Addr64)->getSExtValue()) {		!cast<ConstantSDNode>(Addr64)->getSExtValue()) {
uint64_t Rsrc = TII->getDefaultRsrcDataFormat() \|		uint64_t Rsrc = TII->getDefaultRsrcDataFormat() \|
APInt::getAllOnesValue(32).getZExtValue(); // Size		APInt::getAllOnesValue(32).getZExtValue(); // Size
SDLoc DL(Addr);		SDLoc DL(Addr);

▲ Show 20 Lines • Show All 430 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.h

Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines	private:
short TexVTXClauseSize;		short TexVTXClauseSize;
Generation Gen;		Generation Gen;
bool FP64;		bool FP64;
bool FP64Denormals;		bool FP64Denormals;
bool FP32Denormals;		bool FP32Denormals;
bool FastFMAF32;		bool FastFMAF32;
bool CaymanISA;		bool CaymanISA;
bool FlatAddressSpace;		bool FlatAddressSpace;
		bool FlatForGlobal;
bool EnableIRStructurizer;		bool EnableIRStructurizer;
bool EnablePromoteAlloca;		bool EnablePromoteAlloca;
bool EnableIfCvt;		bool EnableIfCvt;
bool EnableLoadStoreOpt;		bool EnableLoadStoreOpt;
bool EnableUnsafeDSOffsetFolding;		bool EnableUnsafeDSOffsetFolding;
unsigned WavefrontSize;		unsigned WavefrontSize;
bool CFALUBug;		bool CFALUBug;
int LocalMemorySize;		int LocalMemorySize;
▲ Show 20 Lines • Show All 73 Lines • ▼ Show 20 Lines	public:
bool hasFastFMAF32() const {		bool hasFastFMAF32() const {
return FastFMAF32;		return FastFMAF32;
}		}

bool hasFlatAddressSpace() const {		bool hasFlatAddressSpace() const {
return FlatAddressSpace;		return FlatAddressSpace;
}		}

		bool useFlatForGlobal() const {
		return FlatForGlobal;
		}

bool hasBFE() const {		bool hasBFE() const {
return (getGeneration() >= EVERGREEN);		return (getGeneration() >= EVERGREEN);
}		}

bool hasBFI() const {		bool hasBFI() const {
return (getGeneration() >= EVERGREEN);		return (getGeneration() >= EVERGREEN);
}		}

▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.cpp

Show All 39 Lines	AMDGPUSubtarget::initializeSubtargetDependencies(const Triple &TT,
// enabled, but some instructions do not respect them and they run at the		// enabled, but some instructions do not respect them and they run at the
// double precision rate, so don't enable by default.		// double precision rate, so don't enable by default.
//		//
// We want to be able to turn these off, but making this a subtarget feature		// We want to be able to turn these off, but making this a subtarget feature
// for SI has the unhelpful behavior that it unsets everything else if you		// for SI has the unhelpful behavior that it unsets everything else if you
// disable it.		// disable it.

SmallString<256> FullFS("+promote-alloca,+fp64-denormals,");		SmallString<256> FullFS("+promote-alloca,+fp64-denormals,");
		if (isAmdHsaOS()) // Turn on FlatForGlobal for HSA.
		FullFS += "+flat-for-global,";
FullFS += FS;		FullFS += FS;

if (GPU == "" && TT.getArch() == Triple::amdgcn)		if (GPU == "" && TT.getArch() == Triple::amdgcn)
GPU = "SI";		GPU = "SI";

ParseSubtargetFeatures(GPU, FullFS);		ParseSubtargetFeatures(GPU, FullFS);

// FIXME: I don't think think Evergreen has any useful support for		// FIXME: I don't think think Evergreen has any useful support for
// denormals, but should be checked. Should we issue a warning somewhere		// denormals, but should be checked. Should we issue a warning somewhere
// if someone tries to enable these?		// if someone tries to enable these?
if (getGeneration() <= AMDGPUSubtarget::NORTHERN_ISLANDS) {		if (getGeneration() <= AMDGPUSubtarget::NORTHERN_ISLANDS) {
FP32Denormals = false;		FP32Denormals = false;
FP64Denormals = false;		FP64Denormals = false;
}		}
return *this;		return *this;
}		}

AMDGPUSubtarget::AMDGPUSubtarget(const Triple &TT, StringRef GPU, StringRef FS,		AMDGPUSubtarget::AMDGPUSubtarget(const Triple &TT, StringRef GPU, StringRef FS,
TargetMachine &TM)		TargetMachine &TM)
: AMDGPUGenSubtargetInfo(TT, GPU, FS), DevName(GPU), Is64bit(false),		: AMDGPUGenSubtargetInfo(TT, GPU, FS), DevName(GPU), Is64bit(false),
DumpCode(false), R600ALUInst(false), HasVertexCache(false),		DumpCode(false), R600ALUInst(false), HasVertexCache(false),
TexVTXClauseSize(0), Gen(AMDGPUSubtarget::R600), FP64(false),		TexVTXClauseSize(0), Gen(AMDGPUSubtarget::R600), FP64(false),
FP64Denormals(false), FP32Denormals(false), FastFMAF32(false),		FP64Denormals(false), FP32Denormals(false), FastFMAF32(false),
CaymanISA(false), FlatAddressSpace(false), EnableIRStructurizer(true),		CaymanISA(false), FlatAddressSpace(false), FlatForGlobal(false),
EnablePromoteAlloca(false), EnableIfCvt(true), EnableLoadStoreOpt(false),		EnableIRStructurizer(true), EnablePromoteAlloca(false), EnableIfCvt(true),
EnableUnsafeDSOffsetFolding(false),		EnableLoadStoreOpt(false), EnableUnsafeDSOffsetFolding(false),
WavefrontSize(0), CFALUBug(false), LocalMemorySize(0),		WavefrontSize(0), CFALUBug(false), LocalMemorySize(0),
EnableVGPRSpilling(false), SGPRInitBug(false), IsGCN(false),		EnableVGPRSpilling(false), SGPRInitBug(false), IsGCN(false),
GCN1Encoding(false), GCN3Encoding(false), CIInsts(false), LDSBankCount(0),		GCN1Encoding(false), GCN3Encoding(false), CIInsts(false), LDSBankCount(0),
IsaVersion(ISAVersion0_0_0), EnableHugeScratchBuffer(false),		IsaVersion(ISAVersion0_0_0), EnableHugeScratchBuffer(false),
FrameLowering(nullptr),		FrameLowering(nullptr),
InstrItins(getInstrItineraryForCPU(GPU)), TargetTriple(TT) {		InstrItins(getInstrItineraryForCPU(GPU)), TargetTriple(TT) {

initializeSubtargetDependencies(TT, GPU, FS);		initializeSubtargetDependencies(TT, GPU, FS);
▲ Show 20 Lines • Show All 70 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/CIInstructions.td

	Show First 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
	// Convert (x + (-floor(x))) to fract(x)			// Convert (x + (-floor(x))) to fract(x)
	def : Pat <			def : Pat <
	(f64 (fadd (f64 (VOP3Mods f64:$x, i32:$mods)),			(f64 (fadd (f64 (VOP3Mods f64:$x, i32:$mods)),
	(f64 (fneg (f64 (ffloor (f64 (VOP3Mods f64:$x, i32:$mods)))))))),			(f64 (fneg (f64 (ffloor (f64 (VOP3Mods f64:$x, i32:$mods)))))))),
	(V_FRACT_F64_e64 $mods, $x, DSTCLAMP.NONE, DSTOMOD.NONE)			(V_FRACT_F64_e64 $mods, $x, DSTCLAMP.NONE, DSTOMOD.NONE)
	>;			>;

	} // End Predicates = [isCI]			} // End Predicates = [isCI]


				//===----------------------------------------------------------------------===//
				// Patterns to generate flat for global
				//===----------------------------------------------------------------------===//

				def useFlatForGlobal : Predicate <
				"Subtarget->useFlatForGlobal() \|\| "
				"Subtarget->getGeneration() >= AMDGPUSubtarget::VOLCANIC_ISLANDS">;

				let Predicates = [useFlatForGlobal] in {

				// 1. Offset as 20bit DWORD immediate
				def : Pat <
				(SIload_constant v4i32:$sbase, IMM20bit:$offset),
				(S_BUFFER_LOAD_DWORD_IMM $sbase, (as_i32imm $offset))
				>;

				// Patterns for global loads with no offset
				class FlatLoadPat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <
				(vt (node i64:$addr)),
				(inst $addr, 0, 0, 0)
				>;

				def : FlatLoadPat <FLAT_LOAD_UBYTE, az_extloadi8_global, i32>;
				def : FlatLoadPat <FLAT_LOAD_SBYTE, sextloadi8_global, i32>;
				def : FlatLoadPat <FLAT_LOAD_USHORT, az_extloadi16_global, i32>;
				def : FlatLoadPat <FLAT_LOAD_SSHORT, sextloadi16_global, i32>;
				def : FlatLoadPat <FLAT_LOAD_DWORD, global_load, i32>;
				def : FlatLoadPat <FLAT_LOAD_DWORDX2, global_load, v2i32>;
				def : FlatLoadPat <FLAT_LOAD_DWORDX4, global_load, v4i32>;

				class FlatStorePat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <
				(node vt:$data, i64:$addr),
				(inst $data, $addr, 0, 0, 0)
				>;

				def : FlatStorePat <FLAT_STORE_BYTE, truncstorei8_global, i32>;
				def : FlatStorePat <FLAT_STORE_SHORT, truncstorei16_global, i32>;
				def : FlatStorePat <FLAT_STORE_DWORD, global_store, i32>;
				def : FlatStorePat <FLAT_STORE_DWORDX2, global_store, v2i32>;
				def : FlatStorePat <FLAT_STORE_DWORDX4, global_store, v4i32>;

				class FlatAtomicPat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <
				(vt (node i64:$addr, vt:$data)),
				(inst $addr, $data, 0, 0)
				>;

				def : FlatAtomicPat <FLAT_ATOMIC_ADD_RTN, atomic_add_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_AND_RTN, atomic_and_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_SUB_RTN, atomic_sub_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_SMAX_RTN, atomic_max_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_UMAX_RTN, atomic_umax_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_SMIN_RTN, atomic_min_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_UMIN_RTN, atomic_umin_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_OR_RTN, atomic_or_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_SWAP_RTN, atomic_swap_global, i32>;
				def : FlatAtomicPat <FLAT_ATOMIC_XOR_RTN, atomic_xor_global, i32>;

				} // End Predicates = [useFlatForGlobal]

llvm/trunk/lib/Target/AMDGPU/VIInstructions.td

	Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines
	def S_DCACHE_WB : SMEM_Inval <0x21,			def S_DCACHE_WB : SMEM_Inval <0x21,
	"s_dcache_wb", int_amdgcn_s_dcache_wb>;			"s_dcache_wb", int_amdgcn_s_dcache_wb>;

	def S_DCACHE_WB_VOL : SMEM_Inval <0x23,			def S_DCACHE_WB_VOL : SMEM_Inval <0x23,
	"s_dcache_wb_vol", int_amdgcn_s_dcache_wb_vol>;			"s_dcache_wb_vol", int_amdgcn_s_dcache_wb_vol>;

	} // End SIAssemblerPredicate = DisableInst, SubtargetPredicate = isVI			} // End SIAssemblerPredicate = DisableInst, SubtargetPredicate = isVI

	//===----------------------------------------------------------------------===//
	// SMEM Patterns
	//===----------------------------------------------------------------------===//

	let Predicates = [isVI] in {

	// 1. Offset as 20bit DWORD immediate
	def : Pat <
	(SIload_constant v4i32:$sbase, IMM20bit:$offset),
	(S_BUFFER_LOAD_DWORD_IMM $sbase, (as_i32imm $offset))
	>;

	// Patterns for global loads with no offset
	class FlatLoadPat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <
	(vt (node i64:$addr)),
	(inst $addr, 0, 0, 0)
	>;

	def : FlatLoadPat <FLAT_LOAD_UBYTE, az_extloadi8_global, i32>;
	def : FlatLoadPat <FLAT_LOAD_SBYTE, sextloadi8_global, i32>;
	def : FlatLoadPat <FLAT_LOAD_USHORT, az_extloadi16_global, i32>;
	def : FlatLoadPat <FLAT_LOAD_SSHORT, sextloadi16_global, i32>;
	def : FlatLoadPat <FLAT_LOAD_DWORD, global_load, i32>;
	def : FlatLoadPat <FLAT_LOAD_DWORDX2, global_load, v2i32>;
	def : FlatLoadPat <FLAT_LOAD_DWORDX4, global_load, v4i32>;

	class FlatStorePat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <
	(node vt:$data, i64:$addr),
	(inst $data, $addr, 0, 0, 0)
	>;

	def : FlatStorePat <FLAT_STORE_BYTE, truncstorei8_global, i32>;
	def : FlatStorePat <FLAT_STORE_SHORT, truncstorei16_global, i32>;
	def : FlatStorePat <FLAT_STORE_DWORD, global_store, i32>;
	def : FlatStorePat <FLAT_STORE_DWORDX2, global_store, v2i32>;
	def : FlatStorePat <FLAT_STORE_DWORDX4, global_store, v4i32>;

	class FlatAtomicPat <FLAT inst, SDPatternOperator node, ValueType vt> : Pat <
	(vt (node i64:$addr, vt:$data)),
	(inst $addr, $data, 0, 0)
	>;

	def : FlatAtomicPat <FLAT_ATOMIC_ADD_RTN, atomic_add_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_AND_RTN, atomic_and_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SUB_RTN, atomic_sub_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SMAX_RTN, atomic_max_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_UMAX_RTN, atomic_umax_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SMIN_RTN, atomic_min_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_UMIN_RTN, atomic_umin_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_OR_RTN, atomic_or_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_SWAP_RTN, atomic_swap_global, i32>;
	def : FlatAtomicPat <FLAT_ATOMIC_XOR_RTN, atomic_xor_global, i32>;


	} // End Predicates = [isVI]

llvm/trunk/test/CodeGen/AMDGPU/ci-use-flat-for-global.ll

				; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri \| FileCheck -check-prefix=HSA-DEFAULT %s
				; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri -mattr=-flat-for-global \| FileCheck -check-prefix=HSA-NODEFAULT %s
				; RUN: llc < %s -mtriple=amdgcn -mcpu=kaveri \| FileCheck -check-prefix=NOHSA-DEFAULT %s
				; RUN: llc < %s -mtriple=amdgcn -mcpu=kaveri -mattr=+flat-for-global \| FileCheck -check-prefix=NOHSA-NODEFAULT %s


				; HSA-DEFAULT: flat_store_dword
				; HSA-NODEFAULT: buffer_store_dword
				; NOHSA-DEFAULT: buffer_store_dword
				; NOHSA-NODEFAULT: flat_store_dword
				define void @test(i32 addrspace(1)* %out) {
				entry:
				store i32 0, i32 addrspace(1)* %out
				ret void
				}

llvm/trunk/test/CodeGen/AMDGPU/hsa.ll

	; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri \| FileCheck --check-prefix=HSA-CI --check-prefix=HSA %s			; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri \| FileCheck --check-prefix=HSA %s
	; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=carrizo \| FileCheck --check-prefix=HSA-VI --check-prefix=HSA %s			; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri -mattr=-flat-for-global \| FileCheck --check-prefix=HSA-CI %s
				; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=carrizo \| FileCheck --check-prefix=HSA %s
				; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=carrizo -mattr=-flat-for-global \| FileCheck --check-prefix=HSA-VI %s
	; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri -filetype=obj \| llvm-readobj -symbols -s -sd \| FileCheck --check-prefix=ELF %s			; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri -filetype=obj \| llvm-readobj -symbols -s -sd \| FileCheck --check-prefix=ELF %s
	; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri \| llvm-mc -filetype=obj -triple amdgcn--amdhsa -mcpu=kaveri \| llvm-readobj -symbols -s -sd \| FileCheck %s --check-prefix=ELF			; RUN: llc < %s -mtriple=amdgcn--amdhsa -mcpu=kaveri \| llvm-mc -filetype=obj -triple amdgcn--amdhsa -mcpu=kaveri \| llvm-readobj -symbols -s -sd \| FileCheck %s --check-prefix=ELF

	; The SHT_NOTE section contains the output from the .hsa_code_object_*			; The SHT_NOTE section contains the output from the .hsa_code_object_*
	; directives.			; directives.

	; ELF: Section {			; ELF: Section {
	; ELF: Name: .hsatext			; ELF: Name: .hsatext
	; ELF: Type: SHT_PROGBITS (0x1)			; ELF: Type: SHT_PROGBITS (0x1)
	Show All 30 Lines
	; HSA: enable_sgpr_kernarg_segment_ptr = 1			; HSA: enable_sgpr_kernarg_segment_ptr = 1
	; HSA: .end_amd_kernel_code_t			; HSA: .end_amd_kernel_code_t
	; HSA: s_load_dwordx2 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x0			; HSA: s_load_dwordx2 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x0

	; Make sure we are setting the ATC bit:			; Make sure we are setting the ATC bit:
	; HSA-CI: s_mov_b32 s[[HI:[0-9]]], 0x100f000			; HSA-CI: s_mov_b32 s[[HI:[0-9]]], 0x100f000
	; On VI+ we also need to set MTYPE = 2			; On VI+ we also need to set MTYPE = 2
	; HSA-VI: s_mov_b32 s[[HI:[0-9]]], 0x1100f000			; HSA-VI: s_mov_b32 s[[HI:[0-9]]], 0x1100f000
	; HSA: buffer_store_dword v{{[0-9]+}}, s[0:[[HI]]], 0			; Make sure we generate flat store for HSA
				; HSA: flat_store_dword v{{[0-9]+}}

	define void @simple(i32 addrspace(1)* %out) {			define void @simple(i32 addrspace(1)* %out) {
	entry:			entry:
	store i32 0, i32 addrspace(1)* %out			store i32 0, i32 addrspace(1)* %out
	ret void			ret void
	}			}

llvm/trunk/test/CodeGen/AMDGPU/large-alloca-compute.ll

	; RUN: llc -march=amdgcn -mcpu=bonaire < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=ALL %s			; RUN: llc -march=amdgcn -mcpu=bonaire < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=ALL %s
	; RUN: llc -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=ALL %s			; RUN: llc -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=ALL %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -mtriple=amdgcn-unknown-amdhsa < %s \| FileCheck -check-prefix=GCNHSA -check-prefix=CIHSA -check-prefix=ALL %s			; RUN: llc -march=amdgcn -mcpu=bonaire -mtriple=amdgcn-unknown-amdhsa < %s -mattr=-flat-for-global \| FileCheck -check-prefix=GCNHSA -check-prefix=CIHSA -check-prefix=ALL %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mtriple=amdgcn-unknown-amdhsa < %s \| FileCheck -check-prefix=GCNHSA -check-prefix=VIHSA -check-prefix=ALL %s			; RUN: llc -march=amdgcn -mcpu=tonga -mtriple=amdgcn-unknown-amdhsa -mattr=-flat-for-global < %s \| FileCheck -check-prefix=GCNHSA -check-prefix=VIHSA -check-prefix=ALL %s

	; FIXME: align on alloca seems to be ignored for private_segment_alignment			; FIXME: align on alloca seems to be ignored for private_segment_alignment

	; ALL-LABEL: {{^}}large_alloca_compute_shader:			; ALL-LABEL: {{^}}large_alloca_compute_shader:

	; GCN: s_mov_b32 s8, SCRATCH_RSRC_DWORD0			; GCN: s_mov_b32 s8, SCRATCH_RSRC_DWORD0
	; GCN: s_mov_b32 s9, SCRATCH_RSRC_DWORD1			; GCN: s_mov_b32 s9, SCRATCH_RSRC_DWORD1
	; GCN: s_mov_b32 s10, -1			; GCN: s_mov_b32 s10, -1
	▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/llvm.dbg.value.ll

	; RUN: llc -O0 -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -O0 -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs < %s \| FileCheck %s

	; CHECK-LABEL: {{^}}test_debug_value:			; CHECK-LABEL: {{^}}test_debug_value:
	; CHECK: s_load_dwordx2 s[4:5]			; CHECK: s_load_dwordx2 s[4:5]
	; CHECK: DEBUG_VALUE: test_debug_value:globalptr_arg <- %SGPR4_SGPR5			; CHECK: DEBUG_VALUE: test_debug_value:globalptr_arg <- %SGPR4_SGPR5
	; CHECK: buffer_store_dword			; CHECK: flat_store_dword
	; CHECK: s_endpgm			; CHECK: s_endpgm
	define void @test_debug_value(i32 addrspace(1)* nocapture %globalptr_arg) #0 !dbg !4 {			define void @test_debug_value(i32 addrspace(1)* nocapture %globalptr_arg) #0 !dbg !4 {
	entry:			entry:
	tail call void @llvm.dbg.value(metadata i32 addrspace(1)* %globalptr_arg, i64 0, metadata !10, metadata !13), !dbg !14			tail call void @llvm.dbg.value(metadata i32 addrspace(1)* %globalptr_arg, i64 0, metadata !10, metadata !13), !dbg !14
	store i32 123, i32 addrspace(1)* %globalptr_arg, align 4			store i32 123, i32 addrspace(1)* %globalptr_arg, align 4
	ret void			ret void
	}			}

	Show All 23 Lines

llvm/trunk/test/CodeGen/AMDGPU/move-addr64-rsrc-dead-subreg-writes.ll

	; RUN: llc -march=amdgcn -mcpu=kaveri -mtriple=amdgcn-unknown-amdhsa < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=kaveri -mtriple=amdgcn-unknown-amdhsa -mattr=-flat-for-global < %s \| FileCheck -check-prefix=GCN %s

	; Check that when mubuf addr64 instruction is handled in moveToVALU			; Check that when mubuf addr64 instruction is handled in moveToVALU
	; from the pointer, dead register writes are not emitted.			; from the pointer, dead register writes are not emitted.

	; FIXME: We should be able to use the SGPR directly as src0 to v_add_i32			; FIXME: We should be able to use the SGPR directly as src0 to v_add_i32

	; GCN-LABEL: {{^}}clobber_vgpr_pair_pointer_add:			; GCN-LABEL: {{^}}clobber_vgpr_pair_pointer_add:
	; GCN: s_load_dwordx2 s{{\[}}[[ARG1LO:[0-9]+]]:[[ARG1HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}			; GCN: s_load_dwordx2 s{{\[}}[[ARG1LO:[0-9]+]]:[[ARG1HI:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x0{{$}}
	Show All 27 Lines

llvm/trunk/test/CodeGen/AMDGPU/register-count-comments.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs -asm-verbose < %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -verify-machineinstrs -asm-verbose < %s \| FileCheck -check-prefix=SI %s
	; RUN: llc -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs -asm-verbose < %s \| FileCheck -check-prefix=SI %s			; RUN: llc -march=amdgcn -mtriple=amdgcn-unknown-amdhsa -verify-machineinstrs -asm-verbose -mattr=-flat-for-global < %s \| FileCheck -check-prefix=SI %s

	declare i32 @llvm.SI.tid() nounwind readnone			declare i32 @llvm.SI.tid() nounwind readnone

	; SI-LABEL: {{^}}foo:			; SI-LABEL: {{^}}foo:
	; SI: .section .AMDGPU.csdata			; SI: .section .AMDGPU.csdata
	; SI: ; Kernel info:			; SI: ; Kernel info:
	; SI: ; NumSgprs: {{[0-9]+}}			; SI: ; NumSgprs: {{[0-9]+}}
	; SI: ; NumVgprs: {{[0-9]+}}			; SI: ; NumVgprs: {{[0-9]+}}
	Show All 18 Lines

llvm/trunk/test/CodeGen/AMDGPU/work-item-intrinsics.ll

	Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 0			; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 0
	; HSA: enable_sgpr_grid_workgroup_count_x = 0			; HSA: enable_sgpr_grid_workgroup_count_x = 0
	; HSA: enable_sgpr_grid_workgroup_count_y = 0			; HSA: enable_sgpr_grid_workgroup_count_y = 0
	; HSA: enable_sgpr_grid_workgroup_count_z = 0			; HSA: enable_sgpr_grid_workgroup_count_z = 0
	; HSA: .end_amd_kernel_code_t			; HSA: .end_amd_kernel_code_t

	; GCN-NOHSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s2{{$}}			; GCN-NOHSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s2{{$}}
	; HSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s6{{$}}			; HSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s6{{$}}
	; GCN: buffer_store_dword [[VVAL]]			; GCN-NOHSA: buffer_store_dword [[VVAL]]
				; HSA: flat_store_dword [[VVAL]]

	; HSA: COMPUTE_PGM_RSRC2:USER_SGPR: 6			; HSA: COMPUTE_PGM_RSRC2:USER_SGPR: 6
	; GCN-NOHSA: COMPUTE_PGM_RSRC2:USER_SGPR: 2			; GCN-NOHSA: COMPUTE_PGM_RSRC2:USER_SGPR: 2
	; GCN: COMPUTE_PGM_RSRC2:TGID_X_EN: 1			; GCN: COMPUTE_PGM_RSRC2:TGID_X_EN: 1
	; GCN: COMPUTE_PGM_RSRC2:TGID_Y_EN: 0			; GCN: COMPUTE_PGM_RSRC2:TGID_Y_EN: 0
	; GCN: COMPUTE_PGM_RSRC2:TGID_Z_EN: 0			; GCN: COMPUTE_PGM_RSRC2:TGID_Z_EN: 0
	; GCN: COMPUTE_PGM_RSRC2:TIDIG_COMP_CNT: 0			; GCN: COMPUTE_PGM_RSRC2:TIDIG_COMP_CNT: 0
	define void @tgid_x(i32 addrspace(1)* %out) {			define void @tgid_x(i32 addrspace(1)* %out) {
	Show All 9 Lines
	; HSA: compute_pgm_rsrc2_tgid_y_en = 1			; HSA: compute_pgm_rsrc2_tgid_y_en = 1
	; HSA: compute_pgm_rsrc2_tgid_z_en = 0			; HSA: compute_pgm_rsrc2_tgid_z_en = 0
	; HSA: compute_pgm_rsrc2_tg_size_en = 0			; HSA: compute_pgm_rsrc2_tg_size_en = 0
	; HSA: enable_sgpr_grid_workgroup_count_x = 0			; HSA: enable_sgpr_grid_workgroup_count_x = 0
	; HSA: enable_sgpr_grid_workgroup_count_y = 0			; HSA: enable_sgpr_grid_workgroup_count_y = 0
	; HSA: enable_sgpr_grid_workgroup_count_z = 0			; HSA: enable_sgpr_grid_workgroup_count_z = 0
	; GCN-NOHSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s3			; GCN-NOHSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s3
	; GCN-HSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s7			; GCN-HSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s7
	; GCN: buffer_store_dword [[VVAL]]			; GCN-NOHSA: buffer_store_dword [[VVAL]]
				; HSA: flat_store_dword [[VVAL]]

	; HSA: COMPUTE_PGM_RSRC2:USER_SGPR: 6			; HSA: COMPUTE_PGM_RSRC2:USER_SGPR: 6
	; GCN-NOHSA: COMPUTE_PGM_RSRC2:USER_SGPR: 2			; GCN-NOHSA: COMPUTE_PGM_RSRC2:USER_SGPR: 2
	; GCN: COMPUTE_PGM_RSRC2:TGID_X_EN: 1			; GCN: COMPUTE_PGM_RSRC2:TGID_X_EN: 1
	; GCN: COMPUTE_PGM_RSRC2:TGID_Y_EN: 1			; GCN: COMPUTE_PGM_RSRC2:TGID_Y_EN: 1
	; GCN: COMPUTE_PGM_RSRC2:TGID_Z_EN: 0			; GCN: COMPUTE_PGM_RSRC2:TGID_Z_EN: 0
	; GCN: COMPUTE_PGM_RSRC2:TIDIG_COMP_CNT: 0			; GCN: COMPUTE_PGM_RSRC2:TIDIG_COMP_CNT: 0
	define void @tgid_y(i32 addrspace(1)* %out) {			define void @tgid_y(i32 addrspace(1)* %out) {
	Show All 18 Lines
	; HSA: enable_sgpr_flat_scratch_init = 0			; HSA: enable_sgpr_flat_scratch_init = 0
	; HSA: enable_sgpr_private_segment_size = 0			; HSA: enable_sgpr_private_segment_size = 0
	; HSA: enable_sgpr_grid_workgroup_count_x = 0			; HSA: enable_sgpr_grid_workgroup_count_x = 0
	; HSA: enable_sgpr_grid_workgroup_count_y = 0			; HSA: enable_sgpr_grid_workgroup_count_y = 0
	; HSA: enable_sgpr_grid_workgroup_count_z = 0			; HSA: enable_sgpr_grid_workgroup_count_z = 0

	; GCN-NOHSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s3{{$}}			; GCN-NOHSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s3{{$}}
	; HSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s7{{$}}			; HSA: v_mov_b32_e32 [[VVAL:v[0-9]+]], s7{{$}}
	; GCN: buffer_store_dword [[VVAL]]			; GCN-NOHSA: buffer_store_dword [[VVAL]]
				; HSA: flat_store_dword [[VVAL]]

	; HSA: COMPUTE_PGM_RSRC2:USER_SGPR: 6			; HSA: COMPUTE_PGM_RSRC2:USER_SGPR: 6
	; GCN-NOHSA: COMPUTE_PGM_RSRC2:USER_SGPR: 2			; GCN-NOHSA: COMPUTE_PGM_RSRC2:USER_SGPR: 2
	; GCN: COMPUTE_PGM_RSRC2:TGID_X_EN: 1			; GCN: COMPUTE_PGM_RSRC2:TGID_X_EN: 1
	; GCN: COMPUTE_PGM_RSRC2:TGID_Y_EN: 0			; GCN: COMPUTE_PGM_RSRC2:TGID_Y_EN: 0
	; GCN: COMPUTE_PGM_RSRC2:TGID_Z_EN: 1			; GCN: COMPUTE_PGM_RSRC2:TGID_Z_EN: 1
	; GCN: COMPUTE_PGM_RSRC2:TIDIG_COMP_CNT: 0			; GCN: COMPUTE_PGM_RSRC2:TIDIG_COMP_CNT: 0
	define void @tgid_z(i32 addrspace(1)* %out) {			define void @tgid_z(i32 addrspace(1)* %out) {
	entry:			entry:
	%0 = call i32 @llvm.r600.read.tgid.z() #0			%0 = call i32 @llvm.r600.read.tgid.z() #0
	store i32 %0, i32 addrspace(1)* %out			store i32 %0, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-NOHSA: .section .AMDGPU.config			; GCN-NOHSA: .section .AMDGPU.config
	; GCN-NOHSA: .long 47180			; GCN-NOHSA: .long 47180
	; GCN-NOHSA-NEXT: .long 132{{$}}			; GCN-NOHSA-NEXT: .long 132{{$}}

	; FUNC-LABEL: {{^}}tidig_x:			; FUNC-LABEL: {{^}}tidig_x:
	; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 0			; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 0
	; GCN: buffer_store_dword v0			; GCN-NOHSA: buffer_store_dword v0
				; HSA: flat_store_dword v0
	define void @tidig_x(i32 addrspace(1)* %out) {			define void @tidig_x(i32 addrspace(1)* %out) {
	entry:			entry:
	%0 = call i32 @llvm.r600.read.tidig.x() #0			%0 = call i32 @llvm.r600.read.tidig.x() #0
	store i32 %0, i32 addrspace(1)* %out			store i32 %0, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-NOHSA: .section .AMDGPU.config			; GCN-NOHSA: .section .AMDGPU.config
	; GCN-NOHSA: .long 47180			; GCN-NOHSA: .long 47180
	; GCN-NOHSA-NEXT: .long 2180{{$}}			; GCN-NOHSA-NEXT: .long 2180{{$}}

	; FUNC-LABEL: {{^}}tidig_y:			; FUNC-LABEL: {{^}}tidig_y:

	; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 1			; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 1
	; GCN: buffer_store_dword v1			; GCN-NOHSA: buffer_store_dword v1
				; HSA: flat_store_dword v1
	define void @tidig_y(i32 addrspace(1)* %out) {			define void @tidig_y(i32 addrspace(1)* %out) {
	entry:			entry:
	%0 = call i32 @llvm.r600.read.tidig.y() #0			%0 = call i32 @llvm.r600.read.tidig.y() #0
	store i32 %0, i32 addrspace(1)* %out			store i32 %0, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-NOHSA: .section .AMDGPU.config			; GCN-NOHSA: .section .AMDGPU.config
	; GCN-NOHSA: .long 47180			; GCN-NOHSA: .long 47180
	; GCN-NOHSA-NEXT: .long 4228{{$}}			; GCN-NOHSA-NEXT: .long 4228{{$}}

	; FUNC-LABEL: {{^}}tidig_z:			; FUNC-LABEL: {{^}}tidig_z:
	; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 2			; HSA: compute_pgm_rsrc2_tidig_comp_cnt = 2
	; GCN: buffer_store_dword v2			; GCN-NOHSA: buffer_store_dword v2
				; HSA: flat_store_dword v2
	define void @tidig_z(i32 addrspace(1)* %out) {			define void @tidig_z(i32 addrspace(1)* %out) {
	entry:			entry:
	%0 = call i32 @llvm.r600.read.tidig.z() #0			%0 = call i32 @llvm.r600.read.tidig.z() #0
	store i32 %0, i32 addrspace(1)* %out			store i32 %0, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	declare i32 @llvm.r600.read.ngroups.x() #0			declare i32 @llvm.r600.read.ngroups.x() #0
	Show All 18 Lines

This is an archive of the discontinued LLVM Phabricator instance.

Use Flat For 64-bit Global Buffer
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 43468

llvm/trunk/lib/Target/AMDGPU/AMDGPU.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.cpp

llvm/trunk/lib/Target/AMDGPU/CIInstructions.td

llvm/trunk/lib/Target/AMDGPU/VIInstructions.td

llvm/trunk/test/CodeGen/AMDGPU/ci-use-flat-for-global.ll

llvm/trunk/test/CodeGen/AMDGPU/hsa.ll

llvm/trunk/test/CodeGen/AMDGPU/large-alloca-compute.ll

llvm/trunk/test/CodeGen/AMDGPU/llvm.dbg.value.ll

llvm/trunk/test/CodeGen/AMDGPU/move-addr64-rsrc-dead-subreg-writes.ll

llvm/trunk/test/CodeGen/AMDGPU/register-count-comments.ll

llvm/trunk/test/CodeGen/AMDGPU/work-item-intrinsics.ll

This is an archive of the discontinued LLVM Phabricator instance.

Use Flat For 64-bit Global BufferClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 43468

llvm/trunk/lib/Target/AMDGPU/AMDGPU.td

llvm/trunk/lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.h

llvm/trunk/lib/Target/AMDGPU/AMDGPUSubtarget.cpp

llvm/trunk/lib/Target/AMDGPU/CIInstructions.td

llvm/trunk/lib/Target/AMDGPU/VIInstructions.td

llvm/trunk/test/CodeGen/AMDGPU/ci-use-flat-for-global.ll

llvm/trunk/test/CodeGen/AMDGPU/hsa.ll

llvm/trunk/test/CodeGen/AMDGPU/large-alloca-compute.ll

llvm/trunk/test/CodeGen/AMDGPU/llvm.dbg.value.ll

llvm/trunk/test/CodeGen/AMDGPU/move-addr64-rsrc-dead-subreg-writes.ll

llvm/trunk/test/CodeGen/AMDGPU/register-count-comments.ll

llvm/trunk/test/CodeGen/AMDGPU/work-item-intrinsics.ll

Use Flat For 64-bit Global Buffer
ClosedPublic