Diff 157996

include/llvm/IR/IntrinsicsAMDGPU.td

Show First 20 Lines • Show All 809 Lines • ▼ Show 20 Lines	class AMDGPUBufferStore : Intrinsic <
llvm_i32_ty, // offset(SGPR/VGPR/imm)		llvm_i32_ty, // offset(SGPR/VGPR/imm)
llvm_i1_ty, // glc(imm)		llvm_i1_ty, // glc(imm)
llvm_i1_ty], // slc(imm)		llvm_i1_ty], // slc(imm)
[IntrWriteMem], "", [SDNPMemOperand]>,		[IntrWriteMem], "", [SDNPMemOperand]>,
AMDGPURsrcIntrinsic<1>;		AMDGPURsrcIntrinsic<1>;
def int_amdgcn_buffer_store_format : AMDGPUBufferStore;		def int_amdgcn_buffer_store_format : AMDGPUBufferStore;
def int_amdgcn_buffer_store : AMDGPUBufferStore;		def int_amdgcn_buffer_store : AMDGPUBufferStore;

		// Obsolescent tbuffer intrinsics.
def int_amdgcn_tbuffer_load : Intrinsic <		def int_amdgcn_tbuffer_load : Intrinsic <
[llvm_any_ty], // overloaded for types f32/i32, v2f32/v2i32, v4f32/v4i32		[llvm_any_ty], // overloaded for types f32/i32, v2f32/v2i32, v4f32/v4i32
[llvm_v4i32_ty, // rsrc(SGPR)		[llvm_v4i32_ty, // rsrc(SGPR)
llvm_i32_ty, // vindex(VGPR)		llvm_i32_ty, // vindex(VGPR)
llvm_i32_ty, // voffset(VGPR)		llvm_i32_ty, // voffset(VGPR)
llvm_i32_ty, // soffset(SGPR)		llvm_i32_ty, // soffset(SGPR)
llvm_i32_ty, // offset(imm)		llvm_i32_ty, // offset(imm)
llvm_i32_ty, // dfmt(imm)		llvm_i32_ty, // dfmt(imm)
Show All 13 Lines	def int_amdgcn_tbuffer_store : Intrinsic <
llvm_i32_ty, // offset(imm)		llvm_i32_ty, // offset(imm)
llvm_i32_ty, // dfmt(imm)		llvm_i32_ty, // dfmt(imm)
llvm_i32_ty, // nfmt(imm)		llvm_i32_ty, // nfmt(imm)
llvm_i1_ty, // glc(imm)		llvm_i1_ty, // glc(imm)
llvm_i1_ty], // slc(imm)		llvm_i1_ty], // slc(imm)
[IntrWriteMem], "", [SDNPMemOperand]>,		[IntrWriteMem], "", [SDNPMemOperand]>,
AMDGPURsrcIntrinsic<1>;		AMDGPURsrcIntrinsic<1>;

		// New tbuffer intrinsics, with:
		// - raw and struct variants
		// - joint format field
		// - joint cachepolicy field
		def int_amdgcn_raw_tbuffer_load : Intrinsic <
		[llvm_any_ty], // overloaded for types f32/i32, v2f32/v2i32, v4f32/v4i32
		[llvm_v4i32_ty, // rsrc(SGPR)
		llvm_i32_ty, // voffset(VGPR)
		llvm_i32_ty, // soffset(SGPR)
		llvm_i32_ty, // offset(imm)
		llvm_i32_ty, // format(imm; bits 3..0 = dfmt, bits 6..4 = nfmt)
		llvm_i32_ty], // cachepolicy(imm; bit 0 = glc, bit 1 = slc)
		[IntrReadMem], "", [SDNPMemOperand]>,
		AMDGPURsrcIntrinsic<0>;

		def int_amdgcn_raw_tbuffer_store : Intrinsic <
		[],
		[llvm_any_ty, // vdata(VGPR), overloaded for types f32/i32, v2f32/v2i32, v4f32/v4i32
		llvm_v4i32_ty, // rsrc(SGPR)
		llvm_i32_ty, // voffset(VGPR)
		llvm_i32_ty, // soffset(SGPR)
		llvm_i32_ty, // offset(imm)
		llvm_i32_ty, // format(imm; bits 3..0 = dfmt, bits 6..4 = nfmt)
		llvm_i32_ty], // cachepolicy(imm; bit 0 = glc, bit 1 = slc)
		[IntrWriteMem], "", [SDNPMemOperand]>,
		AMDGPURsrcIntrinsic<1>;

		def int_amdgcn_struct_tbuffer_load : Intrinsic <
		[llvm_any_ty], // overloaded for types f32/i32, v2f32/v2i32, v4f32/v4i32
		[llvm_v4i32_ty, // rsrc(SGPR)
		llvm_i32_ty, // vindex(VGPR)
		llvm_i32_ty, // voffset(VGPR)
		llvm_i32_ty, // soffset(SGPR)
		llvm_i32_ty, // offset(imm)
		llvm_i32_ty, // format(imm; bits 3..0 = dfmt, bits 6..4 = nfmt)
		llvm_i32_ty], // cachepolicy(imm; bit 0 = glc, bit 1 = slc)
		[IntrReadMem], "", [SDNPMemOperand]>,
		AMDGPURsrcIntrinsic<0>;

		def int_amdgcn_struct_tbuffer_store : Intrinsic <
		[],
		[llvm_any_ty, // vdata(VGPR), overloaded for types f32/i32, v2f32/v2i32, v4f32/v4i32
		llvm_v4i32_ty, // rsrc(SGPR)
		llvm_i32_ty, // vindex(VGPR)
		llvm_i32_ty, // voffset(VGPR)
		llvm_i32_ty, // soffset(SGPR)
		llvm_i32_ty, // offset(imm)
		llvm_i32_ty, // format(imm; bits 3..0 = dfmt, bits 6..4 = nfmt)
		llvm_i32_ty], // cachepolicy(imm; bit 0 = glc, bit 1 = slc)
		[IntrWriteMem], "", [SDNPMemOperand]>,
		AMDGPURsrcIntrinsic<1>;

class AMDGPUBufferAtomic : Intrinsic <		class AMDGPUBufferAtomic : Intrinsic <
[llvm_i32_ty],		[llvm_i32_ty],
[llvm_i32_ty, // vdata(VGPR)		[llvm_i32_ty, // vdata(VGPR)
llvm_v4i32_ty, // rsrc(SGPR)		llvm_v4i32_ty, // rsrc(SGPR)
llvm_i32_ty, // vindex(VGPR)		llvm_i32_ty, // vindex(VGPR)
llvm_i32_ty, // offset(SGPR/VGPR/imm)		llvm_i32_ty, // offset(SGPR/VGPR/imm)
llvm_i1_ty], // slc(imm)		llvm_i1_ty], // slc(imm)
[], "", [SDNPMemOperand]>,		[], "", [SDNPMemOperand]>,
▲ Show 20 Lines • Show All 479 Lines • Show Last 20 Lines

lib/Target/AMDGPU/BUFInstructions.td

Show First 20 Lines • Show All 1,024 Lines • ▼ Show 20 Lines	def BUFFER_WBINVL1_VOL : MUBUF_Invalidate <"buffer_wbinvl1_vol",
int_amdgcn_buffer_wbinvl1_vol>;		int_amdgcn_buffer_wbinvl1_vol>;

} // End let SubtargetPredicate = isCIVI		} // End let SubtargetPredicate = isCIVI

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// MUBUF Patterns		// MUBUF Patterns
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

		def extract_glc : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue() & 1, SDLoc(N), MVT::i8);
		}]>;

		def extract_slc : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant((N->getZExtValue() >> 1) & 1, SDLoc(N), MVT::i8);
		}]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// buffer_load/store_format patterns		// buffer_load/store_format patterns
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass MUBUF_LoadIntrinsicPat<SDPatternOperator name, ValueType vt,		multiclass MUBUF_LoadIntrinsicPat<SDPatternOperator name, ValueType vt,
string opcode> {		string opcode> {
def : GCNPat<		def : GCNPat<
(vt (name v4i32:$rsrc, 0,		(vt (name v4i32:$rsrc, 0,
▲ Show 20 Lines • Show All 470 Lines • ▼ Show 20 Lines
defm : MUBUFScratchStorePat <BUFFER_STORE_BYTE_D16_HI_OFFEN, BUFFER_STORE_BYTE_D16_HI_OFFSET, i32, truncstorei8_hi16_private>;		defm : MUBUFScratchStorePat <BUFFER_STORE_BYTE_D16_HI_OFFEN, BUFFER_STORE_BYTE_D16_HI_OFFSET, i32, truncstorei8_hi16_private>;
}		}
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// MTBUF Patterns		// MTBUF Patterns
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

		def extract_dfmt : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant(N->getZExtValue() & 15, SDLoc(N), MVT::i8);
		}]>;

		def extract_nfmt : SDNodeXForm<imm, [{
		return CurDAG->getTargetConstant((N->getZExtValue() >> 4) & 7, SDLoc(N), MVT::i8);
		}]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// tbuffer_load/store_format patterns		// tbuffer_load/store_format patterns
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

multiclass MTBUF_LoadIntrinsicPat<SDPatternOperator name, ValueType vt,		multiclass MTBUF_LoadIntrinsicPat<SDPatternOperator name, ValueType vt,
string opcode> {		string opcode> {
def : GCNPat<		def : GCNPat<
(vt (name v4i32:$rsrc, 0, 0, i32:$soffset, imm:$offset,		(vt (name v4i32:$rsrc, 0, 0, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc)),		imm:$format, imm:$cachepolicy, 0)),
(!cast<MTBUF_Pseudo>(opcode # _OFFSET) $rsrc, $soffset, (as_i16imm $offset),		(!cast<MTBUF_Pseudo>(opcode # _OFFSET) $rsrc, $soffset, (as_i16imm $offset),
(as_i8imm $dfmt), (as_i8imm $nfmt), (as_i1imm $glc), (as_i1imm $slc), 0)		(extract_dfmt $format), (extract_nfmt $format),
		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;

def : GCNPat<		def : GCNPat<
(vt (name v4i32:$rsrc, i32:$vindex, 0, i32:$soffset, imm:$offset,		(vt (name v4i32:$rsrc, i32:$vindex, 0, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc)),		imm:$format, imm:$cachepolicy, imm)),
(!cast<MTBUF_Pseudo>(opcode # _IDXEN) $vindex, $rsrc, $soffset, (as_i16imm $offset),		(!cast<MTBUF_Pseudo>(opcode # _IDXEN) $vindex, $rsrc, $soffset, (as_i16imm $offset),
(as_i8imm $dfmt), (as_i8imm $nfmt), (as_i1imm $glc), (as_i1imm $slc), 0)		(extract_dfmt $format), (extract_nfmt $format),
		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;

def : GCNPat<		def : GCNPat<
(vt (name v4i32:$rsrc, 0, i32:$voffset, i32:$soffset, imm:$offset,		(vt (name v4i32:$rsrc, 0, i32:$voffset, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc)),		imm:$format, imm:$cachepolicy, 0)),
(!cast<MTBUF_Pseudo>(opcode # _OFFEN) $voffset, $rsrc, $soffset, (as_i16imm $offset),		(!cast<MTBUF_Pseudo>(opcode # _OFFEN) $voffset, $rsrc, $soffset, (as_i16imm $offset),
(as_i8imm $dfmt), (as_i8imm $nfmt), (as_i1imm $glc), (as_i1imm $slc), 0)		(extract_dfmt $format), (extract_nfmt $format),
		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;

def : GCNPat<		def : GCNPat<
(vt (name v4i32:$rsrc, i32:$vindex, i32:$voffset, i32:$soffset, imm:$offset,		(vt (name v4i32:$rsrc, i32:$vindex, i32:$voffset, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc)),		imm:$format, imm:$cachepolicy, imm)),
(!cast<MTBUF_Pseudo>(opcode # _BOTHEN)		(!cast<MTBUF_Pseudo>(opcode # _BOTHEN)
(REG_SEQUENCE VReg_64, $vindex, sub0, $voffset, sub1),		(REG_SEQUENCE VReg_64, $vindex, sub0, $voffset, sub1),
$rsrc, $soffset, (as_i16imm $offset),		$rsrc, $soffset, (as_i16imm $offset),
(as_i8imm $dfmt), (as_i8imm $nfmt), (as_i1imm $glc), (as_i1imm $slc), 0)		(extract_dfmt $format), (extract_nfmt $format),
		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;
}		}

defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, i32, "TBUFFER_LOAD_FORMAT_X">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, i32, "TBUFFER_LOAD_FORMAT_X">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2i32, "TBUFFER_LOAD_FORMAT_XY">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2i32, "TBUFFER_LOAD_FORMAT_XY">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v4i32, "TBUFFER_LOAD_FORMAT_XYZW">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v4i32, "TBUFFER_LOAD_FORMAT_XYZW">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, f32, "TBUFFER_LOAD_FORMAT_X">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, f32, "TBUFFER_LOAD_FORMAT_X">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2f32, "TBUFFER_LOAD_FORMAT_XY">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load, v2f32, "TBUFFER_LOAD_FORMAT_XY">;
Show All 10 Lines	let SubtargetPredicate = HasPackedD16VMem in {
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v2f16, "TBUFFER_LOAD_FORMAT_D16_XY">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v2f16, "TBUFFER_LOAD_FORMAT_D16_XY">;
defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v4f16, "TBUFFER_LOAD_FORMAT_D16_XYZW">;		defm : MTBUF_LoadIntrinsicPat<SItbuffer_load_d16, v4f16, "TBUFFER_LOAD_FORMAT_D16_XYZW">;
} // End HasPackedD16VMem.		} // End HasPackedD16VMem.

multiclass MTBUF_StoreIntrinsicPat<SDPatternOperator name, ValueType vt,		multiclass MTBUF_StoreIntrinsicPat<SDPatternOperator name, ValueType vt,
string opcode> {		string opcode> {
def : GCNPat<		def : GCNPat<
(name vt:$vdata, v4i32:$rsrc, 0, 0, i32:$soffset, imm:$offset,		(name vt:$vdata, v4i32:$rsrc, 0, 0, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc),		imm:$format, imm:$cachepolicy, 0),
(!cast<MTBUF_Pseudo>(opcode # _OFFSET_exact) $vdata, $rsrc, $soffset,		(!cast<MTBUF_Pseudo>(opcode # _OFFSET_exact) $vdata, $rsrc, $soffset,
(as_i16imm $offset), (as_i8imm $dfmt),		(as_i16imm $offset),
(as_i8imm $nfmt), (as_i1imm $glc),		(extract_dfmt $format), (extract_nfmt $format),
(as_i1imm $slc), 0)		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;

def : GCNPat<		def : GCNPat<
(name vt:$vdata, v4i32:$rsrc, i32:$vindex, 0, i32:$soffset, imm:$offset,		(name vt:$vdata, v4i32:$rsrc, i32:$vindex, 0, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc),		imm:$format, imm:$cachepolicy, imm),
(!cast<MTBUF_Pseudo>(opcode # _IDXEN_exact) $vdata, $vindex, $rsrc, $soffset,		(!cast<MTBUF_Pseudo>(opcode # _IDXEN_exact) $vdata, $vindex, $rsrc, $soffset,
(as_i16imm $offset), (as_i8imm $dfmt),		(as_i16imm $offset),
(as_i8imm $nfmt), (as_i1imm $glc),		(extract_dfmt $format), (extract_nfmt $format),
(as_i1imm $slc), 0)		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;

def : GCNPat<		def : GCNPat<
(name vt:$vdata, v4i32:$rsrc, 0, i32:$voffset, i32:$soffset, imm:$offset,		(name vt:$vdata, v4i32:$rsrc, 0, i32:$voffset, i32:$soffset, imm:$offset,
imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc),		imm:$format, imm:$cachepolicy, 0),
(!cast<MTBUF_Pseudo>(opcode # _OFFEN_exact) $vdata, $voffset, $rsrc, $soffset,		(!cast<MTBUF_Pseudo>(opcode # _OFFEN_exact) $vdata, $voffset, $rsrc, $soffset,
(as_i16imm $offset), (as_i8imm $dfmt),		(as_i16imm $offset),
(as_i8imm $nfmt), (as_i1imm $glc),		(extract_dfmt $format), (extract_nfmt $format),
(as_i1imm $slc), 0)		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;

def : GCNPat<		def : GCNPat<
(name vt:$vdata, v4i32:$rsrc, i32:$vindex, i32:$voffset, i32:$soffset,		(name vt:$vdata, v4i32:$rsrc, i32:$vindex, i32:$voffset, i32:$soffset,
imm:$offset, imm:$dfmt, imm:$nfmt, imm:$glc, imm:$slc),		imm:$offset, imm:$format, imm:$cachepolicy, imm),
(!cast<MTBUF_Pseudo>(opcode # _BOTHEN_exact)		(!cast<MTBUF_Pseudo>(opcode # _BOTHEN_exact)
$vdata,		$vdata,
(REG_SEQUENCE VReg_64, $vindex, sub0, $voffset, sub1),		(REG_SEQUENCE VReg_64, $vindex, sub0, $voffset, sub1),
$rsrc, $soffset, (as_i16imm $offset),		$rsrc, $soffset, (as_i16imm $offset),
(as_i8imm $dfmt), (as_i8imm $nfmt), (as_i1imm $glc), (as_i1imm $slc), 0)		(extract_dfmt $format), (extract_nfmt $format),
		(extract_glc $cachepolicy), (extract_slc $cachepolicy), 0)
>;		>;
}		}

defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, i32, "TBUFFER_STORE_FORMAT_X">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, i32, "TBUFFER_STORE_FORMAT_X">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v2i32, "TBUFFER_STORE_FORMAT_XY">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v2i32, "TBUFFER_STORE_FORMAT_XY">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_x3, v4i32, "TBUFFER_STORE_FORMAT_XYZ">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store_x3, v4i32, "TBUFFER_STORE_FORMAT_XYZ">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v4i32, "TBUFFER_STORE_FORMAT_XYZW">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, v4i32, "TBUFFER_STORE_FORMAT_XYZW">;
defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, f32, "TBUFFER_STORE_FORMAT_X">;		defm : MTBUF_StoreIntrinsicPat<SItbuffer_store, f32, "TBUFFER_STORE_FORMAT_X">;
▲ Show 20 Lines • Show All 472 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,103 Lines • ▼ Show 20 Lines	if (LoadVT.getScalarType() == MVT::f16)
M, DAG, Ops);		M, DAG, Ops);
return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops, IntVT,		return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops, IntVT,
M->getMemOperand());		M->getMemOperand());
}		}
case Intrinsic::amdgcn_tbuffer_load: {		case Intrinsic::amdgcn_tbuffer_load: {
MemSDNode *M = cast<MemSDNode>(Op);		MemSDNode *M = cast<MemSDNode>(Op);
EVT LoadVT = Op.getValueType();		EVT LoadVT = Op.getValueType();

		unsigned Dfmt = cast<ConstantSDNode>(Op.getOperand(7))->getZExtValue();
		unsigned Nfmt = cast<ConstantSDNode>(Op.getOperand(8))->getZExtValue();
		unsigned Glc = cast<ConstantSDNode>(Op.getOperand(9))->getZExtValue();
		unsigned Slc = cast<ConstantSDNode>(Op.getOperand(10))->getZExtValue();
		unsigned IdxEn = 1;
		if (auto Idx = dyn_cast<ConstantSDNode>(Op.getOperand(3)))
		IdxEn = Idx->getZExtValue() != 0;
SDValue Ops[] = {		SDValue Ops[] = {
Op.getOperand(0), // Chain		Op.getOperand(0), // Chain
Op.getOperand(2), // rsrc		Op.getOperand(2), // rsrc
Op.getOperand(3), // vindex		Op.getOperand(3), // vindex
Op.getOperand(4), // voffset		Op.getOperand(4), // voffset
Op.getOperand(5), // soffset		Op.getOperand(5), // soffset
Op.getOperand(6), // offset		Op.getOperand(6), // offset
Op.getOperand(7), // dfmt		DAG.getConstant(Dfmt \| (Nfmt << 4), DL, MVT::i32), // format
Op.getOperand(8), // nfmt		DAG.getConstant(Glc \| (Slc << 1), DL, MVT::i32), // cachepolicy
Op.getOperand(9), // glc		DAG.getConstant(IdxEn, DL, MVT::i1), // idxen
Op.getOperand(10) // slc		};

		if (LoadVT.getScalarType() == MVT::f16)
		return adjustLoadValueType(AMDGPUISD::TBUFFER_LOAD_FORMAT_D16,
		M, DAG, Ops);
		return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_LOAD_FORMAT, DL,
		Op->getVTList(), Ops, LoadVT,
		M->getMemOperand());
		}
		case Intrinsic::amdgcn_raw_tbuffer_load: {
		MemSDNode *M = cast<MemSDNode>(Op);
		EVT LoadVT = Op.getValueType();

		SDValue Ops[] = {
		Op.getOperand(0), // Chain
		Op.getOperand(2), // rsrc
		DAG.getConstant(0, DL, MVT::i32), // vindex`
		Op.getOperand(3), // voffset
		Op.getOperand(4), // soffset
		Op.getOperand(5), // offset
		Op.getOperand(6), // format
		Op.getOperand(7), // cachepolicy
		DAG.getConstant(0, DL, MVT::i1), // idxen
		};

		if (LoadVT.getScalarType() == MVT::f16)
		return adjustLoadValueType(AMDGPUISD::TBUFFER_LOAD_FORMAT_D16,
		M, DAG, Ops);
		return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_LOAD_FORMAT, DL,
		Op->getVTList(), Ops, LoadVT,
		M->getMemOperand());
		}
		case Intrinsic::amdgcn_struct_tbuffer_load: {
		MemSDNode *M = cast<MemSDNode>(Op);
		EVT LoadVT = Op.getValueType();

		SDValue Ops[] = {
		Op.getOperand(0), // Chain
		Op.getOperand(2), // rsrc
		Op.getOperand(3), // vindex
		Op.getOperand(4), // voffset
		Op.getOperand(5), // soffset
		Op.getOperand(6), // offset
		Op.getOperand(7), // format
		Op.getOperand(8), // cachepolicy
		DAG.getConstant(1, DL, MVT::i1), // idxen
};		};

if (LoadVT.getScalarType() == MVT::f16)		if (LoadVT.getScalarType() == MVT::f16)
return adjustLoadValueType(AMDGPUISD::TBUFFER_LOAD_FORMAT_D16,		return adjustLoadValueType(AMDGPUISD::TBUFFER_LOAD_FORMAT_D16,
M, DAG, Ops);		M, DAG, Ops);
return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_LOAD_FORMAT, DL,		return DAG.getMemIntrinsicNode(AMDGPUISD::TBUFFER_LOAD_FORMAT, DL,
Op->getVTList(), Ops, LoadVT,		Op->getVTList(), Ops, LoadVT,
M->getMemOperand());		M->getMemOperand());
▲ Show 20 Lines • Show All 222 Lines • ▼ Show 20 Lines	case AMDGPUIntrinsic::SI_tbuffer_store: {
SDValue VIndex = IdxEn->isOne() ? VAddr : Zero;		SDValue VIndex = IdxEn->isOne() ? VAddr : Zero;
SDValue VOffset = OffEn->isOne() ? VAddr : Zero;		SDValue VOffset = OffEn->isOne() ? VAddr : Zero;

// Deal with the vec-3 case		// Deal with the vec-3 case
const ConstantSDNode *NumChannels = cast<ConstantSDNode>(Op.getOperand(4));		const ConstantSDNode *NumChannels = cast<ConstantSDNode>(Op.getOperand(4));
auto Opcode = NumChannels->getZExtValue() == 3 ?		auto Opcode = NumChannels->getZExtValue() == 3 ?
AMDGPUISD::TBUFFER_STORE_FORMAT_X3 : AMDGPUISD::TBUFFER_STORE_FORMAT;		AMDGPUISD::TBUFFER_STORE_FORMAT_X3 : AMDGPUISD::TBUFFER_STORE_FORMAT;

		unsigned Dfmt = cast<ConstantSDNode>(Op.getOperand(8))->getZExtValue();
		unsigned Nfmt = cast<ConstantSDNode>(Op.getOperand(9))->getZExtValue();
		unsigned Glc = cast<ConstantSDNode>(Op.getOperand(12))->getZExtValue();
		unsigned Slc = cast<ConstantSDNode>(Op.getOperand(13))->getZExtValue();
SDValue Ops[] = {		SDValue Ops[] = {
Chain,		Chain,
Op.getOperand(3), // vdata		Op.getOperand(3), // vdata
Op.getOperand(2), // rsrc		Op.getOperand(2), // rsrc
VIndex,		VIndex,
VOffset,		VOffset,
Op.getOperand(6), // soffset		Op.getOperand(6), // soffset
Op.getOperand(7), // inst_offset		Op.getOperand(7), // inst_offset
Op.getOperand(8), // dfmt		DAG.getConstant(Dfmt \| (Nfmt << 4), DL, MVT::i32), // format
Op.getOperand(9), // nfmt		DAG.getConstant(Glc \| (Slc << 1), DL, MVT::i32), // cachepolicy
Op.getOperand(12), // glc		DAG.getConstant(IdxEn->isOne(), DL, MVT::i1), // idxen
Op.getOperand(13), // slc
};		};

assert((cast<ConstantSDNode>(Op.getOperand(14)))->getZExtValue() == 0 &&		assert((cast<ConstantSDNode>(Op.getOperand(14)))->getZExtValue() == 0 &&
"Value of tfe other than zero is unsupported");		"Value of tfe other than zero is unsupported");

EVT VT = Op.getOperand(3).getValueType();		EVT VT = Op.getOperand(3).getValueType();
MachineMemOperand *MMO = MF.getMachineMemOperand(		MachineMemOperand *MMO = MF.getMachineMemOperand(
MachinePointerInfo(),		MachinePointerInfo(),
MachineMemOperand::MOStore,		MachineMemOperand::MOStore,
VT.getStoreSize(), 4);		VT.getStoreSize(), 4);
return DAG.getMemIntrinsicNode(Opcode, DL,		return DAG.getMemIntrinsicNode(Opcode, DL,
Op->getVTList(), Ops, VT, MMO);		Op->getVTList(), Ops, VT, MMO);
}		}

case Intrinsic::amdgcn_tbuffer_store: {		case Intrinsic::amdgcn_tbuffer_store: {
SDValue VData = Op.getOperand(2);		SDValue VData = Op.getOperand(2);
bool IsD16 = (VData.getValueType().getScalarType() == MVT::f16);		bool IsD16 = (VData.getValueType().getScalarType() == MVT::f16);
if (IsD16)		if (IsD16)
VData = handleD16VData(VData, DAG);		VData = handleD16VData(VData, DAG);
		unsigned Dfmt = cast<ConstantSDNode>(Op.getOperand(8))->getZExtValue();
		unsigned Nfmt = cast<ConstantSDNode>(Op.getOperand(9))->getZExtValue();
		unsigned Glc = cast<ConstantSDNode>(Op.getOperand(10))->getZExtValue();
		unsigned Slc = cast<ConstantSDNode>(Op.getOperand(11))->getZExtValue();
		unsigned IdxEn = 1;
		if (auto Idx = dyn_cast<ConstantSDNode>(Op.getOperand(4)))
		IdxEn = Idx->getZExtValue() != 0;
		SDValue Ops[] = {
		Chain,
		VData, // vdata
		Op.getOperand(3), // rsrc
		Op.getOperand(4), // vindex
		Op.getOperand(5), // voffset
		Op.getOperand(6), // soffset
		Op.getOperand(7), // offset
		DAG.getConstant(Dfmt \| (Nfmt << 4), DL, MVT::i32), // format
		DAG.getConstant(Glc \| (Slc << 1), DL, MVT::i32), // cachepolicy
		DAG.getConstant(IdxEn, DL, MVT::i1), // idexen
		};
		unsigned Opc = IsD16 ? AMDGPUISD::TBUFFER_STORE_FORMAT_D16 :
		AMDGPUISD::TBUFFER_STORE_FORMAT;
		MemSDNode *M = cast<MemSDNode>(Op);
		return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops,
		M->getMemoryVT(), M->getMemOperand());
		}

		case Intrinsic::amdgcn_struct_tbuffer_store: {
		SDValue VData = Op.getOperand(2);
		bool IsD16 = (VData.getValueType().getScalarType() == MVT::f16);
		if (IsD16)
		VData = handleD16VData(VData, DAG);
SDValue Ops[] = {		SDValue Ops[] = {
Chain,		Chain,
VData, // vdata		VData, // vdata
Op.getOperand(3), // rsrc		Op.getOperand(3), // rsrc
Op.getOperand(4), // vindex		Op.getOperand(4), // vindex
Op.getOperand(5), // voffset		Op.getOperand(5), // voffset
Op.getOperand(6), // soffset		Op.getOperand(6), // soffset
Op.getOperand(7), // offset		Op.getOperand(7), // offset
Op.getOperand(8), // dfmt		Op.getOperand(8), // format
Op.getOperand(9), // nfmt		Op.getOperand(9), // cachepolicy
Op.getOperand(10), // glc		DAG.getConstant(1, DL, MVT::i1), // idexen
Op.getOperand(11) // slc		};
		unsigned Opc = IsD16 ? AMDGPUISD::TBUFFER_STORE_FORMAT_D16 :
		AMDGPUISD::TBUFFER_STORE_FORMAT;
		MemSDNode *M = cast<MemSDNode>(Op);
		return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops,
		M->getMemoryVT(), M->getMemOperand());
		}

		case Intrinsic::amdgcn_raw_tbuffer_store: {
		SDValue VData = Op.getOperand(2);
		bool IsD16 = (VData.getValueType().getScalarType() == MVT::f16);
		if (IsD16)
		VData = handleD16VData(VData, DAG);
		SDValue Ops[] = {
		Chain,
		VData, // vdata
		Op.getOperand(3), // rsrc
		DAG.getConstant(0, DL, MVT::i32), // vindex
		Op.getOperand(4), // voffset
		Op.getOperand(5), // soffset
		Op.getOperand(6), // offset
		Op.getOperand(7), // format
		Op.getOperand(8), // cachepolicy
		DAG.getConstant(0, DL, MVT::i1), // idexen
};		};
unsigned Opc = IsD16 ? AMDGPUISD::TBUFFER_STORE_FORMAT_D16 :		unsigned Opc = IsD16 ? AMDGPUISD::TBUFFER_STORE_FORMAT_D16 :
AMDGPUISD::TBUFFER_STORE_FORMAT;		AMDGPUISD::TBUFFER_STORE_FORMAT;
MemSDNode *M = cast<MemSDNode>(Op);		MemSDNode *M = cast<MemSDNode>(Op);
return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops,		return DAG.getMemIntrinsicNode(Opc, DL, Op->getVTList(), Ops,
M->getMemoryVT(), M->getMemOperand());		M->getMemoryVT(), M->getMemOperand());
}		}

Show All 40 Lines	case ISD::SEXTLOAD:
return DAG.getNode(ISD::SIGN_EXTEND, SL, VT, Op);		return DAG.getNode(ISD::SIGN_EXTEND, SL, VT, Op);
case ISD::ZEXTLOAD:		case ISD::ZEXTLOAD:
return DAG.getNode(ISD::ZERO_EXTEND, SL, VT, Op);		return DAG.getNode(ISD::ZERO_EXTEND, SL, VT, Op);
case ISD::EXTLOAD:		case ISD::EXTLOAD:
return DAG.getNode(ISD::ANY_EXTEND, SL, VT, Op);		return DAG.getNode(ISD::ANY_EXTEND, SL, VT, Op);
case ISD::NON_EXTLOAD:		case ISD::NON_EXTLOAD:
return Op;		return Op;
}		}

		nhaehnleUnsubmitted Not Done Reply Inline Actions Just `SDValue()` should do the trick. nhaehnle: Just `SDValue()` should do the trick.
llvm_unreachable("invalid ext type");		llvm_unreachable("invalid ext type");
}		}

SDValue SITargetLowering::widenLoad(LoadSDNode *Ld, DAGCombinerInfo &DCI) const {		SDValue SITargetLowering::widenLoad(LoadSDNode *Ld, DAGCombinerInfo &DCI) const {
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;
if (Ld->getAlignment() < 4 \|\| Ld->isDivergent())		if (Ld->getAlignment() < 4 \|\| Ld->isDivergent())
return SDValue();		return SDValue();

// FIXME: Constant loads should all be marked invariant.		// FIXME: Constant loads should all be marked invariant.
unsigned AS = Ld->getAddressSpace();		unsigned AS = Ld->getAddressSpace();
if (AS != AMDGPUASI.CONSTANT_ADDRESS &&		if (AS != AMDGPUASI.CONSTANT_ADDRESS &&
AS != AMDGPUASI.CONSTANT_ADDRESS_32BIT &&		AS != AMDGPUASI.CONSTANT_ADDRESS_32BIT &&
(AS != AMDGPUAS::GLOBAL_ADDRESS \|\| !Ld->isInvariant()))		(AS != AMDGPUAS::GLOBAL_ADDRESS \|\| !Ld->isInvariant()))
		nhaehnleUnsubmitted Not Done Reply Inline Actions Can just be `!N0`, like below. nhaehnle: Can just be `!N0`, like below.
return SDValue();		return SDValue();

// Don't do this early, since it may interfere with adjacent load merging for		// Don't do this early, since it may interfere with adjacent load merging for
// illegal types. We can avoid losing alignment information for exotic types		// illegal types. We can avoid losing alignment information for exotic types
// pre-legalize.		// pre-legalize.
EVT MemVT = Ld->getMemoryVT();		EVT MemVT = Ld->getMemoryVT();
if ((MemVT.isSimple() && !DCI.isAfterLegalizeDAG()) \|\|		if ((MemVT.isSimple() && !DCI.isAfterLegalizeDAG()) \|\|
MemVT.getSizeInBits() >= 32)		MemVT.getSizeInBits() >= 32)
return SDValue();		return SDValue();

SDLoc SL(Ld);		SDLoc SL(Ld);

		nhaehnleUnsubmitted Not Done Reply Inline Actions I think we should be able to just say `return {N0, SDValue(C1, 0)};` here. nhaehnle: I think we should be able to just say `return {N0, SDValue(C1, 0)};` here.
assert((!MemVT.isVector() \|\| Ld->getExtensionType() == ISD::NON_EXTLOAD) &&		assert((!MemVT.isVector() \|\| Ld->getExtensionType() == ISD::NON_EXTLOAD) &&
"unexpected vector extload");		"unexpected vector extload");

// TODO: Drop only high part of range.		// TODO: Drop only high part of range.
SDValue Ptr = Ld->getBasePtr();		SDValue Ptr = Ld->getBasePtr();
SDValue NewLoad = DAG.getLoad(ISD::UNINDEXED, ISD::NON_EXTLOAD,		SDValue NewLoad = DAG.getLoad(ISD::UNINDEXED, ISD::NON_EXTLOAD,
MVT::i32, SL, Ld->getChain(), Ptr,		MVT::i32, SL, Ld->getChain(), Ptr,
Ld->getOffset(),		Ld->getOffset(),
▲ Show 20 Lines • Show All 2,980 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.td

	Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	def SIatomic_fmin : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMIN", SDTAtomic2_f32,			def SIatomic_fmin : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMIN", SDTAtomic2_f32,
	[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]			[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
	>;			>;

	def SIatomic_fmax : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMAX", SDTAtomic2_f32,			def SIatomic_fmax : SDNode<"AMDGPUISD::ATOMIC_LOAD_FMAX", SDTAtomic2_f32,
	[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]			[SDNPMayLoad, SDNPMayStore, SDNPMemOperand, SDNPHasChain]
	>;			>;

	def SDTbuffer_load : SDTypeProfile<1, 9,			def SDTtbuffer_load : SDTypeProfile<1, 8,
	[ // vdata			[ // vdata
	SDTCisVT<1, v4i32>, // rsrc			SDTCisVT<1, v4i32>, // rsrc
	SDTCisVT<2, i32>, // vindex(VGPR)			SDTCisVT<2, i32>, // vindex(VGPR)
	SDTCisVT<3, i32>, // voffset(VGPR)			SDTCisVT<3, i32>, // voffset(VGPR)
	SDTCisVT<4, i32>, // soffset(SGPR)			SDTCisVT<4, i32>, // soffset(SGPR)
	SDTCisVT<5, i32>, // offset(imm)			SDTCisVT<5, i32>, // offset(imm)
	SDTCisVT<6, i32>, // dfmt(imm)			SDTCisVT<6, i32>, // format(imm)
	SDTCisVT<7, i32>, // nfmt(imm)			SDTCisVT<7, i32>, // cachecontrol(imm)
	SDTCisVT<8, i32>, // glc(imm)			SDTCisVT<8, i1> // idxen(imm)
	SDTCisVT<9, i32> // slc(imm)
	]>;			]>;

	def SItbuffer_load : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT", SDTbuffer_load,			def SItbuffer_load : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT", SDTtbuffer_load,
	[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]>;			[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]>;
	def SItbuffer_load_d16 : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT_D16",			def SItbuffer_load_d16 : SDNode<"AMDGPUISD::TBUFFER_LOAD_FORMAT_D16",
	SDTbuffer_load,			SDTtbuffer_load,
	[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]>;			[SDNPMayLoad, SDNPMemOperand, SDNPHasChain]>;

	def SDTtbuffer_store : SDTypeProfile<0, 10,			def SDTtbuffer_store : SDTypeProfile<0, 9,
	[ // vdata			[ // vdata
	SDTCisVT<1, v4i32>, // rsrc			SDTCisVT<1, v4i32>, // rsrc
	SDTCisVT<2, i32>, // vindex(VGPR)			SDTCisVT<2, i32>, // vindex(VGPR)
	SDTCisVT<3, i32>, // voffset(VGPR)			SDTCisVT<3, i32>, // voffset(VGPR)
	SDTCisVT<4, i32>, // soffset(SGPR)			SDTCisVT<4, i32>, // soffset(SGPR)
	SDTCisVT<5, i32>, // offset(imm)			SDTCisVT<5, i32>, // offset(imm)
	SDTCisVT<6, i32>, // dfmt(imm)			SDTCisVT<6, i32>, // format(imm)
	SDTCisVT<7, i32>, // nfmt(imm)			SDTCisVT<7, i32>, // cachecontrol(imm)
	SDTCisVT<8, i32>, // glc(imm)			SDTCisVT<8, i1> // idxen(imm)
	SDTCisVT<9, i32> // slc(imm)
	]>;			]>;

	def SItbuffer_store : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT", SDTtbuffer_store,			def SItbuffer_store : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT", SDTtbuffer_store,
	[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;			[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;
	def SItbuffer_store_x3 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_X3",			def SItbuffer_store_x3 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_X3",
	SDTtbuffer_store,			SDTtbuffer_store,
	[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;			[SDNPMayStore, SDNPMemOperand, SDNPHasChain]>;
	def SItbuffer_store_d16 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_D16",			def SItbuffer_store_d16 : SDNode<"AMDGPUISD::TBUFFER_STORE_FORMAT_D16",
	▲ Show 20 Lines • Show All 1,900 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.load.d16.ll

This file was added.

				; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs -show-mc-encoding \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx810 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s

				; GCN-LABEL: {{^}}tbuffer_load_d16_x:
				; GCN: tbuffer_load_format_d16_x v{{[0-9]+}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				define amdgpu_ps half @tbuffer_load_d16_x(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call half @llvm.amdgcn.raw.tbuffer.load.f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 22, i32 0)
				ret half %data
				}

				; GCN-LABEL: {{^}}tbuffer_load_d16_xy:
				; UNPACKED: tbuffer_load_format_d16_xy v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: tbuffer_load_format_d16_xy v[[FULL:[0-9]+]], off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[FULL]]
				define amdgpu_ps half @tbuffer_load_d16_xy(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <2 x half> @llvm.amdgcn.raw.tbuffer.load.v2f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 22, i32 0)
				%elt = extractelement <2 x half> %data, i32 1
				ret half %elt
				}

				; GCN-LABEL: {{^}}tbuffer_load_d16_xyzw:
				; UNPACKED: tbuffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: tbuffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[HI]]
				define amdgpu_ps half @tbuffer_load_d16_xyzw(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <4 x half> @llvm.amdgcn.raw.tbuffer.load.v4f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 22, i32 0)
				%elt = extractelement <4 x half> %data, i32 3
				ret half %elt
				}

				declare half @llvm.amdgcn.raw.tbuffer.load.f16(<4 x i32>, i32, i32, i32, i32, i32)
				declare <2 x half> @llvm.amdgcn.raw.tbuffer.load.v2f16(<4 x i32>, i32, i32, i32, i32, i32)
				declare <4 x half> @llvm.amdgcn.raw.tbuffer.load.v4f16(<4 x i32>, i32, i32, i32, i32, i32)

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.load.ll

This file was added.

				;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck -check-prefix=GCN %s
				;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefix=GCN %s

				; GCN-LABEL: {{^}}tbuffer_load:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:15, nfmt:3, 0 glc
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:6, nfmt:1, 0 slc
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:6, nfmt:1, 0
				; GCN: s_waitcnt
				define amdgpu_vs {<4 x float>, <4 x float>, <4 x float>, <4 x float>} @tbuffer_load(<4 x i32> inreg) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 78, i32 0)
				%vdata_glc = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 63, i32 1)
				%vdata_slc = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 22, i32 2)
				%vdata_f32 = call <4 x float> @llvm.amdgcn.raw.tbuffer.load.v4f32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 22, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				%vdata_glc.f = bitcast <4 x i32> %vdata_glc to <4 x float>
				%vdata_slc.f = bitcast <4 x i32> %vdata_slc to <4 x float>
				%r0 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} undef, <4 x float> %vdata.f, 0
				%r1 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r0, <4 x float> %vdata_glc.f, 1
				%r2 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r1, <4 x float> %vdata_slc.f, 2
				%r3 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r2, <4 x float> %vdata_f32, 3
				ret {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r3
				}

				; GCN-LABEL: {{^}}tbuffer_load_immoffs:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 offset:42
				define amdgpu_vs <4 x float> @tbuffer_load_immoffs(<4 x i32> inreg) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 42, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}tbuffer_load_immoffs_large
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:15, nfmt:2, 61 offset:4095
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:3, {{s[0-9]+}} offset:73
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:13, nfmt:4, {{s[0-9]+}} offset:1
				; GCN: s_waitcnt
				define amdgpu_vs {<4 x float>, <4 x float>, <4 x float>} @tbuffer_load_immoffs_large(<4 x i32> inreg, i32 inreg %soffs) {
				%vdata = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 61, i32 4095, i32 47, i32 0)
				%vdata_glc = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 %soffs, i32 73, i32 62, i32 0)
				%vdata_slc = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 %soffs, i32 1, i32 77, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				%vdata_glc.f = bitcast <4 x i32> %vdata_glc to <4 x float>
				%vdata_slc.f = bitcast <4 x i32> %vdata_slc to <4 x float>
				%r0 = insertvalue {<4 x float>, <4 x float>, <4 x float>} undef, <4 x float> %vdata.f, 0
				%r1 = insertvalue {<4 x float>, <4 x float>, <4 x float>} %r0, <4 x float> %vdata_glc.f, 1
				%r2 = insertvalue {<4 x float>, <4 x float>, <4 x float>} %r1, <4 x float> %vdata_slc.f, 2
				ret {<4 x float>, <4 x float>, <4 x float>} %r2
				}

				; GCN-LABEL: {{^}}tbuffer_load_ofs:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 offen
				define amdgpu_vs <4 x float> @tbuffer_load_ofs(<4 x i32> inreg, i32 %voffs) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 %voffs, i32 0, i32 0, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}tbuffer_load_ofs_imm:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 offen offset:52
				define amdgpu_vs <4 x float> @tbuffer_load_ofs_imm(<4 x i32> inreg, i32 %voffs) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32> %0, i32 %voffs, i32 0, i32 52, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}buffer_load_xy:
				; GCN: tbuffer_load_format_xy {{v\[[0-9]+:[0-9]+\]}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:13, nfmt:4, 0
				define amdgpu_vs <2 x float> @buffer_load_xy(<4 x i32> inreg %rsrc) {
				%vdata = call <2 x i32> @llvm.amdgcn.raw.tbuffer.load.v2i32(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 77, i32 0)
				%vdata.f = bitcast <2 x i32> %vdata to <2 x float>
				ret <2 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}buffer_load_x:
				; GCN: tbuffer_load_format_x {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, dfmt:13, nfmt:4, 0
				define amdgpu_vs float @buffer_load_x(<4 x i32> inreg %rsrc) {
				%vdata = call i32 @llvm.amdgcn.raw.tbuffer.load.i32(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 77, i32 0)
				%vdata.f = bitcast i32 %vdata to float
				ret float %vdata.f
				}

				declare i32 @llvm.amdgcn.raw.tbuffer.load.i32(<4 x i32>, i32, i32, i32, i32, i32)
				declare <2 x i32> @llvm.amdgcn.raw.tbuffer.load.v2i32(<4 x i32>, i32, i32, i32, i32, i32)
				declare <4 x i32> @llvm.amdgcn.raw.tbuffer.load.v4i32(<4 x i32>, i32, i32, i32, i32, i32)
				declare <4 x float> @llvm.amdgcn.raw.tbuffer.load.v4f32(<4 x i32>, i32, i32, i32, i32, i32)

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.store.d16.ll

This file was added.

				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s


				; GCN-LABEL: {{^}}tbuffer_store_d16_x:
				; GCN: s_load_dwordx4
				; GCN: s_load_dword s[[S_LO:[0-9]+]]
				; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[S_LO]]
				; GCN: tbuffer_store_format_d16_x v[[V_LO]], off, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0
				define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, half %data) {
				main_body:
				call void @llvm.amdgcn.raw.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}tbuffer_store_d16_xy:
				; GCN: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10
				; UNPACKED-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[S_DATA]], 16
				; UNPACKED-DAG: s_and_b32 [[MASKED:s[0-9]+]], [[S_DATA]], 0xffff{{$}}
				; UNPACKED-DAG: v_mov_b32_e32 v[[V_LO:[0-9]+]], [[MASKED]]
				; UNPACKED-DAG: v_mov_b32_e32 v[[V_HI:[0-9]+]], [[SHR]]
				; UNPACKED: tbuffer_store_format_d16_xy v{{\[}}[[V_LO]]:[[V_HI]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0

				; PACKED: tbuffer_store_format_d16_xy v{{[0-9]+}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0
				define amdgpu_kernel void @tbuffer_store_d16_xy(<4 x i32> %rsrc, <2 x half> %data) {
				main_body:
				call void @llvm.amdgcn.raw.tbuffer.store.v2f16(<2 x half> %data, <4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}tbuffer_store_d16_xyzw:
				; GCN-DAG: s_load_dwordx2 s{{\[}}[[S_DATA_0:[0-9]+]]:[[S_DATA_1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x10

				; UNPACKED-DAG: s_mov_b32 [[K:s[0-9]+]], 0xffff{{$}}
				; UNPACKED-DAG: s_lshr_b32 [[SHR0:s[0-9]+]], s[[S_DATA_0]], 16
				; UNPACKED-DAG: s_and_b32 [[MASKED0:s[0-9]+]], s[[S_DATA_0]], [[K]]
				; UNPACKED-DAG: s_lshr_b32 [[SHR1:s[0-9]+]], s[[S_DATA_1]], 16
				; UNPACKED-DAG: s_and_b32 [[MASKED1:s[0-9]+]], s[[S_DATA_1]], [[K]]

				; UNPACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], [[MASKED0]]
				; UNPACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[SHR1]]
				; UNPACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0


				; PACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], s[[S_DATA_0]]
				; PACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], s[[S_DATA_1]]
				; PACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, off, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0
				define amdgpu_kernel void @tbuffer_store_d16_xyzw(<4 x i32> %rsrc, <4 x half> %data) {
				main_body:
				call void @llvm.amdgcn.raw.tbuffer.store.v4f16(<4 x half> %data, <4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				declare void @llvm.amdgcn.raw.tbuffer.store.f16(half, <4 x i32>, i32, i32, i32, i32, i32)
				declare void @llvm.amdgcn.raw.tbuffer.store.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32, i32)
				declare void @llvm.amdgcn.raw.tbuffer.store.v4f16(<4 x half>, <4 x i32>, i32, i32, i32, i32, i32)

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.store.ll

This file was added.

				;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck -check-prefixes=GCN,VERDE %s
				;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefix=GCN %s

				; GCN-LABEL: {{^}}tbuffer_store:
				; GCN: tbuffer_store_format_xyzw v[0:3], off, s[0:3], dfmt:12, nfmt:2, 0
				; GCN: tbuffer_store_format_xyzw v[4:7], off, s[0:3], dfmt:13, nfmt:3, 0 glc
				; GCN: tbuffer_store_format_xyzw v[8:11], off, s[0:3], dfmt:14, nfmt:4, 0 slc
				; GCN: tbuffer_store_format_xyzw v[8:11], off, s[0:3], dfmt:14, nfmt:4, 0
				define amdgpu_ps void @tbuffer_store(<4 x i32> inreg, <4 x float>, <4 x float>, <4 x float>) {
				main_body:
				%in1 = bitcast <4 x float> %1 to <4 x i32>
				%in2 = bitcast <4 x float> %2 to <4 x i32>
				%in3 = bitcast <4 x float> %3 to <4 x i32>
				call void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 0, i32 44, i32 0)
				call void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32> %in2, <4 x i32> %0, i32 0, i32 0, i32 0, i32 61, i32 1)
				call void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32> %in3, <4 x i32> %0, i32 0, i32 0, i32 0, i32 78, i32 2)
				call void @llvm.amdgcn.raw.tbuffer.store.v4f32(<4 x float> %3, <4 x i32> %0, i32 0, i32 0, i32 0, i32 78, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}tbuffer_store_immoffs:
				; GCN: tbuffer_store_format_xyzw v[0:3], off, s[0:3], dfmt:5, nfmt:7, 0 offset:42
				define amdgpu_ps void @tbuffer_store_immoffs(<4 x i32> inreg, <4 x float>) {
				main_body:
				%in1 = bitcast <4 x float> %1 to <4 x i32>
				call void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 42, i32 117, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}tbuffer_store_scalar_and_imm_offs:
				; GCN: tbuffer_store_format_xyzw v[0:3], off, s[0:3], dfmt:5, nfmt:7, {{s[0-9]+}} offset:42
				define amdgpu_ps void @tbuffer_store_scalar_and_imm_offs(<4 x i32> inreg, <4 x float> %vdata, i32 inreg %soffset) {
				main_body:
				%in1 = bitcast <4 x float> %vdata to <4 x i32>
				call void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 %soffset, i32 42, i32 117, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}buffer_store_ofs:
				; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:3, nfmt:7, 0 offen
				define amdgpu_ps void @buffer_store_ofs(<4 x i32> inreg, <4 x float> %vdata, i32 %voffset) {
				main_body:
				%in1 = bitcast <4 x float> %vdata to <4 x i32>
				call void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %voffset, i32 0, i32 0, i32 115, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}buffer_store_x1:
				; GCN: tbuffer_store_format_x v0, off, s[0:3], dfmt:13, nfmt:7, 0
				define amdgpu_ps void @buffer_store_x1(<4 x i32> inreg %rsrc, float %data) {
				main_body:
				%data.i = bitcast float %data to i32
				call void @llvm.amdgcn.raw.tbuffer.store.i32(i32 %data.i, <4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 125, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}buffer_store_x2:
				; GCN: tbuffer_store_format_xy v[0:1], off, s[0:3], dfmt:1, nfmt:2, 0
				define amdgpu_ps void @buffer_store_x2(<4 x i32> inreg %rsrc, <2 x float> %data) {
				main_body:
				%data.i = bitcast <2 x float> %data to <2 x i32>
				call void @llvm.amdgcn.raw.tbuffer.store.v2i32(<2 x i32> %data.i, <4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				declare void @llvm.amdgcn.raw.tbuffer.store.i32(i32, <4 x i32>, i32, i32, i32, i32, i32) #0
				declare void @llvm.amdgcn.raw.tbuffer.store.v2i32(<2 x i32>, <4 x i32>, i32, i32, i32, i32, i32) #0
				declare void @llvm.amdgcn.raw.tbuffer.store.v4i32(<4 x i32>, <4 x i32>, i32, i32, i32, i32, i32) #0
				declare void @llvm.amdgcn.raw.tbuffer.store.v4f32(<4 x float>, <4 x i32>, i32, i32, i32, i32, i32) #0
				declare <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32>, i32, i1, i1) #1

				attributes #0 = { nounwind }
				attributes #1 = { nounwind readonly }

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.load.d16.ll

This file was added.

				; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs -show-mc-encoding \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx810 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s
				; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED %s

				; GCN-LABEL: {{^}}tbuffer_load_d16_x:
				; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; GCN: tbuffer_load_format_d16_x v{{[0-9]+}}, [[ZEROREG]], s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0 idxen
				define amdgpu_ps half @tbuffer_load_d16_x(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call half @llvm.amdgcn.struct.tbuffer.load.f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 22, i32 0)
				ret half %data
				}

				; GCN-LABEL: {{^}}tbuffer_load_d16_xy:
				; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; UNPACKED: tbuffer_load_format_d16_xy v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, [[ZEROREG]], s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0 idxen
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: tbuffer_load_format_d16_xy v[[FULL:[0-9]+]], [[ZEROREG]], s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0 idxen
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[FULL]]
				define amdgpu_ps half @tbuffer_load_d16_xy(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <2 x half> @llvm.amdgcn.struct.tbuffer.load.v2f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 22, i32 0)
				%elt = extractelement <2 x half> %data, i32 1
				ret half %elt
				}

				; GCN-LABEL: {{^}}tbuffer_load_d16_xyzw:
				; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; UNPACKED: tbuffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, [[ZEROREG]], s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0 idxen
				; UNPACKED: v_mov_b32_e32 v{{[0-9]+}}, v[[HI]]

				; PACKED: tbuffer_load_format_d16_xyzw v{{\[}}{{[0-9]+}}:[[HI:[0-9]+]]{{\]}}, [[ZEROREG]], s[{{[0-9]+:[0-9]+}}], dfmt:6, nfmt:1, 0 idxen
				; PACKED: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v[[HI]]
				define amdgpu_ps half @tbuffer_load_d16_xyzw(<4 x i32> inreg %rsrc) {
				main_body:
				%data = call <4 x half> @llvm.amdgcn.struct.tbuffer.load.v4f16(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 22, i32 0)
				%elt = extractelement <4 x half> %data, i32 3
				ret half %elt
				}

				declare half @llvm.amdgcn.struct.tbuffer.load.f16(<4 x i32>, i32, i32, i32, i32, i32, i32)
				declare <2 x half> @llvm.amdgcn.struct.tbuffer.load.v2f16(<4 x i32>, i32, i32, i32, i32, i32, i32)
				declare <4 x half> @llvm.amdgcn.struct.tbuffer.load.v4f16(<4 x i32>, i32, i32, i32, i32, i32, i32)

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.load.ll

This file was added.

				;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck -check-prefix=GCN %s
				;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefix=GCN %s

				; GCN-LABEL: {{^}}tbuffer_load:
				; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 idxen
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:15, nfmt:3, 0 idxen glc
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:6, nfmt:1, 0 idxen slc
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:6, nfmt:1, 0 idxen
				; GCN: s_waitcnt
				define amdgpu_vs {<4 x float>, <4 x float>, <4 x float>, <4 x float>} @tbuffer_load(<4 x i32> inreg) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 78, i32 0)
				%vdata_glc = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 63, i32 1)
				%vdata_slc = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 22, i32 2)
				%vdata_f32 = call <4 x float> @llvm.amdgcn.struct.tbuffer.load.v4f32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 22, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				%vdata_glc.f = bitcast <4 x i32> %vdata_glc to <4 x float>
				%vdata_slc.f = bitcast <4 x i32> %vdata_slc to <4 x float>
				%r0 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} undef, <4 x float> %vdata.f, 0
				%r1 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r0, <4 x float> %vdata_glc.f, 1
				%r2 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r1, <4 x float> %vdata_slc.f, 2
				%r3 = insertvalue {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r2, <4 x float> %vdata_f32, 3
				ret {<4 x float>, <4 x float>, <4 x float>, <4 x float>} %r3
				}

				; GCN-LABEL: {{^}}tbuffer_load_immoffs:
				; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 idxen offset:42
				define amdgpu_vs <4 x float> @tbuffer_load_immoffs(<4 x i32> inreg) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 0, i32 42, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}tbuffer_load_immoffs_large
				; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:15, nfmt:2, 61 idxen offset:4095
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:3, {{s[0-9]+}} idxen offset:73
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, [[ZEROREG]], {{s\[[0-9]+:[0-9]+\]}}, dfmt:13, nfmt:4, {{s[0-9]+}} idxen offset:1
				; GCN: s_waitcnt
				define amdgpu_vs {<4 x float>, <4 x float>, <4 x float>} @tbuffer_load_immoffs_large(<4 x i32> inreg, i32 inreg %soffs) {
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 61, i32 4095, i32 47, i32 0)
				%vdata_glc = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 %soffs, i32 73, i32 62, i32 0)
				%vdata_slc = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 0, i32 %soffs, i32 1, i32 77, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				%vdata_glc.f = bitcast <4 x i32> %vdata_glc to <4 x float>
				%vdata_slc.f = bitcast <4 x i32> %vdata_slc to <4 x float>
				%r0 = insertvalue {<4 x float>, <4 x float>, <4 x float>} undef, <4 x float> %vdata.f, 0
				%r1 = insertvalue {<4 x float>, <4 x float>, <4 x float>} %r0, <4 x float> %vdata_glc.f, 1
				%r2 = insertvalue {<4 x float>, <4 x float>, <4 x float>} %r1, <4 x float> %vdata_slc.f, 2
				ret {<4 x float>, <4 x float>, <4 x float>} %r2
				}

				; GCN-LABEL: {{^}}tbuffer_load_idx:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 idxen
				define amdgpu_vs <4 x float> @tbuffer_load_idx(<4 x i32> inreg, i32 %vindex) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 %vindex, i32 0, i32 0, i32 0, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}tbuffer_load_ofs:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 idxen offen
				define amdgpu_vs <4 x float> @tbuffer_load_ofs(<4 x i32> inreg, i32 %voffs) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 %voffs, i32 0, i32 0, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}tbuffer_load_ofs_imm:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 idxen offen offset:52
				define amdgpu_vs <4 x float> @tbuffer_load_ofs_imm(<4 x i32> inreg, i32 %voffs) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 0, i32 %voffs, i32 0, i32 52, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}tbuffer_load_both:
				; GCN: tbuffer_load_format_xyzw {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:14, nfmt:4, 0 idxen offen
				define amdgpu_vs <4 x float> @tbuffer_load_both(<4 x i32> inreg, i32 %vindex, i32 %voffs) {
				main_body:
				%vdata = call <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32> %0, i32 %vindex, i32 %voffs, i32 0, i32 0, i32 78, i32 0)
				%vdata.f = bitcast <4 x i32> %vdata to <4 x float>
				ret <4 x float> %vdata.f
				}


				; GCN-LABEL: {{^}}buffer_load_xy:
				; GCN: tbuffer_load_format_xy {{v\[[0-9]+:[0-9]+\]}}, {{v[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:13, nfmt:4, 0 idxen
				define amdgpu_vs <2 x float> @buffer_load_xy(<4 x i32> inreg %rsrc) {
				%vdata = call <2 x i32> @llvm.amdgcn.struct.tbuffer.load.v2i32(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 77, i32 0)
				%vdata.f = bitcast <2 x i32> %vdata to <2 x float>
				ret <2 x float> %vdata.f
				}

				; GCN-LABEL: {{^}}buffer_load_x:
				; GCN: tbuffer_load_format_x {{v[0-9]+}}, {{v[0-9]+}}, {{s\[[0-9]+:[0-9]+\]}}, dfmt:13, nfmt:4, 0 idxen
				define amdgpu_vs float @buffer_load_x(<4 x i32> inreg %rsrc) {
				%vdata = call i32 @llvm.amdgcn.struct.tbuffer.load.i32(<4 x i32> %rsrc, i32 0, i32 0, i32 0, i32 0, i32 77, i32 0)
				%vdata.f = bitcast i32 %vdata to float
				ret float %vdata.f
				}

				declare i32 @llvm.amdgcn.struct.tbuffer.load.i32(<4 x i32>, i32, i32, i32, i32, i32, i32)
				declare <2 x i32> @llvm.amdgcn.struct.tbuffer.load.v2i32(<4 x i32>, i32, i32, i32, i32, i32, i32)
				declare <4 x i32> @llvm.amdgcn.struct.tbuffer.load.v4i32(<4 x i32>, i32, i32, i32, i32, i32, i32)
				declare <4 x float> @llvm.amdgcn.struct.tbuffer.load.v4f32(<4 x i32>, i32, i32, i32, i32, i32, i32)

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.d16.ll

This file was added.

				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=UNPACKED %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx810 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX81 %s
				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=PACKED -check-prefix=GFX9 %s


				; GCN-LABEL: {{^}}tbuffer_store_d16_x:
				; GCN: s_load_dwordx4
				; GCN: s_load_dword{{[x0-9]*}} s{{\[}}[[S_LO:[0-9]+]]
				; GCN: v_mov_b32_e32 v[[V_LO:[0-9]+]], s[[S_LO]]
				; GCN: tbuffer_store_format_d16_x v[[V_LO]], v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
				define amdgpu_kernel void @tbuffer_store_d16_x(<4 x i32> %rsrc, half %data, i32 %vindex) {
				main_body:
				call void @llvm.amdgcn.struct.tbuffer.store.f16(half %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}tbuffer_store_d16_xy:
				; GCN: s_load_dword [[S_DATA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x10
				; UNPACKED-DAG: s_lshr_b32 [[SHR:s[0-9]+]], [[S_DATA]], 16
				; UNPACKED-DAG: s_and_b32 [[MASKED:s[0-9]+]], [[S_DATA]], 0xffff{{$}}
				; UNPACKED-DAG: v_mov_b32_e32 v[[V_LO:[0-9]+]], [[MASKED]]
				; UNPACKED-DAG: v_mov_b32_e32 v[[V_HI:[0-9]+]], [[SHR]]
				; UNPACKED: tbuffer_store_format_d16_xy v{{\[}}[[V_LO]]:[[V_HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen

				; PACKED: tbuffer_store_format_d16_xy v{{[0-9]+}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
				define amdgpu_kernel void @tbuffer_store_d16_xy(<4 x i32> %rsrc, <2 x half> %data, i32 %vindex) {
				main_body:
				call void @llvm.amdgcn.struct.tbuffer.store.v2f16(<2 x half> %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				; GCN-LABEL: {{^}}tbuffer_store_d16_xyzw:
				; GCN-DAG: s_load_dwordx2 s{{\[}}[[S_DATA_0:[0-9]+]]:[[S_DATA_1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0x10

				; UNPACKED-DAG: s_mov_b32 [[K:s[0-9]+]], 0xffff{{$}}
				; UNPACKED-DAG: s_lshr_b32 [[SHR0:s[0-9]+]], s[[S_DATA_0]], 16
				; UNPACKED-DAG: s_and_b32 [[MASKED0:s[0-9]+]], s[[S_DATA_0]], [[K]]
				; UNPACKED-DAG: s_lshr_b32 [[SHR1:s[0-9]+]], s[[S_DATA_1]], 16
				; UNPACKED-DAG: s_and_b32 [[MASKED1:s[0-9]+]], s[[S_DATA_1]], [[K]]

				; UNPACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], [[MASKED0]]
				; UNPACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], [[SHR1]]
				; UNPACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen


				; PACKED-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], s[[S_DATA_0]]
				; PACKED-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], s[[S_DATA_1]]
				; PACKED: tbuffer_store_format_d16_xyzw v{{\[}}[[LO]]:[[HI]]{{\]}}, v{{[0-9]+}}, s[{{[0-9]+:[0-9]+}}], dfmt:1, nfmt:2, 0 idxen
				define amdgpu_kernel void @tbuffer_store_d16_xyzw(<4 x i32> %rsrc, <4 x half> %data, i32 %vindex) {
				main_body:
				call void @llvm.amdgcn.struct.tbuffer.store.v4f16(<4 x half> %data, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 33, i32 0)
				ret void
				}

				declare void @llvm.amdgcn.struct.tbuffer.store.f16(half, <4 x i32>, i32, i32, i32, i32, i32, i32)
				declare void @llvm.amdgcn.struct.tbuffer.store.v2f16(<2 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32)
				declare void @llvm.amdgcn.struct.tbuffer.store.v4f16(<4 x half>, <4 x i32>, i32, i32, i32, i32, i32, i32)

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.ll

This file was copied from test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.ll.

	;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck -check-prefixes=GCN,VERDE %s			;RUN: llc < %s -march=amdgcn -mcpu=verde -verify-machineinstrs \| FileCheck -check-prefixes=GCN,VERDE %s
	;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefix=GCN %s			;RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck -check-prefix=GCN %s

	; GCN-LABEL: {{^}}tbuffer_store:			; GCN-LABEL: {{^}}tbuffer_store:
	; GCN: tbuffer_store_format_xyzw v[0:3], off, s[0:3], dfmt:12, nfmt:2, 0			; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
	; GCN: tbuffer_store_format_xyzw v[4:7], off, s[0:3], dfmt:13, nfmt:3, 0 glc			; GCN: tbuffer_store_format_xyzw v[0:3], [[ZEROREG]], s[0:3], dfmt:12, nfmt:2, 0 idxen
	; GCN: tbuffer_store_format_xyzw v[8:11], off, s[0:3], dfmt:14, nfmt:4, 0 slc			; GCN: tbuffer_store_format_xyzw v[4:7], [[ZEROREG]], s[0:3], dfmt:13, nfmt:3, 0 idxen glc
	; GCN: tbuffer_store_format_xyzw v[8:11], off, s[0:3], dfmt:14, nfmt:4, 0			; GCN: tbuffer_store_format_xyzw v[8:11], [[ZEROREG]], s[0:3], dfmt:14, nfmt:4, 0 idxen slc
				; GCN: tbuffer_store_format_xyzw v[8:11], [[ZEROREG]], s[0:3], dfmt:14, nfmt:4, 0 idxen
	define amdgpu_ps void @tbuffer_store(<4 x i32> inreg, <4 x float>, <4 x float>, <4 x float>) {			define amdgpu_ps void @tbuffer_store(<4 x i32> inreg, <4 x float>, <4 x float>, <4 x float>) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %1 to <4 x i32>			%in1 = bitcast <4 x float> %1 to <4 x i32>
	%in2 = bitcast <4 x float> %2 to <4 x i32>			%in2 = bitcast <4 x float> %2 to <4 x i32>
	%in3 = bitcast <4 x float> %3 to <4 x i32>			%in3 = bitcast <4 x float> %3 to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 12, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 44, i32 0)
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in2, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 13, i32 3, i1 1, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in2, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 61, i32 1)
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in3, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 14, i32 4, i1 0, i1 1)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in3, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 78, i32 2)
	call void @llvm.amdgcn.tbuffer.store.v4f32(<4 x float> %3, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 14, i32 4, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4f32(<4 x float> %3, <4 x i32> %0, i32 0, i32 0, i32 0, i32 0, i32 78, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}tbuffer_store_immoffs:			; GCN-LABEL: {{^}}tbuffer_store_immoffs:
	; GCN: tbuffer_store_format_xyzw v[0:3], off, s[0:3], dfmt:5, nfmt:7, 0 offset:42			; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; GCN: tbuffer_store_format_xyzw v[0:3], [[ZEROREG]], s[0:3], dfmt:5, nfmt:7, 0 idxen offset:42
	define amdgpu_ps void @tbuffer_store_immoffs(<4 x i32> inreg, <4 x float>) {			define amdgpu_ps void @tbuffer_store_immoffs(<4 x i32> inreg, <4 x float>) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %1 to <4 x i32>			%in1 = bitcast <4 x float> %1 to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 0, i32 42, i32 5, i32 7, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 0, i32 42, i32 117, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}tbuffer_store_scalar_and_imm_offs:			; GCN-LABEL: {{^}}tbuffer_store_scalar_and_imm_offs:
	; GCN: tbuffer_store_format_xyzw v[0:3], off, s[0:3], dfmt:5, nfmt:7, {{s[0-9]+}} offset:42			; GCN: v_mov_b32_e32 [[ZEROREG:v[0-9]+]], 0
				; GCN: tbuffer_store_format_xyzw v[0:3], [[ZEROREG]], s[0:3], dfmt:5, nfmt:7, {{s[0-9]+}} idxen offset:42
	define amdgpu_ps void @tbuffer_store_scalar_and_imm_offs(<4 x i32> inreg, <4 x float> %vdata, i32 inreg %soffset) {			define amdgpu_ps void @tbuffer_store_scalar_and_imm_offs(<4 x i32> inreg, <4 x float> %vdata, i32 inreg %soffset) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %vdata to <4 x i32>			%in1 = bitcast <4 x float> %vdata to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 %soffset, i32 42, i32 5, i32 7, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 0, i32 %soffset, i32 42, i32 117, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_idx:			; GCN-LABEL: {{^}}buffer_store_idx:
	; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:15, nfmt:2, 0 idxen			; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:15, nfmt:2, 0 idxen
	define amdgpu_ps void @buffer_store_idx(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex) {			define amdgpu_ps void @buffer_store_idx(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %vdata to <4 x i32>			%in1 = bitcast <4 x float> %vdata to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex, i32 0, i32 0, i32 0, i32 15, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex, i32 0, i32 0, i32 0, i32 47, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_ofs:			; GCN-LABEL: {{^}}buffer_store_ofs:
	; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:3, nfmt:7, 0 offen			; GCN: tbuffer_store_format_xyzw v[0:3], {{v\[[0-9]+:[0-9]+\]}}, s[0:3], dfmt:3, nfmt:7, 0 idxen offen
	define amdgpu_ps void @buffer_store_ofs(<4 x i32> inreg, <4 x float> %vdata, i32 %voffset) {			define amdgpu_ps void @buffer_store_ofs(<4 x i32> inreg, <4 x float> %vdata, i32 %voffset) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %vdata to <4 x i32>			%in1 = bitcast <4 x float> %vdata to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 %voffset, i32 0, i32 0, i32 3, i32 7, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 0, i32 %voffset, i32 0, i32 0, i32 115, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_both:			; GCN-LABEL: {{^}}buffer_store_both:
	; GCN: tbuffer_store_format_xyzw v[0:3], v[4:5], s[0:3], dfmt:6, nfmt:4, 0 idxen offen			; GCN: tbuffer_store_format_xyzw v[0:3], v[4:5], s[0:3], dfmt:6, nfmt:4, 0 idxen offen
	define amdgpu_ps void @buffer_store_both(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex, i32 %voffset) {			define amdgpu_ps void @buffer_store_both(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex, i32 %voffset) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %vdata to <4 x i32>			%in1 = bitcast <4 x float> %vdata to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex, i32 %voffset, i32 0, i32 0, i32 6, i32 4, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex, i32 %voffset, i32 0, i32 0, i32 70, i32 0)
	ret void			ret void
	}			}

	; Ideally, the register allocator would avoid the wait here			; Ideally, the register allocator would avoid the wait here
	;			;
	; GCN-LABEL: {{^}}buffer_store_wait:			; GCN-LABEL: {{^}}buffer_store_wait:
	; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:15, nfmt:3, 0 idxen			; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:15, nfmt:3, 0 idxen
	; VERDE: s_waitcnt expcnt(0)			; VERDE: s_waitcnt expcnt(0)
	; GCN: buffer_load_format_xyzw v[0:3], v5, s[0:3], 0 idxen			; GCN: buffer_load_format_xyzw v[0:3], v5, s[0:3], 0 idxen
	; GCN: s_waitcnt vmcnt(0)			; GCN: s_waitcnt vmcnt(0)
	; GCN: tbuffer_store_format_xyzw v[0:3], v6, s[0:3], dfmt:16, nfmt:2, 0 idxen			; GCN: tbuffer_store_format_xyzw v[0:3], v6, s[0:3], dfmt:14, nfmt:2, 0 idxen
	define amdgpu_ps void @buffer_store_wait(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex.1, i32 %vindex.2, i32 %vindex.3) {			define amdgpu_ps void @buffer_store_wait(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex.1, i32 %vindex.2, i32 %vindex.3) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %vdata to <4 x i32>			%in1 = bitcast <4 x float> %vdata to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex.1, i32 0, i32 0, i32 0, i32 15, i32 3, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex.1, i32 0, i32 0, i32 0, i32 63, i32 0)
	%data = call <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32> %0, i32 %vindex.2, i32 0, i1 0, i1 0)			%data = call <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32> %0, i32 %vindex.2, i32 0, i1 0, i1 0)
	%data.i = bitcast <4 x float> %data to <4 x i32>			%data.i = bitcast <4 x float> %data to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %data.i, <4 x i32> %0, i32 %vindex.3, i32 0, i32 0, i32 0, i32 16, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32> %data.i, <4 x i32> %0, i32 %vindex.3, i32 0, i32 0, i32 0, i32 46, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_x1:			; GCN-LABEL: {{^}}buffer_store_x1:
	; GCN: tbuffer_store_format_x v0, v1, s[0:3], dfmt:13, nfmt:7, 0 idxen			; GCN: tbuffer_store_format_x v0, v1, s[0:3], dfmt:13, nfmt:7, 0 idxen
	define amdgpu_ps void @buffer_store_x1(<4 x i32> inreg %rsrc, float %data, i32 %vindex) {			define amdgpu_ps void @buffer_store_x1(<4 x i32> inreg %rsrc, float %data, i32 %vindex) {
	main_body:			main_body:
	%data.i = bitcast float %data to i32			%data.i = bitcast float %data to i32
	call void @llvm.amdgcn.tbuffer.store.i32(i32 %data.i, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 13, i32 7, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.i32(i32 %data.i, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 125, i32 0)
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_x2:			; GCN-LABEL: {{^}}buffer_store_x2:
	; GCN: tbuffer_store_format_xy v[0:1], v2, s[0:3], dfmt:1, nfmt:2, 0 idxen			; GCN: tbuffer_store_format_xy v[0:1], v2, s[0:3], dfmt:1, nfmt:2, 0 idxen
	define amdgpu_ps void @buffer_store_x2(<4 x i32> inreg %rsrc, <2 x float> %data, i32 %vindex) {			define amdgpu_ps void @buffer_store_x2(<4 x i32> inreg %rsrc, <2 x float> %data, i32 %vindex) {
	main_body:			main_body:
	%data.i = bitcast <2 x float> %data to <2 x i32>			%data.i = bitcast <2 x float> %data to <2 x i32>
	call void @llvm.amdgcn.tbuffer.store.v2i32(<2 x i32> %data.i, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 1, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.struct.tbuffer.store.v2i32(<2 x i32> %data.i, <4 x i32> %rsrc, i32 %vindex, i32 0, i32 0, i32 0, i32 33, i32 0)
	ret void			ret void
	}			}

	declare void @llvm.amdgcn.tbuffer.store.i32(i32, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1) #0			declare void @llvm.amdgcn.struct.tbuffer.store.i32(i32, <4 x i32>, i32, i32, i32, i32, i32, i32) #0
	declare void @llvm.amdgcn.tbuffer.store.v2i32(<2 x i32>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1) #0			declare void @llvm.amdgcn.struct.tbuffer.store.v2i32(<2 x i32>, <4 x i32>, i32, i32, i32, i32, i32, i32) #0
	declare void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1) #0			declare void @llvm.amdgcn.struct.tbuffer.store.v4i32(<4 x i32>, <4 x i32>, i32, i32, i32, i32, i32, i32) #0
	declare void @llvm.amdgcn.tbuffer.store.v4f32(<4 x float>, <4 x i32>, i32, i32, i32, i32, i32, i32, i1, i1) #0			declare void @llvm.amdgcn.struct.tbuffer.store.v4f32(<4 x float>, <4 x i32>, i32, i32, i32, i32, i32, i32) #0
	declare <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32>, i32, i32, i1, i1) #1			declare <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32>, i32, i32, i1, i1) #1

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { nounwind readonly }			attributes #1 = { nounwind readonly }

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.ll

This file was copied to test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.ll.

	Show First 20 Lines • Show All 64 Lines • ▼ Show 20 Lines

	; Ideally, the register allocator would avoid the wait here			; Ideally, the register allocator would avoid the wait here
	;			;
	; GCN-LABEL: {{^}}buffer_store_wait:			; GCN-LABEL: {{^}}buffer_store_wait:
	; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:15, nfmt:3, 0 idxen			; GCN: tbuffer_store_format_xyzw v[0:3], v4, s[0:3], dfmt:15, nfmt:3, 0 idxen
	; VERDE: s_waitcnt expcnt(0)			; VERDE: s_waitcnt expcnt(0)
	; GCN: buffer_load_format_xyzw v[0:3], v5, s[0:3], 0 idxen			; GCN: buffer_load_format_xyzw v[0:3], v5, s[0:3], 0 idxen
	; GCN: s_waitcnt vmcnt(0)			; GCN: s_waitcnt vmcnt(0)
	; GCN: tbuffer_store_format_xyzw v[0:3], v6, s[0:3], dfmt:16, nfmt:2, 0 idxen			; GCN: tbuffer_store_format_xyzw v[0:3], v6, s[0:3], dfmt:14, nfmt:2, 0 idxen
	define amdgpu_ps void @buffer_store_wait(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex.1, i32 %vindex.2, i32 %vindex.3) {			define amdgpu_ps void @buffer_store_wait(<4 x i32> inreg, <4 x float> %vdata, i32 %vindex.1, i32 %vindex.2, i32 %vindex.3) {
	main_body:			main_body:
	%in1 = bitcast <4 x float> %vdata to <4 x i32>			%in1 = bitcast <4 x float> %vdata to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex.1, i32 0, i32 0, i32 0, i32 15, i32 3, i1 0, i1 0)			call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %in1, <4 x i32> %0, i32 %vindex.1, i32 0, i32 0, i32 0, i32 15, i32 3, i1 0, i1 0)
	%data = call <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32> %0, i32 %vindex.2, i32 0, i1 0, i1 0)			%data = call <4 x float> @llvm.amdgcn.buffer.load.format.v4f32(<4 x i32> %0, i32 %vindex.2, i32 0, i1 0, i1 0)
	%data.i = bitcast <4 x float> %data to <4 x i32>			%data.i = bitcast <4 x float> %data to <4 x i32>
	call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %data.i, <4 x i32> %0, i32 %vindex.3, i32 0, i32 0, i32 0, i32 16, i32 2, i1 0, i1 0)			call void @llvm.amdgcn.tbuffer.store.v4i32(<4 x i32> %data.i, <4 x i32> %0, i32 %vindex.3, i32 0, i32 0, i32 0, i32 14, i32 2, i1 0, i1 0)
				arsenmUnsubmitted Not Done Reply Inline Actions Why the change in argument values? arsenm: Why the change in argument values?
				tprAuthorUnsubmitted Not Done Reply Inline Actions 16 is an illegal dfmt (it is only 4 bits), so the test was invalid. tpr: 16 is an illegal dfmt (it is only 4 bits), so the test was invalid.
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}buffer_store_x1:			; GCN-LABEL: {{^}}buffer_store_x1:
	; GCN: tbuffer_store_format_x v0, v1, s[0:3], dfmt:13, nfmt:7, 0 idxen			; GCN: tbuffer_store_format_x v0, v1, s[0:3], dfmt:13, nfmt:7, 0 idxen
	define amdgpu_ps void @buffer_store_x1(<4 x i32> inreg %rsrc, float %data, i32 %vindex) {			define amdgpu_ps void @buffer_store_x1(<4 x i32> inreg %rsrc, float %data, i32 %vindex) {
	main_body:			main_body:
	%data.i = bitcast float %data to i32			%data.i = bitcast float %data to i32
	Show All 22 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] New tbuffer intrinsics
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 157996

include/llvm/IR/IntrinsicsAMDGPU.td

lib/Target/AMDGPU/BUFInstructions.td

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrInfo.td

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.load.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.load.ll

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.store.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.store.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.load.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.load.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.ll

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] New tbuffer intrinsicsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 157996

include/llvm/IR/IntrinsicsAMDGPU.td

lib/Target/AMDGPU/BUFInstructions.td

lib/Target/AMDGPU/SIISelLowering.cpp

lib/Target/AMDGPU/SIInstrInfo.td

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.load.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.load.ll

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.store.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.raw.tbuffer.store.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.load.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.load.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.d16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.struct.tbuffer.store.ll

test/CodeGen/AMDGPU/llvm.amdgcn.tbuffer.store.ll

[AMDGPU] New tbuffer intrinsics
ClosedPublic