This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Split flat offsets that don't fit in DAG
ClosedPublic

Authored by arsenm on Oct 11 2019, 2:55 PM.

Download Raw Diff

Details

Reviewers

rampitec
vpykhtin

Summary

We handle it this way for some other address spaces.

Since r349196, SILoadStoreOptimizer has been trying to do this. This
is after SIFoldOperands runs, which can change the addressing
patterns. It's simpler to just split this earlier.

Diff Detail

Event Timeline

arsenm created this revision.Oct 11 2019, 2:55 PM

Herald added subscribers: jfb, t-tye, tpr and 6 others. · View Herald TranscriptOct 11 2019, 2:55 PM

Mostly LGTM, but I wonder about the high level intention here. Is this intended to expose new load/store merging opportunities? If so, is there a test for this? Or is there some part of SIFoldOperands that can now be removed?

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1715	It does seem like an annoying duplication of concerns to implement the 64-bit addition here manually.

In D68893#1708171, @nhaehnle wrote:

Mostly LGTM, but I wonder about the high level intention here. Is this intended to expose new load/store merging opportunities? If so, is there a test for this? Or is there some part of SIFoldOperands that can now be removed?

This is mostly covered already, by promote-constOffset-to-imm.ll but I did mean to add more target cases for this. The problem I was solving is that SILoadStoreOptimizer tries to do this optimization currently. When D68894 is applied, this would break since SIFoldOperands would now shrink the add pattern it's looking for. The shrunk form would require vcc liveness tracking, so it's easier to just split the offset earlier

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp
1715	Because we don't try to change SALU operations to VALU based on a VGPR use, this has some test consequences. Some cases are better with the scalar input but I think the VALU output gave a slightly better result

Remove dead code. Add new test for different offsets

So assume we have several loads from the same base, a normal case with the huge offset. The ideal selection would reuse an already advanced pointer from the previous load. To achieve that an add shall be done to a step increment of the base pointer, say a 2kb increment, or whatever is supported maximum offset. If that is the case then creation if new sdnode will reuse an old one, already advanced. Otherwise it might be better to split even earlier, in the codegen prepare, or separate gep from constant offset to get that ideal result. I doubt a single operation handling will get a good result for a usual sequence of operations.

I.e. ideally we want:

load p
load p+128
load p+256
...
load p+2048-128
p1 = p + 2048
load p1
load p1 + 128
load p1 + 256
...

etc for a 128 byte stride.

In D68893#1715404, @rampitec wrote:

I.e. ideally we want:

load p
load p+128
load p+256
...
load p+2048-128
p1 = p + 2048
load p1
load p1 + 128
load p1 + 256
...

etc for a 128 byte stride.

This would be better, but picking the base constant to use is more difficult. I think this is a next step beyond this patch. I'm not sure splitting this in the IR will work out, as the DAG will try to fold the adds of constants pack together

In D68893#1715467, @arsenm wrote:

In D68893#1715404, @rampitec wrote:

I.e. ideally we want:

load p
load p+128
load p+256
...
load p+2048-128
p1 = p + 2048
load p1
load p1 + 128
load p1 + 256
...

etc for a 128 byte stride.

This would be better, but picking the base constant to use is more difficult. I think this is a next step beyond this patch. I'm not sure splitting this in the IR will work out, as the DAG will try to fold the adds of constants pack together

I think the real problem is treating the base constant as the subtract of the offset that fits. If this was just extracting low bits, in typical usage the base add and constant would end up being the same. I got confused by the signed addressing modes initially, and ended up treating it this way. Next I'll try extract the bits again

OK, there is definitely work ahead, but LGTM in the interim.

This revision is now accepted and ready to land.Oct 18 2019, 9:47 PM

r375366

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUISelDAGToDAG.cpp

118 lines

SIInstrInfo.h

2 lines

SIInstrInfo.cpp

14 lines

test/

CodeGen/

AMDGPU/

cgp-addressing-modes.ll

5 lines

flat-address-space.ll

27 lines

global-saddr.ll

2 lines

global_atomics.ll

9 lines

global_atomics_i64.ll

4 lines

promote-constOffset-to-imm.ll

71 lines

store-hi16.ll

32 lines

Diff 224684

lib/Target/AMDGPU/AMDGPUISelDAGToDAG.cpp

Show First 20 Lines • Show All 256 Lines • ▼ Show 20 Lines	private:
bool SelectVOP3OpSelMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;		bool SelectVOP3OpSelMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;
bool SelectVOP3OpSelMods0(SDValue In, SDValue &Src, SDValue &SrcMods,		bool SelectVOP3OpSelMods0(SDValue In, SDValue &Src, SDValue &SrcMods,
SDValue &Clamp) const;		SDValue &Clamp) const;
bool SelectVOP3PMadMixModsImpl(SDValue In, SDValue &Src, unsigned &Mods) const;		bool SelectVOP3PMadMixModsImpl(SDValue In, SDValue &Src, unsigned &Mods) const;
bool SelectVOP3PMadMixMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;		bool SelectVOP3PMadMixMods(SDValue In, SDValue &Src, SDValue &SrcMods) const;

SDValue getHi16Elt(SDValue In) const;		SDValue getHi16Elt(SDValue In) const;

		SDValue getRegSequence64(unsigned RCID, const SDLoc &DL,
		SDValue Lo, SDValue Hi) const;

		SDValue getMaterializedScalarImm32(int64_t Val, const SDLoc &DL) const;
		SDValue getMaterializedScalarImm64(int64_t Val, const SDLoc &DL) const;

void SelectADD_SUB_I64(SDNode *N);		void SelectADD_SUB_I64(SDNode *N);
void SelectAddcSubb(SDNode *N);		void SelectAddcSubb(SDNode *N);
void SelectUADDO_USUBO(SDNode *N);		void SelectUADDO_USUBO(SDNode *N);
void SelectDIV_SCALE(SDNode *N);		void SelectDIV_SCALE(SDNode *N);
void SelectDIV_FMAS(SDNode *N);		void SelectDIV_FMAS(SDNode *N);
void SelectMAD_64_32(SDNode *N);		void SelectMAD_64_32(SDNode *N);
void SelectFMA_W_CHAIN(SDNode *N);		void SelectFMA_W_CHAIN(SDNode *N);
void SelectFMUL_W_CHAIN(SDNode *N);		void SelectFMUL_W_CHAIN(SDNode *N);
▲ Show 20 Lines • Show All 688 Lines • ▼ Show 20 Lines	bool AMDGPUDAGToDAGISel::SelectADDRIndirect(SDValue Addr, SDValue &Base,
} else {		} else {
Base = Addr;		Base = Addr;
Offset = CurDAG->getTargetConstant(0, DL, MVT::i32);		Offset = CurDAG->getTargetConstant(0, DL, MVT::i32);
}		}

return true;		return true;
}		}

		SDValue AMDGPUDAGToDAGISel::getRegSequence64(unsigned RCID, const SDLoc &DL,
		SDValue Lo, SDValue Hi) const {
		SDValue Sub0 = CurDAG->getTargetConstant(AMDGPU::sub0, DL, MVT::i32);
		SDValue Sub1 = CurDAG->getTargetConstant(AMDGPU::sub1, DL, MVT::i32);

		SDValue RegSequenceArgs[] = {
		CurDAG->getTargetConstant(RCID, DL, MVT::i32),
		Lo, Sub0, Hi, Sub1
		};

		SDNode *RegSequence = CurDAG->getMachineNode(AMDGPU::REG_SEQUENCE, DL,
		MVT::i64, RegSequenceArgs);
		return SDValue(RegSequence, 0);
		}

		SDValue AMDGPUDAGToDAGISel::getMaterializedScalarImm32(int64_t Val,
		const SDLoc &DL) const {
		SDNode *Mov = CurDAG->getMachineNode(
		AMDGPU::S_MOV_B32, DL, MVT::i32,
		CurDAG->getTargetConstant(Val, DL, MVT::i32));
		return SDValue(Mov, 0);
		}

		SDValue AMDGPUDAGToDAGISel::getMaterializedScalarImm64(int64_t Val,
		const SDLoc &DL) const {

		SDValue Lo = getMaterializedScalarImm32(Lo_32(Val), DL);
		SDValue Hi = getMaterializedScalarImm32(Hi_32(Val), DL);
		return getRegSequence64(AMDGPU::SReg_64RegClassID, DL, Lo, Hi);
		}

// FIXME: Should only handle addcarry/subcarry		// FIXME: Should only handle addcarry/subcarry
void AMDGPUDAGToDAGISel::SelectADD_SUB_I64(SDNode *N) {		void AMDGPUDAGToDAGISel::SelectADD_SUB_I64(SDNode *N) {
SDLoc DL(N);		SDLoc DL(N);
SDValue LHS = N->getOperand(0);		SDValue LHS = N->getOperand(0);
SDValue RHS = N->getOperand(1);		SDValue RHS = N->getOperand(1);

unsigned Opcode = N->getOpcode();		unsigned Opcode = N->getOpcode();
bool ConsumeCarry = (Opcode == ISD::ADDE \|\| Opcode == ISD::SUBE);		bool ConsumeCarry = (Opcode == ISD::ADDE \|\| Opcode == ISD::SUBE);
▲ Show 20 Lines • Show All 651 Lines • ▼ Show 20 Lines	bool AMDGPUDAGToDAGISel::SelectFlatOffset(SDNode *N,
int64_t OffsetVal = 0;		int64_t OffsetVal = 0;

if (Subtarget->hasFlatInstOffsets() &&		if (Subtarget->hasFlatInstOffsets() &&
(!Subtarget->hasFlatSegmentOffsetBug() \|\|		(!Subtarget->hasFlatSegmentOffsetBug() \|\|
findMemSDNode(N)->getAddressSpace() != AMDGPUAS::FLAT_ADDRESS) &&		findMemSDNode(N)->getAddressSpace() != AMDGPUAS::FLAT_ADDRESS) &&
CurDAG->isBaseWithConstantOffset(Addr)) {		CurDAG->isBaseWithConstantOffset(Addr)) {
SDValue N0 = Addr.getOperand(0);		SDValue N0 = Addr.getOperand(0);
SDValue N1 = Addr.getOperand(1);		SDValue N1 = Addr.getOperand(1);
int64_t COffsetVal = cast<ConstantSDNode>(N1)->getSExtValue();		uint64_t COffsetVal = cast<ConstantSDNode>(N1)->getSExtValue();

const SIInstrInfo *TII = Subtarget->getInstrInfo();		const SIInstrInfo *TII = Subtarget->getInstrInfo();
if (TII->isLegalFLATOffset(COffsetVal, findMemSDNode(N)->getAddressSpace(),		unsigned AS = findMemSDNode(N)->getAddressSpace();
IsSigned)) {		if (TII->isLegalFLATOffset(COffsetVal, AS, IsSigned)) {
Addr = N0;		Addr = N0;
OffsetVal = COffsetVal;		OffsetVal = COffsetVal;
		} else {
		// If the offset doesn't fit, put the low bits into the offset field and
		// add the rest.

		SDLoc DL(N);
		uint64_t ImmField;
		const unsigned NumBits = TII->getNumFlatOffsetBits(AS, IsSigned);
		if (IsSigned) {
		ImmField = SignExtend64(COffsetVal, NumBits);

		// Don't use a negative offset field if the base offset is positive.
		// Since the scheduler currently relies on the offset field, doing so
		// could result in strange scheduling decisions.

		// TODO: Should we not do this in the opposite direction as well?
		if (static_cast<int64_t>(COffsetVal) > 0) {
		if (static_cast<int64_t>(ImmField) < 0) {
		const uint64_t OffsetMask = maskTrailingOnes<uint64_t>(NumBits - 1);
		ImmField = COffsetVal & OffsetMask;
		}
		}
		} else {
		// TODO: Should we do this for a negative offset?
		const uint64_t OffsetMask = maskTrailingOnes<uint64_t>(NumBits);
		ImmField = COffsetVal & OffsetMask;
		}

		uint64_t RemainderOffset = COffsetVal - ImmField;

		assert(TII->isLegalFLATOffset(ImmField, AS, IsSigned));
		assert(RemainderOffset + ImmField == COffsetVal);

		OffsetVal = ImmField;

		#if 0
		// TODO: Should this try to use a scalar add pseudo?
		nhaehnleUnsubmitted Not Done Reply Inline Actions It does seem like an annoying duplication of concerns to implement the 64-bit addition here manually. nhaehnle: It does seem like an annoying duplication of concerns to implement the 64-bit addition here…
		arsenmAuthorUnsubmitted Done Reply Inline Actions Because we don't try to change SALU operations to VALU based on a VGPR use, this has some test consequences. Some cases are better with the scalar input but I think the VALU output gave a slightly better result arsenm: Because we don't try to change SALU operations to VALU based on a VGPR use, this has some test…
		SDValue AddOffset
		= getMaterializedScalarImm64(RemainderOffset, DL);

		SDNode *Add = CurDAG->getMachineNode(
		AMDGPU::S_ADD_U64_PSEUDO, DL, MVT::i64, N0, AddOffset);
		Addr = SDValue(Add, 0);
		#else
		SDValue Sub0 = CurDAG->getTargetConstant(AMDGPU::sub0, DL, MVT::i32);
		SDValue Sub1 = CurDAG->getTargetConstant(AMDGPU::sub1, DL, MVT::i32);

		SDNode *N0Lo = CurDAG->getMachineNode(TargetOpcode::EXTRACT_SUBREG,
		DL, MVT::i32, N0, Sub0);
		SDNode *N0Hi = CurDAG->getMachineNode(TargetOpcode::EXTRACT_SUBREG,
		DL, MVT::i32, N0, Sub1);

		SDValue AddOffsetLo
		= getMaterializedScalarImm32(Lo_32(RemainderOffset), DL);
		SDValue AddOffsetHi
		= getMaterializedScalarImm32(Hi_32(RemainderOffset), DL);

		SDVTList VTs = CurDAG->getVTList(MVT::i32, MVT::i1);
		SDValue Clamp = CurDAG->getTargetConstant(0, DL, MVT::i1);

		SDNode *Add = CurDAG->getMachineNode(
		AMDGPU::V_ADD_I32_e64, DL, VTs,
		{AddOffsetLo, SDValue(N0Lo, 0), Clamp});

		SDNode *Addc = CurDAG->getMachineNode(
		AMDGPU::V_ADDC_U32_e64, DL, VTs,
		{AddOffsetHi, SDValue(N0Hi, 0), SDValue(Add, 1), Clamp});

		SDValue RegSequenceArgs[] = {
		CurDAG->getTargetConstant(AMDGPU::VReg_64RegClassID, DL, MVT::i32),
		SDValue(Add, 0), Sub0, SDValue(Addc, 0), Sub1
		};

		Addr = SDValue(CurDAG->getMachineNode(AMDGPU::REG_SEQUENCE, DL,
		MVT::i64, RegSequenceArgs), 0);
		#endif
}		}
}		}

VAddr = Addr;		VAddr = Addr;
Offset = CurDAG->getTargetConstant(OffsetVal, SDLoc(), MVT::i16);		Offset = CurDAG->getTargetConstant(OffsetVal, SDLoc(), MVT::i16);
SLC = CurDAG->getTargetConstant(0, SDLoc(), MVT::i1);		SLC = CurDAG->getTargetConstant(0, SDLoc(), MVT::i1);
return true;		return true;
}		}
▲ Show 20 Lines • Show All 1,129 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.h

Show First 20 Lines • Show All 990 Lines • ▼ Show 20 Lines	public:

static bool isKillTerminator(unsigned Opcode);		static bool isKillTerminator(unsigned Opcode);
const MCInstrDesc &getKillTerminatorFromPseudo(unsigned Opcode) const;		const MCInstrDesc &getKillTerminatorFromPseudo(unsigned Opcode) const;

static bool isLegalMUBUFImmOffset(unsigned Imm) {		static bool isLegalMUBUFImmOffset(unsigned Imm) {
return isUInt<12>(Imm);		return isUInt<12>(Imm);
}		}

		unsigned getNumFlatOffsetBits(unsigned AddrSpace, bool Signed) const;

/// Returns if \p Offset is legal for the subtarget as the offset to a FLAT		/// Returns if \p Offset is legal for the subtarget as the offset to a FLAT
/// encoded instruction. If \p Signed, this is for an instruction that		/// encoded instruction. If \p Signed, this is for an instruction that
/// interprets the offset as signed.		/// interprets the offset as signed.
bool isLegalFLATOffset(int64_t Offset, unsigned AddrSpace,		bool isLegalFLATOffset(int64_t Offset, unsigned AddrSpace,
bool Signed) const;		bool Signed) const;

/// \brief Return a target-specific opcode if Opcode is a pseudo instruction.		/// \brief Return a target-specific opcode if Opcode is a pseudo instruction.
/// Return -1 if the target-specific opcode for the pseudo instruction does		/// Return -1 if the target-specific opcode for the pseudo instruction does
▲ Show 20 Lines • Show All 137 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIInstrInfo.cpp

Show First 20 Lines • Show All 6,175 Lines • ▼ Show 20 Lines	bool SIInstrInfo::isBufferSMRD(const MachineInstr &MI) const {
int Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::sbase);		int Idx = AMDGPU::getNamedOperandIdx(MI.getOpcode(), AMDGPU::OpName::sbase);
if (Idx == -1) // e.g. s_memtime		if (Idx == -1) // e.g. s_memtime
return false;		return false;

const auto RCID = MI.getDesc().OpInfo[Idx].RegClass;		const auto RCID = MI.getDesc().OpInfo[Idx].RegClass;
return RI.getRegClass(RCID)->hasSubClassEq(&AMDGPU::SGPR_128RegClass);		return RI.getRegClass(RCID)->hasSubClassEq(&AMDGPU::SGPR_128RegClass);
}		}

		unsigned SIInstrInfo::getNumFlatOffsetBits(unsigned AddrSpace,
		bool Signed) const {
		if (!ST.hasFlatInstOffsets())
		return 0;

		if (ST.hasFlatSegmentOffsetBug() && AddrSpace == AMDGPUAS::FLAT_ADDRESS)
		return 0;

		if (ST.getGeneration() >= AMDGPUSubtarget::GFX10)
		return Signed ? 12 : 11;

		return Signed ? 13 : 12;
		}

bool SIInstrInfo::isLegalFLATOffset(int64_t Offset, unsigned AddrSpace,		bool SIInstrInfo::isLegalFLATOffset(int64_t Offset, unsigned AddrSpace,
bool Signed) const {		bool Signed) const {
// TODO: Should 0 be special cased?		// TODO: Should 0 be special cased?
if (!ST.hasFlatInstOffsets())		if (!ST.hasFlatInstOffsets())
return false;		return false;

if (ST.hasFlatSegmentOffsetBug() && AddrSpace == AMDGPUAS::FLAT_ADDRESS)		if (ST.hasFlatSegmentOffsetBug() && AddrSpace == AMDGPUAS::FLAT_ADDRESS)
return false;		return false;
▲ Show 20 Lines • Show All 270 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/cgp-addressing-modes.ll

	Show All 38 Lines

	; OPT-LABEL: @test_sink_global_small_max_i32_ds_offset(			; OPT-LABEL: @test_sink_global_small_max_i32_ds_offset(
	; OPT: %in.gep = getelementptr i8, i8 addrspace(1)* %in, i64 65535			; OPT: %in.gep = getelementptr i8, i8 addrspace(1)* %in, i64 65535
	; OPT: br i1			; OPT: br i1

	; GCN-LABEL: {{^}}test_sink_global_small_max_i32_ds_offset:			; GCN-LABEL: {{^}}test_sink_global_small_max_i32_ds_offset:
	; GCN: s_and_saveexec_b64			; GCN: s_and_saveexec_b64
	; SICIVI: buffer_load_sbyte {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, s{{[0-9]+$}}			; SICIVI: buffer_load_sbyte {{v[0-9]+}}, off, {{s\[[0-9]+:[0-9]+\]}}, s{{[0-9]+$}}
	; GFX9: global_load_sbyte {{v[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, off{{$}}
				; GFX9: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0xf000,
				; GFX9: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, 0,
				; GFX9: global_load_sbyte {{v[0-9]+}}, {{v\[[0-9]+:[0-9]+\]}}, off offset:4095{{$}}
	; GCN: {{^}}BB1_2:			; GCN: {{^}}BB1_2:
	; GCN: s_or_b64 exec			; GCN: s_or_b64 exec
	define amdgpu_kernel void @test_sink_global_small_max_i32_ds_offset(i32 addrspace(1)* %out, i8 addrspace(1)* %in) {			define amdgpu_kernel void @test_sink_global_small_max_i32_ds_offset(i32 addrspace(1)* %out, i8 addrspace(1)* %in) {
	entry:			entry:
	%out.gep = getelementptr i32, i32 addrspace(1)* %out, i64 99999			%out.gep = getelementptr i32, i32 addrspace(1)* %out, i64 99999
	%in.gep = getelementptr i8, i8 addrspace(1)* %in, i64 65535			%in.gep = getelementptr i8, i8 addrspace(1)* %in, i64 65535
	%tid = call i32 @llvm.amdgcn.mbcnt.lo(i32 -1, i32 0) #0			%tid = call i32 @llvm.amdgcn.mbcnt.lo(i32 -1, i32 0) #0
	%tmp0 = icmp eq i32 %tid, 0			%tmp0 = icmp eq i32 %tid, 0
	▲ Show 20 Lines • Show All 692 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/flat-address-space.ll

	; RUN: llc -O0 -mtriple=amdgcn-mesa-mesa3d -mcpu=bonaire < %s \| FileCheck -check-prefixes=CHECK,CIVI %s			; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=bonaire < %s \| FileCheck -check-prefixes=CHECK,CIVI %s
	; RUN: llc -O0 -mtriple=amdgcn-mesa-mesa3d -mcpu=tonga -mattr=-flat-for-global < %s \| FileCheck -check-prefixes=CHECK,CIVI %s			; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=tonga -mattr=-flat-for-global < %s \| FileCheck -check-prefixes=CHECK,CIVI %s
	; RUN: llc -O0 -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -mattr=-flat-for-global < %s \| FileCheck -check-prefixes=CHECK,HSA %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -mattr=-flat-for-global < %s \| FileCheck -check-prefixes=CHECK,CIVI,HSA %s
	; RUN: llc -O0 -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -mattr=-flat-for-global < %s \| FileCheck -check-prefixes=CHECK,HSA,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -mattr=-flat-for-global < %s \| FileCheck -check-prefixes=CHECK,HSA,GFX9 %s

	; Disable optimizations in case there are optimizations added that
	; specialize away generic pointer accesses.


	; These testcases might become useless when there are optimizations to
	; remove generic pointers.

	; CHECK-LABEL: {{^}}store_flat_i32:			; CHECK-LABEL: {{^}}store_flat_i32:
	; CHECK-DAG: s_load_dwordx2 s{{\[}}[[LO_SREG:[0-9]+]]:[[HI_SREG:[0-9]+]]],			; CHECK-DAG: s_load_dwordx2 s{{\[}}[[LO_SREG:[0-9]+]]:[[HI_SREG:[0-9]+]]],
	; CHECK-DAG: s_load_dword s[[SDATA:[0-9]+]],			; CHECK-DAG: s_load_dword s[[SDATA:[0-9]+]],
	; CHECK: s_waitcnt lgkmcnt(0)			; CHECK: s_waitcnt lgkmcnt(0)
	; CHECK-DAG: v_mov_b32_e32 v[[DATA:[0-9]+]], s[[SDATA]]			; CHECK-DAG: v_mov_b32_e32 v[[DATA:[0-9]+]], s[[SDATA]]
	; CHECK-DAG: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], s[[LO_SREG]]			; CHECK-DAG: v_mov_b32_e32 v[[LO_VREG:[0-9]+]], s[[LO_SREG]]
	; CHECK-DAG: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], s[[HI_SREG]]			; CHECK-DAG: v_mov_b32_e32 v[[HI_VREG:[0-9]+]], s[[HI_SREG]]
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; CHECK: flat_store_byte v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}{{$}}			; CHECK: flat_store_byte v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}{{$}}
	define amdgpu_kernel void @store_flat_i8_max_offset_p1(i8* %fptr, i8 %x) #0 {			define amdgpu_kernel void @store_flat_i8_max_offset_p1(i8* %fptr, i8 %x) #0 {
	%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 4096			%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 4096
	store volatile i8 %x, i8* %fptr.offset			store volatile i8 %x, i8* %fptr.offset
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}store_flat_i8_neg_offset:			; CHECK-LABEL: {{^}}store_flat_i8_neg_offset:
	; CHECK: flat_store_byte v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}{{$}}			; CIVI: flat_store_byte v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}}{{$}}

				; GFX9: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0xfffff000, v
				; GFX9: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, -1,
				; GFX9: flat_store_byte v{{\[[0-9]+:[0-9]+\]}}, v{{[0-9]+}} offset:4094{{$}}
	define amdgpu_kernel void @store_flat_i8_neg_offset(i8* %fptr, i8 %x) #0 {			define amdgpu_kernel void @store_flat_i8_neg_offset(i8* %fptr, i8 %x) #0 {
	%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 -2			%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 -2
	store volatile i8 %x, i8* %fptr.offset			store volatile i8 %x, i8* %fptr.offset
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}load_flat_i8_max_offset:			; CHECK-LABEL: {{^}}load_flat_i8_max_offset:
	; CIVI: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}{{$}}			; CIVI: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}{{$}}
	; GFX9: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}} offset:4095{{$}}			; GFX9: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}} offset:4095{{$}}
	define amdgpu_kernel void @load_flat_i8_max_offset(i8* %fptr) #0 {			define amdgpu_kernel void @load_flat_i8_max_offset(i8* %fptr) #0 {
	%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 4095			%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 4095
	%val = load volatile i8, i8* %fptr.offset			%val = load volatile i8, i8* %fptr.offset
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}load_flat_i8_max_offset_p1:			; CHECK-LABEL: {{^}}load_flat_i8_max_offset_p1:
	; CHECK: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}{{$}}			; CHECK: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}{{$}}
	define amdgpu_kernel void @load_flat_i8_max_offset_p1(i8* %fptr) #0 {			define amdgpu_kernel void @load_flat_i8_max_offset_p1(i8* %fptr) #0 {
	%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 4096			%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 4096
	%val = load volatile i8, i8* %fptr.offset			%val = load volatile i8, i8* %fptr.offset
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}load_flat_i8_neg_offset:			; CHECK-LABEL: {{^}}load_flat_i8_neg_offset:
	; CHECK: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}{{$}}			; CIVI: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}}{{$}}

				; GFX9: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0xfffff000, v
				; GFX9: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, -1,
				; GFX9: flat_load_ubyte v{{[0-9]+}}, v{{\[[0-9]+:[0-9]+\]}} offset:4094{{$}}
	define amdgpu_kernel void @load_flat_i8_neg_offset(i8* %fptr) #0 {			define amdgpu_kernel void @load_flat_i8_neg_offset(i8* %fptr) #0 {
	%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 -2			%fptr.offset = getelementptr inbounds i8, i8* %fptr, i64 -2
	%val = load volatile i8, i8* %fptr.offset			%val = load volatile i8, i8* %fptr.offset
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }
	attributes #1 = { nounwind convergent }			attributes #1 = { nounwind convergent }

test/CodeGen/AMDGPU/global-saddr.ll

Show All 40 Lines	entry:
%add6 = add i64 %add4, %add3		%add6 = add i64 %add4, %add3
%add7 = add i64 %add6, %add5		%add7 = add i64 %add6, %add5
%gep9 = getelementptr i64, i64 addrspace(1)* %dst_image, i64 %idx		%gep9 = getelementptr i64, i64 addrspace(1)* %dst_image, i64 %idx
%ptr9 = getelementptr inbounds i64, i64 addrspace(1)* %gep9, i64 1		%ptr9 = getelementptr inbounds i64, i64 addrspace(1)* %gep9, i64 1
store volatile i64 %add7, i64 addrspace(1)* %ptr9		store volatile i64 %add7, i64 addrspace(1)* %ptr9

; Test various offset boundaries.		; Test various offset boundaries.
; GFX9: global_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+}}:{{[0-9]+}}] offset:4088{{$}}		; GFX9: global_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+}}:{{[0-9]+}}] offset:4088{{$}}
; GFX9: global_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, off{{$}}		; GFX9: global_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, off offset:4088{{$}}
; GFX9: global_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+}}:{{[0-9]+}}] offset:2040{{$}}		; GFX9: global_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s[{{[0-9]+}}:{{[0-9]+}}] offset:2040{{$}}
%gep11 = getelementptr inbounds i64, i64 addrspace(1)* %gep, i64 511		%gep11 = getelementptr inbounds i64, i64 addrspace(1)* %gep, i64 511
%load11 = load i64, i64 addrspace(1)* %gep11		%load11 = load i64, i64 addrspace(1)* %gep11
%gep12 = getelementptr inbounds i64, i64 addrspace(1)* %gep, i64 1023		%gep12 = getelementptr inbounds i64, i64 addrspace(1)* %gep, i64 1023
%load12 = load i64, i64 addrspace(1)* %gep12		%load12 = load i64, i64 addrspace(1)* %gep12
%gep13 = getelementptr inbounds i64, i64 addrspace(1)* %gep, i64 255		%gep13 = getelementptr inbounds i64, i64 addrspace(1)* %gep, i64 255
%load13 = load i64, i64 addrspace(1)* %gep13		%load13 = load i64, i64 addrspace(1)* %gep13
%add11 = add i64 %load11, %load12		%add11 = add i64 %load11, %load12
▲ Show 20 Lines • Show All 45 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/global_atomics.ll

Show All 19 Lines	entry:
%val = atomicrmw volatile add i32 addrspace(1)* %gep, i32 %in seq_cst		%val = atomicrmw volatile add i32 addrspace(1)* %gep, i32 %in seq_cst
ret void		ret void
}		}

; GCN-LABEL: {{^}}atomic_add_i32_soffset:		; GCN-LABEL: {{^}}atomic_add_i32_soffset:
; SIVI: s_mov_b32 [[SREG:s[0-9]+]], 0x8ca0		; SIVI: s_mov_b32 [[SREG:s[0-9]+]], 0x8ca0
; SIVI: buffer_atomic_add v{{[0-9]+}}, off, s[{{[0-9]+}}:{{[0-9]+}}], [[SREG]]{{$}}		; SIVI: buffer_atomic_add v{{[0-9]+}}, off, s[{{[0-9]+}}:{{[0-9]+}}], [[SREG]]{{$}}

; GFX9: global_atomic_add v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}}, off{{$}}		; GFX9: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0x8000,
		; GFX9-NEXT: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, 0, v{{[0-9]+}}, vcc
		; GFX9: global_atomic_add v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}}, off offset:3232{{$}}
define amdgpu_kernel void @atomic_add_i32_soffset(i32 addrspace(1)* %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_soffset(i32 addrspace(1)* %out, i32 %in) {
entry:		entry:
%gep = getelementptr i32, i32 addrspace(1)* %out, i64 9000		%gep = getelementptr i32, i32 addrspace(1)* %out, i64 9000
%val = atomicrmw volatile add i32 addrspace(1)* %gep, i32 %in seq_cst		%val = atomicrmw volatile add i32 addrspace(1)* %gep, i32 %in seq_cst
ret void		ret void
}		}

; GCN-LABEL: {{^}}atomic_add_i32_huge_offset:		; GCN-LABEL: {{^}}atomic_add_i32_huge_offset:
; SI-DAG: v_mov_b32_e32 v[[PTRLO:[0-9]+]], 0xdeac		; SI-DAG: v_mov_b32_e32 v[[PTRLO:[0-9]+]], 0xdeac
; SI-DAG: v_mov_b32_e32 v[[PTRHI:[0-9]+]], 0xabcd		; SI-DAG: v_mov_b32_e32 v[[PTRHI:[0-9]+]], 0xabcd
; SI: buffer_atomic_add v{{[0-9]+}}, v{{\[}}[[PTRLO]]:[[PTRHI]]{{\]}}, s[{{[0-9]+}}:{{[0-9]+}}], 0 addr64{{$}}		; SI: buffer_atomic_add v{{[0-9]+}}, v{{\[}}[[PTRLO]]:[[PTRHI]]{{\]}}, s[{{[0-9]+}}:{{[0-9]+}}], 0 addr64{{$}}

; VI: flat_atomic_add		; VI: flat_atomic_add

; GFX9: global_atomic_add v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}}, off{{$}}		; GFX9: v_mov_b32_e32 [[HIGH_K:v[0-9]+]], 0xabcd
		; GFX9: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0xd000,
		; GFX9-NEXT: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, [[HIGH_K]], v{{[0-9]+}}, vcc
		; GFX9: global_atomic_add v[{{[0-9]+}}:{{[0-9]+}}], v{{[0-9]+}}, off offset:3756{{$}}
define amdgpu_kernel void @atomic_add_i32_huge_offset(i32 addrspace(1)* %out, i32 %in) {		define amdgpu_kernel void @atomic_add_i32_huge_offset(i32 addrspace(1)* %out, i32 %in) {
entry:		entry:
%gep = getelementptr i32, i32 addrspace(1)* %out, i64 47224239175595		%gep = getelementptr i32, i32 addrspace(1)* %out, i64 47224239175595

%val = atomicrmw volatile add i32 addrspace(1)* %gep, i32 %in seq_cst		%val = atomicrmw volatile add i32 addrspace(1)* %gep, i32 %in seq_cst
ret void		ret void
}		}

▲ Show 20 Lines • Show All 1,186 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/global_atomics_i64.ll

Show First 20 Lines • Show All 985 Lines • ▼ Show 20 Lines	entry:
%val = cmpxchg volatile i64 addrspace(1)* %gep, i64 %old, i64 %in seq_cst seq_cst		%val = cmpxchg volatile i64 addrspace(1)* %gep, i64 %old, i64 %in seq_cst seq_cst
ret void		ret void
}		}

; GCN-LABEL: {{^}}atomic_cmpxchg_i64_soffset:		; GCN-LABEL: {{^}}atomic_cmpxchg_i64_soffset:
; CIVI: s_mov_b32 [[SREG:s[0-9]+]], 0x11940		; CIVI: s_mov_b32 [[SREG:s[0-9]+]], 0x11940
; CIVI: buffer_atomic_cmpswap_x2 v[{{[0-9]+}}:{{[0-9]+}}], off, s[{{[0-9]+}}:{{[0-9]+}}], [[SREG]]{{$}}		; CIVI: buffer_atomic_cmpswap_x2 v[{{[0-9]+}}:{{[0-9]+}}], off, s[{{[0-9]+}}:{{[0-9]+}}], [[SREG]]{{$}}

; GFX9: global_atomic_cmpswap_x2 v[{{[0-9]+:[0-9]+}}], v{{\[[0-9]+:[0-9]+\]}}, off{{$}}		; GFX9: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0x11000,
		; GFX9: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, 0, v{{[0-9]+}}, vcc
		; GFX9: global_atomic_cmpswap_x2 v[{{[0-9]+:[0-9]+}}], v{{\[[0-9]+:[0-9]+\]}}, off offset:2368{{$}}
define amdgpu_kernel void @atomic_cmpxchg_i64_soffset(i64 addrspace(1)* %out, i64 %in, i64 %old) {		define amdgpu_kernel void @atomic_cmpxchg_i64_soffset(i64 addrspace(1)* %out, i64 %in, i64 %old) {
entry:		entry:
%gep = getelementptr i64, i64 addrspace(1)* %out, i64 9000		%gep = getelementptr i64, i64 addrspace(1)* %out, i64 9000
%val = cmpxchg volatile i64 addrspace(1)* %gep, i64 %old, i64 %in seq_cst seq_cst		%val = cmpxchg volatile i64 addrspace(1)* %gep, i64 %old, i64 %in seq_cst seq_cst
ret void		ret void
}		}

; GCN-LABEL: {{^}}atomic_cmpxchg_i64_ret_offset:		; GCN-LABEL: {{^}}atomic_cmpxchg_i64_ret_offset:
▲ Show 20 Lines • Show All 188 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/promote-constOffset-to-imm.ll

; RUN: llc -mtriple=amdgcn -mcpu=gfx803 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8 %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx803 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8 %s
; RUN: llc -mtriple=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s		; RUN: llc -mtriple=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s

declare i64 @_Z13get_global_idj(i32)		declare i64 @_Z13get_global_idj(i32)

define amdgpu_kernel void @clmem_read_simplified(i8 addrspace(1)* %buffer) {		define amdgpu_kernel void @clmem_read_simplified(i8 addrspace(1)* %buffer) {
; GCN-LABEL: clmem_read_simplified:		; GCN-LABEL: clmem_read_simplified:
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
;		;
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048

entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%a0 = shl i64 %call, 7		%a0 = shl i64 %call, 7
%idx.ext11 = and i64 %a0, 4294934528		%idx.ext11 = and i64 %a0, 4294934528
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*		%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*

Show All 37 Lines
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
;		;
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048
		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%a0 = shl i64 %call, 17		%a0 = shl i64 %call, 17
%idx.ext11 = and i64 %a0, 4261412864		%idx.ext11 = and i64 %a0, 4261412864
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
▲ Show 20 Lines • Show All 84 Lines • ▼ Show 20 Lines	for.body: ; preds = %for.body, %for.cond.preheader
br i1 %cmp.31, label %for.body, label %while.cond.loopexit		br i1 %cmp.31, label %for.body, label %while.cond.loopexit

while.end: ; preds = %while.cond.loopexit		while.end: ; preds = %while.cond.loopexit
store i64 %add.10, i64 addrspace(1)* %a1, align 8		store i64 %add.10, i64 addrspace(1)* %a1, align 8
ret void		ret void
}		}

; using 32bit address.		; using 32bit address.
define amdgpu_kernel void @Address32(i8 addrspace(1)* %buffer) {		define amdgpu_kernel void @Address32(i8 addrspace(1)* %buffer) {
; GCN-LABEL: Address32:		; GCN-LABEL: Address32:
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
;		;
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:1024
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-3072		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-1024		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off
entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%id = shl i64 %call, 7		%id = shl i64 %call, 7
%idx.ext11 = and i64 %id, 4294934528		%idx.ext11 = and i64 %id, 4294934528
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
%addr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*		%addr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*

▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines

define amdgpu_kernel void @Offset64(i8 addrspace(1)* %buffer) {		define amdgpu_kernel void @Offset64(i8 addrspace(1)* %buffer) {
; GCN-LABEL: Offset64:		; GCN-LABEL: Offset64:
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
;		;
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%a0 = shl i64 %call, 7		%a0 = shl i64 %call, 7
%idx.ext11 = and i64 %a0, 4294934528		%idx.ext11 = and i64 %a0, 4294934528
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*		%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*

Show All 21 Lines
; TODO: Support load4 as anchor instruction.		; TODO: Support load4 as anchor instruction.
define amdgpu_kernel void @p32Offset64(i8 addrspace(1)* %buffer) {		define amdgpu_kernel void @p32Offset64(i8 addrspace(1)* %buffer) {
; GCN-LABEL: p32Offset64:		; GCN-LABEL: p32Offset64:
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}]
;		;
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:3072
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off offset:-1024		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dword {{v[0-9]+}}, v[{{[0-9]+:[0-9]+}}], off{{$}}
entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%a0 = shl i64 %call, 7		%a0 = shl i64 %call, 7
%idx.ext11 = and i64 %a0, 4294934528		%idx.ext11 = and i64 %a0, 4294934528
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*		%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i32 addrspace(1)*

Show All 21 Lines
define amdgpu_kernel void @DiffBase(i8 addrspace(1)* %buffer1,		define amdgpu_kernel void @DiffBase(i8 addrspace(1)* %buffer1,
; GCN-LABEL: DiffBase:		; GCN-LABEL: DiffBase:
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
;
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
i8 addrspace(1)* %buffer2) {		i8 addrspace(1)* %buffer2) {
entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%a0 = shl i64 %call, 7		%a0 = shl i64 %call, 7
%idx.ext11 = and i64 %a0, 4294934528		%idx.ext11 = and i64 %a0, 4294934528
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer1, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer1, i64 %idx.ext11
%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*		%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*
Show All 33 Lines
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]		; GFX8: flat_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}]
;		;
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:-4096		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off{{$}}
; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048		; GFX9: global_load_dwordx2 v[{{[0-9]+:[0-9]+}}], v[{{[0-9]+:[0-9]+}}], off offset:2048
entry:		entry:
%call = tail call i64 @_Z13get_global_idj(i32 0)		%call = tail call i64 @_Z13get_global_idj(i32 0)
%conv = and i64 %call, 255		%conv = and i64 %call, 255
%a0 = shl i64 %call, 7		%a0 = shl i64 %call, 7
%idx.ext11 = and i64 %a0, 4294934528		%idx.ext11 = and i64 %a0, 4294934528
%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11		%add.ptr12 = getelementptr inbounds i8, i8 addrspace(1)* %buffer, i64 %idx.ext11
%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*		%saddr = bitcast i8 addrspace(1)* %add.ptr12 to i64 addrspace(1)*
▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/store-hi16.ll

; RUN: llc -march=amdgcn -mcpu=gfx900 -amdgpu-sroa=0 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX900 %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -amdgpu-sroa=0 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX900,GFX9 %s
; RUN: llc -march=amdgcn -mcpu=gfx906 -amdgpu-sroa=0 -mattr=-promote-alloca,+sram-ecc -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX906,NO-D16-HI %s		; RUN: llc -march=amdgcn -mcpu=gfx906 -amdgpu-sroa=0 -mattr=-promote-alloca,+sram-ecc -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX906,GFX9,NO-D16-HI %s
; RUN: llc -march=amdgcn -mcpu=fiji -amdgpu-sroa=0 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX803,NO-D16-HI %s		; RUN: llc -march=amdgcn -mcpu=fiji -amdgpu-sroa=0 -mattr=-promote-alloca -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -check-prefixes=GCN,GFX803,NO-D16-HI %s

; GCN-LABEL: {{^}}store_global_hi_v2i16:		; GCN-LABEL: {{^}}store_global_hi_v2i16:
; GCN: s_waitcnt		; GCN: s_waitcnt

; GFX900-NEXT: global_store_short_d16_hi v[0:1], v2, off		; GFX900-NEXT: global_store_short_d16_hi v[0:1], v2, off

; NO-D16-HI-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; NO-D16-HI-NEXT: v_lshrrev_b32_e32 v2, 16, v2
▲ Show 20 Lines • Show All 295 Lines • ▼ Show 20 Lines	entry:
%hi = extractelement <2 x i16> %value, i32 1		%hi = extractelement <2 x i16> %value, i32 1
%gep = getelementptr inbounds i16, i16* %out, i64 2047		%gep = getelementptr inbounds i16, i16* %out, i64 2047
store i16 %hi, i16* %gep		store i16 %hi, i16* %gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}store_flat_hi_v2i16_neg_offset:		; GCN-LABEL: {{^}}store_flat_hi_v2i16_neg_offset:
; GCN: s_waitcnt		; GCN: s_waitcnt
; GCN: v_add{{(_co)?}}_{{i\|u}}32_e32		; GFX803: v_add{{(_co)?}}_{{i\|u}}32_e32

; GFX803: v_addc_u32_e32		; GFX803: v_addc_u32_e32
; GFX900: v_addc_co_u32_e32

; GFX906-NEXT: v_lshrrev_b32_e32		; GFX9-DAG: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0xfffff000, v
; GFX906-NEXT: v_addc_co_u32_e32		; GFX9-DAG: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, -1, v
; GFX906: flat_store_short v[0:1], v2

; GFX900-NEXT: flat_store_short_d16_hi v[0:1], v2{{$}}		; GFX906-DAG: v_lshrrev_b32_e32
		; GFX906: flat_store_short v[0:1], v2 offset:2050{{$}}

		; GFX900-NEXT: flat_store_short_d16_hi v[0:1], v2 offset:2050{{$}}
; GFX803: flat_store_short v[0:1], v2{{$}}		; GFX803: flat_store_short v[0:1], v2{{$}}
; GCN-NEXT: s_waitcnt		; GCN-NEXT: s_waitcnt
; GCN-NEXT: s_setpc_b64		; GCN-NEXT: s_setpc_b64
define void @store_flat_hi_v2i16_neg_offset(i16* %out, i32 %arg) #0 {		define void @store_flat_hi_v2i16_neg_offset(i16* %out, i32 %arg) #0 {
entry:		entry:
%value = bitcast i32 %arg to <2 x i16>		%value = bitcast i32 %arg to <2 x i16>
%hi = extractelement <2 x i16> %value, i32 1		%hi = extractelement <2 x i16> %value, i32 1
%gep = getelementptr inbounds i16, i16* %out, i64 -1023		%gep = getelementptr inbounds i16, i16* %out, i64 -1023
Show All 22 Lines	entry:
%trunc = trunc i16 %hi to i8		%trunc = trunc i16 %hi to i8
%gep = getelementptr inbounds i8, i8* %out, i64 4095		%gep = getelementptr inbounds i8, i8* %out, i64 4095
store i8 %trunc, i8* %gep		store i8 %trunc, i8* %gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}store_flat_hi_v2i16_i8_neg_offset:		; GCN-LABEL: {{^}}store_flat_hi_v2i16_i8_neg_offset:
; GCN: s_waitcnt		; GCN: s_waitcnt
; GCN-DAG: v_add{{(_co)?}}_{{i\|u}}32_e32

		; GFX803-DAG: v_add_u32_e32
; GFX803-DAG: v_addc_u32_e32		; GFX803-DAG: v_addc_u32_e32
; GFX900-DAG: v_addc_co_u32_e32
; GFX906-DAG: v_add_co_u32_e32

; GFX900-NEXT: flat_store_byte_d16_hi v[0:1], v2{{$}}		; GFX9-DAG: v_add_co_u32_e32 v{{[0-9]+}}, vcc, 0xfffff000, v
		; GFX9-DAG: v_addc_co_u32_e32 v{{[0-9]+}}, vcc, -1, v{{[0-9]+}}, vcc

; GFX906-NEXT: v_lshrrev_b32_e32 v2, 16, v2		; GFX900-NEXT: flat_store_byte_d16_hi v[0:1], v2 offset:1{{$}}
; GFX906-NEXT: v_addc_co_u32_e32
; GFX906-NEXT: flat_store_byte v[0:1], v2{{$}}		; GFX906-DAG: v_lshrrev_b32_e32 v2, 16, v2
		; GFX906: flat_store_byte v[0:1], v2 offset:1{{$}}

; GFX803-DAG: v_lshrrev_b32_e32 v2, 16, v2		; GFX803-DAG: v_lshrrev_b32_e32 v2, 16, v2
; GFX803: flat_store_byte v[0:1], v2{{$}}		; GFX803: flat_store_byte v[0:1], v2{{$}}

; GCN-NEXT: s_waitcnt		; GCN-NEXT: s_waitcnt
; GCN-NEXT: s_setpc_b64		; GCN-NEXT: s_setpc_b64
define void @store_flat_hi_v2i16_i8_neg_offset(i8* %out, i32 %arg) #0 {		define void @store_flat_hi_v2i16_i8_neg_offset(i8* %out, i32 %arg) #0 {
entry:		entry:
▲ Show 20 Lines • Show All 290 Lines • Show Last 20 Lines