This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Split x8 and x16 vector loads instead of scalarize
ClosedPublic

Authored by arsenm on Nov 2 2015, 4:43 PM.

Download Raw Diff

Details

Reviewers

Summary

The one regression in the builtin tests is in the read2 test which now
(again) has many extra copies, but this should be solved once the pass
is replaced with a DAG combine.

Diff Detail

Event Timeline

arsenm updated this revision to Diff 39007.Nov 2 2015, 4:43 PM

arsenm retitled this revision from to AMDGPU: Split x8 and x16 vector loads instead of scalarize.

arsenm updated this object.

arsenm added a reviewer: • tstellarAMD.

arsenm added a subscriber: llvm-commits.

Herald added a subscriber: arsenm. · View Herald TranscriptNov 2 2015, 4:43 PM

• tstellarAMD added inline comments.Nov 4 2015, 6:06 PM

lib/Target/AMDGPU/AMDGPUISelLowering.cpp
405–406	Was this member variable added in a different patch?

arsenm added inline comments.Nov 4 2015, 6:42 PM

lib/Target/AMDGPU/AMDGPUISelLowering.cpp
405–406	D14267 adds it

LGTM.

This revision is now accepted and ready to land.Nov 19 2015, 2:57 PM

r253974

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUISelLowering.cpp

10 lines

SIISelLowering.cpp

6 lines

test/

CodeGen/

AMDGPU/

cvt_f32_ubyte.ll

10 lines

ds_read2_superreg.ll

76 lines

global-extload-i32.ll

145 lines

90 lines

34 lines

17 lines

46 lines

45 lines

Diff 39007

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 388 Lines • ▼ Show 20 Lines	AMDGPUTargetLowering::AMDGPUTargetLowering(TargetMachine &TM,
// (Section 7.3)		// (Section 7.3)
setHasFloatingPointExceptions(false);		setHasFloatingPointExceptions(false);

setSelectIsExpensive(false);		setSelectIsExpensive(false);
PredictableSelectIsExpensive = false;		PredictableSelectIsExpensive = false;

setFsqrtIsCheap(true);		setFsqrtIsCheap(true);

		// We want to find all load dependencies for long chains of stores to enable
		// merging into very wide vectors. The problem is with vectors with > 4
		// elements. MergeConsecutiveStores will attempt to merge these because x8/x16
		// vectors are a legal type, even though we have to split the loads
		// usually. When we can more precisely specify load legality per address
		// space, we should be able to make FindBetterChain/MergeConsecutiveStores
		// smarter so that they can figure out what to do in 2 iterations without all
		// N > 4 stores on the same chain.
		GatherAllAliasesMaxDepth = 16;

		tstellarAMDUnsubmitted Not Done Reply Inline Actions Was this member variable added in a different patch? tstellarAMD: Was this member variable added in a different patch?
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions D14267 adds it arsenm: D14267 adds it
// FIXME: Need to really handle these.		// FIXME: Need to really handle these.
MaxStoresPerMemcpy = 4096;		MaxStoresPerMemcpy = 4096;
MaxStoresPerMemmove = 4096;		MaxStoresPerMemmove = 4096;
MaxStoresPerMemset = 4096;		MaxStoresPerMemset = 4096;
}		}

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// Target Information		// Target Information
▲ Show 20 Lines • Show All 2,462 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIISelLowering.cpp

Show First 20 Lines • Show All 1,172 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
SDLoc DL(Op);		SDLoc DL(Op);
LoadSDNode *Load = cast<LoadSDNode>(Op);		LoadSDNode *Load = cast<LoadSDNode>(Op);

if (Op.getValueType().isVector()) {		if (Op.getValueType().isVector()) {
assert(Op.getValueType().getVectorElementType() == MVT::i32 &&		assert(Op.getValueType().getVectorElementType() == MVT::i32 &&
"Custom lowering for non-i32 vectors hasn't been implemented.");		"Custom lowering for non-i32 vectors hasn't been implemented.");
unsigned NumElements = Op.getValueType().getVectorNumElements();		unsigned NumElements = Op.getValueType().getVectorNumElements();
assert(NumElements != 2 && "v2 loads are supported for all address spaces.");		assert(NumElements != 2 && "v2 loads are supported for all address spaces.");

switch (Load->getAddressSpace()) {		switch (Load->getAddressSpace()) {
default: break;		default: break;
case AMDGPUAS::GLOBAL_ADDRESS:		case AMDGPUAS::GLOBAL_ADDRESS:
case AMDGPUAS::PRIVATE_ADDRESS:		case AMDGPUAS::PRIVATE_ADDRESS:
		if (NumElements >= 8)
		return SplitVectorLoad(Op, DAG);

// v4 loads are supported for private and global memory.		// v4 loads are supported for private and global memory.
if (NumElements <= 4)		if (NumElements <= 4)
break;		break;
// fall-through		// fall-through
case AMDGPUAS::LOCAL_ADDRESS:		case AMDGPUAS::LOCAL_ADDRESS:
return ScalarizeVectorLoad(Op, DAG);		return ScalarizeVectorLoad(Op, DAG);
}		}
}		}
▲ Show 20 Lines • Show All 211 Lines • ▼ Show 20 Lines	if (Store->getAddressSpace() == AMDGPUAS::PRIVATE_ADDRESS) {
return SDValue();		return SDValue();
}		}

SDValue Ret = AMDGPUTargetLowering::LowerSTORE(Op, DAG);		SDValue Ret = AMDGPUTargetLowering::LowerSTORE(Op, DAG);
if (Ret.getNode())		if (Ret.getNode())
return Ret;		return Ret;

if (VT.isVector() && VT.getVectorNumElements() >= 8)		if (VT.isVector() && VT.getVectorNumElements() >= 8)
return ScalarizeVectorStore(Op, DAG);		return SplitVectorStore(Op, DAG);

if (VT == MVT::i1)		if (VT == MVT::i1)
return DAG.getTruncStore(Store->getChain(), DL,		return DAG.getTruncStore(Store->getChain(), DL,
DAG.getSExtOrTrunc(Store->getValue(), DL, MVT::i32),		DAG.getSExtOrTrunc(Store->getValue(), DL, MVT::i32),
Store->getBasePtr(), MVT::i1, Store->getMemOperand());		Store->getBasePtr(), MVT::i1, Store->getMemOperand());

return SDValue();		return SDValue();
}		}
▲ Show 20 Lines • Show All 904 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 131 Lines • ▼ Show 20 Lines
	; SI-DAG: v_cvt_f32_ubyte1_e32 v{{[0-9]+}}, v[[LOLOAD]]			; SI-DAG: v_cvt_f32_ubyte1_e32 v{{[0-9]+}}, v[[LOLOAD]]
	; SI-DAG: v_cvt_f32_ubyte0_e32 v{{[0-9]+}}, v[[LOLOAD]]			; SI-DAG: v_cvt_f32_ubyte0_e32 v{{[0-9]+}}, v[[LOLOAD]]
	; SI-DAG: v_cvt_f32_ubyte3_e32 v{{[0-9]+}}, v[[HILOAD]]			; SI-DAG: v_cvt_f32_ubyte3_e32 v{{[0-9]+}}, v[[HILOAD]]
	; SI-DAG: v_cvt_f32_ubyte2_e32 v{{[0-9]+}}, v[[HILOAD]]			; SI-DAG: v_cvt_f32_ubyte2_e32 v{{[0-9]+}}, v[[HILOAD]]
	; SI-DAG: v_cvt_f32_ubyte1_e32 v{{[0-9]+}}, v[[HILOAD]]			; SI-DAG: v_cvt_f32_ubyte1_e32 v{{[0-9]+}}, v[[HILOAD]]
	; SI-DAG: v_cvt_f32_ubyte0_e32 v{{[0-9]+}}, v[[HILOAD]]			; SI-DAG: v_cvt_f32_ubyte0_e32 v{{[0-9]+}}, v[[HILOAD]]
	; SI-NOT: bfe			; SI-NOT: bfe
	; SI-NOT: lshr			; SI-NOT: lshr
	; SI: buffer_store_dword			; SI: buffer_store_dwordx4
	; SI: buffer_store_dword			; SI: buffer_store_dwordx4
	; SI: buffer_store_dword
	; SI: buffer_store_dword
	; SI: buffer_store_dword
	; SI: buffer_store_dword
	; SI: buffer_store_dword
	; SI: buffer_store_dword
	define void @load_v8i8_to_v8f32(<8 x float> addrspace(1)* noalias %out, <8 x i8> addrspace(1)* noalias %in) nounwind {			define void @load_v8i8_to_v8f32(<8 x float> addrspace(1)* noalias %out, <8 x i8> addrspace(1)* noalias %in) nounwind {
	%load = load <8 x i8>, <8 x i8> addrspace(1)* %in, align 8			%load = load <8 x i8>, <8 x i8> addrspace(1)* %in, align 8
	%cvt = uitofp <8 x i8> %load to <8 x float>			%cvt = uitofp <8 x i8> %load to <8 x float>
	store <8 x float> %cvt, <8 x float> addrspace(1)* %out, align 16			store <8 x float> %cvt, <8 x float> addrspace(1)* %out, align 16
	ret void			ret void
	}			}

	; SI-LABEL: {{^}}i8_zext_inreg_i32_to_f32:			; SI-LABEL: {{^}}i8_zext_inreg_i32_to_f32:
	▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ds_read2_superreg.ll

Show First 20 Lines • Show All 110 Lines • ▼ Show 20 Lines	define void @simple_read2_v4f32_superreg(<4 x float> addrspace(1)* %out) #0 {
%x.i = tail call i32 @llvm.r600.read.tidig.x() #1		%x.i = tail call i32 @llvm.r600.read.tidig.x() #1
%arrayidx0 = getelementptr inbounds [512 x <4 x float>], [512 x <4 x float>] addrspace(3)* @lds.v4, i32 0, i32 %x.i		%arrayidx0 = getelementptr inbounds [512 x <4 x float>], [512 x <4 x float>] addrspace(3)* @lds.v4, i32 0, i32 %x.i
%val0 = load <4 x float>, <4 x float> addrspace(3)* %arrayidx0		%val0 = load <4 x float>, <4 x float> addrspace(3)* %arrayidx0
%out.gep = getelementptr inbounds <4 x float>, <4 x float> addrspace(1)* %out, i32 %x.i		%out.gep = getelementptr inbounds <4 x float>, <4 x float> addrspace(1)* %out, i32 %x.i
store <4 x float> %val0, <4 x float> addrspace(1)* %out.gep		store <4 x float> %val0, <4 x float> addrspace(1)* %out.gep
ret void		ret void
}		}

		; FIXME: Extra moves shuffling superregister
; CI-LABEL: {{^}}simple_read2_v8f32_superreg:		; CI-LABEL: {{^}}simple_read2_v8f32_superreg:
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:7 offset1:6{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT3:[0-9]+]]:[[REG_ELT7:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:3 offset1:7{{$}}
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT5:[0-9]+]]:[[REG_ELT4:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:5 offset1:4{{$}}		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT3:[0-9]+]]:[[REG_ELT2:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:3 offset1:2{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT6:[0-9]+]]:[[REG_ELT5:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:2 offset1:1{{$}}
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT1:[0-9]+]]:[[REG_ELT0:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:1{{$}}		; CI: v_mov_b32
; CI: buffer_store_dword		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT4:[0-9]+]]:[[REG_ELT2:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:6 offset1:5{{$}}
; CI: buffer_store_dword		; CI: v_mov_b32
; CI: buffer_store_dword		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT1:[0-9]+]]:[[REG_ELT0:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:4{{$}}
; CI: buffer_store_dword		; CI: v_mov_b32
; CI: buffer_store_dword		; CI: buffer_store_dwordx4
; CI: buffer_store_dword		; CI: buffer_store_dwordx4
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: s_endpgm		; CI: s_endpgm
define void @simple_read2_v8f32_superreg(<8 x float> addrspace(1)* %out) #0 {		define void @simple_read2_v8f32_superreg(<8 x float> addrspace(1)* %out) #0 {
%x.i = tail call i32 @llvm.r600.read.tidig.x() #1		%x.i = tail call i32 @llvm.r600.read.tidig.x() #1
%arrayidx0 = getelementptr inbounds [512 x <8 x float>], [512 x <8 x float>] addrspace(3)* @lds.v8, i32 0, i32 %x.i		%arrayidx0 = getelementptr inbounds [512 x <8 x float>], [512 x <8 x float>] addrspace(3)* @lds.v8, i32 0, i32 %x.i
%val0 = load <8 x float>, <8 x float> addrspace(3)* %arrayidx0		%val0 = load <8 x float>, <8 x float> addrspace(3)* %arrayidx0
%out.gep = getelementptr inbounds <8 x float>, <8 x float> addrspace(1)* %out, i32 %x.i		%out.gep = getelementptr inbounds <8 x float>, <8 x float> addrspace(1)* %out, i32 %x.i
store <8 x float> %val0, <8 x float> addrspace(1)* %out.gep		store <8 x float> %val0, <8 x float> addrspace(1)* %out.gep
ret void		ret void
}		}

		; FIXME: Extra moves shuffling superregister
; CI-LABEL: {{^}}simple_read2_v16f32_superreg:		; CI-LABEL: {{^}}simple_read2_v16f32_superreg:
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:15 offset1:14{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT11:[0-9]+]]:[[REG_ELT15:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:3 offset1:7{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:13 offset1:12{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT14:[0-9]+]]:[[REG_ELT13:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:11 offset1:15{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:11 offset1:10{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT12:[0-9]+]]:[[REG_ELT10:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:2 offset1:1{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:9 offset1:8{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT9:[0-9]+]]:[[REG_ELT8:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:6 offset1:5{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:7 offset1:6{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT7:[0-9]+]]:[[REG_ELT6:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:10 offset1:9{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT5:[0-9]+]]:[[REG_ELT4:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:5 offset1:4{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT5:[0-9]+]]:[[REG_ELT4:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:14 offset1:13{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT3:[0-9]+]]:[[REG_ELT2:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:3 offset1:2{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT3:[0-9]+]]:[[REG_ELT2:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:12 offset1:8{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32
; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT1:[0-9]+]]:[[REG_ELT0:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:1{{$}}		; CI-DAG: ds_read2_b32 v{{\[}}[[REG_ELT1:[0-9]+]]:[[REG_ELT0:[0-9]+]]{{\]}}, v{{[0-9]+}} offset0:4{{$}}
; CI-NOT: v_mov_b32		; CI: v_mov_b32

; CI: s_waitcnt lgkmcnt(0)		; CI: s_waitcnt lgkmcnt(0)
; CI: buffer_store_dword		; CI: buffer_store_dwordx4
; CI: buffer_store_dword		; CI: buffer_store_dwordx4
; CI: buffer_store_dword		; CI: buffer_store_dwordx4
; CI: buffer_store_dword		; CI: buffer_store_dwordx4
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: buffer_store_dword
; CI: s_endpgm		; CI: s_endpgm
define void @simple_read2_v16f32_superreg(<16 x float> addrspace(1)* %out) #0 {		define void @simple_read2_v16f32_superreg(<16 x float> addrspace(1)* %out) #0 {
%x.i = tail call i32 @llvm.r600.read.tidig.x() #1		%x.i = tail call i32 @llvm.r600.read.tidig.x() #1
%arrayidx0 = getelementptr inbounds [512 x <16 x float>], [512 x <16 x float>] addrspace(3)* @lds.v16, i32 0, i32 %x.i		%arrayidx0 = getelementptr inbounds [512 x <16 x float>], [512 x <16 x float>] addrspace(3)* @lds.v16, i32 0, i32 %x.i
%val0 = load <16 x float>, <16 x float> addrspace(3)* %arrayidx0		%val0 = load <16 x float>, <16 x float> addrspace(3)* %arrayidx0
%out.gep = getelementptr inbounds <16 x float>, <16 x float> addrspace(1)* %out, i32 %x.i		%out.gep = getelementptr inbounds <16 x float>, <16 x float> addrspace(1)* %out, i32 %x.i
store <16 x float> %val0, <16 x float> addrspace(1)* %out.gep		store <16 x float> %val0, <16 x float> addrspace(1)* %out.gep
ret void		ret void
▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/global-extload-i32.ll

	Show First 20 Lines • Show All 100 Lines • ▼ Show 20 Lines
	define void @sextload_global_v4i32_to_v4i64(<4 x i64> addrspace(1)* %out, <4 x i32> addrspace(1)* nocapture %in) nounwind {			define void @sextload_global_v4i32_to_v4i64(<4 x i64> addrspace(1)* %out, <4 x i32> addrspace(1)* nocapture %in) nounwind {
	%load = load <4 x i32>, <4 x i32> addrspace(1)* %in			%load = load <4 x i32>, <4 x i32> addrspace(1)* %in
	%ext = sext <4 x i32> %load to <4 x i64>			%ext = sext <4 x i32> %load to <4 x i64>
	store <4 x i64> %ext, <4 x i64> addrspace(1)* %out			store <4 x i64> %ext, <4 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}zextload_global_v8i32_to_v8i64:			; FUNC-LABEL: {{^}}zextload_global_v8i32_to_v8i64:
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI: s_endpgm			; SI: s_endpgm
	define void @zextload_global_v8i32_to_v8i64(<8 x i64> addrspace(1)* %out, <8 x i32> addrspace(1)* nocapture %in) nounwind {			define void @zextload_global_v8i32_to_v8i64(<8 x i64> addrspace(1)* %out, <8 x i32> addrspace(1)* nocapture %in) nounwind {
	%load = load <8 x i32>, <8 x i32> addrspace(1)* %in			%load = load <8 x i32>, <8 x i32> addrspace(1)* %in
	%ext = zext <8 x i32> %load to <8 x i64>			%ext = zext <8 x i32> %load to <8 x i64>
	store <8 x i64> %ext, <8 x i64> addrspace(1)* %out			store <8 x i64> %ext, <8 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}sextload_global_v8i32_to_v8i64:			; FUNC-LABEL: {{^}}sextload_global_v8i32_to_v8i64:
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	Show All 11 Lines
	define void @sextload_global_v8i32_to_v8i64(<8 x i64> addrspace(1)* %out, <8 x i32> addrspace(1)* nocapture %in) nounwind {			define void @sextload_global_v8i32_to_v8i64(<8 x i64> addrspace(1)* %out, <8 x i32> addrspace(1)* nocapture %in) nounwind {
	%load = load <8 x i32>, <8 x i32> addrspace(1)* %in			%load = load <8 x i32>, <8 x i32> addrspace(1)* %in
	%ext = sext <8 x i32> %load to <8 x i64>			%ext = sext <8 x i32> %load to <8 x i64>
	store <8 x i64> %ext, <8 x i64> addrspace(1)* %out			store <8 x i64> %ext, <8 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}sextload_global_v16i32_to_v16i64:			; FUNC-LABEL: {{^}}sextload_global_v16i32_to_v16i64:
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2

	Show All 21 Lines
	define void @sextload_global_v16i32_to_v16i64(<16 x i64> addrspace(1)* %out, <16 x i32> addrspace(1)* nocapture %in) nounwind {			define void @sextload_global_v16i32_to_v16i64(<16 x i64> addrspace(1)* %out, <16 x i32> addrspace(1)* nocapture %in) nounwind {
	%load = load <16 x i32>, <16 x i32> addrspace(1)* %in			%load = load <16 x i32>, <16 x i32> addrspace(1)* %in
	%ext = sext <16 x i32> %load to <16 x i64>			%ext = sext <16 x i32> %load to <16 x i64>
	store <16 x i64> %ext, <16 x i64> addrspace(1)* %out			store <16 x i64> %ext, <16 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}zextload_global_v16i32_to_v16i64			; FUNC-LABEL: {{^}}zextload_global_v16i32_to_v16i64
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	; SI: buffer_store_dwordx2			; SI: buffer_store_dwordx2
	Show All 11 Lines
	define void @zextload_global_v16i32_to_v16i64(<16 x i64> addrspace(1)* %out, <16 x i32> addrspace(1)* nocapture %in) nounwind {			define void @zextload_global_v16i32_to_v16i64(<16 x i64> addrspace(1)* %out, <16 x i32> addrspace(1)* nocapture %in) nounwind {
	%load = load <16 x i32>, <16 x i32> addrspace(1)* %in			%load = load <16 x i32>, <16 x i32> addrspace(1)* %in
	%ext = zext <16 x i32> %load to <16 x i64>			%ext = zext <16 x i32> %load to <16 x i64>
	store <16 x i64> %ext, <16 x i64> addrspace(1)* %out			store <16 x i64> %ext, <16 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}sextload_global_v32i32_to_v32i64:			; FUNC-LABEL: {{^}}sextload_global_v32i32_to_v32i64:
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4

	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	; SI-DAG: v_ashrrev_i32			; SI-DAG: v_ashrrev_i32
	▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines
	define void @sextload_global_v32i32_to_v32i64(<32 x i64> addrspace(1)* %out, <32 x i32> addrspace(1)* nocapture %in) nounwind {			define void @sextload_global_v32i32_to_v32i64(<32 x i64> addrspace(1)* %out, <32 x i32> addrspace(1)* nocapture %in) nounwind {
	%load = load <32 x i32>, <32 x i32> addrspace(1)* %in			%load = load <32 x i32>, <32 x i32> addrspace(1)* %in
	%ext = sext <32 x i32> %load to <32 x i64>			%ext = sext <32 x i32> %load to <32 x i64>
	store <32 x i64> %ext, <32 x i64> addrspace(1)* %out			store <32 x i64> %ext, <32 x i64> addrspace(1)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}zextload_global_v32i32_to_v32i64:			; FUNC-LABEL: {{^}}zextload_global_v32i32_to_v32i64:
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4
	; SI: buffer_load_dword			; SI: buffer_load_dwordx4

	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword
	; SI: buffer_load_dword

	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	; SI-DAG: buffer_store_dwordx2			; SI-DAG: buffer_store_dwordx2
	Show All 36 Lines

test/CodeGen/AMDGPU/half.ll

	Show First 20 Lines • Show All 99 Lines • ▼ Show 20 Lines
	; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:			; GCN-LABEL: {{^}}extload_v4f16_to_v4f32_arg:
	define void @extload_v4f16_to_v4f32_arg(<4 x float> addrspace(1)* %out, <4 x half> %arg) #0 {			define void @extload_v4f16_to_v4f32_arg(<4 x float> addrspace(1)* %out, <4 x half> %arg) #0 {
	%ext = fpext <4 x half> %arg to <4 x float>			%ext = fpext <4 x half> %arg to <4 x float>
	store <4 x float> %ext, <4 x float> addrspace(1)* %out			store <4 x float> %ext, <4 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_v8f16_to_v8f32_arg:			; GCN-LABEL: {{^}}extload_v8f16_to_v8f32_arg:
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort

				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32

				; GCN: buffer_store_dwordx4
				; GCN: buffer_store_dwordx4
	define void @extload_v8f16_to_v8f32_arg(<8 x float> addrspace(1)* %out, <8 x half> %arg) #0 {			define void @extload_v8f16_to_v8f32_arg(<8 x float> addrspace(1)* %out, <8 x half> %arg) #0 {
	%ext = fpext <8 x half> %arg to <8 x float>			%ext = fpext <8 x half> %arg to <8 x float>
	store <8 x float> %ext, <8 x float> addrspace(1)* %out			store <8 x float> %ext, <8 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}extload_f16_to_f64_arg:			; GCN-LABEL: {{^}}extload_f16_to_f64_arg:
	; SI: s_load_dword [[ARG:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb{{$}}			; SI: s_load_dword [[ARG:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb{{$}}
	▲ Show 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	define void @global_extload_v8f16_to_v8f32(<8 x float> addrspace(1)* %out, <8 x half> addrspace(1)* %in) #0 {			define void @global_extload_v8f16_to_v8f32(<8 x float> addrspace(1)* %out, <8 x half> addrspace(1)* %in) #0 {
	%val = load <8 x half>, <8 x half> addrspace(1)* %in			%val = load <8 x half>, <8 x half> addrspace(1)* %in
	%cvt = fpext <8 x half> %val to <8 x float>			%cvt = fpext <8 x half> %val to <8 x float>
	store <8 x float> %cvt, <8 x float> addrspace(1)* %out			store <8 x float> %cvt, <8 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}global_extload_v16f16_to_v16f32:			; GCN-LABEL: {{^}}global_extload_v16f16_to_v16f32:
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort
				; GCN: buffer_load_ushort

				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32
				; GCN: v_cvt_f32_f16_e32

				; GCN: buffer_store_dwordx4
				; GCN: buffer_store_dwordx4
				; GCN: buffer_store_dwordx4
				; GCN: buffer_store_dwordx4

				; GCN: s_endpgm
	define void @global_extload_v16f16_to_v16f32(<16 x float> addrspace(1)* %out, <16 x half> addrspace(1)* %in) #0 {			define void @global_extload_v16f16_to_v16f32(<16 x float> addrspace(1)* %out, <16 x half> addrspace(1)* %in) #0 {
	%val = load <16 x half>, <16 x half> addrspace(1)* %in			%val = load <16 x half>, <16 x half> addrspace(1)* %in
	%cvt = fpext <16 x half> %val to <16 x float>			%cvt = fpext <16 x half> %val to <16 x float>
	store <16 x float> %cvt, <16 x float> addrspace(1)* %out			store <16 x float> %cvt, <16 x float> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}global_extload_f16_to_f64:			; GCN-LABEL: {{^}}global_extload_f16_to_f64:
	▲ Show 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
	define void @global_truncstore_v4f32_to_v4f16(<4 x half> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {			define void @global_truncstore_v4f32_to_v4f16(<4 x half> addrspace(1)* %out, <4 x float> addrspace(1)* %in) #0 {
	%val = load <4 x float>, <4 x float> addrspace(1)* %in			%val = load <4 x float>, <4 x float> addrspace(1)* %in
	%cvt = fptrunc <4 x float> %val to <4 x half>			%cvt = fptrunc <4 x float> %val to <4 x half>
	store <4 x half> %cvt, <4 x half> addrspace(1)* %out			store <4 x half> %cvt, <4 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}global_truncstore_v8f32_to_v8f16:			; GCN-LABEL: {{^}}global_truncstore_v8f32_to_v8f16:
	; GCN: buffer_load_dword			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dword			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	; GCN: v_cvt_f16_f32_e32			; GCN: v_cvt_f16_f32_e32
	Show All 9 Lines
	define void @global_truncstore_v8f32_to_v8f16(<8 x half> addrspace(1)* %out, <8 x float> addrspace(1)* %in) #0 {			define void @global_truncstore_v8f32_to_v8f16(<8 x half> addrspace(1)* %out, <8 x float> addrspace(1)* %in) #0 {
	%val = load <8 x float>, <8 x float> addrspace(1)* %in			%val = load <8 x float>, <8 x float> addrspace(1)* %in
	%cvt = fptrunc <8 x float> %val to <8 x half>			%cvt = fptrunc <8 x float> %val to <8 x half>
	store <8 x half> %cvt, <8 x half> addrspace(1)* %out			store <8 x half> %cvt, <8 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}global_truncstore_v16f32_to_v16f16:			; GCN-LABEL: {{^}}global_truncstore_v16f32_to_v16f16:
	; GCN: buffer_load_dword			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dword			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dword			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dword			; GCN: buffer_load_dwordx4
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN: buffer_load_dword
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	; GCN-DAG: v_cvt_f16_f32_e32			; GCN-DAG: v_cvt_f16_f32_e32
	▲ Show 20 Lines • Show All 120 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load.ll

Show First 20 Lines • Show All 271 Lines • ▼ Show 20 Lines	entry:
%1 = zext i32 %0 to i64		%1 = zext i32 %0 to i64
store i64 %1, i64 addrspace(1)* %out		store i64 %1, i64 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}load_v8i32:		; FUNC-LABEL: {{^}}load_v8i32:
; R600: VTX_READ_128		; R600: VTX_READ_128
; R600: VTX_READ_128		; R600: VTX_READ_128
; XXX: We should be using DWORDX4 instructions on SI.
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
define void @load_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> addrspace(1)* %in) {		define void @load_v8i32(<8 x i32> addrspace(1)* %out, <8 x i32> addrspace(1)* %in) {
entry:		entry:
%0 = load <8 x i32>, <8 x i32> addrspace(1)* %in		%0 = load <8 x i32>, <8 x i32> addrspace(1)* %in
store <8 x i32> %0, <8 x i32> addrspace(1)* %out		store <8 x i32> %0, <8 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}load_v16i32:		; FUNC-LABEL: {{^}}load_v16i32:
; R600: VTX_READ_128		; R600: VTX_READ_128
; R600: VTX_READ_128		; R600: VTX_READ_128
; R600: VTX_READ_128		; R600: VTX_READ_128
; R600: VTX_READ_128		; R600: VTX_READ_128
; XXX: We should be using DWORDX4 instructions on SI.
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
define void @load_v16i32(<16 x i32> addrspace(1)* %out, <16 x i32> addrspace(1)* %in) {		define void @load_v16i32(<16 x i32> addrspace(1)* %out, <16 x i32> addrspace(1)* %in) {
entry:		entry:
%0 = load <16 x i32>, <16 x i32> addrspace(1)* %in		%0 = load <16 x i32>, <16 x i32> addrspace(1)* %in
store <16 x i32> %0, <16 x i32> addrspace(1)* %out		store <16 x i32> %0, <16 x i32> addrspace(1)* %out
ret void		ret void
}		}

;===------------------------------------------------------------------------===;		;===------------------------------------------------------------------------===;
▲ Show 20 Lines • Show All 384 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/merge-stores.ll

Show First 20 Lines • Show All 607 Lines • ▼ Show 20 Lines	define void @merge_global_store_7_constants_i32(i32 addrspace(1)* %out) {
store i32 98, i32 addrspace(1)* %idx4, align 4		store i32 98, i32 addrspace(1)* %idx4, align 4
%idx5 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 5		%idx5 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 5
store i32 91, i32 addrspace(1)* %idx5, align 4		store i32 91, i32 addrspace(1)* %idx5, align 4
%idx6 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 6		%idx6 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 6
store i32 212, i32 addrspace(1)* %idx6, align 4		store i32 212, i32 addrspace(1)* %idx6, align 4
ret void		ret void
}		}

; FIXME: This should do 2 dwordx4 loads
; GCN-LABEL: {{^}}merge_global_store_8_constants_i32:		; GCN-LABEL: {{^}}merge_global_store_8_constants_i32:
		; GCN: buffer_store_dwordx4
; GCN-NOAA: buffer_store_dword v		; GCN: buffer_store_dwordx4
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v
; GCN-NOAA: buffer_store_dword v

; GCN-AA: buffer_store_dwordx4
; GCN-AA: buffer_store_dwordx2
; GCN-AA: buffer_store_dwordx2

; GCN: s_endpgm		; GCN: s_endpgm
define void @merge_global_store_8_constants_i32(i32 addrspace(1)* %out) {		define void @merge_global_store_8_constants_i32(i32 addrspace(1)* %out) {
store i32 34, i32 addrspace(1)* %out, align 4		store i32 34, i32 addrspace(1)* %out, align 4
%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1		%idx1 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 1
store i32 999, i32 addrspace(1)* %idx1, align 4		store i32 999, i32 addrspace(1)* %idx1, align 4
%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2		%idx2 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 2
store i32 65, i32 addrspace(1)* %idx2, align 4		store i32 65, i32 addrspace(1)* %idx2, align 4
%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3		%idx3 = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 3
Show All 16 Lines

test/CodeGen/AMDGPU/reorder-stores.ll

Show All 28 Lines	define void @no_reorder_scalarized_v2f64_local_load_store(<2 x double> addrspace(3)* nocapture %x, <2 x double> addrspace(3)* nocapture %y) nounwind {
%tmp1 = load <2 x double>, <2 x double> addrspace(3)* %x, align 16		%tmp1 = load <2 x double>, <2 x double> addrspace(3)* %x, align 16
%tmp4 = load <2 x double>, <2 x double> addrspace(3)* %y, align 16		%tmp4 = load <2 x double>, <2 x double> addrspace(3)* %y, align 16
store <2 x double> %tmp4, <2 x double> addrspace(3)* %x, align 16		store <2 x double> %tmp4, <2 x double> addrspace(3)* %x, align 16
store <2 x double> %tmp1, <2 x double> addrspace(3)* %y, align 16		store <2 x double> %tmp1, <2 x double> addrspace(3)* %y, align 16
ret void		ret void
}		}

; SI-LABEL: {{^}}no_reorder_split_v8i32_global_load_store:		; SI-LABEL: {{^}}no_reorder_split_v8i32_global_load_store:
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4
; SI: buffer_load_dword		; SI: buffer_load_dwordx4

; SI: buffer_load_dword
; SI: buffer_load_dword		; SI: buffer_store_dwordx4
; SI: buffer_load_dword		; SI: buffer_store_dwordx4
; SI: buffer_load_dword		; SI: buffer_store_dwordx4
		; SI: buffer_store_dwordx4
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword

; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword
; SI: buffer_load_dword


; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword

; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword

; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword

; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: buffer_store_dword
; SI: s_endpgm		; SI: s_endpgm
define void @no_reorder_split_v8i32_global_load_store(<8 x i32> addrspace(1)* nocapture %x, <8 x i32> addrspace(1)* nocapture %y) nounwind {		define void @no_reorder_split_v8i32_global_load_store(<8 x i32> addrspace(1)* nocapture %x, <8 x i32> addrspace(1)* nocapture %y) nounwind {
%tmp1 = load <8 x i32>, <8 x i32> addrspace(1)* %x, align 32		%tmp1 = load <8 x i32>, <8 x i32> addrspace(1)* %x, align 32
%tmp4 = load <8 x i32>, <8 x i32> addrspace(1)* %y, align 32		%tmp4 = load <8 x i32>, <8 x i32> addrspace(1)* %y, align 32
store <8 x i32> %tmp4, <8 x i32> addrspace(1)* %x, align 32		store <8 x i32> %tmp4, <8 x i32> addrspace(1)* %x, align 32
store <8 x i32> %tmp1, <8 x i32> addrspace(1)* %y, align 32		store <8 x i32> %tmp1, <8 x i32> addrspace(1)* %y, align 32
ret void		ret void
}		}
Show All 21 Lines

test/CodeGen/AMDGPU/salu-to-valu.ll

	Show First 20 Lines • Show All 156 Lines • ▼ Show 20 Lines
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: buffer_store_dword			; GCN: buffer_store_dwordx4
	; GCN: buffer_store_dword			; GCN: buffer_store_dwordx4
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword
	define void @smrd_valu_ci_offset_x8(<8 x i32> addrspace(1)* %out, <8 x i32> addrspace(2)* %in, <8 x i32> %c) #1 {			define void @smrd_valu_ci_offset_x8(<8 x i32> addrspace(1)* %out, <8 x i32> addrspace(2)* %in, <8 x i32> %c) #1 {
	entry:			entry:
	%tmp = call i32 @llvm.r600.read.tidig.x() #0			%tmp = call i32 @llvm.r600.read.tidig.x() #0
	%tmp2 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %in, i32 %tmp			%tmp2 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %in, i32 %tmp
	%tmp3 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %tmp2, i32 1234			%tmp3 = getelementptr <8 x i32>, <8 x i32> addrspace(2)* %tmp2, i32 1234
	%tmp4 = load <8 x i32>, <8 x i32> addrspace(2)* %tmp3			%tmp4 = load <8 x i32>, <8 x i32> addrspace(2)* %tmp3
	%tmp5 = or <8 x i32> %tmp4, %c			%tmp5 = or <8 x i32> %tmp4, %c
	store <8 x i32> %tmp5, <8 x i32> addrspace(1)* %out			store <8 x i32> %tmp5, <8 x i32> addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: should use immediate offset instead of using s_add_i32 for adding to constant.			; FIXME: should use immediate offset instead of using s_add_i32 for adding to constant.
	; GCN-LABEL: {{^}}smrd_valu_ci_offset_x16:			; GCN-LABEL: {{^}}smrd_valu_ci_offset_x16:

	; GCN: s_mov_b32 s[[OFFSET0:[0-9]+]], 0x13480{{$}}			; GCN-DAG: s_mov_b32 s[[OFFSET0:[0-9]+]], 0x13480{{$}}
	; SI: s_add_i32 s[[OFFSET1:[0-9]+]], s[[OFFSET0]], 16			; SI-DAG: s_add_i32 s[[OFFSET1:[0-9]+]], s[[OFFSET0]], 16
	; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET0]]:{{[0-9]+}}], 0 addr64{{$}}			; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET0]]:{{[0-9]+}}], 0 addr64{{$}}

	; CI: s_mov_b32 s[[OFFSET1:[0-9]+]], 0x13490{{$}}			; CI-DAG: s_mov_b32 s[[OFFSET1:[0-9]+]], 0x13490{{$}}
	; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET1]]:{{[0-9]+}}], 0 addr64{{$}}			; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET1]]:{{[0-9]+}}], 0 addr64{{$}}

	; SI: s_add_i32 s[[OFFSET2:[0-9]+]], s[[OFFSET0]], 32			; SI-DAG: s_add_i32 s[[OFFSET2:[0-9]+]], s[[OFFSET0]], 32
	; CI: s_mov_b32 s[[OFFSET2:[0-9]+]], 0x134a0			; CI-DAG: s_mov_b32 s[[OFFSET2:[0-9]+]], 0x134a0

				; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET2]]:{{[0-9]+}}], 0 addr64{{$}}
				; GCN-DAG: s_add_i32 s[[OFFSET3:[0-9]+]], s[[OFFSET2]], 16
				; GCN-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET3]]:{{[0-9]+}}], 0 addr64{{$}}

	; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET2]]:{{[0-9]+}}], 0 addr64{{$}}
	; GCN: s_add_i32 s[[OFFSET3:[0-9]+]], s[[OFFSET2]], 16
	; GCN: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[}}[[OFFSET3]]:{{[0-9]+}}], 0 addr64{{$}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}			; GCN: v_or_b32_e32 {{v[0-9]+}}, {{s[0-9]+}}, {{v[0-9]+}}
	; GCN: buffer_store_dword			; GCN: buffer_store_dwordx4
	; GCN: buffer_store_dword			; GCN: buffer_store_dwordx4
	; GCN: buffer_store_dword			; GCN: buffer_store_dwordx4
	; GCN: buffer_store_dword			; GCN: buffer_store_dwordx4
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword			; GCN: s_endpgm
	; GCN: buffer_store_dword
	; GCN: buffer_store_dword
	define void @smrd_valu_ci_offset_x16(<16 x i32> addrspace(1)* %out, <16 x i32> addrspace(2)* %in, <16 x i32> %c) #1 {			define void @smrd_valu_ci_offset_x16(<16 x i32> addrspace(1)* %out, <16 x i32> addrspace(2)* %in, <16 x i32> %c) #1 {
	entry:			entry:
	%tmp = call i32 @llvm.r600.read.tidig.x() #0			%tmp = call i32 @llvm.r600.read.tidig.x() #0
	%tmp2 = getelementptr <16 x i32>, <16 x i32> addrspace(2)* %in, i32 %tmp			%tmp2 = getelementptr <16 x i32>, <16 x i32> addrspace(2)* %in, i32 %tmp
	%tmp3 = getelementptr <16 x i32>, <16 x i32> addrspace(2)* %tmp2, i32 1234			%tmp3 = getelementptr <16 x i32>, <16 x i32> addrspace(2)* %tmp2, i32 1234
	%tmp4 = load <16 x i32>, <16 x i32> addrspace(2)* %tmp3			%tmp4 = load <16 x i32>, <16 x i32> addrspace(2)* %tmp3
	%tmp5 = or <16 x i32> %tmp4, %c			%tmp5 = or <16 x i32> %tmp4, %c
	store <16 x i32> %tmp5, <16 x i32> addrspace(1)* %out			store <16 x i32> %tmp5, <16 x i32> addrspace(1)* %out
	▲ Show 20 Lines • Show All 183 Lines • Show Last 20 Lines