Diff 301824

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 1,565 Lines • ▼ Show 20 Lines	SDValue AMDGPUTargetLowering::SplitVectorLoad(const SDValue Op,
return DAG.getMergeValues(Ops, SL);		return DAG.getMergeValues(Ops, SL);
}		}

// Widen a vector load from vec3 to vec4.		// Widen a vector load from vec3 to vec4.
SDValue AMDGPUTargetLowering::WidenVectorLoad(SDValue Op,		SDValue AMDGPUTargetLowering::WidenVectorLoad(SDValue Op,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
LoadSDNode *Load = cast<LoadSDNode>(Op);		LoadSDNode *Load = cast<LoadSDNode>(Op);
EVT VT = Op.getValueType();		EVT VT = Op.getValueType();
assert(VT.getVectorNumElements() == 3);		unsigned BaseAlign = Load->getAlignment();
		assert(VT.getVectorNumElements() == 3 && BaseAlign >= 8);
SDValue BasePtr = Load->getBasePtr();		SDValue BasePtr = Load->getBasePtr();
EVT MemVT = Load->getMemoryVT();		EVT MemVT = Load->getMemoryVT();
SDLoc SL(Op);		SDLoc SL(Op);
const MachinePointerInfo &SrcValue = Load->getMemOperand()->getPointerInfo();		const MachinePointerInfo &SrcValue = Load->getMemOperand()->getPointerInfo();
unsigned BaseAlign = Load->getAlignment();

EVT WideVT =		EVT WideVT =
EVT::getVectorVT(*DAG.getContext(), VT.getVectorElementType(), 4);		EVT::getVectorVT(*DAG.getContext(), VT.getVectorElementType(), 4);
EVT WideMemVT =		EVT WideMemVT =
EVT::getVectorVT(*DAG.getContext(), MemVT.getVectorElementType(), 4);		EVT::getVectorVT(*DAG.getContext(), MemVT.getVectorElementType(), 4);
SDValue WideLoad = DAG.getExtLoad(		SDValue WideLoad = DAG.getExtLoad(
Load->getExtensionType(), SL, WideVT, Load->getChain(), BasePtr, SrcValue,		Load->getExtensionType(), SL, WideVT, Load->getChain(), BasePtr, SrcValue,
WideMemVT, BaseAlign, Load->getMemOperand()->getFlags());		WideMemVT, BaseAlign, Load->getMemOperand()->getFlags());
▲ Show 20 Lines • Show All 3,127 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,052 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {

unsigned NumElements = MemVT.getVectorNumElements();		unsigned NumElements = MemVT.getVectorNumElements();

if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {
if (!Op->isDivergent() && Alignment >= 4 && NumElements < 32) {		if (!Op->isDivergent() && Alignment >= 4 && NumElements < 32) {
if (MemVT.isPow2VectorType())		if (MemVT.isPow2VectorType())
return SDValue();		return SDValue();
if (NumElements == 3)		if (NumElements == 3 && Alignment >= 8)
return WidenVectorLoad(Op, DAG);		return WidenVectorLoad(Op, DAG);
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
}		}
// Non-uniform loads will be selected to MUBUF instructions, so they		// Non-uniform loads will be selected to MUBUF instructions, so they
// have the same legalization requirements as global and private		// have the same legalization requirements as global and private
// loads.		// loads.
//		//
}		}

if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|
AS == AMDGPUAS::GLOBAL_ADDRESS) {		AS == AMDGPUAS::GLOBAL_ADDRESS) {
if (Subtarget->getScalarizeGlobalBehavior() && !Op->isDivergent() &&		if (Subtarget->getScalarizeGlobalBehavior() && !Op->isDivergent() &&
Load->isSimple() && isMemOpHasNoClobberedMemOperand(Load) &&		Load->isSimple() && isMemOpHasNoClobberedMemOperand(Load) &&
Alignment >= 4 && NumElements < 32) {		Alignment >= 4 && NumElements < 32) {
if (MemVT.isPow2VectorType())		if (MemVT.isPow2VectorType())
return SDValue();		return SDValue();
if (NumElements == 3)		if (NumElements == 3 && Alignment >= 8)
return WidenVectorLoad(Op, DAG);		return WidenVectorLoad(Op, DAG);
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
}		}
// Non-uniform loads will be selected to MUBUF instructions, so they		// Non-uniform loads will be selected to MUBUF instructions, so they
// have the same legalization requirements as global and private		// have the same legalization requirements as global and private
// loads.		// loads.
//		//
}		}
if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|
AS == AMDGPUAS::GLOBAL_ADDRESS \|\|		AS == AMDGPUAS::GLOBAL_ADDRESS \|\|
AS == AMDGPUAS::FLAT_ADDRESS) {		AS == AMDGPUAS::FLAT_ADDRESS) {
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
// v3 loads not supported on SI.		// v3 loads not supported on SI.
if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())
return WidenVectorLoad(Op, DAG);		// Widen v3 loads when the alignment is 8-byte or higher.
		return Alignment < 8 ? SplitVectorLoad(Op, DAG)
		: WidenVectorLoad(Op, DAG);
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - : WidenVectorLoad(Op, DAG); + : WidenVectorLoad(Op, DAG); Lint: Pre-merge checks: clang-format: please reformat the code ``` - : WidenVectorLoad(Op…
// v3 and v4 loads are supported for private and global memory.		// v3 and v4 loads are supported for private and global memory.
return SDValue();		return SDValue();
}		}
if (AS == AMDGPUAS::PRIVATE_ADDRESS) {		if (AS == AMDGPUAS::PRIVATE_ADDRESS) {
// Depending on the setting of the private_element_size field in the		// Depending on the setting of the private_element_size field in the
// resource descriptor, we can only make private accesses up to a certain		// resource descriptor, we can only make private accesses up to a certain
// size.		// size.
switch (Subtarget->getMaxPrivateElementSize()) {		switch (Subtarget->getMaxPrivateElementSize()) {
case 4: {		case 4: {
SDValue Ops[2];		SDValue Ops[2];
std::tie(Ops[0], Ops[1]) = scalarizeVectorLoad(Load, DAG);		std::tie(Ops[0], Ops[1]) = scalarizeVectorLoad(Load, DAG);
return DAG.getMergeValues(Ops, DL);		return DAG.getMergeValues(Ops, DL);
}		}
case 8:		case 8:
if (NumElements > 2)		if (NumElements > 2)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
return SDValue();		return SDValue();
case 16:		case 16:
// Same as global/flat		// Same as global/flat
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
// v3 loads not supported on SI.		// v3 loads not supported on SI.
if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())
return WidenVectorLoad(Op, DAG);		// Widen v3 loads when the alignment is 8-byte or higher.
		return Alignment < 8 ? SplitVectorLoad(Op, DAG)
		: WidenVectorLoad(Op, DAG);
		Lint: Pre-merge checks Inline Actions clang-format: please reformat the code - : WidenVectorLoad(Op, DAG); + : WidenVectorLoad(Op, DAG); Lint: Pre-merge checks: clang-format: please reformat the code ``` - : WidenVectorLoad(Op…
return SDValue();		return SDValue();
default:		default:
llvm_unreachable("unsupported private_element_size");		llvm_unreachable("unsupported private_element_size");
}		}
} else if (AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::REGION_ADDRESS) {		} else if (AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::REGION_ADDRESS) {
// Use ds_read_b128 or ds_read_b96 when possible.		// Use ds_read_b128 or ds_read_b96 when possible.
if (Subtarget->hasDS96AndDS128() &&		if (Subtarget->hasDS96AndDS128() &&
((Subtarget->useDS128() && MemVT.getStoreSize() == 16) \|\|		((Subtarget->useDS128() && MemVT.getStoreSize() == 16) \|\|
▲ Show 20 Lines • Show All 3,835 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bfi_int.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s
	; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=R600,FUNC %s			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=R600,FUNC %s

	; BFI_INT Definition pattern from ISA docs			; BFI_INT Definition pattern from ISA docs
	; (y & x) \| (z & ~x)			; (y & x) \| (z & ~x)
	;			;
	; FUNC-LABEL: {{^}}bfi_def:			; FUNC-LABEL: {{^}}bfi_def:
	; R600: BFI_INT			; R600: BFI_INT

	; GCN: s_andn2_b32			; GCN-DAG: s_andn2_b32
	; GCN: s_and_b32			; GCN-DAG: s_and_b32
	; GCN: s_or_b32			; GCN: s_or_b32
	define amdgpu_kernel void @bfi_def(i32 addrspace(1)* %out, i32 %x, i32 %y, i32 %z) {			define amdgpu_kernel void @bfi_def(i32 addrspace(1)* %out, i32 %x, i32 %y, i32 %z) {
				arsenmUnsubmitted Not Done Reply Inline Actions You can just use -DAG here arsenm: You can just use -DAG here
	entry:			entry:
	%0 = xor i32 %x, -1			%0 = xor i32 %x, -1
	%1 = and i32 %z, %0			%1 = and i32 %z, %0
	%2 = and i32 %y, %x			%2 = and i32 %y, %x
	%3 = or i32 %1, %2			%3 = or i32 %1, %2
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 160 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshl.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,SI			; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,SI
	; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,VI			; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,VI
	; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,GFX9			; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,GFX9
	; RUN: llc < %s -march=r600 -mcpu=redwood -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,R600			; RUN: llc < %s -march=r600 -mcpu=redwood -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,R600

	declare i32 @llvm.fshl.i32(i32, i32, i32) nounwind readnone			declare i32 @llvm.fshl.i32(i32, i32, i32) nounwind readnone
	declare <2 x i32> @llvm.fshl.v2i32(<2 x i32>, <2 x i32>, <2 x i32>) nounwind readnone			declare <2 x i32> @llvm.fshl.v2i32(<2 x i32>, <2 x i32>, <2 x i32>) nounwind readnone
	declare <4 x i32> @llvm.fshl.v4i32(<4 x i32>, <4 x i32>, <4 x i32>) nounwind readnone			declare <4 x i32> @llvm.fshl.v4i32(<4 x i32>, <4 x i32>, <4 x i32>) nounwind readnone

	define amdgpu_kernel void @fshl_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {			define amdgpu_kernel void @fshl_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {
	; SI-LABEL: fshl_i32:			; SI-LABEL: fshl_i32:
	; SI: ; %bb.0: ; %entry			; SI: ; %bb.0: ; %entry
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
				; SI-NEXT: s_load_dword s0, s[0:1], 0xd
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mov_b32_e32 v0, s3
	; SI-NEXT: s_lshr_b32 s1, s0, 1			; SI-NEXT: s_not_b32 s0, s0
	; SI-NEXT: v_alignbit_b32 v0, s0, v0, 1			; SI-NEXT: v_alignbit_b32 v0, s2, v0, 1
	; SI-NEXT: s_not_b32 s0, s2			; SI-NEXT: s_lshr_b32 s1, s2, 1
	; SI-NEXT: v_mov_b32_e32 v1, s0			; SI-NEXT: v_mov_b32_e32 v1, s0
	; SI-NEXT: v_alignbit_b32 v0, s1, v0, v1			; SI-NEXT: v_alignbit_b32 v0, s1, v0, v1
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fshl_i32:			; VI-LABEL: fshl_i32:
	; VI: ; %bb.0: ; %entry			; VI: ; %bb.0: ; %entry
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; VI-NEXT: s_load_dword s0, s[0:1], 0x34
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s1			; VI-NEXT: v_mov_b32_e32 v0, s5
	; VI-NEXT: s_not_b32 s2, s2			; VI-NEXT: s_not_b32 s0, s0
	; VI-NEXT: s_lshr_b32 s1, s0, 1			; VI-NEXT: s_lshr_b32 s1, s4, 1
	; VI-NEXT: v_alignbit_b32 v0, s0, v0, 1			; VI-NEXT: v_alignbit_b32 v0, s4, v0, 1
	; VI-NEXT: v_mov_b32_e32 v1, s2			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_alignbit_b32 v2, s1, v0, v1			; VI-NEXT: v_alignbit_b32 v2, s1, v0, v1
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: fshl_i32:			; GFX9-LABEL: fshl_i32:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s5
	; GFX9-NEXT: s_not_b32 s2, s2			; GFX9-NEXT: s_not_b32 s0, s0
	; GFX9-NEXT: s_lshr_b32 s1, s0, 1			; GFX9-NEXT: s_lshr_b32 s1, s4, 1
	; GFX9-NEXT: v_alignbit_b32 v0, s0, v0, 1			; GFX9-NEXT: v_alignbit_b32 v0, s4, v0, 1
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_alignbit_b32 v2, s1, v0, v1			; GFX9-NEXT: v_alignbit_b32 v2, s1, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; R600-LABEL: fshl_i32:			; R600-LABEL: fshl_i32:
	; R600: ; %bb.0: ; %entry			; R600: ; %bb.0: ; %entry
	; R600-NEXT: ALU 5, @4, KC0[CB0:0-32], KC1[]			; R600-NEXT: ALU 5, @4, KC0[CB0:0-32], KC1[]
	; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1			; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	▲ Show 20 Lines • Show All 449 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show All 15 Lines
	declare <2 x i64> @llvm.fshr.v2i64(<2 x i64>, <2 x i64>, <2 x i64>)			declare <2 x i64> @llvm.fshr.v2i64(<2 x i64>, <2 x i64>, <2 x i64>)
	declare i24 @llvm.fshr.i24(i24, i24, i24)			declare i24 @llvm.fshr.i24(i24, i24, i24)
	declare <2 x i24> @llvm.fshr.v2i24(<2 x i24>, <2 x i24>, <2 x i24>)			declare <2 x i24> @llvm.fshr.v2i24(<2 x i24>, <2 x i24>, <2 x i24>)

	define amdgpu_kernel void @fshr_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {			define amdgpu_kernel void @fshr_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {
	; SI-LABEL: fshr_i32:			; SI-LABEL: fshr_i32:
	; SI: ; %bb.0: ; %entry			; SI: ; %bb.0: ; %entry
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
				; SI-NEXT: s_load_dword s0, s[0:1], 0xd
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mov_b32_e32 v0, s3
	; SI-NEXT: v_mov_b32_e32 v1, s2			; SI-NEXT: v_mov_b32_e32 v1, s0
	; SI-NEXT: v_alignbit_b32 v0, s0, v0, v1			; SI-NEXT: v_alignbit_b32 v0, s2, v0, v1
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fshr_i32:			; VI-LABEL: fshr_i32:
	; VI: ; %bb.0: ; %entry			; VI: ; %bb.0: ; %entry
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; VI-NEXT: s_load_dword s0, s[0:1], 0x34
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s1			; VI-NEXT: v_mov_b32_e32 v0, s5
	; VI-NEXT: v_mov_b32_e32 v1, s2			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_alignbit_b32 v2, s0, v0, v1			; VI-NEXT: v_alignbit_b32 v2, s4, v0, v1
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: fshr_i32:			; GFX9-LABEL: fshr_i32:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s5
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_alignbit_b32 v2, s0, v0, v1			; GFX9-NEXT: v_alignbit_b32 v2, s4, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; R600-LABEL: fshr_i32:			; R600-LABEL: fshr_i32:
	; R600: ; %bb.0: ; %entry			; R600: ; %bb.0: ; %entry
	; R600-NEXT: ALU 2, @4, KC0[CB0:0-32], KC1[]			; R600-NEXT: ALU 2, @4, KC0[CB0:0-32], KC1[]
	; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T1.X, T0.X, 1			; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T1.X, T0.X, 1
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	▲ Show 20 Lines • Show All 983 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/kernel-args.ll

	Show First 20 Lines • Show All 270 Lines • ▼ Show 20 Lines
	}			}

	; FUNC-LABEL: {{^}}v3i32_arg:			; FUNC-LABEL: {{^}}v3i32_arg:
	; HSA-GFX9: kernarg_segment_byte_size = 32			; HSA-GFX9: kernarg_segment_byte_size = 32
	; HSA-GFX9: kernarg_segment_alignment = 4			; HSA-GFX9: kernarg_segment_alignment = 4
	; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Y			; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Y
	; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Z			; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Z
	; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].W			; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].W
	; SI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0xd			; SI: s_load_dword s{{[0-9]+}}, s[0:1], 0xf
	; MESA-VI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x34			; SI: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0xd
				; MESA-VI: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x34
				; MESA-VI: s_load_dword s{{[0-9]+}}, s[0:1], 0x3c
	; HSA-GFX9: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x10			; HSA-GFX9: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x10
	define amdgpu_kernel void @v3i32_arg(<3 x i32> addrspace(1)* nocapture %out, <3 x i32> %in) nounwind {			define amdgpu_kernel void @v3i32_arg(<3 x i32> addrspace(1)* nocapture %out, <3 x i32> %in) nounwind {
	entry:			entry:
	store <3 x i32> %in, <3 x i32> addrspace(1)* %out, align 4			store <3 x i32> %in, <3 x i32> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v3f32_arg:			; FUNC-LABEL: {{^}}v3f32_arg:
	; HSA-GFX9: kernarg_segment_byte_size = 32			; HSA-GFX9: kernarg_segment_byte_size = 32
	; HSA-GFX9: kernarg_segment_alignment = 4			; HSA-GFX9: kernarg_segment_alignment = 4
	; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Y			; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Y
	; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Z			; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].Z
	; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].W			; EGCM-DAG: T{{[0-9]\.[XYZW]}}, KC0[3].W
	; SI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0xd			; SI: s_load_dword s{{[0-9]+}}, s[0:1], 0xf
	; MESA-VI: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x34			; SI: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0xd
				; MESA-VI: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x34
				; MESA-VI: s_load_dword s{{[0-9]+}}, s[0:1], 0x3c
	; HSA-GFX9: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x10			; HSA-GFX9: s_load_dwordx4 s[{{[0-9]+:[0-9]+}}], s[4:5], 0x10
	define amdgpu_kernel void @v3f32_arg(<3 x float> addrspace(1)* nocapture %out, <3 x float> %in) nounwind {			define amdgpu_kernel void @v3f32_arg(<3 x float> addrspace(1)* nocapture %out, <3 x float> %in) nounwind {
	entry:			entry:
	store <3 x float> %in, <3 x float> addrspace(1)* %out, align 4			store <3 x float> %in, <3 x float> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}v4i8_arg:			; FUNC-LABEL: {{^}}v4i8_arg:
	▲ Show 20 Lines • Show All 641 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-stores.ll

Show First 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @merge_global_store_4_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
store i32 %x, i32 addrspace(1)* %out		store i32 %x, i32 addrspace(1)* %out
store i32 %y, i32 addrspace(1)* %out.gep.1		store i32 %y, i32 addrspace(1)* %out.gep.1
store i32 %z, i32 addrspace(1)* %out.gep.2		store i32 %z, i32 addrspace(1)* %out.gep.2
store i32 %w, i32 addrspace(1)* %out.gep.3		store i32 %w, i32 addrspace(1)* %out.gep.3
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_3_adjacent_loads_i32:		; GCN-LABEL: {{^}}merge_global_store_3_adjacent_loads_i32:
; SI-DAG: buffer_load_dwordx4		; SI-DAG: buffer_load_dwordx2
		; SI-DAG: buffer_load_dword
; CI-DAG: buffer_load_dwordx3		; CI-DAG: buffer_load_dwordx3
; GCN: s_waitcnt		; GCN: s_waitcnt
; SI-DAG: buffer_store_dwordx2		; SI-DAG: buffer_store_dwordx2
; SI-DAG: buffer_store_dword v		; SI-DAG: buffer_store_dword v
; CI-DAG: buffer_store_dwordx3		; CI-DAG: buffer_store_dwordx3
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @merge_global_store_3_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {		define amdgpu_kernel void @merge_global_store_3_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1		%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1
▲ Show 20 Lines • Show All 321 Lines • ▼ Show 20 Lines
}		}

; This requires handling of scalar_to_vector for v2i64 to avoid		; This requires handling of scalar_to_vector for v2i64 to avoid
; scratch usage.		; scratch usage.
; FIXME: Should do single load and store		; FIXME: Should do single load and store

; GCN-LABEL: {{^}}copy_v3i32_align4:		; GCN-LABEL: {{^}}copy_v3i32_align4:
; GCN-NOT: SCRATCH_RSRC_DWORD		; GCN-NOT: SCRATCH_RSRC_DWORD
; SI-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
		; SI-DAG: buffer_load_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN-NOT: offen		; GCN-NOT: offen
; GCN: s_waitcnt vmcnt		; GCN: s_waitcnt vmcnt
; GCN-NOT: offen		; GCN-NOT: offen
; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}

Show All 17 Lines
define amdgpu_kernel void @copy_v3i64_align4(<3 x i64> addrspace(1)* noalias %out, <3 x i64> addrspace(1)* noalias %in) #0 {		define amdgpu_kernel void @copy_v3i64_align4(<3 x i64> addrspace(1)* noalias %out, <3 x i64> addrspace(1)* noalias %in) #0 {
%vec = load <3 x i64>, <3 x i64> addrspace(1)* %in, align 4		%vec = load <3 x i64>, <3 x i64> addrspace(1)* %in, align 4
store <3 x i64> %vec, <3 x i64> addrspace(1)* %out		store <3 x i64> %vec, <3 x i64> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}copy_v3f32_align4:		; GCN-LABEL: {{^}}copy_v3f32_align4:
; GCN-NOT: SCRATCH_RSRC_DWORD		; GCN-NOT: SCRATCH_RSRC_DWORD
; SI-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
		; SI-DAG: buffer_load_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN-NOT: offen		; GCN-NOT: offen
; GCN: s_waitcnt vmcnt		; GCN: s_waitcnt vmcnt
; GCN-NOT: offen		; GCN-NOT: offen
; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN: ScratchSize: 0{{$}}		; GCN: ScratchSize: 0{{$}}
Show All 28 Lines

llvm/test/CodeGen/AMDGPU/promote-vect3-load.ll

This file was added.

				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN %s

				; The type promotion for the vector loads v3i32/v3f32 into v4i32/v4f32 is enabled
				; only when the alignment is 8-byte or higher.
				; Otherwise, split the load into two separate loads (dwordx2 + dword).
				; This type promotion on smaller aligned loads can cause a page fault error
				; while accessing one extra dword beyond the buffer.

				define protected amdgpu_kernel void @load_v3i32_align4(<3 x i32> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3i32_align4:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				; GCN-NEXT: s_load_dword s{{[0-9]+}}, s[0:1], 0x8
				%vec = load <3 x i32>, <3 x i32> addrspace(1)* %arg, align 4
				store <3 x i32> %vec, <3 x i32> addrspace(1)* undef, align 4
				ret void
				}

				define protected amdgpu_kernel void @load_v3i32_align8(<3 x i32> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3i32_align8:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x i32>, <3 x i32> addrspace(1)* %arg, align 8
				store <3 x i32> %vec, <3 x i32> addrspace(1)* undef, align 8
				ret void
				}

				define protected amdgpu_kernel void @load_v3i32_align16(<3 x i32> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3i32_align16:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x i32>, <3 x i32> addrspace(1)* %arg, align 16
				store <3 x i32> %vec, <3 x i32> addrspace(1)* undef, align 16
				ret void
				}

				define protected amdgpu_kernel void @load_v3f32_align4(<3 x float> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3f32_align4:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				; GCN-NEXT: s_load_dword s{{[0-9]+}}, s[0:1], 0x8
				%vec = load <3 x float>, <3 x float> addrspace(1)* %arg, align 4
				store <3 x float> %vec, <3 x float> addrspace(1)* undef, align 4
				ret void
				}

				define protected amdgpu_kernel void @load_v3f32_align8(<3 x float> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3f32_align8:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x float>, <3 x float> addrspace(1)* %arg, align 8
				store <3 x float> %vec, <3 x float> addrspace(1)* undef, align 8
				ret void
				}

				define protected amdgpu_kernel void @load_v3f32_align16(<3 x float> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3f32_align16:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x float>, <3 x float> addrspace(1)* %arg, align 16
				store <3 x float> %vec, <3 x float> addrspace(1)* undef, align 16
				ret void
				}

				attributes #0 = { nounwind noinline }

llvm/test/CodeGen/AMDGPU/sign_extend.ll

Show All 32 Lines	; VI-NEXT: s_endpgm
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @test_s_sext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {		define amdgpu_kernel void @test_s_sext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
; SI-LABEL: test_s_sext_i32_to_i64:		; SI-LABEL: test_s_sext_i32_to_i64:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb		; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
		; SI-NEXT: s_load_dword s0, s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mul_i32 s0, s0, s1		; SI-NEXT: s_mul_i32 s1, s2, s3
; SI-NEXT: s_add_i32 s0, s0, s2		; SI-NEXT: s_add_i32 s1, s1, s0
; SI-NEXT: s_ashr_i32 s1, s0, 31		; SI-NEXT: s_ashr_i32 s0, s1, 31
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mov_b32_e32 v0, s1
; SI-NEXT: v_mov_b32_e32 v1, s1		; SI-NEXT: v_mov_b32_e32 v1, s0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_s_sext_i32_to_i64:		; VI-LABEL: test_s_sext_i32_to_i64:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
		; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_mul_i32 s0, s0, s1		; VI-NEXT: s_mul_i32 s1, s2, s3
; VI-NEXT: s_add_i32 s0, s0, s2		; VI-NEXT: s_add_i32 s1, s1, s0
; VI-NEXT: s_ashr_i32 s1, s0, 31		; VI-NEXT: s_ashr_i32 s0, s1, 31
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s1
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s0
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
entry:		entry:
%mul = mul i32 %a, %b		%mul = mul i32 %a, %b
%add = add i32 %mul, %c		%add = add i32 %mul, %c
%sext = sext i32 %add to i64		%sext = sext i32 %add to i64
store i64 %sext, i64 addrspace(1)* %out, align 8		store i64 %sext, i64 addrspace(1)* %out, align 8
ret void		ret void
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
store i16 %sext, i16 addrspace(1)* %out		store i16 %sext, i16 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {		define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
; SI-LABEL: v_sext_i1_to_i16_with_and:		; SI-LABEL: v_sext_i1_to_i16_with_and:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb		; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
		; SI-NEXT: s_load_dword s0, s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0		; SI-NEXT: v_cmp_eq_u32_e32 vcc, s2, v0
; SI-NEXT: v_mov_b32_e32 v0, s2		; SI-NEXT: v_mov_b32_e32 v0, s0
; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0		; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v0
; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]		; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; SI-NEXT: buffer_store_short v0, off, s[4:7], 0		; SI-NEXT: buffer_store_short v0, off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_sext_i1_to_i16_with_and:		; VI-LABEL: v_sext_i1_to_i16_with_and:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
		; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0		; VI-NEXT: v_cmp_eq_u32_e32 vcc, s2, v0
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0		; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v0
; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]		; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; VI-NEXT: buffer_store_short v0, off, s[4:7], 0		; VI-NEXT: buffer_store_short v0, off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1
%cmp0 = icmp eq i32 %a, %tid		%cmp0 = icmp eq i32 %a, %tid
%cmp1 = icmp eq i32 %b, %c		%cmp1 = icmp eq i32 %b, %c
%cmp = and i1 %cmp0, %cmp1		%cmp = and i1 %cmp0, %cmp1
▲ Show 20 Lines • Show All 262 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/store-local.96.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s			; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s
	; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX7 %s			; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX7 %s
	; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6 %s			; RUN: llc -mtriple=amdgcn-amd-amdpal -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6 %s

	define amdgpu_kernel void @store_lds_v3i32(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32:			; GFX9-LABEL: store_lds_v3i32:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x3c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v3, s4			; GFX9-NEXT: v_mov_b32_e32 v3, s4
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s0
	; GFX9-NEXT: ds_write_b96 v3, v[0:2]			; GFX9-NEXT: ds_write_b96 v3, v[0:2]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32:			; GFX7-LABEL: store_lds_v3i32:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX7-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v3, s4			; GFX7-NEXT: v_mov_b32_e32 v3, s4
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s0
	; GFX7-NEXT: ds_write_b96 v3, v[0:2]			; GFX7-NEXT: ds_write_b96 v3, v[0:2]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32:			; GFX6-LABEL: store_lds_v3i32:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX6-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v2, s4			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: ds_write_b32 v2, v1 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v0, s0			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: ds_write_b32 v2, v0 offset:8
				; GFX6-NEXT: v_mov_b32_e32 v0, s2
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: ds_write_b64 v2, v[0:1]			; GFX6-NEXT: ds_write_b64 v2, v[0:1]
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out			store <3 x i32> %x, <3 x i32> addrspace(3)* %out
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align1(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align1:			; GFX9-LABEL: store_lds_v3i32_align1:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x3c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: s_lshr_b32 s1, s0, 8
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:8			; GFX9-NEXT: s_lshr_b32 s4, s0, 24
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:10
	; GFX9-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v2 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: s_lshr_b32 s3, s2, 8
	; GFX9-NEXT: ds_write_b8 v0, v1
	; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:2
	; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: s_lshr_b32 s2, s2, 24
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:9			; GFX9-NEXT: ds_write_b8 v0, v1 offset:9
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s4
	; GFX9-NEXT: s_lshr_b32 s2, s1, 8
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:11			; GFX9-NEXT: ds_write_b8 v0, v1 offset:11
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:4
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: s_lshr_b32 s1, s1, 24			; GFX9-NEXT: s_lshr_b32 s1, s3, 8
				; GFX9-NEXT: ds_write_b8 v0, v1
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v1, s1
				; GFX9-NEXT: s_lshr_b32 s1, s3, 24
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:5			; GFX9-NEXT: ds_write_b8 v0, v1 offset:5
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: s_lshr_b32 s1, s0, 8			; GFX9-NEXT: s_lshr_b32 s1, s2, 8
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:7			; GFX9-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: s_lshr_b32 s0, s0, 24			; GFX9-NEXT: s_lshr_b32 s1, s2, 24
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:1			; GFX9-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b8 v0, v1 offset:3			; GFX9-NEXT: ds_write_b8 v0, v1 offset:3
				; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b8 v0, v1 offset:8
				; GFX9-NEXT: ds_write_b8_d16_hi v0, v1 offset:10
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align1:			; GFX7-LABEL: store_lds_v3i32_align1:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX7-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: s_lshr_b32 s1, s0, 8
	; GFX7-NEXT: v_mov_b32_e32 v2, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:8			; GFX7-NEXT: s_lshr_b32 s1, s0, 24
	; GFX7-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: s_lshr_b32 s3, s2, 8
	; GFX7-NEXT: ds_write_b8 v0, v1
	; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: s_lshr_b32 s3, s2, 24
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:9			; GFX7-NEXT: ds_write_b8 v0, v1 offset:9
	; GFX7-NEXT: v_mov_b32_e32 v1, s3			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s2, s2, 16			; GFX7-NEXT: s_lshr_b32 s1, s0, 16
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:11			; GFX7-NEXT: ds_write_b8 v0, v1 offset:11
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s2, s1, 8
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:10			; GFX7-NEXT: ds_write_b8 v0, v1 offset:10
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:4
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s2, s1, 24			; GFX7-NEXT: s_lshr_b32 s1, s3, 8
				; GFX7-NEXT: ds_write_b8 v0, v1
				; GFX7-NEXT: v_mov_b32_e32 v1, s1
				; GFX7-NEXT: s_lshr_b32 s1, s3, 24
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:5			; GFX7-NEXT: ds_write_b8 v0, v1 offset:5
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s1, s1, 16			; GFX7-NEXT: s_lshr_b32 s1, s3, 16
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:7			; GFX7-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s1, s0, 8			; GFX7-NEXT: s_lshr_b32 s1, s2, 8
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:6			; GFX7-NEXT: ds_write_b8 v0, v1 offset:6
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s1, s0, 24			; GFX7-NEXT: s_lshr_b32 s1, s2, 24
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:1			; GFX7-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s0, s0, 16			; GFX7-NEXT: s_lshr_b32 s1, s2, 16
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:3			; GFX7-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: ds_write_b8 v0, v1 offset:2			; GFX7-NEXT: ds_write_b8 v0, v1 offset:2
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: ds_write_b8 v0, v1 offset:8
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align1:			; GFX6-LABEL: store_lds_v3i32_align1:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX6-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: s_lshr_b32 s1, s0, 8
	; GFX6-NEXT: v_mov_b32_e32 v2, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:8			; GFX6-NEXT: s_lshr_b32 s1, s0, 24
	; GFX6-NEXT: ds_write_b8 v0, v2 offset:4
	; GFX6-NEXT: v_mov_b32_e32 v1, s0
	; GFX6-NEXT: s_lshr_b32 s3, s2, 8
	; GFX6-NEXT: ds_write_b8 v0, v1
	; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: s_lshr_b32 s3, s2, 24
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:9			; GFX6-NEXT: ds_write_b8 v0, v1 offset:9
	; GFX6-NEXT: v_mov_b32_e32 v1, s3			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16			; GFX6-NEXT: s_lshr_b32 s1, s0, 16
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:11			; GFX6-NEXT: ds_write_b8 v0, v1 offset:11
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s2, s1, 8
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:10			; GFX6-NEXT: ds_write_b8 v0, v1 offset:10
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:4
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s2, s1, 24			; GFX6-NEXT: s_lshr_b32 s1, s3, 8
				; GFX6-NEXT: ds_write_b8 v0, v1
				; GFX6-NEXT: v_mov_b32_e32 v1, s1
				; GFX6-NEXT: s_lshr_b32 s1, s3, 24
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:5			; GFX6-NEXT: ds_write_b8 v0, v1 offset:5
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16			; GFX6-NEXT: s_lshr_b32 s1, s3, 16
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:7			; GFX6-NEXT: ds_write_b8 v0, v1 offset:7
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s1, s0, 8			; GFX6-NEXT: s_lshr_b32 s1, s2, 8
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:6			; GFX6-NEXT: ds_write_b8 v0, v1 offset:6
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s1, s0, 24			; GFX6-NEXT: s_lshr_b32 s1, s2, 24
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:1			; GFX6-NEXT: ds_write_b8 v0, v1 offset:1
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16			; GFX6-NEXT: s_lshr_b32 s1, s2, 16
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:3			; GFX6-NEXT: ds_write_b8 v0, v1 offset:3
	; GFX6-NEXT: v_mov_b32_e32 v1, s0			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b8 v0, v1 offset:2			; GFX6-NEXT: ds_write_b8 v0, v1 offset:2
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: ds_write_b8 v0, v1 offset:8
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 1
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align2(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align2(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align2:			; GFX9-LABEL: store_lds_v3i32_align2:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x3c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
				; GFX9-NEXT: v_mov_b32_e32 v1, s3
				; GFX9-NEXT: ds_write_b16 v0, v1 offset:4
				; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: v_mov_b32_e32 v2, s1
	; GFX9-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:10
	; GFX9-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v2 offset:6
	; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: ds_write_b16 v0, v1			; GFX9-NEXT: ds_write_b16 v0, v1
	; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:2			; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:2
				; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b16 v0, v1 offset:8
				; GFX9-NEXT: ds_write_b16_d16_hi v0, v1 offset:10
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align2:			; GFX7-LABEL: store_lds_v3i32_align2:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX7-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
				; GFX7-NEXT: s_lshr_b32 s1, s0, 16
				; GFX7-NEXT: v_mov_b32_e32 v1, s1
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:10
				; GFX7-NEXT: v_mov_b32_e32 v1, s3
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:4
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: v_mov_b32_e32 v2, s1			; GFX7-NEXT: s_lshr_b32 s1, s3, 16
	; GFX7-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX7-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: s_lshr_b32 s2, s2, 16
	; GFX7-NEXT: ds_write_b16 v0, v1			; GFX7-NEXT: ds_write_b16 v0, v1
	; GFX7-NEXT: v_mov_b32_e32 v1, s2
	; GFX7-NEXT: s_lshr_b32 s1, s1, 16
	; GFX7-NEXT: ds_write_b16 v0, v1 offset:10
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: s_lshr_b32 s0, s0, 16			; GFX7-NEXT: s_lshr_b32 s1, s2, 16
	; GFX7-NEXT: ds_write_b16 v0, v1 offset:6			; GFX7-NEXT: ds_write_b16 v0, v1 offset:6
	; GFX7-NEXT: v_mov_b32_e32 v1, s0			; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: ds_write_b16 v0, v1 offset:2			; GFX7-NEXT: ds_write_b16 v0, v1 offset:2
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
				; GFX7-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align2:			; GFX6-LABEL: store_lds_v3i32_align2:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX6-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
				; GFX6-NEXT: s_lshr_b32 s1, s0, 16
				; GFX6-NEXT: v_mov_b32_e32 v1, s1
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:10
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:4
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: v_mov_b32_e32 v2, s1			; GFX6-NEXT: s_lshr_b32 s1, s3, 16
	; GFX6-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX6-NEXT: ds_write_b16 v0, v2 offset:4
	; GFX6-NEXT: v_mov_b32_e32 v1, s0
	; GFX6-NEXT: s_lshr_b32 s2, s2, 16
	; GFX6-NEXT: ds_write_b16 v0, v1			; GFX6-NEXT: ds_write_b16 v0, v1
	; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: s_lshr_b32 s1, s1, 16
	; GFX6-NEXT: ds_write_b16 v0, v1 offset:10
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: s_lshr_b32 s0, s0, 16			; GFX6-NEXT: s_lshr_b32 s1, s2, 16
	; GFX6-NEXT: ds_write_b16 v0, v1 offset:6			; GFX6-NEXT: ds_write_b16 v0, v1 offset:6
	; GFX6-NEXT: v_mov_b32_e32 v1, s0			; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b16 v0, v1 offset:2			; GFX6-NEXT: ds_write_b16 v0, v1 offset:2
				; GFX6-NEXT: v_mov_b32_e32 v1, s0
				; GFX6-NEXT: ds_write_b16 v0, v1 offset:8
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 2			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 2
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align4(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align4(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align4:			; GFX9-LABEL: store_lds_v3i32_align4:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x3c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s4
	; GFX9-NEXT: v_mov_b32_e32 v1, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s2
	; GFX9-NEXT: v_mov_b32_e32 v2, s1			; GFX9-NEXT: v_mov_b32_e32 v2, s3
	; GFX9-NEXT: v_mov_b32_e32 v3, s2
	; GFX9-NEXT: ds_write2_b32 v0, v1, v2 offset1:1			; GFX9-NEXT: ds_write2_b32 v0, v1, v2 offset1:1
	; GFX9-NEXT: ds_write_b32 v0, v3 offset:8			; GFX9-NEXT: v_mov_b32_e32 v1, s0
				; GFX9-NEXT: ds_write_b32 v0, v1 offset:8
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align4:			; GFX7-LABEL: store_lds_v3i32_align4:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX7-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v0, s4			; GFX7-NEXT: v_mov_b32_e32 v0, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: v_mov_b32_e32 v2, s1
	; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset1:1
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v1, s2
				; GFX7-NEXT: v_mov_b32_e32 v2, s3
				; GFX7-NEXT: ds_write2_b32 v0, v1, v2 offset1:1
				; GFX7-NEXT: v_mov_b32_e32 v1, s0
	; GFX7-NEXT: ds_write_b32 v0, v1 offset:8			; GFX7-NEXT: ds_write_b32 v0, v1 offset:8
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align4:			; GFX6-LABEL: store_lds_v3i32_align4:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX6-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v0, s4			; GFX6-NEXT: v_mov_b32_e32 v0, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: v_mov_b32_e32 v2, s0			; GFX6-NEXT: v_mov_b32_e32 v2, s2
	; GFX6-NEXT: ds_write2_b32 v0, v2, v1 offset1:1			; GFX6-NEXT: ds_write2_b32 v0, v2, v1 offset1:1
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v1, s0
	; GFX6-NEXT: ds_write_b32 v0, v1 offset:8			; GFX6-NEXT: ds_write_b32 v0, v1 offset:8
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 4			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 4
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align8(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align8(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align8:			; GFX9-LABEL: store_lds_v3i32_align8:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x3c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, s4
	; GFX9-NEXT: v_mov_b32_e32 v3, s2			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_mov_b32_e32 v1, s1
	; GFX9-NEXT: ds_write_b32 v2, v3 offset:8
	; GFX9-NEXT: ds_write_b64 v2, v[0:1]			; GFX9-NEXT: ds_write_b64 v2, v[0:1]
				; GFX9-NEXT: v_mov_b32_e32 v0, s0
				; GFX9-NEXT: ds_write_b32 v2, v0 offset:8
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align8:			; GFX7-LABEL: store_lds_v3i32_align8:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX7-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v2, s4			; GFX7-NEXT: v_mov_b32_e32 v2, s4
	; GFX7-NEXT: v_mov_b32_e32 v1, s2			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: ds_write_b32 v2, v1 offset:8			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: v_mov_b32_e32 v0, s0
	; GFX7-NEXT: v_mov_b32_e32 v1, s1
	; GFX7-NEXT: ds_write_b64 v2, v[0:1]			; GFX7-NEXT: ds_write_b64 v2, v[0:1]
				; GFX7-NEXT: v_mov_b32_e32 v0, s0
				; GFX7-NEXT: ds_write_b32 v2, v0 offset:8
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align8:			; GFX6-LABEL: store_lds_v3i32_align8:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX6-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v2, s4			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s2			; GFX6-NEXT: v_mov_b32_e32 v0, s2
	; GFX6-NEXT: ds_write_b32 v2, v1 offset:8			; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s1
	; GFX6-NEXT: ds_write_b64 v2, v[0:1]			; GFX6-NEXT: ds_write_b64 v2, v[0:1]
				; GFX6-NEXT: v_mov_b32_e32 v0, s0
				; GFX6-NEXT: ds_write_b32 v2, v0 offset:8
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 8			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @store_lds_v3i32_align16(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {			define amdgpu_kernel void @store_lds_v3i32_align16(<3 x i32> addrspace(3)* %out, <3 x i32> %x) {
	; GFX9-LABEL: store_lds_v3i32_align16:			; GFX9-LABEL: store_lds_v3i32_align16:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24			; GFX9-NEXT: s_load_dword s4, s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x34			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x34
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x3c
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v3, s4			; GFX9-NEXT: v_mov_b32_e32 v3, s4
	; GFX9-NEXT: v_mov_b32_e32 v0, s0			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s1			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: v_mov_b32_e32 v2, s2			; GFX9-NEXT: v_mov_b32_e32 v2, s0
	; GFX9-NEXT: ds_write_b96 v3, v[0:2]			; GFX9-NEXT: ds_write_b96 v3, v[0:2]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX7-LABEL: store_lds_v3i32_align16:			; GFX7-LABEL: store_lds_v3i32_align16:
	; GFX7: ; %bb.0:			; GFX7: ; %bb.0:
	; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX7-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX7-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX7-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX7-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX7-NEXT: s_mov_b32 m0, -1			; GFX7-NEXT: s_mov_b32 m0, -1
	; GFX7-NEXT: s_waitcnt lgkmcnt(0)			; GFX7-NEXT: s_waitcnt lgkmcnt(0)
	; GFX7-NEXT: v_mov_b32_e32 v3, s4			; GFX7-NEXT: v_mov_b32_e32 v3, s4
	; GFX7-NEXT: v_mov_b32_e32 v0, s0			; GFX7-NEXT: v_mov_b32_e32 v0, s2
	; GFX7-NEXT: v_mov_b32_e32 v1, s1			; GFX7-NEXT: v_mov_b32_e32 v1, s3
	; GFX7-NEXT: v_mov_b32_e32 v2, s2			; GFX7-NEXT: v_mov_b32_e32 v2, s0
	; GFX7-NEXT: ds_write_b96 v3, v[0:2]			; GFX7-NEXT: ds_write_b96 v3, v[0:2]
	; GFX7-NEXT: s_endpgm			; GFX7-NEXT: s_endpgm
	;			;
	; GFX6-LABEL: store_lds_v3i32_align16:			; GFX6-LABEL: store_lds_v3i32_align16:
	; GFX6: ; %bb.0:			; GFX6: ; %bb.0:
	; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9			; GFX6-NEXT: s_load_dword s4, s[0:1], 0x9
	; GFX6-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xd			; GFX6-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
				; GFX6-NEXT: s_load_dword s0, s[0:1], 0xf
	; GFX6-NEXT: s_mov_b32 m0, -1			; GFX6-NEXT: s_mov_b32 m0, -1
	; GFX6-NEXT: s_waitcnt lgkmcnt(0)			; GFX6-NEXT: s_waitcnt lgkmcnt(0)
	; GFX6-NEXT: v_mov_b32_e32 v2, s4			; GFX6-NEXT: v_mov_b32_e32 v2, s4
	; GFX6-NEXT: v_mov_b32_e32 v1, s2
	; GFX6-NEXT: ds_write_b32 v2, v1 offset:8
	; GFX6-NEXT: v_mov_b32_e32 v0, s0			; GFX6-NEXT: v_mov_b32_e32 v0, s0
	; GFX6-NEXT: v_mov_b32_e32 v1, s1			; GFX6-NEXT: ds_write_b32 v2, v0 offset:8
				; GFX6-NEXT: v_mov_b32_e32 v0, s2
				; GFX6-NEXT: v_mov_b32_e32 v1, s3
	; GFX6-NEXT: ds_write_b64 v2, v[0:1]			; GFX6-NEXT: ds_write_b64 v2, v[0:1]
	; GFX6-NEXT: s_endpgm			; GFX6-NEXT: s_endpgm
	store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 16			store <3 x i32> %x, <3 x i32> addrspace(3)* %out, align 16
	ret void			ret void
	}			}

llvm/test/CodeGen/AMDGPU/vector-extract-insert.ll

Show All 28 Lines	; GCN-NEXT: s_endpgm
%extract = extractelement <4 x i32> %insert, i32 %idx		%extract = extractelement <4 x i32> %insert, i32 %idx
store i32 %extract, i32 addrspace(1)* %gep.out		store i32 %extract, i32 addrspace(1)* %gep.out
ret void		ret void
}		}

define amdgpu_kernel void @extract_insert_different_dynelt_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %val, i32 %idx0, i32 %idx1) #1 {		define amdgpu_kernel void @extract_insert_different_dynelt_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %val, i32 %idx0, i32 %idx1) #1 {
; GCN-LABEL: extract_insert_different_dynelt_v4i32:		; GCN-LABEL: extract_insert_different_dynelt_v4i32:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
; GCN-NEXT: v_mov_b32_e32 v5, 0		; GCN-NEXT: v_mov_b32_e32 v5, 0
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s2, 0		; GCN-NEXT: s_mov_b32 s6, 0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b64 s[0:1], s[6:7]		; GCN-NEXT: s_mov_b64 s[4:5], s[10:11]
; GCN-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GCN-NEXT: v_lshlrev_b32_e32 v4, 4, v0
; GCN-NEXT: buffer_load_dwordx4 v[1:4], v[4:5], s[0:3], 0 addr64		; GCN-NEXT: buffer_load_dwordx4 v[1:4], v[4:5], s[4:7], 0 addr64
		; GCN-NEXT: s_load_dword s0, s[0:1], 0xf
; GCN-NEXT: v_lshlrev_b32_e32 v6, 2, v0		; GCN-NEXT: v_lshlrev_b32_e32 v6, 2, v0
; GCN-NEXT: v_mov_b32_e32 v0, s8		; GCN-NEXT: v_mov_b32_e32 v0, s2
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 3		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 3
; GCN-NEXT: v_mov_b32_e32 v7, v5		; GCN-NEXT: v_mov_b32_e32 v7, v5
; GCN-NEXT: s_mov_b64 s[6:7], s[2:3]		; GCN-NEXT: s_mov_b64 s[10:11], s[6:7]
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 2		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 2
; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 1		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1
; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 0		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0
; GCN-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s10, 1		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s10, 2		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s10, 3		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GCN-NEXT: buffer_store_dword v0, v[6:7], s[4:7], 0 addr64		; GCN-NEXT: buffer_store_dword v0, v[6:7], s[8:11], 0 addr64
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
%id = call i32 @llvm.amdgcn.workitem.id.x()		%id = call i32 @llvm.amdgcn.workitem.id.x()
%id.ext = sext i32 %id to i64		%id.ext = sext i32 %id to i64
%gep.in = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %in, i64 %id.ext		%gep.in = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %in, i64 %id.ext
%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %id.ext		%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %id.ext
%vec = load <4 x i32>, <4 x i32> addrspace(1)* %gep.in		%vec = load <4 x i32>, <4 x i32> addrspace(1)* %gep.in
%insert = insertelement <4 x i32> %vec, i32 %val, i32 %idx0		%insert = insertelement <4 x i32> %vec, i32 %val, i32 %idx0
%extract = extractelement <4 x i32> %insert, i32 %idx1		%extract = extractelement <4 x i32> %insert, i32 %idx1
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add alignment check for v3 to v4 load type promotion
ClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 301824

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/bfi_int.ll

llvm/test/CodeGen/AMDGPU/fshl.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/kernel-args.ll

llvm/test/CodeGen/AMDGPU/merge-stores.ll

llvm/test/CodeGen/AMDGPU/promote-vect3-load.ll

llvm/test/CodeGen/AMDGPU/sign_extend.ll

llvm/test/CodeGen/AMDGPU/store-local.96.ll

llvm/test/CodeGen/AMDGPU/vector-extract-insert.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add alignment check for v3 to v4 load type promotionClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 301824

llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/bfi_int.ll

llvm/test/CodeGen/AMDGPU/fshl.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/kernel-args.ll

llvm/test/CodeGen/AMDGPU/merge-stores.ll

llvm/test/CodeGen/AMDGPU/promote-vect3-load.ll

llvm/test/CodeGen/AMDGPU/sign_extend.ll

llvm/test/CodeGen/AMDGPU/store-local.96.ll

llvm/test/CodeGen/AMDGPU/vector-extract-insert.ll

[AMDGPU] Add alignment check for v3 to v4 load type promotion
ClosedPublic