Diff 302126

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,980 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::widenLoad(LoadSDNode *Ld, DAGCombinerInfo &DCI) const {
return DAG.getMergeValues({ Cvt, NewLoad.getValue(1) }, SL);		return DAG.getMergeValues({ Cvt, NewLoad.getValue(1) }, SL);
}		}

SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {		SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
SDLoc DL(Op);		SDLoc DL(Op);
LoadSDNode *Load = cast<LoadSDNode>(Op);		LoadSDNode *Load = cast<LoadSDNode>(Op);
ISD::LoadExtType ExtType = Load->getExtensionType();		ISD::LoadExtType ExtType = Load->getExtensionType();
EVT MemVT = Load->getMemoryVT();		EVT MemVT = Load->getMemoryVT();
		MachineMemOperand *MMO = Load->getMemOperand();

if (ExtType == ISD::NON_EXTLOAD && MemVT.getSizeInBits() < 32) {		if (ExtType == ISD::NON_EXTLOAD && MemVT.getSizeInBits() < 32) {
if (MemVT == MVT::i16 && isTypeLegal(MVT::i16))		if (MemVT == MVT::i16 && isTypeLegal(MVT::i16))
return SDValue();		return SDValue();

// FIXME: Copied from PPC		// FIXME: Copied from PPC
// First, load into 32 bits, then truncate to 1 bit.		// First, load into 32 bits, then truncate to 1 bit.

SDValue Chain = Load->getChain();		SDValue Chain = Load->getChain();
SDValue BasePtr = Load->getBasePtr();		SDValue BasePtr = Load->getBasePtr();
MachineMemOperand *MMO = Load->getMemOperand();

EVT RealMemVT = (MemVT == MVT::i1) ? MVT::i8 : MVT::i16;		EVT RealMemVT = (MemVT == MVT::i1) ? MVT::i8 : MVT::i16;

SDValue NewLD = DAG.getExtLoad(ISD::EXTLOAD, DL, MVT::i32, Chain,		SDValue NewLD = DAG.getExtLoad(ISD::EXTLOAD, DL, MVT::i32, Chain,
BasePtr, RealMemVT, MMO);		BasePtr, RealMemVT, MMO);

if (!MemVT.isVector()) {		if (!MemVT.isVector()) {
SDValue Ops[] = {		SDValue Ops[] = {
Show All 39 Lines	SDValue SITargetLowering::LowerLOAD(SDValue Op, SelectionDAG &DAG) const {
// If there is a possibilty that flat instruction access scratch memory		// If there is a possibilty that flat instruction access scratch memory
// then we need to use the same legalization rules we use for private.		// then we need to use the same legalization rules we use for private.
if (AS == AMDGPUAS::FLAT_ADDRESS &&		if (AS == AMDGPUAS::FLAT_ADDRESS &&
!Subtarget->hasMultiDwordFlatScratchAddressing())		!Subtarget->hasMultiDwordFlatScratchAddressing())
AS = MFI->hasFlatScratchInit() ?		AS = MFI->hasFlatScratchInit() ?
AMDGPUAS::PRIVATE_ADDRESS : AMDGPUAS::GLOBAL_ADDRESS;		AMDGPUAS::PRIVATE_ADDRESS : AMDGPUAS::GLOBAL_ADDRESS;

unsigned NumElements = MemVT.getVectorNumElements();		unsigned NumElements = MemVT.getVectorNumElements();
		bool Is16ByteKnownDereferenceable = MMO->getPointerInfo().isDereferenceable(
		16, *DAG.getContext(), DAG.getDataLayout());

if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT) {
if (!Op->isDivergent() && Alignment >= 4 && NumElements < 32) {		if (!Op->isDivergent() && Alignment >= 4 && NumElements < 32) {
if (MemVT.isPow2VectorType())		if (MemVT.isPow2VectorType())
return SDValue();		return SDValue();
if (NumElements == 3)		if (NumElements == 3 && (Alignment >= 8 \|\| Is16ByteKnownDereferenceable))
return WidenVectorLoad(Op, DAG);		return WidenVectorLoad(Op, DAG);
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
}		}
// Non-uniform loads will be selected to MUBUF instructions, so they		// Non-uniform loads will be selected to MUBUF instructions, so they
// have the same legalization requirements as global and private		// have the same legalization requirements as global and private
// loads.		// loads.
//		//
}		}

if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|
AS == AMDGPUAS::GLOBAL_ADDRESS) {		AS == AMDGPUAS::GLOBAL_ADDRESS) {
if (Subtarget->getScalarizeGlobalBehavior() && !Op->isDivergent() &&		if (Subtarget->getScalarizeGlobalBehavior() && !Op->isDivergent() &&
Load->isSimple() && isMemOpHasNoClobberedMemOperand(Load) &&		Load->isSimple() && isMemOpHasNoClobberedMemOperand(Load) &&
Alignment >= 4 && NumElements < 32) {		Alignment >= 4 && NumElements < 32) {
if (MemVT.isPow2VectorType())		if (MemVT.isPow2VectorType())
return SDValue();		return SDValue();
if (NumElements == 3)		if (NumElements == 3 && (Alignment >= 8 \|\| Is16ByteKnownDereferenceable))
return WidenVectorLoad(Op, DAG);		return WidenVectorLoad(Op, DAG);
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
}		}
// Non-uniform loads will be selected to MUBUF instructions, so they		// Non-uniform loads will be selected to MUBUF instructions, so they
// have the same legalization requirements as global and private		// have the same legalization requirements as global and private
// loads.		// loads.
//		//
}		}
if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|		if (AS == AMDGPUAS::CONSTANT_ADDRESS \|\|
AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|		AS == AMDGPUAS::CONSTANT_ADDRESS_32BIT \|\|
AS == AMDGPUAS::GLOBAL_ADDRESS \|\|		AS == AMDGPUAS::GLOBAL_ADDRESS \|\|
AS == AMDGPUAS::FLAT_ADDRESS) {		AS == AMDGPUAS::FLAT_ADDRESS) {
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
// v3 loads not supported on SI.		// v3 loads not supported on SI.
if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores()) {
		if (Alignment >= 8 \|\| Is16ByteKnownDereferenceable)
return WidenVectorLoad(Op, DAG);		return WidenVectorLoad(Op, DAG);
		return SplitVectorLoad(Op, DAG);
		}
// v3 and v4 loads are supported for private and global memory.		// v3 and v4 loads are supported for private and global memory.
return SDValue();		return SDValue();
}		}
if (AS == AMDGPUAS::PRIVATE_ADDRESS) {		if (AS == AMDGPUAS::PRIVATE_ADDRESS) {
// Depending on the setting of the private_element_size field in the		// Depending on the setting of the private_element_size field in the
// resource descriptor, we can only make private accesses up to a certain		// resource descriptor, we can only make private accesses up to a certain
// size.		// size.
switch (Subtarget->getMaxPrivateElementSize()) {		switch (Subtarget->getMaxPrivateElementSize()) {
case 4: {		case 4: {
SDValue Ops[2];		SDValue Ops[2];
std::tie(Ops[0], Ops[1]) = scalarizeVectorLoad(Load, DAG);		std::tie(Ops[0], Ops[1]) = scalarizeVectorLoad(Load, DAG);
return DAG.getMergeValues(Ops, DL);		return DAG.getMergeValues(Ops, DL);
}		}
case 8:		case 8:
if (NumElements > 2)		if (NumElements > 2)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
return SDValue();		return SDValue();
case 16:		case 16:
// Same as global/flat		// Same as global/flat
if (NumElements > 4)		if (NumElements > 4)
return SplitVectorLoad(Op, DAG);		return SplitVectorLoad(Op, DAG);
// v3 loads not supported on SI.		// v3 loads not supported on SI.
if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores())		if (NumElements == 3 && !Subtarget->hasDwordx3LoadStores()) {
		if (Alignment >= 8 \|\| Is16ByteKnownDereferenceable)
return WidenVectorLoad(Op, DAG);		return WidenVectorLoad(Op, DAG);
		return SplitVectorLoad(Op, DAG);
		}
return SDValue();		return SDValue();
default:		default:
llvm_unreachable("unsupported private_element_size");		llvm_unreachable("unsupported private_element_size");
}		}
} else if (AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::REGION_ADDRESS) {		} else if (AS == AMDGPUAS::LOCAL_ADDRESS \|\| AS == AMDGPUAS::REGION_ADDRESS) {
// Use ds_read_b128 or ds_read_b96 when possible.		// Use ds_read_b128 or ds_read_b96 when possible.
if (Subtarget->hasDS96AndDS128() &&		if (Subtarget->hasDS96AndDS128() &&
((Subtarget->useDS128() && MemVT.getStoreSize() == 16) \|\|		((Subtarget->useDS128() && MemVT.getStoreSize() == 16) \|\|
▲ Show 20 Lines • Show All 3,835 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/bfi_int.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=GCN,FUNC %s
	; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=R600,FUNC %s			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -allow-deprecated-dag-overlap -enable-var-scope -check-prefixes=R600,FUNC %s

	; BFI_INT Definition pattern from ISA docs			; BFI_INT Definition pattern from ISA docs
	; (y & x) \| (z & ~x)			; (y & x) \| (z & ~x)
	;			;
	; FUNC-LABEL: {{^}}bfi_def:			; FUNC-LABEL: {{^}}bfi_def:
	; R600: BFI_INT			; R600: BFI_INT

	; GCN: s_andn2_b32			; GCN-DAG: s_andn2_b32
	; GCN: s_and_b32			; GCN-DAG: s_and_b32
	; GCN: s_or_b32			; GCN: s_or_b32
	define amdgpu_kernel void @bfi_def(i32 addrspace(1)* %out, i32 %x, i32 %y, i32 %z) {			define amdgpu_kernel void @bfi_def(i32 addrspace(1)* %out, i32 %x, i32 %y, i32 %z) {
				arsenmUnsubmitted Not Done Reply Inline Actions You can just use -DAG here arsenm: You can just use -DAG here
	entry:			entry:
	%0 = xor i32 %x, -1			%0 = xor i32 %x, -1
	%1 = and i32 %z, %0			%1 = and i32 %z, %0
	%2 = and i32 %y, %x			%2 = and i32 %y, %x
	%3 = or i32 %1, %2			%3 = or i32 %1, %2
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 160 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshl.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,SI			; RUN: llc < %s -march=amdgcn -mcpu=tahiti -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,SI
	; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,VI			; RUN: llc < %s -march=amdgcn -mcpu=tonga -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,VI
	; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,GFX9			; RUN: llc < %s -march=amdgcn -mcpu=gfx900 -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,GFX89,GFX9
	; RUN: llc < %s -march=r600 -mcpu=redwood -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,R600			; RUN: llc < %s -march=r600 -mcpu=redwood -verify-machineinstrs \| FileCheck %s -check-prefixes=GCN,R600

	declare i32 @llvm.fshl.i32(i32, i32, i32) nounwind readnone			declare i32 @llvm.fshl.i32(i32, i32, i32) nounwind readnone
	declare <2 x i32> @llvm.fshl.v2i32(<2 x i32>, <2 x i32>, <2 x i32>) nounwind readnone			declare <2 x i32> @llvm.fshl.v2i32(<2 x i32>, <2 x i32>, <2 x i32>) nounwind readnone
	declare <4 x i32> @llvm.fshl.v4i32(<4 x i32>, <4 x i32>, <4 x i32>) nounwind readnone			declare <4 x i32> @llvm.fshl.v4i32(<4 x i32>, <4 x i32>, <4 x i32>) nounwind readnone

	define amdgpu_kernel void @fshl_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {			define amdgpu_kernel void @fshl_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {
	; SI-LABEL: fshl_i32:			; SI-LABEL: fshl_i32:
	; SI: ; %bb.0: ; %entry			; SI: ; %bb.0: ; %entry
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
				; SI-NEXT: s_load_dword s0, s[0:1], 0xd
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mov_b32_e32 v0, s3
	; SI-NEXT: s_lshr_b32 s1, s0, 1			; SI-NEXT: s_not_b32 s0, s0
	; SI-NEXT: v_alignbit_b32 v0, s0, v0, 1			; SI-NEXT: v_alignbit_b32 v0, s2, v0, 1
	; SI-NEXT: s_not_b32 s0, s2			; SI-NEXT: s_lshr_b32 s1, s2, 1
	; SI-NEXT: v_mov_b32_e32 v1, s0			; SI-NEXT: v_mov_b32_e32 v1, s0
	; SI-NEXT: v_alignbit_b32 v0, s1, v0, v1			; SI-NEXT: v_alignbit_b32 v0, s1, v0, v1
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fshl_i32:			; VI-LABEL: fshl_i32:
	; VI: ; %bb.0: ; %entry			; VI: ; %bb.0: ; %entry
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; VI-NEXT: s_load_dword s0, s[0:1], 0x34
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s1			; VI-NEXT: v_mov_b32_e32 v0, s5
	; VI-NEXT: s_not_b32 s2, s2			; VI-NEXT: s_not_b32 s0, s0
	; VI-NEXT: s_lshr_b32 s1, s0, 1			; VI-NEXT: s_lshr_b32 s1, s4, 1
	; VI-NEXT: v_alignbit_b32 v0, s0, v0, 1			; VI-NEXT: v_alignbit_b32 v0, s4, v0, 1
	; VI-NEXT: v_mov_b32_e32 v1, s2			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_alignbit_b32 v2, s1, v0, v1			; VI-NEXT: v_alignbit_b32 v2, s1, v0, v1
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: fshl_i32:			; GFX9-LABEL: fshl_i32:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s5
	; GFX9-NEXT: s_not_b32 s2, s2			; GFX9-NEXT: s_not_b32 s0, s0
	; GFX9-NEXT: s_lshr_b32 s1, s0, 1			; GFX9-NEXT: s_lshr_b32 s1, s4, 1
	; GFX9-NEXT: v_alignbit_b32 v0, s0, v0, 1			; GFX9-NEXT: v_alignbit_b32 v0, s4, v0, 1
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_alignbit_b32 v2, s1, v0, v1			; GFX9-NEXT: v_alignbit_b32 v2, s1, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; R600-LABEL: fshl_i32:			; R600-LABEL: fshl_i32:
	; R600: ; %bb.0: ; %entry			; R600: ; %bb.0: ; %entry
	; R600-NEXT: ALU 5, @4, KC0[CB0:0-32], KC1[]			; R600-NEXT: ALU 5, @4, KC0[CB0:0-32], KC1[]
	; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1			; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T0.X, T1.X, 1
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	▲ Show 20 Lines • Show All 449 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fshr.ll

	Show All 15 Lines
	declare <2 x i64> @llvm.fshr.v2i64(<2 x i64>, <2 x i64>, <2 x i64>)			declare <2 x i64> @llvm.fshr.v2i64(<2 x i64>, <2 x i64>, <2 x i64>)
	declare i24 @llvm.fshr.i24(i24, i24, i24)			declare i24 @llvm.fshr.i24(i24, i24, i24)
	declare <2 x i24> @llvm.fshr.v2i24(<2 x i24>, <2 x i24>, <2 x i24>)			declare <2 x i24> @llvm.fshr.v2i24(<2 x i24>, <2 x i24>, <2 x i24>)

	define amdgpu_kernel void @fshr_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {			define amdgpu_kernel void @fshr_i32(i32 addrspace(1)* %in, i32 %x, i32 %y, i32 %z) {
	; SI-LABEL: fshr_i32:			; SI-LABEL: fshr_i32:
	; SI: ; %bb.0: ; %entry			; SI: ; %bb.0: ; %entry
	; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9			; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
	; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb			; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
				; SI-NEXT: s_load_dword s0, s[0:1], 0xd
	; SI-NEXT: s_mov_b32 s7, 0xf000			; SI-NEXT: s_mov_b32 s7, 0xf000
	; SI-NEXT: s_mov_b32 s6, -1			; SI-NEXT: s_mov_b32 s6, -1
	; SI-NEXT: s_waitcnt lgkmcnt(0)			; SI-NEXT: s_waitcnt lgkmcnt(0)
	; SI-NEXT: v_mov_b32_e32 v0, s1			; SI-NEXT: v_mov_b32_e32 v0, s3
	; SI-NEXT: v_mov_b32_e32 v1, s2			; SI-NEXT: v_mov_b32_e32 v1, s0
	; SI-NEXT: v_alignbit_b32 v0, s0, v0, v1			; SI-NEXT: v_alignbit_b32 v0, s2, v0, v1
	; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0			; SI-NEXT: buffer_store_dword v0, off, s[4:7], 0
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: fshr_i32:			; VI-LABEL: fshr_i32:
	; VI: ; %bb.0: ; %entry			; VI: ; %bb.0: ; %entry
	; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; VI-NEXT: s_load_dword s0, s[0:1], 0x34
	; VI-NEXT: s_waitcnt lgkmcnt(0)			; VI-NEXT: s_waitcnt lgkmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s1			; VI-NEXT: v_mov_b32_e32 v0, s5
	; VI-NEXT: v_mov_b32_e32 v1, s2			; VI-NEXT: v_mov_b32_e32 v1, s0
	; VI-NEXT: v_alignbit_b32 v2, s0, v0, v1			; VI-NEXT: v_alignbit_b32 v2, s4, v0, v1
	; VI-NEXT: v_mov_b32_e32 v0, s4			; VI-NEXT: v_mov_b32_e32 v0, s2
	; VI-NEXT: v_mov_b32_e32 v1, s5			; VI-NEXT: v_mov_b32_e32 v1, s3
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: fshr_i32:			; GFX9-LABEL: fshr_i32:
	; GFX9: ; %bb.0: ; %entry			; GFX9: ; %bb.0: ; %entry
	; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x24
	; GFX9-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c			; GFX9-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x2c
				; GFX9-NEXT: s_load_dword s0, s[0:1], 0x34
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: v_mov_b32_e32 v0, s1			; GFX9-NEXT: v_mov_b32_e32 v0, s5
	; GFX9-NEXT: v_mov_b32_e32 v1, s2			; GFX9-NEXT: v_mov_b32_e32 v1, s0
	; GFX9-NEXT: v_alignbit_b32 v2, s0, v0, v1			; GFX9-NEXT: v_alignbit_b32 v2, s4, v0, v1
	; GFX9-NEXT: v_mov_b32_e32 v0, s4			; GFX9-NEXT: v_mov_b32_e32 v0, s2
	; GFX9-NEXT: v_mov_b32_e32 v1, s5			; GFX9-NEXT: v_mov_b32_e32 v1, s3
	; GFX9-NEXT: global_store_dword v[0:1], v2, off			; GFX9-NEXT: global_store_dword v[0:1], v2, off
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; R600-LABEL: fshr_i32:			; R600-LABEL: fshr_i32:
	; R600: ; %bb.0: ; %entry			; R600: ; %bb.0: ; %entry
	; R600-NEXT: ALU 2, @4, KC0[CB0:0-32], KC1[]			; R600-NEXT: ALU 2, @4, KC0[CB0:0-32], KC1[]
	; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T1.X, T0.X, 1			; R600-NEXT: MEM_RAT_CACHELESS STORE_RAW T1.X, T0.X, 1
	; R600-NEXT: CF_END			; R600-NEXT: CF_END
	▲ Show 20 Lines • Show All 983 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/merge-stores.ll

Show First 20 Lines • Show All 269 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @merge_global_store_4_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
store i32 %x, i32 addrspace(1)* %out		store i32 %x, i32 addrspace(1)* %out
store i32 %y, i32 addrspace(1)* %out.gep.1		store i32 %y, i32 addrspace(1)* %out.gep.1
store i32 %z, i32 addrspace(1)* %out.gep.2		store i32 %z, i32 addrspace(1)* %out.gep.2
store i32 %w, i32 addrspace(1)* %out.gep.3		store i32 %w, i32 addrspace(1)* %out.gep.3
ret void		ret void
}		}

; GCN-LABEL: {{^}}merge_global_store_3_adjacent_loads_i32:		; GCN-LABEL: {{^}}merge_global_store_3_adjacent_loads_i32:
; SI-DAG: buffer_load_dwordx4		; SI-DAG: buffer_load_dwordx2
		; SI-DAG: buffer_load_dword
; CI-DAG: buffer_load_dwordx3		; CI-DAG: buffer_load_dwordx3
; GCN: s_waitcnt		; GCN: s_waitcnt
; SI-DAG: buffer_store_dwordx2		; SI-DAG: buffer_store_dwordx2
; SI-DAG: buffer_store_dword v		; SI-DAG: buffer_store_dword v
; CI-DAG: buffer_store_dwordx3		; CI-DAG: buffer_store_dwordx3
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @merge_global_store_3_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {		define amdgpu_kernel void @merge_global_store_3_adjacent_loads_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) #0 {
%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1		%out.gep.1 = getelementptr i32, i32 addrspace(1)* %out, i32 1
▲ Show 20 Lines • Show All 321 Lines • ▼ Show 20 Lines
}		}

; This requires handling of scalar_to_vector for v2i64 to avoid		; This requires handling of scalar_to_vector for v2i64 to avoid
; scratch usage.		; scratch usage.
; FIXME: Should do single load and store		; FIXME: Should do single load and store

; GCN-LABEL: {{^}}copy_v3i32_align4:		; GCN-LABEL: {{^}}copy_v3i32_align4:
; GCN-NOT: SCRATCH_RSRC_DWORD		; GCN-NOT: SCRATCH_RSRC_DWORD
; SI-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
		; SI-DAG: buffer_load_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN-NOT: offen		; GCN-NOT: offen
; GCN: s_waitcnt vmcnt		; GCN: s_waitcnt vmcnt
; GCN-NOT: offen		; GCN-NOT: offen
; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}

Show All 17 Lines
define amdgpu_kernel void @copy_v3i64_align4(<3 x i64> addrspace(1)* noalias %out, <3 x i64> addrspace(1)* noalias %in) #0 {		define amdgpu_kernel void @copy_v3i64_align4(<3 x i64> addrspace(1)* noalias %out, <3 x i64> addrspace(1)* noalias %in) #0 {
%vec = load <3 x i64>, <3 x i64> addrspace(1)* %in, align 4		%vec = load <3 x i64>, <3 x i64> addrspace(1)* %in, align 4
store <3 x i64> %vec, <3 x i64> addrspace(1)* %out		store <3 x i64> %vec, <3 x i64> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}copy_v3f32_align4:		; GCN-LABEL: {{^}}copy_v3f32_align4:
; GCN-NOT: SCRATCH_RSRC_DWORD		; GCN-NOT: SCRATCH_RSRC_DWORD
; SI-DAG: buffer_load_dwordx4 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_load_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
		; SI-DAG: buffer_load_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_load_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN-NOT: offen		; GCN-NOT: offen
; GCN: s_waitcnt vmcnt		; GCN: s_waitcnt vmcnt
; GCN-NOT: offen		; GCN-NOT: offen
; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; SI-DAG: buffer_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8		; SI-DAG: buffer_store_dword v{{[0-9]+}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0 offset:8
; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}		; CI-DAG: buffer_store_dwordx3 v{{\[[0-9]+:[0-9]+\]}}, off, s{{\[[0-9]+:[0-9]+\]}}, 0{{$}}
; GCN: ScratchSize: 0{{$}}		; GCN: ScratchSize: 0{{$}}
Show All 28 Lines

llvm/test/CodeGen/AMDGPU/promote-vect3-load.ll

This file was added.

				; RUN: llc -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN %s

				; The type promotion for the vector loads v3i32/v3f32 into v4i32/v4f32 is enabled
				; only when the alignment is 8-byte or higher.
				; Otherwise, split the load into two separate loads (dwordx2 + dword).
				; This type promotion on smaller aligned loads can cause a page fault error
				; while accessing one extra dword beyond the buffer.

				define protected amdgpu_kernel void @load_v3i32_align4(<3 x i32> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3i32_align4:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				; GCN-NEXT: s_load_dword s{{[0-9]+}}, s[0:1], 0x8
				%vec = load <3 x i32>, <3 x i32> addrspace(1)* %arg, align 4
				store <3 x i32> %vec, <3 x i32> addrspace(1)* undef, align 4
				ret void
				}

				define protected amdgpu_kernel void @load_v3i32_align8(<3 x i32> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3i32_align8:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x i32>, <3 x i32> addrspace(1)* %arg, align 8
				store <3 x i32> %vec, <3 x i32> addrspace(1)* undef, align 8
				ret void
				}

				define protected amdgpu_kernel void @load_v3i32_align16(<3 x i32> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3i32_align16:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x i32>, <3 x i32> addrspace(1)* %arg, align 16
				store <3 x i32> %vec, <3 x i32> addrspace(1)* undef, align 16
				ret void
				}

				define protected amdgpu_kernel void @load_v3f32_align4(<3 x float> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3f32_align4:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx2 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				; GCN-NEXT: s_load_dword s{{[0-9]+}}, s[0:1], 0x8
				%vec = load <3 x float>, <3 x float> addrspace(1)* %arg, align 4
				store <3 x float> %vec, <3 x float> addrspace(1)* undef, align 4
				ret void
				}

				define protected amdgpu_kernel void @load_v3f32_align8(<3 x float> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3f32_align8:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x float>, <3 x float> addrspace(1)* %arg, align 8
				store <3 x float> %vec, <3 x float> addrspace(1)* undef, align 8
				ret void
				}

				define protected amdgpu_kernel void @load_v3f32_align16(<3 x float> addrspace(1)* %arg) #0 {
				; GCN-LABEL: load_v3f32_align16:
				; GCN: ; %bb.0:
				; GCN: s_waitcnt lgkmcnt(0)
				; GCN-NEXT: s_load_dwordx4 s{{\[[0-9]:[0-9]+\]}}, s[0:1], 0x0
				%vec = load <3 x float>, <3 x float> addrspace(1)* %arg, align 16
				store <3 x float> %vec, <3 x float> addrspace(1)* undef, align 16
				ret void
				}

				attributes #0 = { nounwind noinline }

llvm/test/CodeGen/AMDGPU/sign_extend.ll

Show All 32 Lines	; VI-NEXT: s_endpgm
store i32 %sext, i32 addrspace(1)* %out, align 4		store i32 %sext, i32 addrspace(1)* %out, align 4
ret void		ret void
}		}

define amdgpu_kernel void @test_s_sext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {		define amdgpu_kernel void @test_s_sext_i32_to_i64(i64 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
; SI-LABEL: test_s_sext_i32_to_i64:		; SI-LABEL: test_s_sext_i32_to_i64:
; SI: ; %bb.0: ; %entry		; SI: ; %bb.0: ; %entry
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb		; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
		; SI-NEXT: s_load_dword s0, s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: s_mul_i32 s0, s0, s1		; SI-NEXT: s_mul_i32 s1, s2, s3
; SI-NEXT: s_add_i32 s0, s0, s2		; SI-NEXT: s_add_i32 s1, s1, s0
; SI-NEXT: s_ashr_i32 s1, s0, 31		; SI-NEXT: s_ashr_i32 s0, s1, 31
; SI-NEXT: v_mov_b32_e32 v0, s0		; SI-NEXT: v_mov_b32_e32 v0, s1
; SI-NEXT: v_mov_b32_e32 v1, s1		; SI-NEXT: v_mov_b32_e32 v1, s0
; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; SI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: test_s_sext_i32_to_i64:		; VI-LABEL: test_s_sext_i32_to_i64:
; VI: ; %bb.0: ; %entry		; VI: ; %bb.0: ; %entry
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
		; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: s_mul_i32 s0, s0, s1		; VI-NEXT: s_mul_i32 s1, s2, s3
; VI-NEXT: s_add_i32 s0, s0, s2		; VI-NEXT: s_add_i32 s1, s1, s0
; VI-NEXT: s_ashr_i32 s1, s0, 31		; VI-NEXT: s_ashr_i32 s0, s1, 31
; VI-NEXT: v_mov_b32_e32 v0, s0		; VI-NEXT: v_mov_b32_e32 v0, s1
; VI-NEXT: v_mov_b32_e32 v1, s1		; VI-NEXT: v_mov_b32_e32 v1, s0
; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0		; VI-NEXT: buffer_store_dwordx2 v[0:1], off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
entry:		entry:
%mul = mul i32 %a, %b		%mul = mul i32 %a, %b
%add = add i32 %mul, %c		%add = add i32 %mul, %c
%sext = sext i32 %add to i64		%sext = sext i32 %add to i64
store i64 %sext, i64 addrspace(1)* %out, align 8		store i64 %sext, i64 addrspace(1)* %out, align 8
ret void		ret void
▲ Show 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	; VI-NEXT: s_endpgm
store i16 %sext, i16 addrspace(1)* %out		store i16 %sext, i16 addrspace(1)* %out
ret void		ret void
}		}

define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {		define amdgpu_kernel void @v_sext_i1_to_i16_with_and(i16 addrspace(1)* %out, i32 %a, i32 %b, i32 %c) nounwind {
; SI-LABEL: v_sext_i1_to_i16_with_and:		; SI-LABEL: v_sext_i1_to_i16_with_and:
; SI: ; %bb.0:		; SI: ; %bb.0:
; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9		; SI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x9
; SI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0xb		; SI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xb
		; SI-NEXT: s_load_dword s0, s[0:1], 0xd
; SI-NEXT: s_mov_b32 s7, 0xf000		; SI-NEXT: s_mov_b32 s7, 0xf000
; SI-NEXT: s_mov_b32 s6, -1		; SI-NEXT: s_mov_b32 s6, -1
; SI-NEXT: s_waitcnt lgkmcnt(0)		; SI-NEXT: s_waitcnt lgkmcnt(0)
; SI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0		; SI-NEXT: v_cmp_eq_u32_e32 vcc, s2, v0
; SI-NEXT: v_mov_b32_e32 v0, s2		; SI-NEXT: v_mov_b32_e32 v0, s0
; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0		; SI-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v0
; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]		; SI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; SI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; SI-NEXT: buffer_store_short v0, off, s[4:7], 0		; SI-NEXT: buffer_store_short v0, off, s[4:7], 0
; SI-NEXT: s_endpgm		; SI-NEXT: s_endpgm
;		;
; VI-LABEL: v_sext_i1_to_i16_with_and:		; VI-LABEL: v_sext_i1_to_i16_with_and:
; VI: ; %bb.0:		; VI: ; %bb.0:
; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24		; VI-NEXT: s_load_dwordx2 s[4:5], s[0:1], 0x24
; VI-NEXT: s_load_dwordx4 s[0:3], s[0:1], 0x2c		; VI-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0x2c
		; VI-NEXT: s_load_dword s0, s[0:1], 0x34
; VI-NEXT: s_mov_b32 s7, 0xf000		; VI-NEXT: s_mov_b32 s7, 0xf000
; VI-NEXT: s_mov_b32 s6, -1		; VI-NEXT: s_mov_b32 s6, -1
; VI-NEXT: s_waitcnt lgkmcnt(0)		; VI-NEXT: s_waitcnt lgkmcnt(0)
; VI-NEXT: v_cmp_eq_u32_e32 vcc, s0, v0		; VI-NEXT: v_cmp_eq_u32_e32 vcc, s2, v0
; VI-NEXT: v_mov_b32_e32 v0, s2		; VI-NEXT: v_mov_b32_e32 v0, s0
; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s1, v0		; VI-NEXT: v_cmp_eq_u32_e64 s[0:1], s3, v0
; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]		; VI-NEXT: s_and_b64 s[0:1], vcc, s[0:1]
; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]		; VI-NEXT: v_cndmask_b32_e64 v0, 0, -1, s[0:1]
; VI-NEXT: buffer_store_short v0, off, s[4:7], 0		; VI-NEXT: buffer_store_short v0, off, s[4:7], 0
; VI-NEXT: s_endpgm		; VI-NEXT: s_endpgm
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() #1
%cmp0 = icmp eq i32 %a, %tid		%cmp0 = icmp eq i32 %a, %tid
%cmp1 = icmp eq i32 %b, %c		%cmp1 = icmp eq i32 %b, %c
%cmp = and i1 %cmp0, %cmp1		%cmp = and i1 %cmp0, %cmp1
▲ Show 20 Lines • Show All 262 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/vector-extract-insert.ll

Show All 28 Lines	; GCN-NEXT: s_endpgm
%extract = extractelement <4 x i32> %insert, i32 %idx		%extract = extractelement <4 x i32> %insert, i32 %idx
store i32 %extract, i32 addrspace(1)* %gep.out		store i32 %extract, i32 addrspace(1)* %gep.out
ret void		ret void
}		}

define amdgpu_kernel void @extract_insert_different_dynelt_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %val, i32 %idx0, i32 %idx1) #1 {		define amdgpu_kernel void @extract_insert_different_dynelt_v4i32(i32 addrspace(1)* %out, <4 x i32> addrspace(1)* %in, i32 %val, i32 %idx0, i32 %idx1) #1 {
; GCN-LABEL: extract_insert_different_dynelt_v4i32:		; GCN-LABEL: extract_insert_different_dynelt_v4i32:
; GCN: ; %bb.0:		; GCN: ; %bb.0:
; GCN-NEXT: s_load_dwordx4 s[4:7], s[0:1], 0x9		; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0x9
; GCN-NEXT: s_load_dwordx4 s[8:11], s[0:1], 0xd		; GCN-NEXT: s_load_dwordx2 s[2:3], s[0:1], 0xd
; GCN-NEXT: v_mov_b32_e32 v5, 0		; GCN-NEXT: v_mov_b32_e32 v5, 0
; GCN-NEXT: s_mov_b32 s3, 0xf000		; GCN-NEXT: s_mov_b32 s7, 0xf000
; GCN-NEXT: s_mov_b32 s2, 0		; GCN-NEXT: s_mov_b32 s6, 0
; GCN-NEXT: s_waitcnt lgkmcnt(0)		; GCN-NEXT: s_waitcnt lgkmcnt(0)
; GCN-NEXT: s_mov_b64 s[0:1], s[6:7]		; GCN-NEXT: s_mov_b64 s[4:5], s[10:11]
; GCN-NEXT: v_lshlrev_b32_e32 v4, 4, v0		; GCN-NEXT: v_lshlrev_b32_e32 v4, 4, v0
; GCN-NEXT: buffer_load_dwordx4 v[1:4], v[4:5], s[0:3], 0 addr64		; GCN-NEXT: buffer_load_dwordx4 v[1:4], v[4:5], s[4:7], 0 addr64
		; GCN-NEXT: s_load_dword s0, s[0:1], 0xf
; GCN-NEXT: v_lshlrev_b32_e32 v6, 2, v0		; GCN-NEXT: v_lshlrev_b32_e32 v6, 2, v0
; GCN-NEXT: v_mov_b32_e32 v0, s8		; GCN-NEXT: v_mov_b32_e32 v0, s2
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 3		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 3
; GCN-NEXT: v_mov_b32_e32 v7, v5		; GCN-NEXT: v_mov_b32_e32 v7, v5
; GCN-NEXT: s_mov_b64 s[6:7], s[2:3]		; GCN-NEXT: s_mov_b64 s[10:11], s[6:7]
; GCN-NEXT: s_waitcnt vmcnt(0)		; GCN-NEXT: s_waitcnt vmcnt(0)
; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v4, v4, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 2		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 2
; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v3, v3, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 1		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 1
; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v2, v2, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s9, 0		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s3, 0
; GCN-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v1, v0, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s10, 1		; GCN-NEXT: s_waitcnt lgkmcnt(0)
		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s0, 1
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v2, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s10, 2		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s0, 2
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v3, vcc
; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s10, 3		; GCN-NEXT: v_cmp_eq_u32_e64 vcc, s0, 3
; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc		; GCN-NEXT: v_cndmask_b32_e32 v0, v0, v4, vcc
; GCN-NEXT: buffer_store_dword v0, v[6:7], s[4:7], 0 addr64		; GCN-NEXT: buffer_store_dword v0, v[6:7], s[8:11], 0 addr64
; GCN-NEXT: s_endpgm		; GCN-NEXT: s_endpgm
%id = call i32 @llvm.amdgcn.workitem.id.x()		%id = call i32 @llvm.amdgcn.workitem.id.x()
%id.ext = sext i32 %id to i64		%id.ext = sext i32 %id to i64
%gep.in = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %in, i64 %id.ext		%gep.in = getelementptr inbounds <4 x i32>, <4 x i32> addrspace(1)* %in, i64 %id.ext
%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %id.ext		%gep.out = getelementptr inbounds i32, i32 addrspace(1)* %out, i64 %id.ext
%vec = load <4 x i32>, <4 x i32> addrspace(1)* %gep.in		%vec = load <4 x i32>, <4 x i32> addrspace(1)* %gep.in
%insert = insertelement <4 x i32> %vec, i32 %val, i32 %idx0		%insert = insertelement <4 x i32> %vec, i32 %val, i32 %idx0
%extract = extractelement <4 x i32> %insert, i32 %idx1		%extract = extractelement <4 x i32> %insert, i32 %idx1
▲ Show 20 Lines • Show All 60 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add alignment check for v3 to v4 load type promotion
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 302126

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/bfi_int.ll

llvm/test/CodeGen/AMDGPU/fshl.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/merge-stores.ll

llvm/test/CodeGen/AMDGPU/promote-vect3-load.ll

llvm/test/CodeGen/AMDGPU/sign_extend.ll

llvm/test/CodeGen/AMDGPU/vector-extract-insert.ll

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Add alignment check for v3 to v4 load type promotionClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 302126

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/bfi_int.ll

llvm/test/CodeGen/AMDGPU/fshl.ll

llvm/test/CodeGen/AMDGPU/fshr.ll

llvm/test/CodeGen/AMDGPU/merge-stores.ll

llvm/test/CodeGen/AMDGPU/promote-vect3-load.ll

llvm/test/CodeGen/AMDGPU/sign_extend.ll

llvm/test/CodeGen/AMDGPU/vector-extract-insert.ll

[AMDGPU] Add alignment check for v3 to v4 load type promotion
ClosedPublic