This is an archive of the discontinued LLVM Phabricator instance.

lib/Target/X86/X86ISelLowering.cpp
1356 ↗	(On Diff #48114)	I checked now. There is a bug in AVX-512, but let me fix it. I'll do this, probably, in a different way and add tests. It should not take more than one day.. Thank you for pointing on this.

delena added inline comments.Apr 3 2016, 1:49 AM

lib/Target/X86/X86ISelLowering.cpp
1356 ↗	(On Diff #48114)	AVX-512 failures are fixed in revision 265259.

I see 3 more x86 failures on trunk with this.

The first looks like this:
IR (from avx512-mask-op.ll):

define void @mask8_mem(i8* %ptr) {
  %x = load i8, i8* %ptr, align 4
  %m0 = bitcast i8 %x to <8 x i1>
  %m1 = xor <8 x i1> %m0, <i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1>
  %ret = bitcast <8 x i1> %m1 to i8
  store i8 %ret, i8* %ptr, align 4
  ret void
}

Before:

_mask8_mem:                             ## @mask8_mem
	.cfi_startproc
## BB#0:
	movb	(%rdi), %al
	kmovw	%eax, %k0
	knotw	%k0, %k0
	kmovw	%k0, %eax
	movb	%al, (%rdi)
	retq

After:

_mask8_mem:                             ## @mask8_mem
	.cfi_startproc
## BB#0:
	movzbw	(%rdi), %ax
	kmovw	%eax, %k0
	knotw	%k0, %k0
	kmovw	%k0, %eax
	movb	%al, (%rdi)
	retq

A second looks similar, and another in merge-consecutive-loads-512.ll has one difference of
vmovdqu32 8(%eax), %zmm0
vs.
vmovdqu64 8(%eax), %zmm0

The both diffs in AVX-512 are ok. You can proceed with them.
I suggest you to upload a new diff. We should not see changes in lib/Target/X86/X86ISelLowering.cpp any more, right?

Add test updates

ping

LGTM.

This revision is now accepted and ready to land.Apr 21 2016, 10:20 AM

r267209

Revision Contents

Path

Size

include/

llvm/

Target/

TargetLowering.h

17 lines

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

7 lines

test/

CodeGen/

AMDGPU/

reduce-load-width-alignment.ll

38 lines

shift-and-i128-ubfe.ll

24 lines

shift-and-i64-ubfe.ll

13 lines

X86/

avx512-mask-op.ll

6 lines

masked_gather_scatter.ll

2 lines

merge-consecutive-loads-512.ll

2 lines

Diff 53518

include/llvm/Target/TargetLowering.h

Show First 20 Lines • Show All 260 Lines • ▼ Show 20 Lines	public:

/// isLoadBitCastBeneficial() - Return true if the following transform		/// isLoadBitCastBeneficial() - Return true if the following transform
/// is beneficial.		/// is beneficial.
/// fold (conv (load x)) -> (load (conv*)x)		/// fold (conv (load x)) -> (load (conv*)x)
/// On architectures that don't natively support some vector loads		/// On architectures that don't natively support some vector loads
/// efficiently, casting the load to a smaller vector of larger types and		/// efficiently, casting the load to a smaller vector of larger types and
/// loading is more efficient, however, this can be undone by optimizations in		/// loading is more efficient, however, this can be undone by optimizations in
/// dag combiner.		/// dag combiner.
virtual bool isLoadBitCastBeneficial(EVT /* Load */,		virtual bool isLoadBitCastBeneficial(EVT LoadVT,
EVT /* Bitcast */) const {		EVT BitcastVT) const {
		// Don't do if we could do an indexed load on the original type, but not on
		// the new one.
		if (!LoadVT.isSimple() \|\| !BitcastVT.isSimple())
		return true;

		MVT LoadMVT = LoadVT.getSimpleVT();

		// Don't bother doing this if it's just going to be promoted again later, as
		// doing so might interfere with other combines.
		if (getOperationAction(ISD::LOAD, LoadMVT) == Promote &&
		getTypeToPromoteTo(ISD::LOAD, LoadMVT) == BitcastVT.getSimpleVT())
		return false;

return true;		return true;
}		}

/// isStoreBitCastBeneficial() - Mirror of isLoadBitCastBeneficial(). Return		/// isStoreBitCastBeneficial() - Mirror of isLoadBitCastBeneficial(). Return
/// true if the following transform is beneficial.		/// true if the following transform is beneficial.
///		///
/// (store (y (conv x)), y)) -> (store x, (x))		/// (store (y (conv x)), y)) -> (store x, (x))
virtual bool isStoreBitCastBeneficial(EVT StoreVT, EVT BitcastVT) const {		virtual bool isStoreBitCastBeneficial(EVT StoreVT, EVT BitcastVT) const {
▲ Show 20 Lines • Show All 2,681 Lines • Show Last 20 Lines

lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,360 Lines • ▼ Show 20 Lines	if (ISD::isNormalLoad(N0.getNode()) && N0.hasOneUse() &&
// Do not change the width of a volatile load.		// Do not change the width of a volatile load.
!cast<LoadSDNode>(N0)->isVolatile() &&		!cast<LoadSDNode>(N0)->isVolatile() &&
// Do not remove the cast if the types differ in endian layout.		// Do not remove the cast if the types differ in endian layout.
TLI.hasBigEndianPartOrdering(N0.getValueType(), DAG.getDataLayout()) ==		TLI.hasBigEndianPartOrdering(N0.getValueType(), DAG.getDataLayout()) ==
TLI.hasBigEndianPartOrdering(VT, DAG.getDataLayout()) &&		TLI.hasBigEndianPartOrdering(VT, DAG.getDataLayout()) &&
(!LegalOperations \|\| TLI.isOperationLegal(ISD::LOAD, VT)) &&		(!LegalOperations \|\| TLI.isOperationLegal(ISD::LOAD, VT)) &&
TLI.isLoadBitCastBeneficial(N0.getValueType(), VT)) {		TLI.isLoadBitCastBeneficial(N0.getValueType(), VT)) {
LoadSDNode *LN0 = cast<LoadSDNode>(N0);		LoadSDNode *LN0 = cast<LoadSDNode>(N0);
unsigned Align = DAG.getDataLayout().getABITypeAlignment(
VT.getTypeForEVT(*DAG.getContext()));
unsigned OrigAlign = LN0->getAlignment();		unsigned OrigAlign = LN0->getAlignment();

if (Align <= OrigAlign) {		bool Fast = false;
		if (TLI.allowsMemoryAccess(*DAG.getContext(), DAG.getDataLayout(), VT,
		LN0->getAddressSpace(), OrigAlign, &Fast) &&
		Fast) {
SDValue Load = DAG.getLoad(VT, SDLoc(N), LN0->getChain(),		SDValue Load = DAG.getLoad(VT, SDLoc(N), LN0->getChain(),
LN0->getBasePtr(), LN0->getPointerInfo(),		LN0->getBasePtr(), LN0->getPointerInfo(),
LN0->isVolatile(), LN0->isNonTemporal(),		LN0->isVolatile(), LN0->isNonTemporal(),
LN0->isInvariant(), OrigAlign,		LN0->isInvariant(), OrigAlign,
LN0->getAAInfo());		LN0->getAAInfo());
DAG.ReplaceAllUsesOfValueWith(N0.getValue(1), Load.getValue(1));		DAG.ReplaceAllUsesOfValueWith(N0.getValue(1), Load.getValue(1));
return Load;		return Load;
}		}
▲ Show 20 Lines • Show All 7,488 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/reduce-load-width-alignment.ll

This file was added.

				; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s
				; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI %s
				; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI %s

				; GCN-LABEL: {{^}}reduce_i64_load_align_4_width_to_i32:
				; GCN: buffer_load_dword [[VAL:v[0-9]+]]
				; GCN: v_and_b32_e32 v{{[0-9]+}}, 0x12d687, [[VAL]]
				; GCN: buffer_store_dwordx2
				define void @reduce_i64_load_align_4_width_to_i32(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #0 {
				%a = load i64, i64 addrspace(1)* %in, align 4
				%and = and i64 %a, 1234567
				store i64 %and, i64 addrspace(1)* %out, align 8
				ret void
				}

				; GCN-LABEL: {{^}}reduce_i64_align_4_bitcast_v2i32_elt0:
				; GCN: buffer_load_dword [[VAL:v[0-9]+]]
				; GCN: buffer_store_dword [[VAL]]
				define void @reduce_i64_align_4_bitcast_v2i32_elt0(i32 addrspace(1)* %out, i64 addrspace(1)* %in) #0 {
				%a = load i64, i64 addrspace(1)* %in, align 4
				%vec = bitcast i64 %a to <2 x i32>
				%elt0 = extractelement <2 x i32> %vec, i32 0
				store i32 %elt0, i32 addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}reduce_i64_align_4_bitcast_v2i32_elt1:
				; GCN: buffer_load_dword [[VAL:v[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0 offset:4
				; GCN: buffer_store_dword [[VAL]]
				define void @reduce_i64_align_4_bitcast_v2i32_elt1(i32 addrspace(1)* %out, i64 addrspace(1)* %in) #0 {
				%a = load i64, i64 addrspace(1)* %in, align 4
				%vec = bitcast i64 %a to <2 x i32>
				%elt0 = extractelement <2 x i32> %vec, i32 1
				store i32 %elt0, i32 addrspace(1)* %out
				ret void
				}

				attributes #0 = { nounwind }

test/CodeGen/AMDGPU/shift-and-i128-ubfe.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; Extract the high bit of the 1st quarter			; Extract the high bit of the 1st quarter
	; GCN-LABEL: {{^}}v_uextract_bit_31_i128:			; GCN-LABEL: {{^}}v_uextract_bit_31_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO0]]:[[ZERO1]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO1]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO0]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define void @v_uextract_bit_31_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define void @v_uextract_bit_31_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 31			%srl = lshr i128 %ld.64, 31
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Extract the high bit of the 2nd quarter			; Extract the high bit of the 2nd quarter
	; GCN-LABEL: {{^}}v_uextract_bit_63_i128:			; GCN-LABEL: {{^}}v_uextract_bit_63_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}			; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO0]]:[[ZERO1]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO1]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO0]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define void @v_uextract_bit_63_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define void @v_uextract_bit_63_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 63			%srl = lshr i128 %ld.64, 63
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Extract the high bit of the 3rd quarter			; Extract the high bit of the 3rd quarter
	; GCN-LABEL: {{^}}v_uextract_bit_95_i128:			; GCN-LABEL: {{^}}v_uextract_bit_95_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}			; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO0]]:[[ZERO1]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO1]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO0]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define void @v_uextract_bit_95_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define void @v_uextract_bit_95_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 95			%srl = lshr i128 %ld.64, 95
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Extract the high bit of the 4th quarter			; Extract the high bit of the 4th quarter
	; GCN-LABEL: {{^}}v_uextract_bit_127_i128:			; GCN-LABEL: {{^}}v_uextract_bit_127_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}			; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], 0{{$}}
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO0]]:[[ZERO1]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
	; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[ZERO1]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}
				; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO0]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define void @v_uextract_bit_127_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define void @v_uextract_bit_127_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 127			%srl = lshr i128 %ld.64, 127
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	Show All 34 Lines

test/CodeGen/AMDGPU/shift-and-i64-ubfe.ll

Show First 20 Lines • Show All 212 Lines • ▼ Show 20 Lines	define void @v_uextract_bit_33_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%bit = and i64 %srl, 1073741823		%bit = and i64 %srl, 1073741823
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_31_63_i64:		; GCN-LABEL: {{^}}v_uextract_bit_31_63_i64:
; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]
; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 31		; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 31
; GCN-NEXT: v_mov_b32_e32 v[[SHRHI]], 0{{$}}		; GCN: v_mov_b32_e32 v[[SHRHI]], 0{{$}}
; GCN-NEXT: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}
define void @v_uextract_bit_31_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define void @v_uextract_bit_31_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 31		%srl = lshr i64 %ld.64, 31
%and = and i64 %srl, 4294967295		%and = and i64 %srl, 4294967295
store i64 %and, i64 addrspace(1)* %out		store i64 %and, i64 addrspace(1)* %out
▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	define void @and_not_mask_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
ret void		ret void
}		}

; The instruction count is the same with/without hasOneUse, but		; The instruction count is the same with/without hasOneUse, but
; keeping the 32-bit and has a smaller encoding size than the bfe.		; keeping the 32-bit and has a smaller encoding size than the bfe.

; GCN-LABEL: {{^}}v_uextract_bit_27_29_multi_use_shift_i64:		; GCN-LABEL: {{^}}v_uextract_bit_27_29_multi_use_shift_i64:
; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]
; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 27		; GCN-DAG: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 27
; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 3, v[[SHRLO]]		; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 3, v[[SHRLO]]
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}
; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO]]{{\]}}
define void @v_uextract_bit_27_29_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define void @v_uextract_bit_27_29_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 27		%srl = lshr i64 %ld.64, 27
%bit = and i64 %srl, 3		%bit = and i64 %srl, 3
store volatile i64 %srl, i64 addrspace(1)* %out		store volatile i64 %srl, i64 addrspace(1)* %out
store volatile i64 %bit, i64 addrspace(1)* %out		store volatile i64 %bit, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_34_37_multi_use_shift_i64:		; GCN-LABEL: {{^}}v_uextract_bit_34_37_multi_use_shift_i64:
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 2, [[VAL]]		; GCN-DAG: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 2, [[VAL]]
; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 2, 3		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO]]{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[SHR]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHR]]:[[ZERO]]{{\]}}
; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:[[ZERO2]]{{\]}}		; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 2, 3
		; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:[[ZERO]]{{\]}}
define void @v_uextract_bit_34_37_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define void @v_uextract_bit_34_37_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 34		%srl = lshr i64 %ld.64, 34
%bit = and i64 %srl, 7		%bit = and i64 %srl, 7
store volatile i64 %srl, i64 addrspace(1)* %out		store volatile i64 %srl, i64 addrspace(1)* %out
Show All 30 Lines

test/CodeGen/X86/avx512-mask-op.ll

Show First 20 Lines • Show All 47 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%ret = bitcast <16 x i1> %m1 to i16		%ret = bitcast <16 x i1> %m1 to i16
store i16 %ret, i16* %ptr, align 4		store i16 %ret, i16* %ptr, align 4
ret void		ret void
}		}

define void @mask8_mem(i8* %ptr) {		define void @mask8_mem(i8* %ptr) {
; KNL-LABEL: mask8_mem:		; KNL-LABEL: mask8_mem:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: movb (%rdi), %al		; KNL-NEXT: movzbw (%rdi), %ax
; KNL-NEXT: kmovw %eax, %k0		; KNL-NEXT: kmovw %eax, %k0
; KNL-NEXT: knotw %k0, %k0		; KNL-NEXT: knotw %k0, %k0
; KNL-NEXT: kmovw %k0, %eax		; KNL-NEXT: kmovw %k0, %eax
; KNL-NEXT: movb %al, (%rdi)		; KNL-NEXT: movb %al, (%rdi)
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: mask8_mem:		; SKX-LABEL: mask8_mem:
; SKX: ## BB#0:		; SKX: ## BB#0:
▲ Show 20 Lines • Show All 881 Lines • ▼ Show 20 Lines	; SKX-NEXT: retq
%b = load <16 x i1>, <16 x i1>* %a		%b = load <16 x i1>, <16 x i1>* %a
%c = sext <16 x i1> %b to <16 x i32>		%c = sext <16 x i1> %b to <16 x i32>
ret <16 x i32> %c		ret <16 x i32> %c
}		}

define <2 x i16> @load_2i1(<2 x i1>* %a) {		define <2 x i16> @load_2i1(<2 x i1>* %a) {
; KNL-LABEL: load_2i1:		; KNL-LABEL: load_2i1:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: movb (%rdi), %al		; KNL-NEXT: movzbw (%rdi), %ax
; KNL-NEXT: kmovw %eax, %k1		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: vpbroadcastq {{.*}}(%rip), %zmm0 {%k1} {z}		; KNL-NEXT: vpbroadcastq {{.*}}(%rip), %zmm0 {%k1} {z}
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: load_2i1:		; SKX-LABEL: load_2i1:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
; SKX-NEXT: vpmovm2q %k0, %xmm0		; SKX-NEXT: vpmovm2q %k0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
%b = load <2 x i1>, <2 x i1>* %a		%b = load <2 x i1>, <2 x i1>* %a
%c = sext <2 x i1> %b to <2 x i16>		%c = sext <2 x i1> %b to <2 x i16>
ret <2 x i16> %c		ret <2 x i16> %c
}		}

define <4 x i16> @load_4i1(<4 x i1>* %a) {		define <4 x i16> @load_4i1(<4 x i1>* %a) {
; KNL-LABEL: load_4i1:		; KNL-LABEL: load_4i1:
; KNL: ## BB#0:		; KNL: ## BB#0:
; KNL-NEXT: movb (%rdi), %al		; KNL-NEXT: movzbw (%rdi), %ax
; KNL-NEXT: kmovw %eax, %k1		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: vpbroadcastq {{.*}}(%rip), %zmm0 {%k1} {z}		; KNL-NEXT: vpbroadcastq {{.*}}(%rip), %zmm0 {%k1} {z}
; KNL-NEXT: vpmovqd %zmm0, %ymm0		; KNL-NEXT: vpmovqd %zmm0, %ymm0
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: load_4i1:		; SKX-LABEL: load_4i1:
; SKX: ## BB#0:		; SKX: ## BB#0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
▲ Show 20 Lines • Show All 183 Lines • Show Last 20 Lines

test/CodeGen/X86/masked_gather_scatter.ll

	Show First 20 Lines • Show All 285 Lines • ▼ Show 20 Lines
	; KNL_64-NEXT: vmovaps %zmm1, %zmm2			; KNL_64-NEXT: vmovaps %zmm1, %zmm2
	; KNL_64-NEXT: vpgatherqd (%rdi,%zmm0,4), %ymm2 {%k1}			; KNL_64-NEXT: vpgatherqd (%rdi,%zmm0,4), %ymm2 {%k1}
	; KNL_64-NEXT: vpaddd %ymm2, %ymm1, %ymm0			; KNL_64-NEXT: vpaddd %ymm2, %ymm1, %ymm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test7:			; KNL_32-LABEL: test7:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_32-NEXT: movb {{[0-9]+}}(%esp), %cl			; KNL_32-NEXT: movzbw {{[0-9]+}}(%esp), %cx
	; KNL_32-NEXT: kmovw %ecx, %k1			; KNL_32-NEXT: kmovw %ecx, %k1
	; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm0			; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm0
	; KNL_32-NEXT: kmovw %k1, %k2			; KNL_32-NEXT: kmovw %k1, %k2
	; KNL_32-NEXT: vpgatherqd (%eax,%zmm0,4), %ymm1 {%k2}			; KNL_32-NEXT: vpgatherqd (%eax,%zmm0,4), %ymm1 {%k2}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm2			; KNL_32-NEXT: vmovaps %zmm1, %zmm2
	; KNL_32-NEXT: vpgatherqd (%eax,%zmm0,4), %ymm2 {%k1}			; KNL_32-NEXT: vpgatherqd (%eax,%zmm0,4), %ymm2 {%k1}
	; KNL_32-NEXT: vpaddd %ymm2, %ymm1, %ymm0			; KNL_32-NEXT: vpaddd %ymm2, %ymm1, %ymm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	▲ Show 20 Lines • Show All 1,758 Lines • Show Last 20 Lines

test/CodeGen/X86/merge-consecutive-loads-512.ll

	Show First 20 Lines • Show All 228 Lines • ▼ Show 20 Lines
	; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1			; ALL-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; ALL-NEXT: vmovdqa64 {{.*#+}} zmm2 = <0,u,2,u,4,13,u,7>			; ALL-NEXT: vmovdqa64 {{.*#+}} zmm2 = <0,u,2,u,4,13,u,7>
	; ALL-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; ALL-NEXT: vpermt2q %zmm1, %zmm2, %zmm0
	; ALL-NEXT: retq			; ALL-NEXT: retq
	;			;
	; X32-AVX512F-LABEL: merge_8i64_i64_1u3u5zu8:			; X32-AVX512F-LABEL: merge_8i64_i64_1u3u5zu8:
	; X32-AVX512F: # BB#0:			; X32-AVX512F: # BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vmovdqu32 8(%eax), %zmm0			; X32-AVX512F-NEXT: vmovdqu64 8(%eax), %zmm0
	; X32-AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1			; X32-AVX512F-NEXT: vpxord %zmm1, %zmm1, %zmm1
	; X32-AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = <0,0,u,u,2,0,u,u,4,0,13,0,u,u,7,0>			; X32-AVX512F-NEXT: vmovdqa64 {{.*#+}} zmm2 = <0,0,u,u,2,0,u,u,4,0,13,0,u,u,7,0>
	; X32-AVX512F-NEXT: vpermt2q %zmm1, %zmm2, %zmm0			; X32-AVX512F-NEXT: vpermt2q %zmm1, %zmm2, %zmm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	%ptr0 = getelementptr inbounds i64, i64* %ptr, i64 1			%ptr0 = getelementptr inbounds i64, i64* %ptr, i64 1
	%ptr2 = getelementptr inbounds i64, i64* %ptr, i64 3			%ptr2 = getelementptr inbounds i64, i64* %ptr, i64 3
	%ptr4 = getelementptr inbounds i64, i64* %ptr, i64 5			%ptr4 = getelementptr inbounds i64, i64* %ptr, i64 5
	%ptr7 = getelementptr inbounds i64, i64* %ptr, i64 8			%ptr7 = getelementptr inbounds i64, i64* %ptr, i64 8
	▲ Show 20 Lines • Show All 473 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

DAGCombiner: Relax alignment restriction when changing load typeClosedPublic

Details

Diff Detail

Event Timeline