This is an archive of the discontinued LLVM Phabricator instance.

Differential D87005

[ScalarizeMaskedMemIntrin] Scalarize constant mask load as shuffle(build_vector,pass_through)
Changes PlannedPublic

Authored by RKSimon on Sep 2 2020, 3:47 AM.

Download Raw Diff

Details

Reviewers

spatel
craig.topper
efriedma

Summary

As noticed on D66004, scalarization of a load with a constant mask as a chain of irregular loads+inserts makes it difficult to optimize before lowering, resulting in difficulties in merging loads etc.

This patch instead scalarizes the expansion to a build_vector(load0, load1, undef, load2,....) style pattern and then performs a blend shuffle with the pass through vector. This allows us to more easily make use of all the build_vector combines, merging of consecutive loads etc.

There's a couple of regressions that I'm still looking at where we can better combine an element insertion with the final blend, and also a few places where shuffle combining forgets which elements are already zero.

Followup to D85416

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Sep 2 2020, 3:47 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 2 2020, 3:47 AM

Herald added a subscriber: hiraditya. · View Herald Transcript

RKSimon requested review of this revision.Sep 2 2020, 3:47 AM

Harbormaster completed remote builds in B70360: Diff 289388.Sep 2 2020, 4:27 AM

craig.topper added inline comments.Sep 2 2020, 5:15 PM

llvm/lib/CodeGen/ScalarizeMaskedMemIntrin.cpp
175	Is the explicitly inserting undefs required for optimal build vector creation? I figured just inserting all the elements into an initial undef vector would have been enough.

RKSimon added inline comments.Sep 3 2020, 1:35 AM

llvm/lib/CodeGen/ScalarizeMaskedMemIntrin.cpp
175	unfortunately not - the build vector builder code isn't very clever tbh

RKSimon planned changes to this revision.Sep 3 2020, 1:35 AM

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

ScalarizeMaskedMemIntrin.cpp

22 lines

test/

CodeGen/

X86/

77 lines

Transforms/

ScalarizeMaskedMemIntrin/

AArch64/

expand-masked-load.ll

8 lines

X86/

expand-masked-load.ll

8 lines

Diff 289388

llvm/lib/CodeGen/ScalarizeMaskedMemIntrin.cpp

	Show First 20 Lines • Show All 157 Lines • ▼ Show 20 Lines		static void scalarizeMaskedLoad(CallInst *CI, bool &ModifiedDT) {
	Type *NewPtrType =			Type *NewPtrType =
	EltTy->getPointerTo(Ptr->getType()->getPointerAddressSpace());			EltTy->getPointerTo(Ptr->getType()->getPointerAddressSpace());
	Value *FirstEltPtr = Builder.CreateBitCast(Ptr, NewPtrType);			Value *FirstEltPtr = Builder.CreateBitCast(Ptr, NewPtrType);
	unsigned VectorWidth = cast<FixedVectorType>(VecType)->getNumElements();			unsigned VectorWidth = cast<FixedVectorType>(VecType)->getNumElements();

	// The result vector			// The result vector
	Value *VResult = Src0;			Value *VResult = Src0;

				// Shorten the way if the mask is a vector of constants.
				// Create a build_vector pattern, with loads/undefs as necessary and then
				// shuffle blend with the pass through value.
	if (isConstantIntVector(Mask)) {			if (isConstantIntVector(Mask)) {
				VResult = UndefValue::get(VecType);
				SmallVector<int, 16> ShuffleMask(VectorWidth, UndefMaskElem);
	for (unsigned Idx = 0; Idx < VectorWidth; ++Idx) {			for (unsigned Idx = 0; Idx < VectorWidth; ++Idx) {
	if (cast<Constant>(Mask)->getAggregateElement(Idx)->isNullValue())			Value *InsertElt;
	continue;			if (cast<Constant>(Mask)->getAggregateElement(Idx)->isNullValue()) {
	Value *Gep = Builder.CreateConstInBoundsGEP1_32(EltTy, FirstEltPtr, Idx);			InsertElt = UndefValue::get(EltTy);
				craig.topperUnsubmitted Not Done Reply Inline Actions Is the explicitly inserting undefs required for optimal build vector creation? I figured just inserting all the elements into an initial undef vector would have been enough. craig.topper: Is the explicitly inserting undefs required for optimal build vector creation? I figured just…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions unfortunately not - the build vector builder code isn't very clever tbh RKSimon: unfortunately not - the build vector builder code isn't very clever tbh
	LoadInst *Load = Builder.CreateAlignedLoad(EltTy, Gep, AdjustedAlignVal);			ShuffleMask[Idx] = Idx + VectorWidth;
	VResult = Builder.CreateInsertElement(VResult, Load, Idx);			} else {
				Value *Gep =
				Builder.CreateConstInBoundsGEP1_32(EltTy, FirstEltPtr, Idx);
				InsertElt = Builder.CreateAlignedLoad(EltTy, Gep, AdjustedAlignVal);
				ShuffleMask[Idx] = Idx;
				}
				VResult = Builder.CreateInsertElement(VResult, InsertElt, Idx);
	}			}
				VResult = Builder.CreateShuffleVector(VResult, Src0, ShuffleMask);
	CI->replaceAllUsesWith(VResult);			CI->replaceAllUsesWith(VResult);
	CI->eraseFromParent();			CI->eraseFromParent();
	return;			return;
	}			}

	// If the mask is not v1i1, use scalar bit test operations. This generates			// If the mask is not v1i1, use scalar bit test operations. This generates
	// better results on X86 at least.			// better results on X86 at least.
	Value *SclrMask;			Value *SclrMask;
	▲ Show 20 Lines • Show All 741 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/masked_load.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 6,111 Lines • ▼ Show 20 Lines

	;;; Loads with Constant Masks - these should be optimized to use something other than a variable blend.			;;; Loads with Constant Masks - these should be optimized to use something other than a variable blend.

	; 128-bit FP vectors are supported with AVX.			; 128-bit FP vectors are supported with AVX.

	define <4 x float> @mload_constmask_v4f32(<4 x float>* %addr, <4 x float> %dst) {			define <4 x float> @mload_constmask_v4f32(<4 x float>* %addr, <4 x float> %dst) {
	; SSE2-LABEL: mload_constmask_v4f32:			; SSE2-LABEL: mload_constmask_v4f32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movups (%rdi), %xmm1
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[1,0],xmm1[0,0]
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[2,0],xmm1[2,3]
	; SSE2-NEXT: movlhps {{.*#+}} xmm3 = xmm3[0],xmm2[0]
	; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm1[0],xmm0[1,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm3[2,0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v4f32:			; SSE42-LABEL: mload_constmask_v4f32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE42-NEXT: movups (%rdi), %xmm1
	; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2,3]			; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm1[0],xmm0[1],xmm1[2,3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1,2],mem[0]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1OR2-LABEL: mload_constmask_v4f32:			; AVX1OR2-LABEL: mload_constmask_v4f32:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = mem[0],xmm0[1],mem[2,3]			; AVX1OR2-NEXT: vblendps {{.*#+}} xmm0 = mem[0],xmm0[1],mem[2,3]
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512F-LABEL: mload_constmask_v4f32:			; AVX512F-LABEL: mload_constmask_v4f32:
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines		; AVX-NEXT: retq
	ret <2 x double> %res			ret <2 x double> %res
	}			}

	; 128-bit integer vectors are supported with AVX2.			; 128-bit integer vectors are supported with AVX2.

	define <4 x i32> @mload_constmask_v4i32(<4 x i32>* %addr, <4 x i32> %dst) {			define <4 x i32> @mload_constmask_v4i32(<4 x i32>* %addr, <4 x i32> %dst) {
	; SSE2-LABEL: mload_constmask_v4i32:			; SSE2-LABEL: mload_constmask_v4i32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero			; SSE2-NEXT: movq {{.*#+}} xmm2 = mem[0],zero
	; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm0[0]			; SSE2-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,0,1,1]
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: punpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm0[0]			; SSE2-NEXT: movss {{.*#+}} xmm1 = xmm0[0],xmm1[1,2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm2[2,0]
	; SSE2-NEXT: movaps %xmm1, %xmm0			; SSE2-NEXT: movaps %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v4i32:			; SSE42-LABEL: mload_constmask_v4i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm0			; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm1
	; SSE42-NEXT: pinsrd $2, 8(%rdi), %xmm0			; SSE42-NEXT: pinsrd $2, 8(%rdi), %xmm1
	; SSE42-NEXT: pinsrd $3, 12(%rdi), %xmm0			; SSE42-NEXT: pinsrd $3, 12(%rdi), %xmm1
				; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3,4,5,6,7]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1-LABEL: mload_constmask_v4i32:			; AVX1-LABEL: mload_constmask_v4i32:
	; AVX1: ## %bb.0:			; AVX1: ## %bb.0:
	; AVX1-NEXT: vmovaps {{.*#+}} xmm1 = [0,4294967295,4294967295,4294967295]			; AVX1-NEXT: vmovaps {{.*#+}} xmm1 = [0,4294967295,4294967295,4294967295]
	; AVX1-NEXT: vmaskmovps (%rdi), %xmm1, %xmm1			; AVX1-NEXT: vmaskmovps (%rdi), %xmm1, %xmm1
	; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]			; AVX1-NEXT: vblendps {{.*#+}} xmm0 = xmm0[0],xmm1[1,2,3]
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines		; AVX-NEXT: retq
	ret <2 x i64> %res			ret <2 x i64> %res
	}			}

	; 256-bit FP vectors are supported with AVX.			; 256-bit FP vectors are supported with AVX.

	define <8 x float> @mload_constmask_v8f32(<8 x float>* %addr, <8 x float> %dst) {			define <8 x float> @mload_constmask_v8f32(<8 x float>* %addr, <8 x float> %dst) {
	; SSE2-LABEL: mload_constmask_v8f32:			; SSE2-LABEL: mload_constmask_v8f32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
				; SSE2-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1],xmm3[0,3]
	; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,0]
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[0,2]
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v8f32:			; SSE42-LABEL: mload_constmask_v8f32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE42-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3]			; SSE42-NEXT: insertps {{.*#+}} xmm2 = xmm2[0,1],mem[0],xmm2[3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0],mem[0],xmm0[2,3]			; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm2[0,1,2],xmm0[3]
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],xmm0[3]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1OR2-LABEL: mload_constmask_v8f32:			; AVX1OR2-LABEL: mload_constmask_v8f32:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vmovaps {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,0,0,0,0,0]			; AVX1OR2-NEXT: vmovaps {{.*#+}} ymm1 = [4294967295,4294967295,4294967295,0,0,0,0,0]
	; AVX1OR2-NEXT: vmaskmovps (%rdi), %ymm1, %ymm1			; AVX1OR2-NEXT: vmaskmovps (%rdi), %ymm1, %ymm1
	; AVX1OR2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]			; AVX1OR2-NEXT: vblendps {{.*#+}} ymm0 = ymm1[0,1,2],ymm0[3,4,5,6,7]
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	Show All 22 Lines
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	%res = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float>* %addr, i32 4, <8 x i1> <i1 1, i1 1, i1 1, i1 0, i1 0, i1 0, i1 0, i1 0>, <8 x float> %dst)			%res = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float>* %addr, i32 4, <8 x i1> <i1 1, i1 1, i1 1, i1 0, i1 0, i1 0, i1 0, i1 0>, <8 x float> %dst)
	ret <8 x float> %res			ret <8 x float> %res
	}			}

	define <8 x float> @mload_constmask_v8f32_zero(<8 x float>* %addr, <8 x float> %dst) {			define <8 x float> @mload_constmask_v8f32_zero(<8 x float>* %addr, <8 x float> %dst) {
	; SSE2-LABEL: mload_constmask_v8f32_zero:			; SSE2-LABEL: mload_constmask_v8f32_zero:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; SSE2-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE2-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE2-NEXT: movlhps {{.*#+}} xmm0 = xmm0[0],xmm1[0]			; SSE2-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; SSE2-NEXT: xorps %xmm2, %xmm2
				; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm1[0]
				; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm2[2,0]
	; SSE2-NEXT: xorps %xmm1, %xmm1			; SSE2-NEXT: xorps %xmm1, %xmm1
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v8f32_zero:			; SSE42-LABEL: mload_constmask_v8f32_zero:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero			; SSE42-NEXT: movsd {{.*#+}} xmm0 = mem[0],zero
	; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],zero			; SSE42-NEXT: insertps {{.*#+}} xmm0 = xmm0[0,1],mem[0],zero
	; SSE42-NEXT: xorps %xmm1, %xmm1			; SSE42-NEXT: xorps %xmm1, %xmm1
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines		; AVX512VLBW-NEXT: retq
	ret <4 x double> %res			ret <4 x double> %res
	}			}

	; 256-bit integer vectors are supported with AVX2.			; 256-bit integer vectors are supported with AVX2.

	define <8 x i32> @mload_constmask_v8i32(<8 x i32>* %addr, <8 x i32> %dst) {			define <8 x i32> @mload_constmask_v8i32(<8 x i32>* %addr, <8 x i32> %dst) {
	; SSE2-LABEL: mload_constmask_v8i32:			; SSE2-LABEL: mload_constmask_v8i32:
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
				; SSE2-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: movss {{.*#+}} xmm2 = mem[0],zero,zero,zero			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[3,1],xmm3[0,3]
	; SSE2-NEXT: movlhps {{.*#+}} xmm2 = xmm2[0],xmm3[0]			; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,1],xmm0[2,0]
	; SSE2-NEXT: movss {{.*#+}} xmm3 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm3 = xmm3[0,0],xmm0[3,0]
	; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[2,0],xmm3[0,2]
	; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movss {{.*#+}} xmm0 = mem[0],zero,zero,zero
	; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]			; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[2,3]
	; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]			; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm0[2,0]
	; SSE2-NEXT: movaps %xmm2, %xmm0			; SSE2-NEXT: movaps %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v8i32:			; SSE42-LABEL: mload_constmask_v8i32:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrd $0, (%rdi), %xmm0			; SSE42-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero
	; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm0			; SSE42-NEXT: pinsrd $1, 4(%rdi), %xmm2
	; SSE42-NEXT: pinsrd $2, 8(%rdi), %xmm0			; SSE42-NEXT: pinsrd $2, 8(%rdi), %xmm2
	; SSE42-NEXT: pinsrd $3, 28(%rdi), %xmm1			; SSE42-NEXT: movd {{.*#+}} xmm3 = mem[0],zero,zero,zero
				; SSE42-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,0,0,0]
				; SSE42-NEXT: pblendw {{.*#+}} xmm1 = xmm1[0,1,2,3,4,5],xmm3[6,7]
				; SSE42-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1,2,3,4,5],xmm0[6,7]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1OR2-LABEL: mload_constmask_v8i32:			; AVX1OR2-LABEL: mload_constmask_v8i32:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vblendps {{.*#+}} ymm0 = mem[0,1,2],ymm0[3,4,5,6],mem[7]			; AVX1OR2-NEXT: vblendps {{.*#+}} ymm0 = mem[0,1,2],ymm0[3,4,5,6],mem[7]
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512F-LABEL: mload_constmask_v8i32:			; AVX512F-LABEL: mload_constmask_v8i32:
	Show All 27 Lines
	; SSE2: ## %bb.0:			; SSE2: ## %bb.0:
	; SSE2-NEXT: movlps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]			; SSE2-NEXT: movlps {{.*#+}} xmm0 = mem[0,1],xmm0[2,3]
	; SSE2-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero			; SSE2-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; SSE2-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE42-LABEL: mload_constmask_v4i64:			; SSE42-LABEL: mload_constmask_v4i64:
	; SSE42: ## %bb.0:			; SSE42: ## %bb.0:
	; SSE42-NEXT: pinsrq $0, (%rdi), %xmm0			; SSE42-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
	; SSE42-NEXT: pinsrq $1, 24(%rdi), %xmm1			; SSE42-NEXT: blendps {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3]
				; SSE42-NEXT: movsd {{.*#+}} xmm2 = mem[0],zero
				; SSE42-NEXT: movlhps {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; SSE42-NEXT: retq			; SSE42-NEXT: retq
	;			;
	; AVX1OR2-LABEL: mload_constmask_v4i64:			; AVX1OR2-LABEL: mload_constmask_v4i64:
	; AVX1OR2: ## %bb.0:			; AVX1OR2: ## %bb.0:
	; AVX1OR2-NEXT: vblendps {{.*#+}} ymm0 = mem[0,1],ymm0[2,3,4,5],mem[6,7]			; AVX1OR2-NEXT: vblendps {{.*#+}} ymm0 = mem[0,1],ymm0[2,3,4,5],mem[6,7]
	; AVX1OR2-NEXT: retq			; AVX1OR2-NEXT: retq
	;			;
	; AVX512F-LABEL: mload_constmask_v4i64:			; AVX512F-LABEL: mload_constmask_v4i64:
	▲ Show 20 Lines • Show All 344 Lines • Show Last 20 Lines

llvm/test/Transforms/ScalarizeMaskedMemIntrin/AArch64/expand-masked-load.ll

	Show All 38 Lines
	;			;
	%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %passthru)			%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %passthru)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	}			}

	define <2 x i64> @scalarize_v2i64_zero_mask(<2 x i64>* %p, <2 x i64> %passthru) {			define <2 x i64> @scalarize_v2i64_zero_mask(<2 x i64>* %p, <2 x i64> %passthru) {
	; CHECK-LABEL: @scalarize_v2i64_zero_mask(			; CHECK-LABEL: @scalarize_v2i64_zero_mask(
	; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64			; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64
	; CHECK-NEXT: ret <2 x i64> [[PASSTHRU:%.*]]			; CHECK-NEXT: [[TMP2:%.]] = shufflevector <2 x i64> undef, <2 x i64> [[PASSTHRU:%.]], <2 x i32> <i32 2, i32 3>
				; CHECK-NEXT: ret <2 x i64> [[TMP2]]
	;			;
	%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 false>, <2 x i64> %passthru)			%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 false>, <2 x i64> %passthru)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	}			}

	define <2 x i64> @scalarize_v2i64_const_mask(<2 x i64>* %p, <2 x i64> %passthru) {			define <2 x i64> @scalarize_v2i64_const_mask(<2 x i64>* %p, <2 x i64> %passthru) {
	; CHECK-LABEL: @scalarize_v2i64_const_mask(			; CHECK-LABEL: @scalarize_v2i64_const_mask(
	; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64			; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64
	; CHECK-NEXT: [[TMP2:%.]] = getelementptr inbounds i64, i64 [[TMP1]], i32 1			; CHECK-NEXT: [[TMP2:%.]] = getelementptr inbounds i64, i64 [[TMP1]], i32 1
	; CHECK-NEXT: [[TMP3:%.]] = load i64, i64 [[TMP2]], align 8			; CHECK-NEXT: [[TMP3:%.]] = load i64, i64 [[TMP2]], align 8
	; CHECK-NEXT: [[TMP4:%.]] = insertelement <2 x i64> [[PASSTHRU:%.]], i64 [[TMP3]], i64 1			; CHECK-NEXT: [[TMP4:%.*]] = insertelement <2 x i64> undef, i64 [[TMP3]], i64 1
	; CHECK-NEXT: ret <2 x i64> [[TMP4]]			; CHECK-NEXT: [[TMP5:%.]] = shufflevector <2 x i64> [[TMP4]], <2 x i64> [[PASSTHRU:%.]], <2 x i32> <i32 2, i32 1>
				; CHECK-NEXT: ret <2 x i64> [[TMP5]]
	;			;
	%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 true>, <2 x i64> %passthru)			%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 true>, <2 x i64> %passthru)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	}			}

	; This use a byte sized but non power of 2 element size. This used to crash due to bad alignment calculation.			; This use a byte sized but non power of 2 element size. This used to crash due to bad alignment calculation.
	define <2 x i24> @scalarize_v2i24(<2 x i24>* %p, <2 x i1> %mask, <2 x i24> %passthru) {			define <2 x i24> @scalarize_v2i24(<2 x i24>* %p, <2 x i1> %mask, <2 x i24> %passthru) {
	; CHECK-LABEL: @scalarize_v2i24(			; CHECK-LABEL: @scalarize_v2i24(
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines

llvm/test/Transforms/ScalarizeMaskedMemIntrin/X86/expand-masked-load.ll

	Show All 37 Lines
	;			;
	%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %passthru)			%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %passthru)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	}			}

	define <2 x i64> @scalarize_v2i64_zero_mask(<2 x i64>* %p, <2 x i64> %passthru) {			define <2 x i64> @scalarize_v2i64_zero_mask(<2 x i64>* %p, <2 x i64> %passthru) {
	; CHECK-LABEL: @scalarize_v2i64_zero_mask(			; CHECK-LABEL: @scalarize_v2i64_zero_mask(
	; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64			; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64
	; CHECK-NEXT: ret <2 x i64> [[PASSTHRU:%.*]]			; CHECK-NEXT: [[TMP2:%.]] = shufflevector <2 x i64> undef, <2 x i64> [[PASSTHRU:%.]], <2 x i32> <i32 2, i32 3>
				; CHECK-NEXT: ret <2 x i64> [[TMP2]]
	;			;
	%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 false>, <2 x i64> %passthru)			%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 false>, <2 x i64> %passthru)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	}			}

	define <2 x i64> @scalarize_v2i64_const_mask(<2 x i64>* %p, <2 x i64> %passthru) {			define <2 x i64> @scalarize_v2i64_const_mask(<2 x i64>* %p, <2 x i64> %passthru) {
	; CHECK-LABEL: @scalarize_v2i64_const_mask(			; CHECK-LABEL: @scalarize_v2i64_const_mask(
	; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64			; CHECK-NEXT: [[TMP1:%.]] = bitcast <2 x i64> [[P:%.]] to i64
	; CHECK-NEXT: [[TMP2:%.]] = getelementptr inbounds i64, i64 [[TMP1]], i32 1			; CHECK-NEXT: [[TMP2:%.]] = getelementptr inbounds i64, i64 [[TMP1]], i32 1
	; CHECK-NEXT: [[TMP3:%.]] = load i64, i64 [[TMP2]], align 8			; CHECK-NEXT: [[TMP3:%.]] = load i64, i64 [[TMP2]], align 8
	; CHECK-NEXT: [[TMP4:%.]] = insertelement <2 x i64> [[PASSTHRU:%.]], i64 [[TMP3]], i64 1			; CHECK-NEXT: [[TMP4:%.*]] = insertelement <2 x i64> undef, i64 [[TMP3]], i64 1
	; CHECK-NEXT: ret <2 x i64> [[TMP4]]			; CHECK-NEXT: [[TMP5:%.]] = shufflevector <2 x i64> [[TMP4]], <2 x i64> [[PASSTHRU:%.]], <2 x i32> <i32 2, i32 1>
				; CHECK-NEXT: ret <2 x i64> [[TMP5]]
	;			;
	%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 true>, <2 x i64> %passthru)			%ret = call <2 x i64> @llvm.masked.load.v2i64.p0v2i64(<2 x i64>* %p, i32 8, <2 x i1> <i1 false, i1 true>, <2 x i64> %passthru)
	ret <2 x i64> %ret			ret <2 x i64> %ret
	}			}

	; This use a byte sized but non power of 2 element size. This used to crash due to bad alignment calculation.			; This use a byte sized but non power of 2 element size. This used to crash due to bad alignment calculation.
	define <2 x i24> @scalarize_v2i24(<2 x i24>* %p, <2 x i1> %mask, <2 x i24> %passthru) {			define <2 x i24> @scalarize_v2i24(<2 x i24>* %p, <2 x i1> %mask, <2 x i24> %passthru) {
	; CHECK-LABEL: @scalarize_v2i24(			; CHECK-LABEL: @scalarize_v2i24(
	▲ Show 20 Lines • Show All 62 Lines • Show Last 20 Lines