This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
clang/test/CodeGen/
-
test/
-
CodeGen/
-
attr-arm-sve-vector-bits-bitcast.c
-
attr-arm-sve-vector-bits-call.c
-
attr-arm-sve-vector-bits-cast.c
-
attr-arm-sve-vector-bits-codegen.c
-
attr-arm-sve-vector-bits-globals.c
-
builtins-ppc-pair-mma.c
-
llvm/
-
lib/
-
IR/
1
DataLayout.cpp
-
Target/AArch64/
-
AArch64/
-
AArch64SVEInstrInfo.td
-
test/
-
CodeGen/
-
AArch64/
-
GlobalISel/
-
ret-vec-promote.ll
-
spillfill-sve.ll
-
sve-calling-convention-byref.ll
-
AMDGPU/
-
lower-kernargs.ll
-
NVPTX/
-
f16x2-instructions.ll
-
param-load-store.ll
-
RISCV/rvv/
-
rvv/
-
fixed-vectors-unaligned.ll
-
Thumb2/
-
mve-masked-ldst.ll
-
mve-masked-load.ll
-
mve-masked-store.ll
1/4
mve-pred-bitcast.ll
-
X86/
-
avx512-extract-subvector-load-store.ll
-
avx512-mask-op.ll
-
avx512-select.ll
-
bitcast-vector-bool.ll
-
load-local-v3i129.ll
-
pr41619.ll
-
vector-sext.ll
-
Transforms/
-
InstCombine/
-
abs-intrinsic.ll
-
icmp-vec.ll
-
select-min-max.ll
-
shufflevec-bitcast.ll
-
SROA/
1/2
vector-promotion-different-size.ll
-
VectorCombine/
-
load-insert-store.ll

Differential D88994

Fix the default alignment of i1 vectors.
ClosedPublic

Authored by efriedma on Oct 7 2020, 11:38 AM.

Download Raw Diff

Details

Reviewers

craig.topper
arsenm
sdesmalen
dmgreen
jholewinski
paulwalker-arm
RKSimon
cameron.mcinally
rengolin

Commits

rGbdd55b2f1810: Fix the default alignment of i1 vectors.

Summary

Currently, the default alignment is much larger than the actual size of the vector in memory. Fix this to use a sane default.

For SVE, temporarily remove lowering of load/store operations for predicates with less than 16 elements. The layout the backend was assuming for SVE predicates with less than 16 elements doesn't agree with the datalayout. More work probably needs to be done here.

This change is, strictly speaking, not backwards-compatible at the bitcode level. But probably nobody is actually depending on that; i1 vectors in memory are rare, and the code that does use them probably ends up forcing the alignment to something sane anyway. If we think this is a concern, I can restrict this to scalable vectors for now (where it's actually causing issues for me at the moment).

I did my best to update the regression tests, but I'm not completely sure I did it correctly for amdgpu and nvptx.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

efriedma created this revision.Oct 7 2020, 11:38 AM

Herald added a reviewer: rengolin. · View Herald TranscriptOct 7 2020, 11:38 AM

Herald added a project: Restricted Project. · View Herald Transcript

Herald added subscribers: kerbowa, pengfei, hiraditya and 4 others. · View Herald Transcript

efriedma requested review of this revision.Oct 7 2020, 11:38 AM

Herald added a subscriber: wdng. · View Herald TranscriptOct 7 2020, 11:38 AM

Harbormaster completed remote builds in B74326: Diff 296756.Oct 7 2020, 12:13 PM

arsenm added inline comments.Oct 8 2020, 7:07 AM

llvm/test/Transforms/SROA/vector-promotion-different-size.ll
6	This looks like it now fails to eliminate some of the elements?

efriedma added inline comments.Oct 8 2020, 10:30 AM

llvm/test/Transforms/SROA/vector-promotion-different-size.ll
6	The IR is basically the same either way. Only type of the alloca itself is different, and the difference doesn't have any practical effect here. (I haven't looked deeply at why SROA is choosing a different type, but it doesn't seem important.)

Thanks for working on this @efriedma. The change seem sensible to me and I appreciate the effect it has on SVE predicates.
I can't really speak for the correctness for other targets though.

llvm/test/CodeGen/Thumb2/mve-pred-bitcast.ll
131–132	Not sure if this matters, but I can't see any operations (select) going through memory, so don't know why the code on the left was so convoluted or how your change affects this.

efriedma added inline comments.Oct 9 2020, 12:27 PM

llvm/test/CodeGen/Thumb2/mve-pred-bitcast.ll
131–132	Type legalization is creating a stack temporary to lower the bitcast. The reason it doesn't show up in the assembly is that we optimize it out later: the resulting `<16 x i1>` load gets legalized to an i16 load followed by a PREDICATE_CAST, and then the whole store+load sequence gets optimized out. But the alignment requirement of the stack temporary sticks around. This patch avoids the issue by lowering the alignment of the temporary, so it doesn't trigger stack realignment. There's probably room for improvement here.

dmgreen added inline comments.Oct 10 2020, 12:21 AM

llvm/test/CodeGen/Thumb2/mve-pred-bitcast.ll
131–132	Yeah, I'm a little surprised that it's doing that. There's no reason to go via a stack slot to begin with, and that dead stack slot are not removed... I was trying to custom lower it but running into legalizer problems. I may keep looking, but it's not an problem with this patch.

sdesmalen added inline comments.Oct 12 2020, 8:05 AM

llvm/test/CodeGen/Thumb2/mve-pred-bitcast.ll
131–132	Thanks for confirming, I suspected is was something like that!

Ping

I'm happy to LGTM, but maybe you want to wait just another day to land it in case anyone has more feedback for the other targets.

This revision is now accepted and ready to land.Oct 21 2020, 8:38 AM

@RKSimon @craig.topper Any thoughts from the x86 side?

Just realized I never landed this. Rebased.

I'd still like some feedback on the x86 side of this.

Herald added subscribers: frasercrmck, dexonsmith, luismarques and 20 others. · View Herald TranscriptJul 22 2021, 11:30 AM

Harbormaster completed remote builds in B115640: Diff 360901.Jul 22 2021, 1:22 PM

Matt added a subscriber: Matt.Jul 26 2021, 10:26 AM

This revision was landed with ongoing or failed builds.Jul 31 2021, 2:11 PM

Closed by commit rGbdd55b2f1810: Fix the default alignment of i1 vectors. (authored by efriedma). · Explain Why

This revision was automatically updated to reflect the committed changes.

efriedma added a commit: rGbdd55b2f1810: Fix the default alignment of i1 vectors..

Herald added a project: Restricted Project. · View Herald TranscriptJul 31 2021, 2:11 PM

Herald added subscribers: cfe-commits, ctetreau, kbarton, nemanjai. · View Herald Transcript

Nuullll added a subscriber: Nuullll.Sep 6 2021, 10:48 PM

paulwalker-arm mentioned this in D127596: [WIP][AArch64][CodeGen] Support select address mode load/store.Jun 13 2022, 4:00 AM

Allen added a subscriber: Allen.Jun 13 2022, 7:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptJun 13 2022, 7:17 AM

Herald added subscribers: jsji, kosarev, mattd and 5 others. · View Herald Transcript

csstormq added a subscriber: csstormq.Nov 17 2022, 12:11 AM

csstormq added inline comments.

llvm/lib/IR/DataLayout.cpp
807	Is there any way to set the alignment of fixed vector type to 1 byte rather than a power of 2 by default?

dexonsmith removed a subscriber: dexonsmith.Nov 17 2022, 12:13 AM

Revision Contents

Path

Size

clang/

test/

CodeGen/

attr-arm-sve-vector-bits-bitcast.c

36 lines

attr-arm-sve-vector-bits-call.c

72 lines

attr-arm-sve-vector-bits-cast.c

32 lines

attr-arm-sve-vector-bits-codegen.c

6 lines

attr-arm-sve-vector-bits-globals.c

24 lines

builtins-ppc-pair-mma.c

8 lines

llvm/

lib/

IR/

DataLayout.cpp

8 lines

Target/

AArch64/

AArch64SVEInstrInfo.td

6 lines

test/

CodeGen/

AArch64/

GlobalISel/

ret-vec-promote.ll

2 lines

spillfill-sve.ll

74 lines

sve-calling-convention-byref.ll

14 lines

AMDGPU/

lower-kernargs.ll

26 lines

NVPTX/

f16x2-instructions.ll

42 lines

param-load-store.ll

54 lines

RISCV/

rvv/

fixed-vectors-unaligned.ll

48 lines

Thumb2/

24 lines

26 lines

28 lines

88 lines

X86/

avx512-extract-subvector-load-store.ll

27 lines

avx512-mask-op.ll

26 lines

avx512-select.ll

48 lines

bitcast-vector-bool.ll

10 lines

load-local-v3i129.ll

4 lines

pr41619.ll

26 lines

vector-sext.ll

146 lines

Transforms/

InstCombine/

abs-intrinsic.ll

2 lines

icmp-vec.ll

4 lines

select-min-max.ll

2 lines

shufflevec-bitcast.ll

2 lines

SROA/

vector-promotion-different-size.ll

2 lines

VectorCombine/

load-insert-store.ll

2 lines

Diff 363320

clang/test/CodeGen/attr-arm-sve-vector-bits-bitcast.c

	Show First 20 Lines • Show All 185 Lines • ▼ Show 20 Lines
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// bool			// bool
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	// CHECK-128-LABEL: @read_bool(			// CHECK-128-LABEL: @read_bool(
	// CHECK-128-NEXT: entry:			// CHECK-128-NEXT: entry:
	// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <2 x i8>, align 16			// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <2 x i8>, align 2
	// CHECK-128-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0			// CHECK-128-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0
	// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]			// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* [[SAVED_VALUE]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <2 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <2 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-128-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-128-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: ret <vscale x 16 x i1> [[TMP1]]			// CHECK-128-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	// CHECK-256-LABEL: @read_bool(			// CHECK-256-LABEL: @read_bool(
	// CHECK-256-NEXT: entry:			// CHECK-256-NEXT: entry:
	// CHECK-256-NEXT: [[SAVED_VALUE:%.*]] = alloca <4 x i8>, align 16			// CHECK-256-NEXT: [[SAVED_VALUE:%.*]] = alloca <4 x i8>, align 4
	// CHECK-256-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0			// CHECK-256-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0
	// CHECK-256-NEXT: [[TMP0:%.]] = load <4 x i8>, <4 x i8> [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]			// CHECK-256-NEXT: [[TMP0:%.]] = load <4 x i8>, <4 x i8> [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]
	// CHECK-256-NEXT: store <4 x i8> [[TMP0]], <4 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-256-NEXT: store <4 x i8> [[TMP0]], <4 x i8>* [[SAVED_VALUE]], align 4, !tbaa [[TBAA6]]
	// CHECK-256-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <4 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-256-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <4 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-256-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-256-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 4, !tbaa [[TBAA6]]
	// CHECK-256-NEXT: ret <vscale x 16 x i1> [[TMP1]]			// CHECK-256-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	// CHECK-512-LABEL: @read_bool(			// CHECK-512-LABEL: @read_bool(
	// CHECK-512-NEXT: entry:			// CHECK-512-NEXT: entry:
	// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 16			// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 8
	// CHECK-512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0			// CHECK-512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0
	// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[SAVED_VALUE]], align 8, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-512-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: ret <vscale x 16 x i1> [[TMP1]]			// CHECK-512-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	svbool_t read_bool(struct struct_bool *s) {			svbool_t read_bool(struct struct_bool *s) {
	return s->y[0];			return s->y[0];
	}			}

	// CHECK-128-LABEL: @write_bool(			// CHECK-128-LABEL: @write_bool(
	// CHECK-128-NEXT: entry:			// CHECK-128-NEXT: entry:
	// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 2
	// CHECK-128-NEXT: store <vscale x 16 x i1> [[X:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-128-NEXT: store <vscale x 16 x i1> [[X:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 2, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <2 x i8>*			// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <2 x i8>*
	// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> [[CASTFIXEDSVE]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0			// CHECK-128-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0
	// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]			// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: ret void			// CHECK-128-NEXT: ret void
	//			//
	// CHECK-256-LABEL: @write_bool(			// CHECK-256-LABEL: @write_bool(
	// CHECK-256-NEXT: entry:			// CHECK-256-NEXT: entry:
	// CHECK-256-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-256-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 4
	// CHECK-256-NEXT: store <vscale x 16 x i1> [[X:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-256-NEXT: store <vscale x 16 x i1> [[X:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 4, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-256-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <4 x i8>*			// CHECK-256-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <4 x i8>*
	// CHECK-256-NEXT: [[TMP0:%.]] = load <4 x i8>, <4 x i8> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-256-NEXT: [[TMP0:%.]] = load <4 x i8>, <4 x i8> [[CASTFIXEDSVE]], align 4, !tbaa [[TBAA6]]
	// CHECK-256-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0			// CHECK-256-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0
	// CHECK-256-NEXT: store <4 x i8> [[TMP0]], <4 x i8>* [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]			// CHECK-256-NEXT: store <4 x i8> [[TMP0]], <4 x i8>* [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]
	// CHECK-256-NEXT: ret void			// CHECK-256-NEXT: ret void
	//			//
	// CHECK-512-LABEL: @write_bool(			// CHECK-512-LABEL: @write_bool(
	// CHECK-512-NEXT: entry:			// CHECK-512-NEXT: entry:
	// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-512-NEXT: store <vscale x 16 x i1> [[X:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-512-NEXT: store <vscale x 16 x i1> [[X:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 8, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*			// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*
	// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0			// CHECK-512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [[STRUCT_STRUCT_BOOL:%.]], %struct.struct_bool* [[S:%.*]], i64 0, i32 1, i64 0
	// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]			// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[ARRAYIDX]], align 2, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: ret void			// CHECK-512-NEXT: ret void
	//			//
	void write_bool(struct struct_bool *s, svbool_t x) {			void write_bool(struct struct_bool *s, svbool_t x) {
	s->y[0] = x;			s->y[0] = x;
	}			}

clang/test/CodeGen/attr-arm-sve-vector-bits-call.c

	Show First 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	// CHECK-NEXT: ret <vscale x 2 x double> [[TMP1]]			// CHECK-NEXT: ret <vscale x 2 x double> [[TMP1]]
	//			//
	fixed_float64_t call_float64_ff(svbool_t pg, fixed_float64_t op1, fixed_float64_t op2) {			fixed_float64_t call_float64_ff(svbool_t pg, fixed_float64_t op1, fixed_float64_t op2) {
	return svsel(pg, op1, op2);			return svsel(pg, op1, op2);
	}			}

	// CHECK-LABEL: @call_bool_ff(			// CHECK-LABEL: @call_bool_ff(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[OP1:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[OP1:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[OP2:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[OP2:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[SAVED_VALUE3:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[SAVED_VALUE3:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[SAVED_VALUE5:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[SAVED_VALUE5:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[TMP0:%.]] = bitcast <8 x i8> [[OP1]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[TMP0:%.]] = bitcast <8 x i8> [[OP1]] to <vscale x 16 x i1>*
	// CHECK-NEXT: store <vscale x 16 x i1> [[OP1_COERCE:%.]], <vscale x 16 x i1> [[TMP0]], align 16			// CHECK-NEXT: store <vscale x 16 x i1> [[OP1_COERCE:%.]], <vscale x 16 x i1> [[TMP0]], align 8
	// CHECK-NEXT: [[OP11:%.]] = load <8 x i8>, <8 x i8> [[OP1]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[OP11:%.]] = load <8 x i8>, <8 x i8> [[OP1]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[TMP1:%.]] = bitcast <8 x i8> [[OP2]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[TMP1:%.]] = bitcast <8 x i8> [[OP2]] to <vscale x 16 x i1>*
	// CHECK-NEXT: store <vscale x 16 x i1> [[OP2_COERCE:%.]], <vscale x 16 x i1> [[TMP1]], align 16			// CHECK-NEXT: store <vscale x 16 x i1> [[OP2_COERCE:%.]], <vscale x 16 x i1> [[TMP1]], align 8
	// CHECK-NEXT: [[OP22:%.]] = load <8 x i8>, <8 x i8> [[OP2]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[OP22:%.]] = load <8 x i8>, <8 x i8> [[OP2]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: store <8 x i8> [[OP11]], <8 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: store <8 x i8> [[OP11]], <8 x i8>* [[SAVED_VALUE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-NEXT: [[TMP2:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP2:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: store <8 x i8> [[OP22]], <8 x i8>* [[SAVED_VALUE3]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: store <8 x i8> [[OP22]], <8 x i8>* [[SAVED_VALUE3]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[CASTFIXEDSVE4:%.]] = bitcast <8 x i8> [[SAVED_VALUE3]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[CASTFIXEDSVE4:%.]] = bitcast <8 x i8> [[SAVED_VALUE3]] to <vscale x 16 x i1>*
	// CHECK-NEXT: [[TMP3:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE4]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP3:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE4]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[TMP4:%.]] = call <vscale x 16 x i1> @llvm.aarch64.sve.sel.nxv16i1(<vscale x 16 x i1> [[PG:%.]], <vscale x 16 x i1> [[TMP2]], <vscale x 16 x i1> [[TMP3]])			// CHECK-NEXT: [[TMP4:%.]] = call <vscale x 16 x i1> @llvm.aarch64.sve.sel.nxv16i1(<vscale x 16 x i1> [[PG:%.]], <vscale x 16 x i1> [[TMP2]], <vscale x 16 x i1> [[TMP3]])
	// CHECK-NEXT: store <vscale x 16 x i1> [[TMP4]], <vscale x 16 x i1>* [[SAVED_VALUE5]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-NEXT: store <vscale x 16 x i1> [[TMP4]], <vscale x 16 x i1>* [[SAVED_VALUE5]], align 8, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-NEXT: [[CASTFIXEDSVE6:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE5]] to <8 x i8>*			// CHECK-NEXT: [[CASTFIXEDSVE6:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE5]] to <8 x i8>*
	// CHECK-NEXT: [[TMP5:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE6]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP5:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE6]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*			// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*
	// CHECK-NEXT: store <8 x i8> [[TMP5]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 16			// CHECK-NEXT: store <8 x i8> [[TMP5]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 8
	// CHECK-NEXT: [[TMP6:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 16			// CHECK-NEXT: [[TMP6:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 8
	// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP6]]			// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP6]]
	//			//
	fixed_bool_t call_bool_ff(svbool_t pg, fixed_bool_t op1, fixed_bool_t op2) {			fixed_bool_t call_bool_ff(svbool_t pg, fixed_bool_t op1, fixed_bool_t op2) {
	return svsel(pg, op1, op2);			return svsel(pg, op1, op2);
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// fixed, scalable			// fixed, scalable
	Show All 16 Lines
	// CHECK-NEXT: ret <vscale x 2 x double> [[TMP1]]			// CHECK-NEXT: ret <vscale x 2 x double> [[TMP1]]
	//			//
	fixed_float64_t call_float64_fs(svbool_t pg, fixed_float64_t op1, svfloat64_t op2) {			fixed_float64_t call_float64_fs(svbool_t pg, fixed_float64_t op1, svfloat64_t op2) {
	return svsel(pg, op1, op2);			return svsel(pg, op1, op2);
	}			}

	// CHECK-LABEL: @call_bool_fs(			// CHECK-LABEL: @call_bool_fs(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[OP1:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[OP1:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[SAVED_VALUE2:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[SAVED_VALUE2:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[TMP0:%.]] = bitcast <8 x i8> [[OP1]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[TMP0:%.]] = bitcast <8 x i8> [[OP1]] to <vscale x 16 x i1>*
	// CHECK-NEXT: store <vscale x 16 x i1> [[OP1_COERCE:%.]], <vscale x 16 x i1> [[TMP0]], align 16			// CHECK-NEXT: store <vscale x 16 x i1> [[OP1_COERCE:%.]], <vscale x 16 x i1> [[TMP0]], align 8
	// CHECK-NEXT: [[OP11:%.]] = load <8 x i8>, <8 x i8> [[OP1]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[OP11:%.]] = load <8 x i8>, <8 x i8> [[OP1]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: store <8 x i8> [[OP11]], <8 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: store <8 x i8> [[OP11]], <8 x i8>* [[SAVED_VALUE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[TMP2:%.]] = call <vscale x 16 x i1> @llvm.aarch64.sve.sel.nxv16i1(<vscale x 16 x i1> [[PG:%.]], <vscale x 16 x i1> [[TMP1]], <vscale x 16 x i1> [[OP2:%.*]])			// CHECK-NEXT: [[TMP2:%.]] = call <vscale x 16 x i1> @llvm.aarch64.sve.sel.nxv16i1(<vscale x 16 x i1> [[PG:%.]], <vscale x 16 x i1> [[TMP1]], <vscale x 16 x i1> [[OP2:%.*]])
	// CHECK-NEXT: store <vscale x 16 x i1> [[TMP2]], <vscale x 16 x i1>* [[SAVED_VALUE2]], align 16, !tbaa [[TBAA9]]			// CHECK-NEXT: store <vscale x 16 x i1> [[TMP2]], <vscale x 16 x i1>* [[SAVED_VALUE2]], align 8, !tbaa [[TBAA9]]
	// CHECK-NEXT: [[CASTFIXEDSVE3:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE2]] to <8 x i8>*			// CHECK-NEXT: [[CASTFIXEDSVE3:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE2]] to <8 x i8>*
	// CHECK-NEXT: [[TMP3:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE3]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP3:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE3]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*			// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*
	// CHECK-NEXT: store <8 x i8> [[TMP3]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 16			// CHECK-NEXT: store <8 x i8> [[TMP3]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 8
	// CHECK-NEXT: [[TMP4:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 16			// CHECK-NEXT: [[TMP4:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 8
	// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP4]]			// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP4]]
	//			//
	fixed_bool_t call_bool_fs(svbool_t pg, fixed_bool_t op1, svbool_t op2) {			fixed_bool_t call_bool_fs(svbool_t pg, fixed_bool_t op1, svbool_t op2) {
	return svsel(pg, op1, op2);			return svsel(pg, op1, op2);
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// scalable, scalable			// scalable, scalable
	Show All 16 Lines
	// CHECK-NEXT: ret <vscale x 2 x double> [[TMP1]]			// CHECK-NEXT: ret <vscale x 2 x double> [[TMP1]]
	//			//
	fixed_float64_t call_float64_ss(svbool_t pg, svfloat64_t op1, svfloat64_t op2) {			fixed_float64_t call_float64_ss(svbool_t pg, svfloat64_t op1, svfloat64_t op2) {
	return svsel(pg, op1, op2);			return svsel(pg, op1, op2);
	}			}

	// CHECK-LABEL: @call_bool_ss(			// CHECK-LABEL: @call_bool_ss(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[TMP0:%.]] = call <vscale x 16 x i1> @llvm.aarch64.sve.sel.nxv16i1(<vscale x 16 x i1> [[PG:%.]], <vscale x 16 x i1> [[OP1:%.]], <vscale x 16 x i1> [[OP2:%.]])			// CHECK-NEXT: [[TMP0:%.]] = call <vscale x 16 x i1> @llvm.aarch64.sve.sel.nxv16i1(<vscale x 16 x i1> [[PG:%.]], <vscale x 16 x i1> [[OP1:%.]], <vscale x 16 x i1> [[OP2:%.]])
	// CHECK-NEXT: store <vscale x 16 x i1> [[TMP0]], <vscale x 16 x i1>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA9]]			// CHECK-NEXT: store <vscale x 16 x i1> [[TMP0]], <vscale x 16 x i1>* [[SAVED_VALUE]], align 8, !tbaa [[TBAA9]]
	// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*			// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*
	// CHECK-NEXT: [[TMP1:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP1:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*			// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*
	// CHECK-NEXT: store <8 x i8> [[TMP1]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 16			// CHECK-NEXT: store <8 x i8> [[TMP1]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 8
	// CHECK-NEXT: [[TMP2:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 16			// CHECK-NEXT: [[TMP2:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 8
	// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP2]]			// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP2]]
	//			//
	fixed_bool_t call_bool_ss(svbool_t pg, svbool_t op1, svbool_t op2) {			fixed_bool_t call_bool_ss(svbool_t pg, svbool_t op1, svbool_t op2) {
	return svsel(pg, op1, op2);			return svsel(pg, op1, op2);
	}			}

clang/test/CodeGen/attr-arm-sve-vector-bits-cast.c

	Show All 39 Lines
	// CHECK-NEXT: ret <vscale x 2 x double> [[TYPE:%.*]]			// CHECK-NEXT: ret <vscale x 2 x double> [[TYPE:%.*]]
	//			//
	fixed_float64_t from_svfloat64_t(svfloat64_t type) {			fixed_float64_t from_svfloat64_t(svfloat64_t type) {
	return type;			return type;
	}			}

	// CHECK-LABEL: @to_svbool_t(			// CHECK-LABEL: @to_svbool_t(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TYPE:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[TYPE:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[TYPE_ADDR:%.*]] = alloca <8 x i8>, align 16			// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 8
	// CHECK-NEXT: [[TMP0:%.]] = bitcast <8 x i8> [[TYPE]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[TMP0:%.]] = bitcast <8 x i8> [[TYPE]] to <vscale x 16 x i1>*
	// CHECK-NEXT: store <vscale x 16 x i1> [[TYPE_COERCE:%.]], <vscale x 16 x i1> [[TMP0]], align 16			// CHECK-NEXT: store <vscale x 16 x i1> [[TYPE_COERCE:%.]], <vscale x 16 x i1> [[TMP0]], align 8
	// CHECK-NEXT: [[TYPE1:%.]] = load <8 x i8>, <8 x i8> [[TYPE]], align 16, !tbaa [[TBAA6:![0-9]+]]			// CHECK-NEXT: [[TYPE1:%.]] = load <8 x i8>, <8 x i8> [[TYPE]], align 8, !tbaa [[TBAA6:![0-9]+]]
	// CHECK-NEXT: store <8 x i8> [[TYPE1]], <8 x i8>* [[TYPE_ADDR]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: store <8 x i8> [[TYPE1]], <8 x i8>* [[SAVED_VALUE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[TMP1:%.]] = bitcast <8 x i8> [[TYPE_ADDR]] to <vscale x 16 x i1>*			// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-NEXT: [[TMP2:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[TMP1]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP2]]			// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	svbool_t to_svbool_t(fixed_bool_t type) {			svbool_t to_svbool_t(fixed_bool_t type) {
	return type;			return type;
	}			}

	// CHECK-LABEL: @from_svbool_t(			// CHECK-LABEL: @from_svbool_t(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TYPE_ADDR:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-NEXT: store <vscale x 16 x i1> [[TYPE:%.]], <vscale x 16 x i1> [[TYPE_ADDR]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-NEXT: store <vscale x 16 x i1> [[TYPE:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 8, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-NEXT: [[TMP0:%.]] = bitcast <vscale x 16 x i1> [[TYPE_ADDR]] to <8 x i8>*			// CHECK-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*
	// CHECK-NEXT: [[TMP1:%.]] = load <8 x i8>, <8 x i8> [[TMP0]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*			// CHECK-NEXT: [[RETVAL_0__SROA_CAST:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to <8 x i8>*
	// CHECK-NEXT: store <8 x i8> [[TMP1]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 16			// CHECK-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[RETVAL_0__SROA_CAST]], align 8
	// CHECK-NEXT: [[TMP2:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 16			// CHECK-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 8
	// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP2]]			// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	fixed_bool_t from_svbool_t(svbool_t type) {			fixed_bool_t from_svbool_t(svbool_t type) {
	return type;			return type;
	}			}

	// CHECK-LABEL: @to_svint32_t__from_gnu_int32_t(			// CHECK-LABEL: @to_svint32_t__from_gnu_int32_t(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TYPE:%.]] = load <16 x i32>, <16 x i32> [[TMP0:%.*]], align 16, !tbaa [[TBAA6]]			// CHECK-NEXT: [[TYPE:%.]] = load <16 x i32>, <16 x i32> [[TMP0:%.*]], align 16, !tbaa [[TBAA6]]
	Show All 36 Lines

clang/test/CodeGen/attr-arm-sve-vector-bits-codegen.c

Show First 20 Lines • Show All 86 Lines • ▼ Show 20 Lines	fixed_int32_t array_arg(fixed_int32_t arr[]) {
return arr[0];		return arr[0];
}		}

// CHECK-LABEL: @address_of_array_idx(		// CHECK-LABEL: @address_of_array_idx(
// CHECK-NEXT: entry:		// CHECK-NEXT: entry:
// CHECK-NEXT: [[RETVAL:%.*]] = alloca <8 x i8>, align 2		// CHECK-NEXT: [[RETVAL:%.*]] = alloca <8 x i8>, align 2
// CHECK-NEXT: [[ARR:%.*]] = alloca [3 x <8 x i8>], align 2		// CHECK-NEXT: [[ARR:%.*]] = alloca [3 x <8 x i8>], align 2
// CHECK-NEXT: [[PARR:%.]] = alloca <8 x i8>, align 8		// CHECK-NEXT: [[PARR:%.]] = alloca <8 x i8>, align 8
// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 16		// CHECK-NEXT: [[RETVAL_COERCE:%.*]] = alloca <vscale x 16 x i1>, align 2
// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [3 x <8 x i8>], [3 x <8 x i8>] [[ARR]], i64 0, i64 0		// CHECK-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds [3 x <8 x i8>], [3 x <8 x i8>] [[ARR]], i64 0, i64 0
// CHECK-NEXT: store <8 x i8>* [[ARRAYIDX]], <8 x i8>** [[PARR]], align 8		// CHECK-NEXT: store <8 x i8>* [[ARRAYIDX]], <8 x i8>** [[PARR]], align 8
// CHECK-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8>** [[PARR]], align 8		// CHECK-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8>** [[PARR]], align 8
// CHECK-NEXT: [[TMP1:%.]] = load <8 x i8>, <8 x i8> [[TMP0]], align 2		// CHECK-NEXT: [[TMP1:%.]] = load <8 x i8>, <8 x i8> [[TMP0]], align 2
// CHECK-NEXT: store <8 x i8> [[TMP1]], <8 x i8>* [[RETVAL]], align 2		// CHECK-NEXT: store <8 x i8> [[TMP1]], <8 x i8>* [[RETVAL]], align 2
// CHECK-NEXT: [[TMP2:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to i8*		// CHECK-NEXT: [[TMP2:%.]] = bitcast <vscale x 16 x i1> [[RETVAL_COERCE]] to i8*
// CHECK-NEXT: [[TMP3:%.]] = bitcast <8 x i8> [[RETVAL]] to i8*		// CHECK-NEXT: [[TMP3:%.]] = bitcast <8 x i8> [[RETVAL]] to i8*
// CHECK-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 16 [[TMP2]], i8* align 2 [[TMP3]], i64 8, i1 false)		// CHECK-NEXT: call void @llvm.memcpy.p0i8.p0i8.i64(i8* align 2 [[TMP2]], i8* align 2 [[TMP3]], i64 8, i1 false)
// CHECK-NEXT: [[TMP4:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 16		// CHECK-NEXT: [[TMP4:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[RETVAL_COERCE]], align 2
// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP4]]		// CHECK-NEXT: ret <vscale x 16 x i1> [[TMP4]]
//		//
fixed_bool_t address_of_array_idx() {		fixed_bool_t address_of_array_idx() {
fixed_bool_t arr[3];		fixed_bool_t arr[3];
fixed_bool_t *parr;		fixed_bool_t *parr;
parr = &arr[0];		parr = &arr[0];
return *parr;		return *parr;
}		}
▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

clang/test/CodeGen/attr-arm-sve-vector-bits-globals.c

	Show First 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = call <32 x bfloat> @llvm.experimental.vector.extract.v32bf16.nxv8bf16(<vscale x 8 x bfloat> [[V:%.]], i64 0)			// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = call <32 x bfloat> @llvm.experimental.vector.extract.v32bf16.nxv8bf16(<vscale x 8 x bfloat> [[V:%.]], i64 0)
	// CHECK-512-NEXT: store <32 x bfloat> [[CASTFIXEDSVE]], <32 x bfloat>* @global_bf16, align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: store <32 x bfloat> [[CASTFIXEDSVE]], <32 x bfloat>* @global_bf16, align 16, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: ret void			// CHECK-512-NEXT: ret void
	//			//
	void write_global_bf16(svbfloat16_t v) { global_bf16 = v; }			void write_global_bf16(svbfloat16_t v) { global_bf16 = v; }

	// CHECK-128-LABEL: @write_global_bool(			// CHECK-128-LABEL: @write_global_bool(
	// CHECK-128-NEXT: entry:			// CHECK-128-NEXT: entry:
	// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 2
	// CHECK-128-NEXT: store <vscale x 16 x i1> [[V:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-128-NEXT: store <vscale x 16 x i1> [[V:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 2, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <2 x i8>*			// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <2 x i8>*
	// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> [[CASTFIXEDSVE]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* @global_bool, align 2, !tbaa [[TBAA6]]			// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* @global_bool, align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: ret void			// CHECK-128-NEXT: ret void
	//			//
	// CHECK-512-LABEL: @write_global_bool(			// CHECK-512-LABEL: @write_global_bool(
	// CHECK-512-NEXT: entry:			// CHECK-512-NEXT: entry:
	// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 16			// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <vscale x 16 x i1>, align 8
	// CHECK-512-NEXT: store <vscale x 16 x i1> [[V:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 16, !tbaa [[TBAA9:![0-9]+]]			// CHECK-512-NEXT: store <vscale x 16 x i1> [[V:%.]], <vscale x 16 x i1> [[SAVED_VALUE]], align 8, !tbaa [[TBAA9:![0-9]+]]
	// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*			// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <vscale x 16 x i1> [[SAVED_VALUE]] to <8 x i8>*
	// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* @global_bool, align 2, !tbaa [[TBAA6]]			// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* @global_bool, align 2, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: ret void			// CHECK-512-NEXT: ret void
	//			//
	void write_global_bool(svbool_t v) { global_bool = v; }			void write_global_bool(svbool_t v) { global_bool = v; }

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// READS			// READS
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	Show All 23 Lines
	// CHECK-512-NEXT: [[TMP0:%.]] = load <32 x bfloat>, <32 x bfloat> @global_bf16, align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP0:%.]] = load <32 x bfloat>, <32 x bfloat> @global_bf16, align 16, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: [[CASTSCALABLESVE:%.*]] = call <vscale x 8 x bfloat> @llvm.experimental.vector.insert.nxv8bf16.v32bf16(<vscale x 8 x bfloat> undef, <32 x bfloat> [[TMP0]], i64 0)			// CHECK-512-NEXT: [[CASTSCALABLESVE:%.*]] = call <vscale x 8 x bfloat> @llvm.experimental.vector.insert.nxv8bf16.v32bf16(<vscale x 8 x bfloat> undef, <32 x bfloat> [[TMP0]], i64 0)
	// CHECK-512-NEXT: ret <vscale x 8 x bfloat> [[CASTSCALABLESVE]]			// CHECK-512-NEXT: ret <vscale x 8 x bfloat> [[CASTSCALABLESVE]]
	//			//
	svbfloat16_t read_global_bf16() { return global_bf16; }			svbfloat16_t read_global_bf16() { return global_bf16; }

	// CHECK-128-LABEL: @read_global_bool(			// CHECK-128-LABEL: @read_global_bool(
	// CHECK-128-NEXT: entry:			// CHECK-128-NEXT: entry:
	// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <2 x i8>, align 16			// CHECK-128-NEXT: [[SAVED_VALUE:%.*]] = alloca <2 x i8>, align 2
	// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> @global_bool, align 2, !tbaa [[TBAA6]]			// CHECK-128-NEXT: [[TMP0:%.]] = load <2 x i8>, <2 x i8> @global_bool, align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-128-NEXT: store <2 x i8> [[TMP0]], <2 x i8>* [[SAVED_VALUE]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <2 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-128-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <2 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-128-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-128-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 2, !tbaa [[TBAA6]]
	// CHECK-128-NEXT: ret <vscale x 16 x i1> [[TMP1]]			// CHECK-128-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	// CHECK-512-LABEL: @read_global_bool(			// CHECK-512-LABEL: @read_global_bool(
	// CHECK-512-NEXT: entry:			// CHECK-512-NEXT: entry:
	// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 16			// CHECK-512-NEXT: [[SAVED_VALUE:%.*]] = alloca <8 x i8>, align 8
	// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> @global_bool, align 2, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP0:%.]] = load <8 x i8>, <8 x i8> @global_bool, align 2, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[SAVED_VALUE]], align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: store <8 x i8> [[TMP0]], <8 x i8>* [[SAVED_VALUE]], align 8, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*			// CHECK-512-NEXT: [[CASTFIXEDSVE:%.]] = bitcast <8 x i8> [[SAVED_VALUE]] to <vscale x 16 x i1>*
	// CHECK-512-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 16, !tbaa [[TBAA6]]			// CHECK-512-NEXT: [[TMP1:%.]] = load <vscale x 16 x i1>, <vscale x 16 x i1> [[CASTFIXEDSVE]], align 8, !tbaa [[TBAA6]]
	// CHECK-512-NEXT: ret <vscale x 16 x i1> [[TMP1]]			// CHECK-512-NEXT: ret <vscale x 16 x i1> [[TMP1]]
	//			//
	svbool_t read_global_bool() { return global_bool; }			svbool_t read_global_bool() { return global_bool; }

clang/test/CodeGen/builtins-ppc-pair-mma.c

	Show First 20 Lines • Show All 1,106 Lines • ▼ Show 20 Lines
	//			//
	void test70(const __vector_pair vpp, const __vector_pair vp2) {			void test70(const __vector_pair vpp, const __vector_pair vp2) {
	__vector_pair vp = __builtin_vsx_lxvp(42LL, vpp);			__vector_pair vp = __builtin_vsx_lxvp(42LL, vpp);
	__builtin_vsx_stxvp(vp, 42LL, vp2);			__builtin_vsx_stxvp(vp, 42LL, vp2);
	}			}

	// CHECK-LABEL: @test71(			// CHECK-LABEL: @test71(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TMP0:%.]] = getelementptr <256 x i1>, <256 x i1> [[VPP:%.*]], i64 128			// CHECK-NEXT: [[TMP0:%.]] = getelementptr <256 x i1>, <256 x i1> [[VPP:%.*]], i64 1024
	// CHECK-NEXT: [[TMP1:%.]] = bitcast <256 x i1> [[TMP0]] to i8*			// CHECK-NEXT: [[TMP1:%.]] = bitcast <256 x i1> [[TMP0]] to i8*
	// CHECK-NEXT: [[TMP2:%.]] = tail call <256 x i1> @llvm.ppc.vsx.lxvp(i8 [[TMP1]])			// CHECK-NEXT: [[TMP2:%.]] = tail call <256 x i1> @llvm.ppc.vsx.lxvp(i8 [[TMP1]])
	// CHECK-NEXT: [[TMP3:%.]] = getelementptr <256 x i1>, <256 x i1> [[VP2:%.*]], i64 128			// CHECK-NEXT: [[TMP3:%.]] = getelementptr <256 x i1>, <256 x i1> [[VP2:%.*]], i64 1024
	// CHECK-NEXT: [[TMP4:%.]] = bitcast <256 x i1> [[TMP3]] to i8*			// CHECK-NEXT: [[TMP4:%.]] = bitcast <256 x i1> [[TMP3]] to i8*
	// CHECK-NEXT: tail call void @llvm.ppc.vsx.stxvp(<256 x i1> [[TMP2]], i8* [[TMP4]])			// CHECK-NEXT: tail call void @llvm.ppc.vsx.stxvp(<256 x i1> [[TMP2]], i8* [[TMP4]])
	// CHECK-NEXT: ret void			// CHECK-NEXT: ret void
	//			//
	void test71(const __vector_pair vpp, const __vector_pair vp2) {			void test71(const __vector_pair vpp, const __vector_pair vp2) {
	__vector_pair vp = __builtin_vsx_lxvp(32768LL, vpp);			__vector_pair vp = __builtin_vsx_lxvp(32768LL, vpp);
	__builtin_vsx_stxvp(vp, 32768LL, vp2);			__builtin_vsx_stxvp(vp, 32768LL, vp2);
	}			}
	▲ Show 20 Lines • Show All 172 Lines • ▼ Show 20 Lines
	//			//
	void test82(const __vector_pair vpp, const __vector_pair vp2) {			void test82(const __vector_pair vpp, const __vector_pair vp2) {
	__vector_pair vp = __builtin_mma_lxvp(42LL, vpp);			__vector_pair vp = __builtin_mma_lxvp(42LL, vpp);
	__builtin_mma_stxvp(vp, 42LL, vp2);			__builtin_mma_stxvp(vp, 42LL, vp2);
	}			}

	// CHECK-LABEL: @test83(			// CHECK-LABEL: @test83(
	// CHECK-NEXT: entry:			// CHECK-NEXT: entry:
	// CHECK-NEXT: [[TMP0:%.]] = getelementptr <256 x i1>, <256 x i1> [[VPP:%.*]], i64 128			// CHECK-NEXT: [[TMP0:%.]] = getelementptr <256 x i1>, <256 x i1> [[VPP:%.*]], i64 1024
	// CHECK-NEXT: [[TMP1:%.]] = bitcast <256 x i1> [[TMP0]] to i8*			// CHECK-NEXT: [[TMP1:%.]] = bitcast <256 x i1> [[TMP0]] to i8*
	// CHECK-NEXT: [[TMP2:%.]] = tail call <256 x i1> @llvm.ppc.vsx.lxvp(i8 [[TMP1]])			// CHECK-NEXT: [[TMP2:%.]] = tail call <256 x i1> @llvm.ppc.vsx.lxvp(i8 [[TMP1]])
	// CHECK-NEXT: [[TMP3:%.]] = getelementptr <256 x i1>, <256 x i1> [[VP2:%.*]], i64 128			// CHECK-NEXT: [[TMP3:%.]] = getelementptr <256 x i1>, <256 x i1> [[VP2:%.*]], i64 1024
	// CHECK-NEXT: [[TMP4:%.]] = bitcast <256 x i1> [[TMP3]] to i8*			// CHECK-NEXT: [[TMP4:%.]] = bitcast <256 x i1> [[TMP3]] to i8*
	// CHECK-NEXT: tail call void @llvm.ppc.vsx.stxvp(<256 x i1> [[TMP2]], i8* [[TMP4]])			// CHECK-NEXT: tail call void @llvm.ppc.vsx.stxvp(<256 x i1> [[TMP2]], i8* [[TMP4]])
	// CHECK-NEXT: ret void			// CHECK-NEXT: ret void
	//			//
	void test83(const __vector_pair vpp, const __vector_pair vp2) {			void test83(const __vector_pair vpp, const __vector_pair vp2) {
	__vector_pair vp = __builtin_mma_lxvp(32768LL, vpp);			__vector_pair vp = __builtin_mma_lxvp(32768LL, vpp);
	__builtin_mma_stxvp(vp, 32768LL, vp2);			__builtin_mma_stxvp(vp, 32768LL, vp2);
	}			}
	▲ Show 20 Lines • Show All 71 Lines • Show Last 20 Lines

llvm/lib/IR/DataLayout.cpp

Show First 20 Lines • Show All 794 Lines • ▼ Show 20 Lines	case Type::ScalableVectorTyID: {
unsigned BitWidth = getTypeSizeInBits(Ty).getKnownMinSize();		unsigned BitWidth = getTypeSizeInBits(Ty).getKnownMinSize();
auto I = findAlignmentLowerBound(VECTOR_ALIGN, BitWidth);		auto I = findAlignmentLowerBound(VECTOR_ALIGN, BitWidth);
if (I != Alignments.end() && I->AlignType == VECTOR_ALIGN &&		if (I != Alignments.end() && I->AlignType == VECTOR_ALIGN &&
I->TypeBitWidth == BitWidth)		I->TypeBitWidth == BitWidth)
return abi_or_pref ? I->ABIAlign : I->PrefAlign;		return abi_or_pref ? I->ABIAlign : I->PrefAlign;

// By default, use natural alignment for vector types. This is consistent		// By default, use natural alignment for vector types. This is consistent
// with what clang and llvm-gcc do.		// with what clang and llvm-gcc do.
// TODO: This should probably not be using the alloc size.		//
unsigned Alignment =
getTypeAllocSize(cast<VectorType>(Ty)->getElementType());
// We're only calculating a natural alignment, so it doesn't have to be		// We're only calculating a natural alignment, so it doesn't have to be
// based on the full size for scalable vectors. Using the minimum element		// based on the full size for scalable vectors. Using the minimum element
// count should be enough here.		// count should be enough here.
Alignment *= cast<VectorType>(Ty)->getElementCount().getKnownMinValue();		return Align(PowerOf2Ceil(getTypeStoreSize(Ty).getKnownMinSize()));
		csstormqUnsubmitted Not Done Reply Inline Actions Is there any way to set the alignment of fixed vector type to 1 byte rather than a power of 2 by default? csstormq: Is there any way to set the alignment of fixed vector type to 1 byte rather than a power of 2…
Alignment = PowerOf2Ceil(Alignment);
return Align(Alignment);
}		}
case Type::X86_AMXTyID:		case Type::X86_AMXTyID:
return Align(64);		return Align(64);
default:		default:
llvm_unreachable("Bad type for getAlignment!!!");		llvm_unreachable("Bad type for getAlignment!!!");
}		}
}		}

▲ Show 20 Lines • Show All 120 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64SVEInstrInfo.td

Show First 20 Lines • Show All 2,114 Lines • ▼ Show 20 Lines	multiclass unpred_store_predicate<ValueType Ty, Instruction Store> {
def _fi : Pat<(store (Ty PPR:$val), (am_sve_fi GPR64sp:$base, simm9:$offset)),		def _fi : Pat<(store (Ty PPR:$val), (am_sve_fi GPR64sp:$base, simm9:$offset)),
(Store PPR:$val, GPR64sp:$base, simm9:$offset)>;		(Store PPR:$val, GPR64sp:$base, simm9:$offset)>;

def _default : Pat<(store (Ty PPR:$Val), GPR64:$base),		def _default : Pat<(store (Ty PPR:$Val), GPR64:$base),
(Store PPR:$Val, GPR64:$base, (i64 0))>;		(Store PPR:$Val, GPR64:$base, (i64 0))>;
}		}

defm Pat_Store_P16 : unpred_store_predicate<nxv16i1, STR_PXI>;		defm Pat_Store_P16 : unpred_store_predicate<nxv16i1, STR_PXI>;
defm Pat_Store_P8 : unpred_store_predicate<nxv8i1, STR_PXI>;
defm Pat_Store_P4 : unpred_store_predicate<nxv4i1, STR_PXI>;
defm Pat_Store_P2 : unpred_store_predicate<nxv2i1, STR_PXI>;

multiclass unpred_load_predicate<ValueType Ty, Instruction Load> {		multiclass unpred_load_predicate<ValueType Ty, Instruction Load> {
def _fi : Pat<(Ty (load (am_sve_fi GPR64sp:$base, simm9:$offset))),		def _fi : Pat<(Ty (load (am_sve_fi GPR64sp:$base, simm9:$offset))),
(Load GPR64sp:$base, simm9:$offset)>;		(Load GPR64sp:$base, simm9:$offset)>;

def _default : Pat<(Ty (load GPR64:$base)),		def _default : Pat<(Ty (load GPR64:$base)),
(Load GPR64:$base, (i64 0))>;		(Load GPR64:$base, (i64 0))>;
}		}

defm Pat_Load_P16 : unpred_load_predicate<nxv16i1, LDR_PXI>;		defm Pat_Load_P16 : unpred_load_predicate<nxv16i1, LDR_PXI>;
defm Pat_Load_P8 : unpred_load_predicate<nxv8i1, LDR_PXI>;
defm Pat_Load_P4 : unpred_load_predicate<nxv4i1, LDR_PXI>;
defm Pat_Load_P2 : unpred_load_predicate<nxv2i1, LDR_PXI>;

multiclass ld1<Instruction RegRegInst, Instruction RegImmInst, ValueType Ty,		multiclass ld1<Instruction RegRegInst, Instruction RegImmInst, ValueType Ty,
SDPatternOperator Load, ValueType PredTy, ValueType MemVT, ComplexPattern AddrCP> {		SDPatternOperator Load, ValueType PredTy, ValueType MemVT, ComplexPattern AddrCP> {
// reg + reg		// reg + reg
let AddedComplexity = 1 in {		let AddedComplexity = 1 in {
def : Pat<(Ty (Load (PredTy PPR:$gp), (AddrCP GPR64:$base, GPR64:$offset), MemVT)),		def : Pat<(Ty (Load (PredTy PPR:$gp), (AddrCP GPR64:$base, GPR64:$offset), MemVT)),
(RegRegInst PPR:$gp, GPR64sp:$base, GPR64:$offset)>;		(RegRegInst PPR:$gp, GPR64sp:$base, GPR64:$offset)>;
}		}
▲ Show 20 Lines • Show All 830 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/GlobalISel/ret-vec-promote.ll

	; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
	; RUN: llc -mtriple=aarch64-linux-gnu -O0 -global-isel -stop-after=irtranslator -o - %s \| FileCheck %s			; RUN: llc -mtriple=aarch64-linux-gnu -O0 -global-isel -stop-after=irtranslator -o - %s \| FileCheck %s

	; Tests vectors of i1 types can appropriately extended first before return handles it.			; Tests vectors of i1 types can appropriately extended first before return handles it.
	define <4 x i1> @ret_v4i1(<4 x i1> *%v) {			define <4 x i1> @ret_v4i1(<4 x i1> *%v) {
	; CHECK-LABEL: name: ret_v4i1			; CHECK-LABEL: name: ret_v4i1
	; CHECK: bb.1 (%ir-block.0):			; CHECK: bb.1 (%ir-block.0):
	; CHECK: liveins: $x0			; CHECK: liveins: $x0
	; CHECK: [[COPY:%[0-9]+]]:_(p0) = COPY $x0			; CHECK: [[COPY:%[0-9]+]]:_(p0) = COPY $x0
	; CHECK: [[LOAD:%[0-9]+]]:_(<4 x s1>) = G_LOAD [[COPY]](p0) :: (load (<4 x s1>) from %ir.v, align 4)			; CHECK: [[LOAD:%[0-9]+]]:_(<4 x s1>) = G_LOAD [[COPY]](p0) :: (load (<4 x s1>) from %ir.v)
	; CHECK: [[ANYEXT:%[0-9]+]]:_(<4 x s16>) = G_ANYEXT [[LOAD]](<4 x s1>)			; CHECK: [[ANYEXT:%[0-9]+]]:_(<4 x s16>) = G_ANYEXT [[LOAD]](<4 x s1>)
	; CHECK: $d0 = COPY [[ANYEXT]](<4 x s16>)			; CHECK: $d0 = COPY [[ANYEXT]](<4 x s16>)
	; CHECK: RET_ReallyLR implicit $d0			; CHECK: RET_ReallyLR implicit $d0
	%v2 = load <4 x i1>, <4 x i1> *%v			%v2 = load <4 x i1>, <4 x i1> *%v
	ret <4 x i1> %v2			ret <4 x i1> %v2
	}			}

llvm/test/CodeGen/AArch64/spillfill-sve.ll

Show First 20 Lines • Show All 398 Lines • ▼ Show 20 Lines	; CHECK-DAG: st1d { z{{[01]}}.d }, p0, [sp, #1, mul vl]
store volatile <vscale x 2 x double> %v1, <vscale x 2 x double>* %local1		store volatile <vscale x 2 x double> %v1, <vscale x 2 x double>* %local1
ret void		ret void
}		}

; Predicate fills		; Predicate fills

define void @fill_nxv16i1() {		define void @fill_nxv16i1() {
; CHECK-LABEL: fill_nxv16i1		; CHECK-LABEL: fill_nxv16i1
; CHECK-DAG: ldr p{{[01]}}, [sp, #8, mul vl]		; CHECK-DAG: ldr p{{[01]}}, [sp, #7, mul vl]
; CHECK-DAG: ldr p{{[01]}}, [sp]		; CHECK-DAG: ldr p{{[01]}}, [sp, #6, mul vl]
%local0 = alloca <vscale x 16 x i1>		%local0 = alloca <vscale x 16 x i1>
%local1 = alloca <vscale x 16 x i1>		%local1 = alloca <vscale x 16 x i1>
load volatile <vscale x 16 x i1>, <vscale x 16 x i1>* %local0		load volatile <vscale x 16 x i1>, <vscale x 16 x i1>* %local0
load volatile <vscale x 16 x i1>, <vscale x 16 x i1>* %local1		load volatile <vscale x 16 x i1>, <vscale x 16 x i1>* %local1
ret void		ret void
}		}

define void @fill_nxv8i1() {
; CHECK-LABEL: fill_nxv8i1
; CHECK-DAG: ldr p{{[01]}}, [sp, #4, mul vl]
; CHECK-DAG: ldr p{{[01]}}, [sp]
%local0 = alloca <vscale x 8 x i1>
%local1 = alloca <vscale x 8 x i1>
load volatile <vscale x 8 x i1>, <vscale x 8 x i1>* %local0
load volatile <vscale x 8 x i1>, <vscale x 8 x i1>* %local1
ret void
}

define void @fill_nxv4i1() {
; CHECK-LABEL: fill_nxv4i1
; CHECK-DAG: ldr p{{[01]}}, [sp, #6, mul vl]
; CHECK-DAG: ldr p{{[01]}}, [sp, #4, mul vl]
%local0 = alloca <vscale x 4 x i1>
%local1 = alloca <vscale x 4 x i1>
load volatile <vscale x 4 x i1>, <vscale x 4 x i1>* %local0
load volatile <vscale x 4 x i1>, <vscale x 4 x i1>* %local1
ret void
}

define void @fill_nxv2i1() {
; CHECK-LABEL: fill_nxv2i1
; CHECK-DAG: ldr p{{[01]}}, [sp, #7, mul vl]
; CHECK-DAG: ldr p{{[01]}}, [sp, #6, mul vl]
%local0 = alloca <vscale x 2 x i1>
%local1 = alloca <vscale x 2 x i1>
load volatile <vscale x 2 x i1>, <vscale x 2 x i1>* %local0
load volatile <vscale x 2 x i1>, <vscale x 2 x i1>* %local1
ret void
}

; Predicate spills		; Predicate spills

define void @spill_nxv16i1(<vscale x 16 x i1> %v0, <vscale x 16 x i1> %v1) {		define void @spill_nxv16i1(<vscale x 16 x i1> %v0, <vscale x 16 x i1> %v1) {
; CHECK-LABEL: spill_nxv16i1		; CHECK-LABEL: spill_nxv16i1
; CHECK-DAG: str p{{[01]}}, [sp, #8, mul vl]		; CHECK-DAG: str p{{[01]}}, [sp, #7, mul vl]
; CHECK-DAG: str p{{[01]}}, [sp]		; CHECK-DAG: str p{{[01]}}, [sp, #6, mul vl]
%local0 = alloca <vscale x 16 x i1>		%local0 = alloca <vscale x 16 x i1>
%local1 = alloca <vscale x 16 x i1>		%local1 = alloca <vscale x 16 x i1>
store volatile <vscale x 16 x i1> %v0, <vscale x 16 x i1>* %local0		store volatile <vscale x 16 x i1> %v0, <vscale x 16 x i1>* %local0
store volatile <vscale x 16 x i1> %v1, <vscale x 16 x i1>* %local1		store volatile <vscale x 16 x i1> %v1, <vscale x 16 x i1>* %local1
ret void		ret void
}		}

define void @spill_nxv8i1(<vscale x 8 x i1> %v0, <vscale x 8 x i1> %v1) {
; CHECK-LABEL: spill_nxv8i1
; CHECK-DAG: str p{{[01]}}, [sp, #4, mul vl]
; CHECK-DAG: str p{{[01]}}, [sp]
%local0 = alloca <vscale x 8 x i1>
%local1 = alloca <vscale x 8 x i1>
store volatile <vscale x 8 x i1> %v0, <vscale x 8 x i1>* %local0
store volatile <vscale x 8 x i1> %v1, <vscale x 8 x i1>* %local1
ret void
}

define void @spill_nxv4i1(<vscale x 4 x i1> %v0, <vscale x 4 x i1> %v1) {
; CHECK-LABEL: spill_nxv4i1
; CHECK-DAG: str p{{[01]}}, [sp, #6, mul vl]
; CHECK-DAG: str p{{[01]}}, [sp, #4, mul vl]
%local0 = alloca <vscale x 4 x i1>
%local1 = alloca <vscale x 4 x i1>
store volatile <vscale x 4 x i1> %v0, <vscale x 4 x i1>* %local0
store volatile <vscale x 4 x i1> %v1, <vscale x 4 x i1>* %local1
ret void
}

define void @spill_nxv2i1(<vscale x 2 x i1> %v0, <vscale x 2 x i1> %v1) {
; CHECK-LABEL: spill_nxv2i1
; CHECK-DAG: str p{{[01]}}, [sp, #7, mul vl]
; CHECK-DAG: str p{{[01]}}, [sp, #6, mul vl]
%local0 = alloca <vscale x 2 x i1>
%local1 = alloca <vscale x 2 x i1>
store volatile <vscale x 2 x i1> %v0, <vscale x 2 x i1>* %local0
store volatile <vscale x 2 x i1> %v1, <vscale x 2 x i1>* %local1
ret void
}

llvm/test/CodeGen/AArch64/sve-calling-convention-byref.ll

	Show All 37 Lines
	}			}

	; Test that p4 and p5, passed in by reference, are correctly loaded from register x0 and x1.			; Test that p4 and p5, passed in by reference, are correctly loaded from register x0 and x1.
	; i.e. p0 = %p0			; i.e. p0 = %p0
	; :			; :
	; p3 = %p3			; p3 = %p3
	; x0 = &%p4			; x0 = &%p4
	; x1 = &%p5			; x1 = &%p5
	define aarch64_sve_vector_pcs <vscale x 4 x i1> @callee_with_many_svepred_arg(<vscale x 4 x i1> %p0, <vscale x 4 x i1> %p1, <vscale x 4 x i1> %p2, <vscale x 4 x i1> %p3, <vscale x 4 x i1> %p4, <vscale x 4 x i1> %p5) {			define aarch64_sve_vector_pcs <vscale x 16 x i1> @callee_with_many_svepred_arg(<vscale x 16 x i1> %p0, <vscale x 16 x i1> %p1, <vscale x 16 x i1> %p2, <vscale x 16 x i1> %p3, <vscale x 16 x i1> %p4, <vscale x 16 x i1> %p5) {
	; CHECK: name: callee_with_many_svepred_arg			; CHECK: name: callee_with_many_svepred_arg
	; CHECK-DAG: [[BASE:%[0-9]+]]:gpr64common = COPY $x1			; CHECK-DAG: [[BASE:%[0-9]+]]:gpr64common = COPY $x1
	; CHECK-DAG: [[RES:%[0-9]+]]:ppr = LDR_PXI [[BASE]], 0			; CHECK-DAG: [[RES:%[0-9]+]]:ppr = LDR_PXI [[BASE]], 0
	; CHECK-DAG: $p0 = COPY [[RES]]			; CHECK-DAG: $p0 = COPY [[RES]]
	; CHECK: RET_ReallyLR implicit $p0			; CHECK: RET_ReallyLR implicit $p0
	ret <vscale x 4 x i1> %p5			ret <vscale x 16 x i1> %p5
	}			}

	; Test that p4 and p5 are passed by reference.			; Test that p4 and p5 are passed by reference.
	define aarch64_sve_vector_pcs <vscale x 4 x i1> @caller_with_many_svepred_arg(<vscale x 4 x i1> %p) {			define aarch64_sve_vector_pcs <vscale x 16 x i1> @caller_with_many_svepred_arg(<vscale x 16 x i1> %p) {
	; CHECK: name: caller_with_many_svepred_arg			; CHECK: name: caller_with_many_svepred_arg
	; CHECK: stack:			; CHECK: stack:
	; CHECK: - { id: 0, name: '', type: default, offset: 0, size: 1, alignment: 4,			; CHECK: - { id: 0, name: '', type: default, offset: 0, size: 2, alignment: 2,
	; CHECK-NEXT: stack-id: scalable-vector			; CHECK-NEXT: stack-id: scalable-vector
	; CHECK: - { id: 1, name: '', type: default, offset: 0, size: 1, alignment: 4,			; CHECK: - { id: 1, name: '', type: default, offset: 0, size: 2, alignment: 2,
	; CHECK-NEXT: stack-id: scalable-vector			; CHECK-NEXT: stack-id: scalable-vector
	; CHECK-DAG: STR_PXI %{{[0-9]+}}, %stack.0, 0			; CHECK-DAG: STR_PXI %{{[0-9]+}}, %stack.0, 0
	; CHECK-DAG: STR_PXI %{{[0-9]+}}, %stack.1, 0			; CHECK-DAG: STR_PXI %{{[0-9]+}}, %stack.1, 0
	; CHECK-DAG: [[BASE1:%[0-9]+]]:gpr64sp = ADDXri %stack.0, 0			; CHECK-DAG: [[BASE1:%[0-9]+]]:gpr64sp = ADDXri %stack.0, 0
	; CHECK-DAG: [[BASE2:%[0-9]+]]:gpr64sp = ADDXri %stack.1, 0			; CHECK-DAG: [[BASE2:%[0-9]+]]:gpr64sp = ADDXri %stack.1, 0
	; CHECK-DAG: $x0 = COPY [[BASE1]]			; CHECK-DAG: $x0 = COPY [[BASE1]]
	; CHECK-DAG: $x1 = COPY [[BASE2]]			; CHECK-DAG: $x1 = COPY [[BASE2]]
	; CHECK-NEXT: BL @callee_with_many_svepred_arg			; CHECK-NEXT: BL @callee_with_many_svepred_arg
	; CHECK: RET_ReallyLR implicit $p0			; CHECK: RET_ReallyLR implicit $p0
	%ret = call aarch64_sve_vector_pcs <vscale x 4 x i1> @callee_with_many_svepred_arg(<vscale x 4 x i1> %p, <vscale x 4 x i1> %p, <vscale x 4 x i1> %p, <vscale x 4 x i1> %p, <vscale x 4 x i1> %p, <vscale x 4 x i1> %p)			%ret = call aarch64_sve_vector_pcs <vscale x 16 x i1> @callee_with_many_svepred_arg(<vscale x 16 x i1> %p, <vscale x 16 x i1> %p, <vscale x 16 x i1> %p, <vscale x 16 x i1> %p, <vscale x 16 x i1> %p, <vscale x 16 x i1> %p)
	ret <vscale x 4 x i1> %ret			ret <vscale x 16 x i1> %ret
	}			}

	; Test that z8 and z9, passed by reference, are loaded from a location that is passed on the stack.			; Test that z8 and z9, passed by reference, are loaded from a location that is passed on the stack.
	; i.e. x0 = %x0			; i.e. x0 = %x0
	; :			; :
	; x7 = %x7			; x7 = %x7
	; z0 = %z0			; z0 = %z0
	; :			; :
	Show All 38 Lines

llvm/test/CodeGen/AMDGPU/lower-kernargs.ll

Show First 20 Lines • Show All 907 Lines • ▼ Show 20 Lines	;
store volatile i1 %arg1, i1 addrspace(1)* undef		store volatile i1 %arg1, i1 addrspace(1)* undef
store volatile i1 %arg2, i1 addrspace(1)* undef		store volatile i1 %arg2, i1 addrspace(1)* undef
store volatile i1 %arg3, i1 addrspace(1)* undef		store volatile i1 %arg3, i1 addrspace(1)* undef
ret void		ret void
}		}

define amdgpu_kernel void @kern_realign_i1_v3i1(i1 %arg0, <3 x i1> %arg1) #0 {		define amdgpu_kernel void @kern_realign_i1_v3i1(i1 %arg0, <3 x i1> %arg1) #0 {
; HSA-LABEL: @kern_realign_i1_v3i1(		; HSA-LABEL: @kern_realign_i1_v3i1(
; HSA-NEXT: [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(8) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()		; HSA-NEXT: [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(4) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 0		; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 0
; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*		; HSA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*
; HSA-NEXT: [[TMP1:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 16, !invariant.load !0		; HSA-NEXT: [[TMP1:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 16, !invariant.load !0
; HSA-NEXT: [[TMP2:%.*]] = trunc i32 [[TMP1]] to i1		; HSA-NEXT: [[TMP2:%.*]] = trunc i32 [[TMP1]] to i1
; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 4		; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 0
; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*		; HSA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*
; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 4, !invariant.load !0		; HSA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 16, !invariant.load !0
; HSA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i3		; HSA-NEXT: [[TMP4:%.*]] = lshr i32 [[TMP3]], 8
; HSA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i3 [[TMP4]] to <3 x i1>		; HSA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i3
		; HSA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i3 [[TMP5]] to <3 x i1>
; HSA-NEXT: store volatile i1 [[TMP2]], i1 addrspace(1)* undef, align 1		; HSA-NEXT: store volatile i1 [[TMP2]], i1 addrspace(1)* undef, align 1
; HSA-NEXT: store volatile <3 x i1> [[ARG1_LOAD]], <3 x i1> addrspace(1)* undef, align 4		; HSA-NEXT: store volatile <3 x i1> [[ARG1_LOAD]], <3 x i1> addrspace(1)* undef, align 1
; HSA-NEXT: ret void		; HSA-NEXT: ret void
;		;
; MESA-LABEL: @kern_realign_i1_v3i1(		; MESA-LABEL: @kern_realign_i1_v3i1(
; MESA-NEXT: [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(44) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()		; MESA-NEXT: [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT:%.]] = call nonnull align 16 dereferenceable(40) i8 addrspace(4) @llvm.amdgcn.kernarg.segment.ptr()
; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 36		; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 36
; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*		; MESA-NEXT: [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*
; MESA-NEXT: [[TMP1:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 4, !invariant.load !0		; MESA-NEXT: [[TMP1:%.]] = load i32, i32 addrspace(4) [[ARG0_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 4, !invariant.load !0
; MESA-NEXT: [[TMP2:%.*]] = trunc i32 [[TMP1]] to i1		; MESA-NEXT: [[TMP2:%.*]] = trunc i32 [[TMP1]] to i1
; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 40		; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN:%.]] = getelementptr inbounds i8, i8 addrspace(4) [[KERN_REALIGN_I1_V3I1_KERNARG_SEGMENT]], i64 36
; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*		; MESA-NEXT: [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST:%.]] = bitcast i8 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN]] to i32 addrspace(4)*
; MESA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 8, !invariant.load !0		; MESA-NEXT: [[TMP3:%.]] = load i32, i32 addrspace(4) [[ARG1_KERNARG_OFFSET_ALIGN_DOWN_CAST]], align 4, !invariant.load !0
; MESA-NEXT: [[TMP4:%.*]] = trunc i32 [[TMP3]] to i3		; MESA-NEXT: [[TMP4:%.*]] = lshr i32 [[TMP3]], 8
; MESA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i3 [[TMP4]] to <3 x i1>		; MESA-NEXT: [[TMP5:%.*]] = trunc i32 [[TMP4]] to i3
		; MESA-NEXT: [[ARG1_LOAD:%.*]] = bitcast i3 [[TMP5]] to <3 x i1>
; MESA-NEXT: store volatile i1 [[TMP2]], i1 addrspace(1)* undef, align 1		; MESA-NEXT: store volatile i1 [[TMP2]], i1 addrspace(1)* undef, align 1
; MESA-NEXT: store volatile <3 x i1> [[ARG1_LOAD]], <3 x i1> addrspace(1)* undef, align 4		; MESA-NEXT: store volatile <3 x i1> [[ARG1_LOAD]], <3 x i1> addrspace(1)* undef, align 1
; MESA-NEXT: ret void		; MESA-NEXT: ret void
;		;
store volatile i1 %arg0, i1 addrspace(1)* undef		store volatile i1 %arg0, i1 addrspace(1)* undef
store volatile <3 x i1> %arg1, <3 x i1> addrspace(1)* undef		store volatile <3 x i1> %arg1, <3 x i1> addrspace(1)* undef
ret void		ret void
}		}

define amdgpu_kernel void @kern_realign_i1_i16(i1 %arg0, i16 %arg1) #0 {		define amdgpu_kernel void @kern_realign_i1_i16(i1 %arg0, i16 %arg1) #0 {
▲ Show 20 Lines • Show All 969 Lines • Show Last 20 Lines

llvm/test/CodeGen/NVPTX/f16x2-instructions.ll

	Show First 20 Lines • Show All 473 Lines • ▼ Show 20 Lines
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.neu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.neu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.neu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.neu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_une(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_une(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp une <2 x half> %a, %b			%r = fcmp une <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_ueq(			; CHECK-LABEL: test_fcmp_ueq(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ueq_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ueq_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ueq_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ueq_param_1];
	; CHECK-F16: setp.equ.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.equ.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.equ.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.equ.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.equ.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.equ.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ueq(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ueq(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ueq <2 x half> %a, %b			%r = fcmp ueq <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_ugt(			; CHECK-LABEL: test_fcmp_ugt(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ugt_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ugt_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ugt_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ugt_param_1];
	; CHECK-F16: setp.gtu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.gtu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.gtu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.gtu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.gtu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.gtu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ugt(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ugt(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ugt <2 x half> %a, %b			%r = fcmp ugt <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_uge(			; CHECK-LABEL: test_fcmp_uge(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_uge_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_uge_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_uge_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_uge_param_1];
	; CHECK-F16: setp.geu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.geu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.geu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.geu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.geu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.geu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_uge(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_uge(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp uge <2 x half> %a, %b			%r = fcmp uge <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_ult(			; CHECK-LABEL: test_fcmp_ult(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ult_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ult_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ult_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ult_param_1];
	; CHECK-F16: setp.ltu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.ltu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.ltu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.ltu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.ltu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.ltu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ult(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ult(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ult <2 x half> %a, %b			%r = fcmp ult <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_ule(			; CHECK-LABEL: test_fcmp_ule(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ule_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ule_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ule_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ule_param_1];
	; CHECK-F16: setp.leu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.leu.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.leu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.leu.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.leu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.leu.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ule(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ule(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ule <2 x half> %a, %b			%r = fcmp ule <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}


	; CHECK-LABEL: test_fcmp_uno(			; CHECK-LABEL: test_fcmp_uno(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_uno_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_uno_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_uno_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_uno_param_1];
	; CHECK-F16: setp.nan.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.nan.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.nan.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.nan.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.nan.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.nan.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_uno(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_uno(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp uno <2 x half> %a, %b			%r = fcmp uno <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_one(			; CHECK-LABEL: test_fcmp_one(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_one_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_one_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_one_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_one_param_1];
	; CHECK-F16: setp.ne.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.ne.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.ne.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.ne.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.ne.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.ne.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_one(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_one(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp one <2 x half> %a, %b			%r = fcmp one <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_oeq(			; CHECK-LABEL: test_fcmp_oeq(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_oeq_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_oeq_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_oeq_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_oeq_param_1];
	; CHECK-F16: setp.eq.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.eq.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.eq.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.eq.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.eq.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.eq.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_oeq(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_oeq(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp oeq <2 x half> %a, %b			%r = fcmp oeq <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_ogt(			; CHECK-LABEL: test_fcmp_ogt(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ogt_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ogt_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ogt_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ogt_param_1];
	; CHECK-F16: setp.gt.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.gt.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.gt.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.gt.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.gt.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.gt.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ogt(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ogt(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ogt <2 x half> %a, %b			%r = fcmp ogt <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_oge(			; CHECK-LABEL: test_fcmp_oge(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_oge_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_oge_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_oge_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_oge_param_1];
	; CHECK-F16: setp.ge.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.ge.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.ge.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.ge.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.ge.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.ge.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_oge(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_oge(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp oge <2 x half> %a, %b			%r = fcmp oge <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_olt(			; CHECK-LABEL: test_fcmp_olt(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_olt_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_olt_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_olt_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_olt_param_1];
	; CHECK-F16: setp.lt.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.lt.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.lt.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.lt.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.lt.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.lt.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_olt(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_olt(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp olt <2 x half> %a, %b			%r = fcmp olt <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; XCHECK-LABEL: test_fcmp_ole(			; XCHECK-LABEL: test_fcmp_ole(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ole_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ole_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ole_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ole_param_1];
	; CHECK-F16: setp.le.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.le.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.le.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.le.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.le.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.le.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ole(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ole(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ole <2 x half> %a, %b			%r = fcmp ole <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fcmp_ord(			; CHECK-LABEL: test_fcmp_ord(
	; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ord_param_0];			; CHECK-DAG: ld.param.b32 [[A:%hh[0-9]+]], [test_fcmp_ord_param_0];
	; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ord_param_1];			; CHECK-DAG: ld.param.b32 [[B:%hh[0-9]+]], [test_fcmp_ord_param_1];
	; CHECK-F16: setp.num.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]			; CHECK-F16: setp.num.f16x2 [[P0:%p[0-9]+]]\|[[P1:%p[0-9]+]], [[A]], [[B]]
	; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]			; CHECK-NOF16-DAG: mov.b32 {[[A0:%h[0-9]+]], [[A1:%h[0-9]+]]}, [[A]]
	; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]			; CHECK-NOF16-DAG: mov.b32 {[[B0:%h[0-9]+]], [[B1:%h[0-9]+]]}, [[B]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA0:%f[0-9]+]], [[A0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB0:%f[0-9]+]], [[B0]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FA1:%f[0-9]+]], [[A1]]
	; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]			; CHECK-NOF16-DAG: cvt.f32.f16 [[FB1:%f[0-9]+]], [[B1]]
	; CHECK-NOF16-DAG: setp.num.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]			; CHECK-NOF16-DAG: setp.num.f32 [[P0:%p[0-9]+]], [[FA0]], [[FB0]]
	; CHECK-NOF16-DAG: setp.num.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]			; CHECK-NOF16-DAG: setp.num.f32 [[P1:%p[0-9]+]], [[FA1]], [[FB1]]
	; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];			; CHECK-DAG: selp.u16 [[R0:%rs[0-9]+]], -1, 0, [[P0]];
				; CHECK-NEXT: st.param.b8 [func_retval0+0], [[R0]];
	; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];			; CHECK-DAG: selp.u16 [[R1:%rs[0-9]+]], -1, 0, [[P1]];
	; CHECK-NEXT: st.param.v2.b8 [func_retval0+0], {[[R0]], [[R1]]};			; CHECK-NEXT: st.param.b8 [func_retval0+1], [[R1]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <2 x i1> @test_fcmp_ord(<2 x half> %a, <2 x half> %b) #0 {			define <2 x i1> @test_fcmp_ord(<2 x half> %a, <2 x half> %b) #0 {
	%r = fcmp ord <2 x half> %a, %b			%r = fcmp ord <2 x half> %a, %b
	ret <2 x i1> %r			ret <2 x i1> %r
	}			}

	; CHECK-LABEL: test_fptosi_i32(			; CHECK-LABEL: test_fptosi_i32(
	; CHECK: ld.param.b32 [[A:%hh[0-9]+]], [test_fptosi_i32_param_0];			; CHECK: ld.param.b32 [[A:%hh[0-9]+]], [test_fptosi_i32_param_0];
	▲ Show 20 Lines • Show All 675 Lines • Show Last 20 Lines

llvm/test/CodeGen/NVPTX/param-load-store.ll

	Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; CHECK: st.param.b32 [func_retval0+0], [[R]];			; CHECK: st.param.b32 [func_retval0+0], [[R]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define signext i1 @test_i1s(i1 signext %a) {			define signext i1 @test_i1s(i1 signext %a) {
	%r = tail call signext i1 @test_i1s(i1 signext %a);			%r = tail call signext i1 @test_i1s(i1 signext %a);
	ret i1 %r;			ret i1 %r;
	}			}

	; Make sure that i1 loads are vectorized as i8 loads, respecting each element alignment.			; Make sure that i1 loads are vectorized as i8 loads, respecting each element alignment.
	; CHECK: .func (.param .align 4 .b8 func_retval0[4])			; CHECK: .func (.param .align 1 .b8 func_retval0[1])
	; CHECK-LABEL: test_v3i1(			; CHECK-LABEL: test_v3i1(
	; CHECK-NEXT: .param .align 4 .b8 test_v3i1_param_0[4]			; CHECK-NEXT: .param .align 1 .b8 test_v3i1_param_0[1]
	; CHECK-DAG: ld.param.u8 [[E2:%rs[0-9]+]], [test_v3i1_param_0+2];			; CHECK-DAG: ld.param.u8 [[E2:%rs[0-9]+]], [test_v3i1_param_0+2];
	; CHECK-DAG: ld.param.v2.u8 {[[E0:%rs[0-9]+]], [[E1:%rs[0-9]+]]}, [test_v3i1_param_0]			; CHECK-DAG: ld.param.u8 [[E0:%rs[0-9]+]], [test_v3i1_param_0]
	; CHECK: .param .align 4 .b8 param0[4];			; CHECK: .param .align 1 .b8 param0[1];
	; CHECK-DAG: st.param.v2.b8 [param0+0], {[[E0]], [[E1]]};			; CHECK-DAG: st.param.b8 [param0+0], [[E0]];
	; CHECK-DAG: st.param.b8 [param0+2], [[E2]];			; CHECK-DAG: st.param.b8 [param0+2], [[E2]];
	; CHECK: .param .align 4 .b8 retval0[4];			; CHECK: .param .align 1 .b8 retval0[1];
	; CHECK: call.uni (retval0),			; CHECK: call.uni (retval0),
	; CHECK-NEXT: test_v3i1,			; CHECK-NEXT: test_v3i1,
	; CHECK-DAG: ld.param.v2.b8 {[[RE0:%rs[0-9]+]], [[RE1:%rs[0-9]+]]}, [retval0+0];			; CHECK-DAG: ld.param.b8 [[RE0:%rs[0-9]+]], [retval0+0];
	; CHECK-DAG: ld.param.b8 [[RE2:%rs[0-9]+]], [retval0+2];			; CHECK-DAG: ld.param.b8 [[RE2:%rs[0-9]+]], [retval0+2];
	; CHECK-DAG: st.param.v2.b8 [func_retval0+0], {[[RE0]], [[RE1]]}			; CHECK-DAG: st.param.b8 [func_retval0+0], [[RE0]]
	; CHECK-DAG: st.param.b8 [func_retval0+2], [[RE2]];			; CHECK-DAG: st.param.b8 [func_retval0+2], [[RE2]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <3 x i1> @test_v3i1(<3 x i1> %a) {			define <3 x i1> @test_v3i1(<3 x i1> %a) {
	%r = tail call <3 x i1> @test_v3i1(<3 x i1> %a);			%r = tail call <3 x i1> @test_v3i1(<3 x i1> %a);
	ret <3 x i1> %r;			ret <3 x i1> %r;
	}			}

	; CHECK: .func (.param .align 4 .b8 func_retval0[4])			; CHECK: .func (.param .align 1 .b8 func_retval0[1])
	; CHECK-LABEL: test_v4i1(			; CHECK-LABEL: test_v4i1(
	; CHECK-NEXT: .param .align 4 .b8 test_v4i1_param_0[4]			; CHECK-NEXT: .param .align 1 .b8 test_v4i1_param_0[1]
	; CHECK: ld.param.v4.u8 {[[E0:%rs[0-9]+]], [[E1:%rs[0-9]+]], [[E2:%rs[0-9]+]], [[E3:%rs[0-9]+]]}, [test_v4i1_param_0]			; CHECK: ld.param.u8 [[E0:%rs[0-9]+]], [test_v4i1_param_0]
	; CHECK: .param .align 4 .b8 param0[4];			; CHECK: .param .align 1 .b8 param0[1];
	; CHECK: st.param.v4.b8 [param0+0], {[[E0]], [[E1]], [[E2]], [[E3]]};			; CHECK: st.param.b8 [param0+0], [[E0]];
	; CHECK: .param .align 4 .b8 retval0[4];			; CHECK: .param .align 1 .b8 retval0[1];
	; CHECK: call.uni (retval0),			; CHECK: call.uni (retval0),
	; CHECK: test_v4i1,			; CHECK: test_v4i1,
	; CHECK: ld.param.v4.b8 {[[RE0:%rs[0-9]+]], [[RE1:%rs[0-9]+]], [[RE2:%rs[0-9]+]], [[RE3:%rs[0-9]+]]}, [retval0+0];			; CHECK: ld.param.b8 [[RE0:%rs[0-9]+]], [retval0+0];
	; CHECK: st.param.v4.b8 [func_retval0+0], {[[RE0]], [[RE1]], [[RE2]], [[RE3]]};			; CHECK: ld.param.b8 [[RE1:%rs[0-9]+]], [retval0+1];
				; CHECK: ld.param.b8 [[RE2:%rs[0-9]+]], [retval0+2];
				; CHECK: ld.param.b8 [[RE3:%rs[0-9]+]], [retval0+3];
				; CHECK: st.param.b8 [func_retval0+0], [[RE0]];
				; CHECK: st.param.b8 [func_retval0+1], [[RE1]];
				; CHECK: st.param.b8 [func_retval0+2], [[RE2]];
				; CHECK: st.param.b8 [func_retval0+3], [[RE3]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <4 x i1> @test_v4i1(<4 x i1> %a) {			define <4 x i1> @test_v4i1(<4 x i1> %a) {
	%r = tail call <4 x i1> @test_v4i1(<4 x i1> %a);			%r = tail call <4 x i1> @test_v4i1(<4 x i1> %a);
	ret <4 x i1> %r;			ret <4 x i1> %r;
	}			}

	; CHECK: .func (.param .align 8 .b8 func_retval0[8])			; CHECK: .func (.param .align 1 .b8 func_retval0[1])
	; CHECK-LABEL: test_v5i1(			; CHECK-LABEL: test_v5i1(
	; CHECK-NEXT: .param .align 8 .b8 test_v5i1_param_0[8]			; CHECK-NEXT: .param .align 1 .b8 test_v5i1_param_0[1]
	; CHECK-DAG: ld.param.u8 [[E4:%rs[0-9]+]], [test_v5i1_param_0+4];			; CHECK-DAG: ld.param.u8 [[E4:%rs[0-9]+]], [test_v5i1_param_0+4];
	; CHECK-DAG: ld.param.v4.u8 {[[E0:%rs[0-9]+]], [[E1:%rs[0-9]+]], [[E2:%rs[0-9]+]], [[E3:%rs[0-9]+]]}, [test_v5i1_param_0]			; CHECK-DAG: ld.param.u8 [[E0:%rs[0-9]+]], [test_v5i1_param_0]
	; CHECK: .param .align 8 .b8 param0[8];			; CHECK: .param .align 1 .b8 param0[1];
	; CHECK-DAG: st.param.v4.b8 [param0+0], {[[E0]], [[E1]], [[E2]], [[E3]]};			; CHECK-DAG: st.param.b8 [param0+0], [[E0]];
	; CHECK-DAG: st.param.b8 [param0+4], [[E4]];			; CHECK-DAG: st.param.b8 [param0+4], [[E4]];
	; CHECK: .param .align 8 .b8 retval0[8];			; CHECK: .param .align 1 .b8 retval0[1];
	; CHECK: call.uni (retval0),			; CHECK: call.uni (retval0),
	; CHECK-NEXT: test_v5i1,			; CHECK-NEXT: test_v5i1,
	; CHECK-DAG: ld.param.v4.b8 {[[RE0:%rs[0-9]+]], [[RE1:%rs[0-9]+]], [[RE2:%rs[0-9]+]], [[RE3:%rs[0-9]+]]}, [retval0+0];			; CHECK-DAG: ld.param.b8 [[RE0:%rs[0-9]+]], [retval0+0];
	; CHECK-DAG: ld.param.b8 [[RE4:%rs[0-9]+]], [retval0+4];			; CHECK-DAG: ld.param.b8 [[RE4:%rs[0-9]+]], [retval0+4];
	; CHECK-DAG: st.param.v4.b8 [func_retval0+0], {[[RE0]], [[RE1]], [[RE2]], [[RE3]]}			; CHECK-DAG: st.param.b8 [func_retval0+0], [[RE0]]
	; CHECK-DAG: st.param.b8 [func_retval0+4], [[RE4]];			; CHECK-DAG: st.param.b8 [func_retval0+4], [[RE4]];
	; CHECK-NEXT: ret;			; CHECK-NEXT: ret;
	define <5 x i1> @test_v5i1(<5 x i1> %a) {			define <5 x i1> @test_v5i1(<5 x i1> %a) {
	%r = tail call <5 x i1> @test_v5i1(<5 x i1> %a);			%r = tail call <5 x i1> @test_v5i1(<5 x i1> %a);
	ret <5 x i1> %r;			ret <5 x i1> %r;
	}			}

	; Unsigned i8 is loaded directly into 32-bit register.			; Unsigned i8 is loaded directly into 32-bit register.
	▲ Show 20 Lines • Show All 814 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-unaligned.ll

	Show First 20 Lines • Show All 78 Lines • ▼ Show 20 Lines
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: vmerge.vim v25, v25, 1, v0			; RV32-NEXT: vmerge.vim v25, v25, 1, v0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmv.v.i v26, 0			; RV32-NEXT: vmv.v.i v26, 0
	; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV32-NEXT: vslideup.vi v26, v25, 0			; RV32-NEXT: vslideup.vi v26, v25, 0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmsne.vi v25, v26, 0			; RV32-NEXT: vmsne.vi v25, v26, 0
	; RV32-NEXT: addi a0, sp, 14			; RV32-NEXT: addi a0, sp, 15
	; RV32-NEXT: vse1.v v25, (a0)			; RV32-NEXT: vse1.v v25, (a0)
	; RV32-NEXT: lbu a0, 14(sp)			; RV32-NEXT: lbu a0, 15(sp)
	; RV32-NEXT: andi a1, a0, 1			; RV32-NEXT: andi a1, a0, 1
	; RV32-NEXT: beqz a1, .LBB4_2			; RV32-NEXT: beqz a1, .LBB4_2
	; RV32-NEXT: # %bb.1: # %cond.load			; RV32-NEXT: # %bb.1: # %cond.load
	; RV32-NEXT: vsetivli zero, 0, e32, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 0, e32, mf2, ta, mu
	; RV32-NEXT: vmv.x.s a1, v8			; RV32-NEXT: vmv.x.s a1, v8
	; RV32-NEXT: lb a2, 1(a1)			; RV32-NEXT: lb a2, 1(a1)
	; RV32-NEXT: lbu a1, 0(a1)			; RV32-NEXT: lbu a1, 0(a1)
	; RV32-NEXT: slli a2, a2, 8			; RV32-NEXT: slli a2, a2, 8
	Show All 28 Lines
	; RV64-NEXT: vmv.v.i v25, 0			; RV64-NEXT: vmv.v.i v25, 0
	; RV64-NEXT: vmerge.vim v25, v25, 1, v0			; RV64-NEXT: vmerge.vim v25, v25, 1, v0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmv.v.i v26, 0			; RV64-NEXT: vmv.v.i v26, 0
	; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV64-NEXT: vslideup.vi v26, v25, 0			; RV64-NEXT: vslideup.vi v26, v25, 0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmsne.vi v25, v26, 0			; RV64-NEXT: vmsne.vi v25, v26, 0
	; RV64-NEXT: addi a0, sp, 14			; RV64-NEXT: addi a0, sp, 15
	; RV64-NEXT: vse1.v v25, (a0)			; RV64-NEXT: vse1.v v25, (a0)
	; RV64-NEXT: lbu a0, 14(sp)			; RV64-NEXT: lbu a0, 15(sp)
	; RV64-NEXT: andi a1, a0, 1			; RV64-NEXT: andi a1, a0, 1
	; RV64-NEXT: beqz a1, .LBB4_2			; RV64-NEXT: beqz a1, .LBB4_2
	; RV64-NEXT: # %bb.1: # %cond.load			; RV64-NEXT: # %bb.1: # %cond.load
	; RV64-NEXT: vsetivli zero, 0, e64, m1, ta, mu			; RV64-NEXT: vsetivli zero, 0, e64, m1, ta, mu
	; RV64-NEXT: vmv.x.s a1, v8			; RV64-NEXT: vmv.x.s a1, v8
	; RV64-NEXT: lb a2, 1(a1)			; RV64-NEXT: lb a2, 1(a1)
	; RV64-NEXT: lbu a1, 0(a1)			; RV64-NEXT: lbu a1, 0(a1)
	; RV64-NEXT: slli a2, a2, 8			; RV64-NEXT: slli a2, a2, 8
	Show All 34 Lines
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: vmerge.vim v25, v25, 1, v0			; RV32-NEXT: vmerge.vim v25, v25, 1, v0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmv.v.i v26, 0			; RV32-NEXT: vmv.v.i v26, 0
	; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV32-NEXT: vslideup.vi v26, v25, 0			; RV32-NEXT: vslideup.vi v26, v25, 0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmsne.vi v25, v26, 0			; RV32-NEXT: vmsne.vi v25, v26, 0
	; RV32-NEXT: addi a0, sp, 14			; RV32-NEXT: addi a0, sp, 15
	; RV32-NEXT: vse1.v v25, (a0)			; RV32-NEXT: vse1.v v25, (a0)
	; RV32-NEXT: lbu a0, 14(sp)			; RV32-NEXT: lbu a0, 15(sp)
	; RV32-NEXT: andi a1, a0, 1			; RV32-NEXT: andi a1, a0, 1
	; RV32-NEXT: vsetivli zero, 2, e32, m1, ta, mu			; RV32-NEXT: vsetivli zero, 2, e32, m1, ta, mu
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: beqz a1, .LBB5_2			; RV32-NEXT: beqz a1, .LBB5_2
	; RV32-NEXT: # %bb.1: # %cond.load			; RV32-NEXT: # %bb.1: # %cond.load
	; RV32-NEXT: vmv.x.s a1, v8			; RV32-NEXT: vmv.x.s a1, v8
	; RV32-NEXT: lw a2, 4(a1)			; RV32-NEXT: lw a2, 4(a1)
	; RV32-NEXT: lw a1, 0(a1)			; RV32-NEXT: lw a1, 0(a1)
	Show All 28 Lines
	; RV64-NEXT: vmv.v.i v25, 0			; RV64-NEXT: vmv.v.i v25, 0
	; RV64-NEXT: vmerge.vim v25, v25, 1, v0			; RV64-NEXT: vmerge.vim v25, v25, 1, v0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmv.v.i v26, 0			; RV64-NEXT: vmv.v.i v26, 0
	; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV64-NEXT: vslideup.vi v26, v25, 0			; RV64-NEXT: vslideup.vi v26, v25, 0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmsne.vi v25, v26, 0			; RV64-NEXT: vmsne.vi v25, v26, 0
	; RV64-NEXT: addi a0, sp, 14			; RV64-NEXT: addi a0, sp, 15
	; RV64-NEXT: vse1.v v25, (a0)			; RV64-NEXT: vse1.v v25, (a0)
	; RV64-NEXT: lbu a0, 14(sp)			; RV64-NEXT: lbu a0, 15(sp)
	; RV64-NEXT: andi a1, a0, 1			; RV64-NEXT: andi a1, a0, 1
	; RV64-NEXT: beqz a1, .LBB5_2			; RV64-NEXT: beqz a1, .LBB5_2
	; RV64-NEXT: # %bb.1: # %cond.load			; RV64-NEXT: # %bb.1: # %cond.load
	; RV64-NEXT: vsetivli zero, 0, e64, m1, ta, mu			; RV64-NEXT: vsetivli zero, 0, e64, m1, ta, mu
	; RV64-NEXT: vmv.x.s a1, v8			; RV64-NEXT: vmv.x.s a1, v8
	; RV64-NEXT: lwu a2, 4(a1)			; RV64-NEXT: lwu a2, 4(a1)
	; RV64-NEXT: lwu a1, 0(a1)			; RV64-NEXT: lwu a1, 0(a1)
	; RV64-NEXT: slli a2, a2, 32			; RV64-NEXT: slli a2, a2, 32
	Show All 34 Lines
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: vmerge.vim v25, v25, 1, v0			; RV32-NEXT: vmerge.vim v25, v25, 1, v0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmv.v.i v26, 0			; RV32-NEXT: vmv.v.i v26, 0
	; RV32-NEXT: vsetivli zero, 4, e8, mf2, tu, mu			; RV32-NEXT: vsetivli zero, 4, e8, mf2, tu, mu
	; RV32-NEXT: vslideup.vi v26, v25, 0			; RV32-NEXT: vslideup.vi v26, v25, 0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmsne.vi v25, v26, 0			; RV32-NEXT: vmsne.vi v25, v26, 0
	; RV32-NEXT: addi a0, sp, 12			; RV32-NEXT: addi a0, sp, 15
	; RV32-NEXT: vse1.v v25, (a0)			; RV32-NEXT: vse1.v v25, (a0)
	; RV32-NEXT: lbu a0, 12(sp)			; RV32-NEXT: lbu a0, 15(sp)
	; RV32-NEXT: andi a1, a0, 1			; RV32-NEXT: andi a1, a0, 1
	; RV32-NEXT: bnez a1, .LBB6_5			; RV32-NEXT: bnez a1, .LBB6_5
	; RV32-NEXT: # %bb.1: # %else			; RV32-NEXT: # %bb.1: # %else
	; RV32-NEXT: andi a1, a0, 2			; RV32-NEXT: andi a1, a0, 2
	; RV32-NEXT: bnez a1, .LBB6_6			; RV32-NEXT: bnez a1, .LBB6_6
	; RV32-NEXT: .LBB6_2: # %else2			; RV32-NEXT: .LBB6_2: # %else2
	; RV32-NEXT: andi a1, a0, 4			; RV32-NEXT: andi a1, a0, 4
	; RV32-NEXT: bnez a1, .LBB6_7			; RV32-NEXT: bnez a1, .LBB6_7
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	; RV64-NEXT: vmv.v.i v25, 0			; RV64-NEXT: vmv.v.i v25, 0
	; RV64-NEXT: vmerge.vim v25, v25, 1, v0			; RV64-NEXT: vmerge.vim v25, v25, 1, v0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmv.v.i v26, 0			; RV64-NEXT: vmv.v.i v26, 0
	; RV64-NEXT: vsetivli zero, 4, e8, mf2, tu, mu			; RV64-NEXT: vsetivli zero, 4, e8, mf2, tu, mu
	; RV64-NEXT: vslideup.vi v26, v25, 0			; RV64-NEXT: vslideup.vi v26, v25, 0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmsne.vi v25, v26, 0			; RV64-NEXT: vmsne.vi v25, v26, 0
	; RV64-NEXT: addi a0, sp, 12			; RV64-NEXT: addi a0, sp, 15
	; RV64-NEXT: vse1.v v25, (a0)			; RV64-NEXT: vse1.v v25, (a0)
	; RV64-NEXT: lbu a0, 12(sp)			; RV64-NEXT: lbu a0, 15(sp)
	; RV64-NEXT: andi a1, a0, 1			; RV64-NEXT: andi a1, a0, 1
	; RV64-NEXT: bnez a1, .LBB6_5			; RV64-NEXT: bnez a1, .LBB6_5
	; RV64-NEXT: # %bb.1: # %else			; RV64-NEXT: # %bb.1: # %else
	; RV64-NEXT: andi a1, a0, 2			; RV64-NEXT: andi a1, a0, 2
	; RV64-NEXT: bnez a1, .LBB6_6			; RV64-NEXT: bnez a1, .LBB6_6
	; RV64-NEXT: .LBB6_2: # %else2			; RV64-NEXT: .LBB6_2: # %else2
	; RV64-NEXT: andi a1, a0, 4			; RV64-NEXT: andi a1, a0, 4
	; RV64-NEXT: bnez a1, .LBB6_7			; RV64-NEXT: bnez a1, .LBB6_7
	▲ Show 20 Lines • Show All 64 Lines • ▼ Show 20 Lines
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: vmerge.vim v25, v25, 1, v0			; RV32-NEXT: vmerge.vim v25, v25, 1, v0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmv.v.i v26, 0			; RV32-NEXT: vmv.v.i v26, 0
	; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV32-NEXT: vslideup.vi v26, v25, 0			; RV32-NEXT: vslideup.vi v26, v25, 0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmsne.vi v25, v26, 0			; RV32-NEXT: vmsne.vi v25, v26, 0
	; RV32-NEXT: addi a0, sp, 14			; RV32-NEXT: addi a0, sp, 15
	; RV32-NEXT: vse1.v v25, (a0)			; RV32-NEXT: vse1.v v25, (a0)
	; RV32-NEXT: lbu a0, 14(sp)			; RV32-NEXT: lbu a0, 15(sp)
	; RV32-NEXT: andi a1, a0, 1			; RV32-NEXT: andi a1, a0, 1
	; RV32-NEXT: bnez a1, .LBB7_3			; RV32-NEXT: bnez a1, .LBB7_3
	; RV32-NEXT: # %bb.1: # %else			; RV32-NEXT: # %bb.1: # %else
	; RV32-NEXT: andi a0, a0, 2			; RV32-NEXT: andi a0, a0, 2
	; RV32-NEXT: bnez a0, .LBB7_4			; RV32-NEXT: bnez a0, .LBB7_4
	; RV32-NEXT: .LBB7_2: # %else2			; RV32-NEXT: .LBB7_2: # %else2
	; RV32-NEXT: addi sp, sp, 16			; RV32-NEXT: addi sp, sp, 16
	; RV32-NEXT: ret			; RV32-NEXT: ret
	Show All 26 Lines
	; RV64-NEXT: vmv.v.i v25, 0			; RV64-NEXT: vmv.v.i v25, 0
	; RV64-NEXT: vmerge.vim v25, v25, 1, v0			; RV64-NEXT: vmerge.vim v25, v25, 1, v0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmv.v.i v26, 0			; RV64-NEXT: vmv.v.i v26, 0
	; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV64-NEXT: vslideup.vi v26, v25, 0			; RV64-NEXT: vslideup.vi v26, v25, 0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmsne.vi v25, v26, 0			; RV64-NEXT: vmsne.vi v25, v26, 0
	; RV64-NEXT: addi a0, sp, 14			; RV64-NEXT: addi a0, sp, 15
	; RV64-NEXT: vse1.v v25, (a0)			; RV64-NEXT: vse1.v v25, (a0)
	; RV64-NEXT: lbu a0, 14(sp)			; RV64-NEXT: lbu a0, 15(sp)
	; RV64-NEXT: andi a1, a0, 1			; RV64-NEXT: andi a1, a0, 1
	; RV64-NEXT: bnez a1, .LBB7_3			; RV64-NEXT: bnez a1, .LBB7_3
	; RV64-NEXT: # %bb.1: # %else			; RV64-NEXT: # %bb.1: # %else
	; RV64-NEXT: andi a0, a0, 2			; RV64-NEXT: andi a0, a0, 2
	; RV64-NEXT: bnez a0, .LBB7_4			; RV64-NEXT: bnez a0, .LBB7_4
	; RV64-NEXT: .LBB7_2: # %else2			; RV64-NEXT: .LBB7_2: # %else2
	; RV64-NEXT: addi sp, sp, 16			; RV64-NEXT: addi sp, sp, 16
	; RV64-NEXT: ret			; RV64-NEXT: ret
	Show All 35 Lines
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: vmerge.vim v25, v25, 1, v0			; RV32-NEXT: vmerge.vim v25, v25, 1, v0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmv.v.i v26, 0			; RV32-NEXT: vmv.v.i v26, 0
	; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV32-NEXT: vslideup.vi v26, v25, 0			; RV32-NEXT: vslideup.vi v26, v25, 0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmsne.vi v25, v26, 0			; RV32-NEXT: vmsne.vi v25, v26, 0
	; RV32-NEXT: addi a2, sp, 14			; RV32-NEXT: addi a2, sp, 15
	; RV32-NEXT: vse1.v v25, (a2)			; RV32-NEXT: vse1.v v25, (a2)
	; RV32-NEXT: lbu a2, 14(sp)			; RV32-NEXT: lbu a2, 15(sp)
	; RV32-NEXT: andi a3, a2, 1			; RV32-NEXT: andi a3, a2, 1
	; RV32-NEXT: beqz a3, .LBB8_2			; RV32-NEXT: beqz a3, .LBB8_2
	; RV32-NEXT: # %bb.1: # %cond.load			; RV32-NEXT: # %bb.1: # %cond.load
	; RV32-NEXT: lbu a6, 1(a0)			; RV32-NEXT: lbu a6, 1(a0)
	; RV32-NEXT: lbu a7, 0(a0)			; RV32-NEXT: lbu a7, 0(a0)
	; RV32-NEXT: lbu a5, 3(a0)			; RV32-NEXT: lbu a5, 3(a0)
	; RV32-NEXT: lbu a3, 2(a0)			; RV32-NEXT: lbu a3, 2(a0)
	; RV32-NEXT: slli a4, a6, 8			; RV32-NEXT: slli a4, a6, 8
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; RV64-NEXT: vmv.v.i v25, 0			; RV64-NEXT: vmv.v.i v25, 0
	; RV64-NEXT: vmerge.vim v25, v25, 1, v0			; RV64-NEXT: vmerge.vim v25, v25, 1, v0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmv.v.i v26, 0			; RV64-NEXT: vmv.v.i v26, 0
	; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV64-NEXT: vslideup.vi v26, v25, 0			; RV64-NEXT: vslideup.vi v26, v25, 0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmsne.vi v25, v26, 0			; RV64-NEXT: vmsne.vi v25, v26, 0
	; RV64-NEXT: addi a2, sp, 14			; RV64-NEXT: addi a2, sp, 15
	; RV64-NEXT: vse1.v v25, (a2)			; RV64-NEXT: vse1.v v25, (a2)
	; RV64-NEXT: lbu a2, 14(sp)			; RV64-NEXT: lbu a2, 15(sp)
	; RV64-NEXT: andi a3, a2, 1			; RV64-NEXT: andi a3, a2, 1
	; RV64-NEXT: beqz a3, .LBB8_2			; RV64-NEXT: beqz a3, .LBB8_2
	; RV64-NEXT: # %bb.1: # %cond.load			; RV64-NEXT: # %bb.1: # %cond.load
	; RV64-NEXT: lbu a6, 1(a0)			; RV64-NEXT: lbu a6, 1(a0)
	; RV64-NEXT: lbu a7, 0(a0)			; RV64-NEXT: lbu a7, 0(a0)
	; RV64-NEXT: lb a5, 3(a0)			; RV64-NEXT: lb a5, 3(a0)
	; RV64-NEXT: lbu a3, 2(a0)			; RV64-NEXT: lbu a3, 2(a0)
	; RV64-NEXT: slli a4, a6, 8			; RV64-NEXT: slli a4, a6, 8
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	; RV32-NEXT: vmv.v.i v25, 0			; RV32-NEXT: vmv.v.i v25, 0
	; RV32-NEXT: vmerge.vim v25, v25, 1, v0			; RV32-NEXT: vmerge.vim v25, v25, 1, v0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmv.v.i v26, 0			; RV32-NEXT: vmv.v.i v26, 0
	; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV32-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV32-NEXT: vslideup.vi v26, v25, 0			; RV32-NEXT: vslideup.vi v26, v25, 0
	; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV32-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV32-NEXT: vmsne.vi v25, v26, 0			; RV32-NEXT: vmsne.vi v25, v26, 0
	; RV32-NEXT: addi a1, sp, 14			; RV32-NEXT: addi a1, sp, 15
	; RV32-NEXT: vse1.v v25, (a1)			; RV32-NEXT: vse1.v v25, (a1)
	; RV32-NEXT: lbu a1, 14(sp)			; RV32-NEXT: lbu a1, 15(sp)
	; RV32-NEXT: andi a2, a1, 1			; RV32-NEXT: andi a2, a1, 1
	; RV32-NEXT: bnez a2, .LBB9_3			; RV32-NEXT: bnez a2, .LBB9_3
	; RV32-NEXT: # %bb.1: # %else			; RV32-NEXT: # %bb.1: # %else
	; RV32-NEXT: andi a1, a1, 2			; RV32-NEXT: andi a1, a1, 2
	; RV32-NEXT: bnez a1, .LBB9_4			; RV32-NEXT: bnez a1, .LBB9_4
	; RV32-NEXT: .LBB9_2: # %else2			; RV32-NEXT: .LBB9_2: # %else2
	; RV32-NEXT: addi sp, sp, 16			; RV32-NEXT: addi sp, sp, 16
	; RV32-NEXT: ret			; RV32-NEXT: ret
	Show All 24 Lines
	; RV64-NEXT: vmv.v.i v25, 0			; RV64-NEXT: vmv.v.i v25, 0
	; RV64-NEXT: vmerge.vim v25, v25, 1, v0			; RV64-NEXT: vmerge.vim v25, v25, 1, v0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmv.v.i v26, 0			; RV64-NEXT: vmv.v.i v26, 0
	; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu			; RV64-NEXT: vsetivli zero, 2, e8, mf2, tu, mu
	; RV64-NEXT: vslideup.vi v26, v25, 0			; RV64-NEXT: vslideup.vi v26, v25, 0
	; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu			; RV64-NEXT: vsetivli zero, 8, e8, mf2, ta, mu
	; RV64-NEXT: vmsne.vi v25, v26, 0			; RV64-NEXT: vmsne.vi v25, v26, 0
	; RV64-NEXT: addi a1, sp, 14			; RV64-NEXT: addi a1, sp, 15
	; RV64-NEXT: vse1.v v25, (a1)			; RV64-NEXT: vse1.v v25, (a1)
	; RV64-NEXT: lbu a1, 14(sp)			; RV64-NEXT: lbu a1, 15(sp)
	; RV64-NEXT: andi a2, a1, 1			; RV64-NEXT: andi a2, a1, 1
	; RV64-NEXT: bnez a2, .LBB9_3			; RV64-NEXT: bnez a2, .LBB9_3
	; RV64-NEXT: # %bb.1: # %else			; RV64-NEXT: # %bb.1: # %else
	; RV64-NEXT: andi a1, a1, 2			; RV64-NEXT: andi a1, a1, 2
	; RV64-NEXT: bnez a1, .LBB9_4			; RV64-NEXT: bnez a1, .LBB9_4
	; RV64-NEXT: .LBB9_2: # %else2			; RV64-NEXT: .LBB9_2: # %else2
	; RV64-NEXT: addi sp, sp, 16			; RV64-NEXT: addi sp, sp, 16
	; RV64-NEXT: ret			; RV64-NEXT: ret
	Show All 21 Lines

llvm/test/CodeGen/Thumb2/mve-masked-ldst.ll

Show First 20 Lines • Show All 814 Lines • ▼ Show 20 Lines	entry:
ret void		ret void
}		}

define void @foo_v4f32_v4f16(<4 x float> %dest, <4 x i16> %mask, <4 x half> *%src) {		define void @foo_v4f32_v4f16(<4 x float> %dest, <4 x i16> %mask, <4 x half> *%src) {
; CHECK-LE-LABEL: foo_v4f32_v4f16:		; CHECK-LE-LABEL: foo_v4f32_v4f16:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .save {r7, lr}		; CHECK-LE-NEXT: .save {r7, lr}
; CHECK-LE-NEXT: push {r7, lr}		; CHECK-LE-NEXT: push {r7, lr}
; CHECK-LE-NEXT: .pad #8		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: sub sp, #8		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: vldrh.s32 q0, [r1]		; CHECK-LE-NEXT: vldrh.s32 q0, [r1]
; CHECK-LE-NEXT: vcmp.s32 gt, q0, zr		; CHECK-LE-NEXT: vcmp.s32 gt, q0, zr
; CHECK-LE-NEXT: @ implicit-def: $q0		; CHECK-LE-NEXT: @ implicit-def: $q0
; CHECK-LE-NEXT: vmrs lr, p0		; CHECK-LE-NEXT: vmrs lr, p0
; CHECK-LE-NEXT: and r1, lr, #1		; CHECK-LE-NEXT: and r1, lr, #1
; CHECK-LE-NEXT: ubfx r3, lr, #4, #1		; CHECK-LE-NEXT: ubfx r3, lr, #4, #1
; CHECK-LE-NEXT: rsb.w r12, r1, #0		; CHECK-LE-NEXT: rsb.w r12, r1, #0
; CHECK-LE-NEXT: movs r1, #0		; CHECK-LE-NEXT: movs r1, #0
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; CHECK-LE-NEXT: lsls r2, r1, #29		; CHECK-LE-NEXT: lsls r2, r1, #29
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: vmovmi r2, s6		; CHECK-LE-NEXT: vmovmi r2, s6
; CHECK-LE-NEXT: strmi r2, [r0, #8]		; CHECK-LE-NEXT: strmi r2, [r0, #8]
; CHECK-LE-NEXT: lsls r1, r1, #28		; CHECK-LE-NEXT: lsls r1, r1, #28
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: vmovmi r1, s7		; CHECK-LE-NEXT: vmovmi r1, s7
; CHECK-LE-NEXT: strmi r1, [r0, #12]		; CHECK-LE-NEXT: strmi r1, [r0, #12]
; CHECK-LE-NEXT: add sp, #8		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: pop {r7, pc}		; CHECK-LE-NEXT: pop {r7, pc}
; CHECK-LE-NEXT: .LBB18_6: @ %cond.load		; CHECK-LE-NEXT: .LBB18_6: @ %cond.load
; CHECK-LE-NEXT: vldr.16 s0, [r2]		; CHECK-LE-NEXT: vldr.16 s0, [r2]
; CHECK-LE-NEXT: lsls r3, r1, #30		; CHECK-LE-NEXT: lsls r3, r1, #30
; CHECK-LE-NEXT: bpl .LBB18_2		; CHECK-LE-NEXT: bpl .LBB18_2
; CHECK-LE-NEXT: .LBB18_7: @ %cond.load1		; CHECK-LE-NEXT: .LBB18_7: @ %cond.load1
; CHECK-LE-NEXT: vldr.16 s4, [r2, #2]		; CHECK-LE-NEXT: vldr.16 s4, [r2, #2]
; CHECK-LE-NEXT: vins.f16 s0, s4		; CHECK-LE-NEXT: vins.f16 s0, s4
; CHECK-LE-NEXT: lsls r3, r1, #29		; CHECK-LE-NEXT: lsls r3, r1, #29
; CHECK-LE-NEXT: bpl .LBB18_3		; CHECK-LE-NEXT: bpl .LBB18_3
; CHECK-LE-NEXT: .LBB18_8: @ %cond.load4		; CHECK-LE-NEXT: .LBB18_8: @ %cond.load4
; CHECK-LE-NEXT: vmovx.f16 s4, s1		; CHECK-LE-NEXT: vmovx.f16 s4, s1
; CHECK-LE-NEXT: vldr.16 s1, [r2, #4]		; CHECK-LE-NEXT: vldr.16 s1, [r2, #4]
; CHECK-LE-NEXT: vins.f16 s1, s4		; CHECK-LE-NEXT: vins.f16 s1, s4
; CHECK-LE-NEXT: lsls r1, r1, #28		; CHECK-LE-NEXT: lsls r1, r1, #28
; CHECK-LE-NEXT: bmi .LBB18_4		; CHECK-LE-NEXT: bmi .LBB18_4
; CHECK-LE-NEXT: b .LBB18_5		; CHECK-LE-NEXT: b .LBB18_5
;		;
; CHECK-BE-LABEL: foo_v4f32_v4f16:		; CHECK-BE-LABEL: foo_v4f32_v4f16:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .save {r7, lr}		; CHECK-BE-NEXT: .save {r7, lr}
; CHECK-BE-NEXT: push {r7, lr}		; CHECK-BE-NEXT: push {r7, lr}
; CHECK-BE-NEXT: .pad #8		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: sub sp, #8		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: vldrh.s32 q0, [r1]		; CHECK-BE-NEXT: vldrh.s32 q0, [r1]
; CHECK-BE-NEXT: vcmp.s32 gt, q0, zr		; CHECK-BE-NEXT: vcmp.s32 gt, q0, zr
; CHECK-BE-NEXT: @ implicit-def: $q0		; CHECK-BE-NEXT: @ implicit-def: $q0
; CHECK-BE-NEXT: vmrs lr, p0		; CHECK-BE-NEXT: vmrs lr, p0
; CHECK-BE-NEXT: ubfx r1, lr, #12, #1		; CHECK-BE-NEXT: ubfx r1, lr, #12, #1
; CHECK-BE-NEXT: ubfx r3, lr, #8, #1		; CHECK-BE-NEXT: ubfx r3, lr, #8, #1
; CHECK-BE-NEXT: rsb.w r12, r1, #0		; CHECK-BE-NEXT: rsb.w r12, r1, #0
; CHECK-BE-NEXT: movs r1, #0		; CHECK-BE-NEXT: movs r1, #0
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; CHECK-BE-NEXT: lsls r2, r1, #30		; CHECK-BE-NEXT: lsls r2, r1, #30
; CHECK-BE-NEXT: itt mi		; CHECK-BE-NEXT: itt mi
; CHECK-BE-NEXT: vmovmi r2, s6		; CHECK-BE-NEXT: vmovmi r2, s6
; CHECK-BE-NEXT: strmi r2, [r0, #8]		; CHECK-BE-NEXT: strmi r2, [r0, #8]
; CHECK-BE-NEXT: lsls r1, r1, #31		; CHECK-BE-NEXT: lsls r1, r1, #31
; CHECK-BE-NEXT: itt ne		; CHECK-BE-NEXT: itt ne
; CHECK-BE-NEXT: vmovne r1, s7		; CHECK-BE-NEXT: vmovne r1, s7
; CHECK-BE-NEXT: strne r1, [r0, #12]		; CHECK-BE-NEXT: strne r1, [r0, #12]
; CHECK-BE-NEXT: add sp, #8		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: pop {r7, pc}		; CHECK-BE-NEXT: pop {r7, pc}
; CHECK-BE-NEXT: .LBB18_6: @ %cond.load		; CHECK-BE-NEXT: .LBB18_6: @ %cond.load
; CHECK-BE-NEXT: vldr.16 s0, [r2]		; CHECK-BE-NEXT: vldr.16 s0, [r2]
; CHECK-BE-NEXT: lsls r3, r1, #29		; CHECK-BE-NEXT: lsls r3, r1, #29
; CHECK-BE-NEXT: bpl .LBB18_2		; CHECK-BE-NEXT: bpl .LBB18_2
; CHECK-BE-NEXT: .LBB18_7: @ %cond.load1		; CHECK-BE-NEXT: .LBB18_7: @ %cond.load1
; CHECK-BE-NEXT: vldr.16 s4, [r2, #2]		; CHECK-BE-NEXT: vldr.16 s4, [r2, #2]
; CHECK-BE-NEXT: vins.f16 s0, s4		; CHECK-BE-NEXT: vins.f16 s0, s4
Show All 15 Lines	entry:
ret void		ret void
}		}

define void @foo_v4f32_v4f16_unaligned(<4 x float> %dest, <4 x i16> %mask, <4 x half> *%src) {		define void @foo_v4f32_v4f16_unaligned(<4 x float> %dest, <4 x i16> %mask, <4 x half> *%src) {
; CHECK-LE-LABEL: foo_v4f32_v4f16_unaligned:		; CHECK-LE-LABEL: foo_v4f32_v4f16_unaligned:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .save {r7, lr}		; CHECK-LE-NEXT: .save {r7, lr}
; CHECK-LE-NEXT: push {r7, lr}		; CHECK-LE-NEXT: push {r7, lr}
; CHECK-LE-NEXT: .pad #8		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: sub sp, #8		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: vldrh.s32 q0, [r1]		; CHECK-LE-NEXT: vldrh.s32 q0, [r1]
; CHECK-LE-NEXT: vcmp.s32 gt, q0, zr		; CHECK-LE-NEXT: vcmp.s32 gt, q0, zr
; CHECK-LE-NEXT: @ implicit-def: $q0		; CHECK-LE-NEXT: @ implicit-def: $q0
; CHECK-LE-NEXT: vmrs lr, p0		; CHECK-LE-NEXT: vmrs lr, p0
; CHECK-LE-NEXT: and r1, lr, #1		; CHECK-LE-NEXT: and r1, lr, #1
; CHECK-LE-NEXT: ubfx r3, lr, #4, #1		; CHECK-LE-NEXT: ubfx r3, lr, #4, #1
; CHECK-LE-NEXT: rsb.w r12, r1, #0		; CHECK-LE-NEXT: rsb.w r12, r1, #0
; CHECK-LE-NEXT: movs r1, #0		; CHECK-LE-NEXT: movs r1, #0
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; CHECK-LE-NEXT: lsls r2, r1, #29		; CHECK-LE-NEXT: lsls r2, r1, #29
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: vmovmi r2, s6		; CHECK-LE-NEXT: vmovmi r2, s6
; CHECK-LE-NEXT: strmi r2, [r0, #8]		; CHECK-LE-NEXT: strmi r2, [r0, #8]
; CHECK-LE-NEXT: lsls r1, r1, #28		; CHECK-LE-NEXT: lsls r1, r1, #28
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: vmovmi r1, s7		; CHECK-LE-NEXT: vmovmi r1, s7
; CHECK-LE-NEXT: strmi r1, [r0, #12]		; CHECK-LE-NEXT: strmi r1, [r0, #12]
; CHECK-LE-NEXT: add sp, #8		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: pop {r7, pc}		; CHECK-LE-NEXT: pop {r7, pc}
; CHECK-LE-NEXT: .LBB19_6: @ %cond.load		; CHECK-LE-NEXT: .LBB19_6: @ %cond.load
; CHECK-LE-NEXT: vldr.16 s0, [r2]		; CHECK-LE-NEXT: vldr.16 s0, [r2]
; CHECK-LE-NEXT: lsls r3, r1, #30		; CHECK-LE-NEXT: lsls r3, r1, #30
; CHECK-LE-NEXT: bpl .LBB19_2		; CHECK-LE-NEXT: bpl .LBB19_2
; CHECK-LE-NEXT: .LBB19_7: @ %cond.load1		; CHECK-LE-NEXT: .LBB19_7: @ %cond.load1
; CHECK-LE-NEXT: vldr.16 s4, [r2, #2]		; CHECK-LE-NEXT: vldr.16 s4, [r2, #2]
; CHECK-LE-NEXT: vins.f16 s0, s4		; CHECK-LE-NEXT: vins.f16 s0, s4
; CHECK-LE-NEXT: lsls r3, r1, #29		; CHECK-LE-NEXT: lsls r3, r1, #29
; CHECK-LE-NEXT: bpl .LBB19_3		; CHECK-LE-NEXT: bpl .LBB19_3
; CHECK-LE-NEXT: .LBB19_8: @ %cond.load4		; CHECK-LE-NEXT: .LBB19_8: @ %cond.load4
; CHECK-LE-NEXT: vmovx.f16 s4, s1		; CHECK-LE-NEXT: vmovx.f16 s4, s1
; CHECK-LE-NEXT: vldr.16 s1, [r2, #4]		; CHECK-LE-NEXT: vldr.16 s1, [r2, #4]
; CHECK-LE-NEXT: vins.f16 s1, s4		; CHECK-LE-NEXT: vins.f16 s1, s4
; CHECK-LE-NEXT: lsls r1, r1, #28		; CHECK-LE-NEXT: lsls r1, r1, #28
; CHECK-LE-NEXT: bmi .LBB19_4		; CHECK-LE-NEXT: bmi .LBB19_4
; CHECK-LE-NEXT: b .LBB19_5		; CHECK-LE-NEXT: b .LBB19_5
;		;
; CHECK-BE-LABEL: foo_v4f32_v4f16_unaligned:		; CHECK-BE-LABEL: foo_v4f32_v4f16_unaligned:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .save {r7, lr}		; CHECK-BE-NEXT: .save {r7, lr}
; CHECK-BE-NEXT: push {r7, lr}		; CHECK-BE-NEXT: push {r7, lr}
; CHECK-BE-NEXT: .pad #8		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: sub sp, #8		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: vldrh.s32 q0, [r1]		; CHECK-BE-NEXT: vldrh.s32 q0, [r1]
; CHECK-BE-NEXT: vcmp.s32 gt, q0, zr		; CHECK-BE-NEXT: vcmp.s32 gt, q0, zr
; CHECK-BE-NEXT: @ implicit-def: $q0		; CHECK-BE-NEXT: @ implicit-def: $q0
; CHECK-BE-NEXT: vmrs lr, p0		; CHECK-BE-NEXT: vmrs lr, p0
; CHECK-BE-NEXT: ubfx r1, lr, #12, #1		; CHECK-BE-NEXT: ubfx r1, lr, #12, #1
; CHECK-BE-NEXT: ubfx r3, lr, #8, #1		; CHECK-BE-NEXT: ubfx r3, lr, #8, #1
; CHECK-BE-NEXT: rsb.w r12, r1, #0		; CHECK-BE-NEXT: rsb.w r12, r1, #0
; CHECK-BE-NEXT: movs r1, #0		; CHECK-BE-NEXT: movs r1, #0
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
; CHECK-BE-NEXT: lsls r2, r1, #30		; CHECK-BE-NEXT: lsls r2, r1, #30
; CHECK-BE-NEXT: itt mi		; CHECK-BE-NEXT: itt mi
; CHECK-BE-NEXT: vmovmi r2, s6		; CHECK-BE-NEXT: vmovmi r2, s6
; CHECK-BE-NEXT: strmi r2, [r0, #8]		; CHECK-BE-NEXT: strmi r2, [r0, #8]
; CHECK-BE-NEXT: lsls r1, r1, #31		; CHECK-BE-NEXT: lsls r1, r1, #31
; CHECK-BE-NEXT: itt ne		; CHECK-BE-NEXT: itt ne
; CHECK-BE-NEXT: vmovne r1, s7		; CHECK-BE-NEXT: vmovne r1, s7
; CHECK-BE-NEXT: strne r1, [r0, #12]		; CHECK-BE-NEXT: strne r1, [r0, #12]
; CHECK-BE-NEXT: add sp, #8		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: pop {r7, pc}		; CHECK-BE-NEXT: pop {r7, pc}
; CHECK-BE-NEXT: .LBB19_6: @ %cond.load		; CHECK-BE-NEXT: .LBB19_6: @ %cond.load
; CHECK-BE-NEXT: vldr.16 s0, [r2]		; CHECK-BE-NEXT: vldr.16 s0, [r2]
; CHECK-BE-NEXT: lsls r3, r1, #29		; CHECK-BE-NEXT: lsls r3, r1, #29
; CHECK-BE-NEXT: bpl .LBB19_2		; CHECK-BE-NEXT: bpl .LBB19_2
; CHECK-BE-NEXT: .LBB19_7: @ %cond.load1		; CHECK-BE-NEXT: .LBB19_7: @ %cond.load1
; CHECK-BE-NEXT: vldr.16 s4, [r2, #2]		; CHECK-BE-NEXT: vldr.16 s4, [r2, #2]
; CHECK-BE-NEXT: vins.f16 s0, s4		; CHECK-BE-NEXT: vins.f16 s0, s4
Show All 38 Lines

llvm/test/CodeGen/Thumb2/mve-masked-load.ll

Show First 20 Lines • Show All 551 Lines • ▼ Show 20 Lines	entry:
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%l = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %dest, i32 2, <8 x i1> %c, <8 x i16> undef)		%l = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %dest, i32 2, <8 x i1> %c, <8 x i16> undef)
ret <8 x i16> %l		ret <8 x i16> %l
}		}

define arm_aapcs_vfpcc <8 x i16> @masked_v8i16_align1_undef(<8 x i16> *%dest, <8 x i16> %a) {		define arm_aapcs_vfpcc <8 x i16> @masked_v8i16_align1_undef(<8 x i16> *%dest, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8i16_align1_undef:		; CHECK-LE-LABEL: masked_v8i16_align1_undef:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .pad #8		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: sub sp, #8		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: vcmp.s16 gt, q0, zr		; CHECK-LE-NEXT: vcmp.s16 gt, q0, zr
; CHECK-LE-NEXT: @ implicit-def: $q0		; CHECK-LE-NEXT: @ implicit-def: $q0
; CHECK-LE-NEXT: vmrs r1, p0		; CHECK-LE-NEXT: vmrs r1, p0
; CHECK-LE-NEXT: and r2, r1, #1		; CHECK-LE-NEXT: and r2, r1, #1
; CHECK-LE-NEXT: rsbs r3, r2, #0		; CHECK-LE-NEXT: rsbs r3, r2, #0
; CHECK-LE-NEXT: movs r2, #0		; CHECK-LE-NEXT: movs r2, #0
; CHECK-LE-NEXT: bfi r2, r3, #0, #1		; CHECK-LE-NEXT: bfi r2, r3, #0, #1
; CHECK-LE-NEXT: ubfx r3, r1, #2, #1		; CHECK-LE-NEXT: ubfx r3, r1, #2, #1
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; CHECK-LE-NEXT: lsls r2, r1, #25		; CHECK-LE-NEXT: lsls r2, r1, #25
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: ldrhmi r2, [r0, #12]		; CHECK-LE-NEXT: ldrhmi r2, [r0, #12]
; CHECK-LE-NEXT: vmovmi.16 q0[6], r2		; CHECK-LE-NEXT: vmovmi.16 q0[6], r2
; CHECK-LE-NEXT: lsls r1, r1, #24		; CHECK-LE-NEXT: lsls r1, r1, #24
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: ldrhmi r0, [r0, #14]		; CHECK-LE-NEXT: ldrhmi r0, [r0, #14]
; CHECK-LE-NEXT: vmovmi.16 q0[7], r0		; CHECK-LE-NEXT: vmovmi.16 q0[7], r0
; CHECK-LE-NEXT: add sp, #8		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8i16_align1_undef:		; CHECK-BE-LABEL: masked_v8i16_align1_undef:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .pad #8		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: sub sp, #8		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vcmp.s16 gt, q1, zr		; CHECK-BE-NEXT: vcmp.s16 gt, q1, zr
; CHECK-BE-NEXT: @ implicit-def: $q1		; CHECK-BE-NEXT: @ implicit-def: $q1
; CHECK-BE-NEXT: vmrs r1, p0		; CHECK-BE-NEXT: vmrs r1, p0
; CHECK-BE-NEXT: ubfx r2, r1, #14, #1		; CHECK-BE-NEXT: ubfx r2, r1, #14, #1
; CHECK-BE-NEXT: rsbs r3, r2, #0		; CHECK-BE-NEXT: rsbs r3, r2, #0
; CHECK-BE-NEXT: movs r2, #0		; CHECK-BE-NEXT: movs r2, #0
; CHECK-BE-NEXT: bfi r2, r3, #0, #1		; CHECK-BE-NEXT: bfi r2, r3, #0, #1
▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
; CHECK-BE-NEXT: itt mi		; CHECK-BE-NEXT: itt mi
; CHECK-BE-NEXT: ldrhmi r2, [r0, #12]		; CHECK-BE-NEXT: ldrhmi r2, [r0, #12]
; CHECK-BE-NEXT: vmovmi.16 q1[6], r2		; CHECK-BE-NEXT: vmovmi.16 q1[6], r2
; CHECK-BE-NEXT: lsls r1, r1, #31		; CHECK-BE-NEXT: lsls r1, r1, #31
; CHECK-BE-NEXT: itt ne		; CHECK-BE-NEXT: itt ne
; CHECK-BE-NEXT: ldrhne r0, [r0, #14]		; CHECK-BE-NEXT: ldrhne r0, [r0, #14]
; CHECK-BE-NEXT: vmovne.16 q1[7], r0		; CHECK-BE-NEXT: vmovne.16 q1[7], r0
; CHECK-BE-NEXT: vrev64.16 q0, q1		; CHECK-BE-NEXT: vrev64.16 q0, q1
; CHECK-BE-NEXT: add sp, #8		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%l = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %dest, i32 1, <8 x i1> %c, <8 x i16> undef)		%l = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %dest, i32 1, <8 x i1> %c, <8 x i16> undef)
ret <8 x i16> %l		ret <8 x i16> %l
}		}

define arm_aapcs_vfpcc <8 x i16> @masked_v8i16_align4_other(<8 x i16> *%dest, <8 x i16> %a) {		define arm_aapcs_vfpcc <8 x i16> @masked_v8i16_align4_other(<8 x i16> *%dest, <8 x i16> %a) {
▲ Show 20 Lines • Show All 726 Lines • ▼ Show 20 Lines	entry:
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%l = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %dest, i32 2, <8 x i1> %c, <8 x half> undef)		%l = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %dest, i32 2, <8 x i1> %c, <8 x half> undef)
ret <8 x half> %l		ret <8 x half> %l
}		}

define arm_aapcs_vfpcc <8 x half> @masked_v8f16_align1_undef(<8 x half> *%dest, <8 x i16> %a) {		define arm_aapcs_vfpcc <8 x half> @masked_v8f16_align1_undef(<8 x half> *%dest, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8f16_align1_undef:		; CHECK-LE-LABEL: masked_v8f16_align1_undef:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .pad #40		; CHECK-LE-NEXT: .pad #36
; CHECK-LE-NEXT: sub sp, #40		; CHECK-LE-NEXT: sub sp, #36
; CHECK-LE-NEXT: vcmp.s16 gt, q0, zr		; CHECK-LE-NEXT: vcmp.s16 gt, q0, zr
; CHECK-LE-NEXT: @ implicit-def: $q0		; CHECK-LE-NEXT: @ implicit-def: $q0
; CHECK-LE-NEXT: vmrs r1, p0		; CHECK-LE-NEXT: vmrs r1, p0
; CHECK-LE-NEXT: and r2, r1, #1		; CHECK-LE-NEXT: and r2, r1, #1
; CHECK-LE-NEXT: rsbs r3, r2, #0		; CHECK-LE-NEXT: rsbs r3, r2, #0
; CHECK-LE-NEXT: movs r2, #0		; CHECK-LE-NEXT: movs r2, #0
; CHECK-LE-NEXT: bfi r2, r3, #0, #1		; CHECK-LE-NEXT: bfi r2, r3, #0, #1
; CHECK-LE-NEXT: ubfx r3, r1, #2, #1		; CHECK-LE-NEXT: ubfx r3, r1, #2, #1
Show All 37 Lines
; CHECK-LE-NEXT: bmi .LBB45_14		; CHECK-LE-NEXT: bmi .LBB45_14
; CHECK-LE-NEXT: .LBB45_6: @ %else14		; CHECK-LE-NEXT: .LBB45_6: @ %else14
; CHECK-LE-NEXT: lsls r2, r1, #25		; CHECK-LE-NEXT: lsls r2, r1, #25
; CHECK-LE-NEXT: bmi .LBB45_15		; CHECK-LE-NEXT: bmi .LBB45_15
; CHECK-LE-NEXT: .LBB45_7: @ %else17		; CHECK-LE-NEXT: .LBB45_7: @ %else17
; CHECK-LE-NEXT: lsls r1, r1, #24		; CHECK-LE-NEXT: lsls r1, r1, #24
; CHECK-LE-NEXT: bmi .LBB45_16		; CHECK-LE-NEXT: bmi .LBB45_16
; CHECK-LE-NEXT: .LBB45_8: @ %else20		; CHECK-LE-NEXT: .LBB45_8: @ %else20
; CHECK-LE-NEXT: add sp, #40		; CHECK-LE-NEXT: add sp, #36
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
; CHECK-LE-NEXT: .LBB45_9: @ %cond.load		; CHECK-LE-NEXT: .LBB45_9: @ %cond.load
; CHECK-LE-NEXT: ldrh r2, [r0]		; CHECK-LE-NEXT: ldrh r2, [r0]
; CHECK-LE-NEXT: strh.w r2, [sp, #28]		; CHECK-LE-NEXT: strh.w r2, [sp, #28]
; CHECK-LE-NEXT: vldr.16 s0, [sp, #28]		; CHECK-LE-NEXT: vldr.16 s0, [sp, #28]
; CHECK-LE-NEXT: lsls r2, r1, #30		; CHECK-LE-NEXT: lsls r2, r1, #30
; CHECK-LE-NEXT: bpl .LBB45_2		; CHECK-LE-NEXT: bpl .LBB45_2
; CHECK-LE-NEXT: .LBB45_10: @ %cond.load1		; CHECK-LE-NEXT: .LBB45_10: @ %cond.load1
▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
; CHECK-LE-NEXT: vmov.16 q0[6], r2		; CHECK-LE-NEXT: vmov.16 q0[6], r2
; CHECK-LE-NEXT: lsls r1, r1, #24		; CHECK-LE-NEXT: lsls r1, r1, #24
; CHECK-LE-NEXT: bpl .LBB45_8		; CHECK-LE-NEXT: bpl .LBB45_8
; CHECK-LE-NEXT: .LBB45_16: @ %cond.load19		; CHECK-LE-NEXT: .LBB45_16: @ %cond.load19
; CHECK-LE-NEXT: ldrh r0, [r0, #14]		; CHECK-LE-NEXT: ldrh r0, [r0, #14]
; CHECK-LE-NEXT: strh.w r0, [sp]		; CHECK-LE-NEXT: strh.w r0, [sp]
; CHECK-LE-NEXT: vldr.16 s4, [sp]		; CHECK-LE-NEXT: vldr.16 s4, [sp]
; CHECK-LE-NEXT: vins.f16 s3, s4		; CHECK-LE-NEXT: vins.f16 s3, s4
; CHECK-LE-NEXT: add sp, #40		; CHECK-LE-NEXT: add sp, #36
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8f16_align1_undef:		; CHECK-BE-LABEL: masked_v8f16_align1_undef:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .pad #40		; CHECK-BE-NEXT: .pad #36
; CHECK-BE-NEXT: sub sp, #40		; CHECK-BE-NEXT: sub sp, #36
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vcmp.s16 gt, q1, zr		; CHECK-BE-NEXT: vcmp.s16 gt, q1, zr
; CHECK-BE-NEXT: @ implicit-def: $q1		; CHECK-BE-NEXT: @ implicit-def: $q1
; CHECK-BE-NEXT: vmrs r1, p0		; CHECK-BE-NEXT: vmrs r1, p0
; CHECK-BE-NEXT: ubfx r2, r1, #14, #1		; CHECK-BE-NEXT: ubfx r2, r1, #14, #1
; CHECK-BE-NEXT: rsbs r3, r2, #0		; CHECK-BE-NEXT: rsbs r3, r2, #0
; CHECK-BE-NEXT: movs r2, #0		; CHECK-BE-NEXT: movs r2, #0
; CHECK-BE-NEXT: bfi r2, r3, #0, #1		; CHECK-BE-NEXT: bfi r2, r3, #0, #1
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
; CHECK-BE-NEXT: beq .LBB45_9		; CHECK-BE-NEXT: beq .LBB45_9
; CHECK-BE-NEXT: .LBB45_8: @ %cond.load19		; CHECK-BE-NEXT: .LBB45_8: @ %cond.load19
; CHECK-BE-NEXT: ldrh r0, [r0, #14]		; CHECK-BE-NEXT: ldrh r0, [r0, #14]
; CHECK-BE-NEXT: strh.w r0, [sp]		; CHECK-BE-NEXT: strh.w r0, [sp]
; CHECK-BE-NEXT: vldr.16 s0, [sp]		; CHECK-BE-NEXT: vldr.16 s0, [sp]
; CHECK-BE-NEXT: vins.f16 s7, s0		; CHECK-BE-NEXT: vins.f16 s7, s0
; CHECK-BE-NEXT: .LBB45_9: @ %else20		; CHECK-BE-NEXT: .LBB45_9: @ %else20
; CHECK-BE-NEXT: vrev64.16 q0, q1		; CHECK-BE-NEXT: vrev64.16 q0, q1
; CHECK-BE-NEXT: add sp, #40		; CHECK-BE-NEXT: add sp, #36
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
; CHECK-BE-NEXT: .LBB45_10: @ %cond.load		; CHECK-BE-NEXT: .LBB45_10: @ %cond.load
; CHECK-BE-NEXT: ldrh r2, [r0]		; CHECK-BE-NEXT: ldrh r2, [r0]
; CHECK-BE-NEXT: strh.w r2, [sp, #28]		; CHECK-BE-NEXT: strh.w r2, [sp, #28]
; CHECK-BE-NEXT: vldr.16 s4, [sp, #28]		; CHECK-BE-NEXT: vldr.16 s4, [sp, #28]
; CHECK-BE-NEXT: lsls r2, r1, #25		; CHECK-BE-NEXT: lsls r2, r1, #25
; CHECK-BE-NEXT: bpl .LBB45_2		; CHECK-BE-NEXT: bpl .LBB45_2
; CHECK-BE-NEXT: .LBB45_11: @ %cond.load1		; CHECK-BE-NEXT: .LBB45_11: @ %cond.load1
▲ Show 20 Lines • Show All 562 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-masked-store.ll

Show First 20 Lines • Show All 179 Lines • ▼ Show 20 Lines	entry:
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %a, <8 x i16>* %dest, i32 2, <8 x i1> %c)		call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %a, <8 x i16>* %dest, i32 2, <8 x i1> %c)
ret void		ret void
}		}

define arm_aapcs_vfpcc void @masked_v8i16_align1(<8 x i16> *%dest, <8 x i16> %a) {		define arm_aapcs_vfpcc void @masked_v8i16_align1(<8 x i16> *%dest, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8i16_align1:		; CHECK-LE-LABEL: masked_v8i16_align1:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .pad #8		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: sub sp, #8		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: vcmp.s16 gt, q0, zr		; CHECK-LE-NEXT: vcmp.s16 gt, q0, zr
; CHECK-LE-NEXT: vmrs r1, p0		; CHECK-LE-NEXT: vmrs r1, p0
; CHECK-LE-NEXT: and r2, r1, #1		; CHECK-LE-NEXT: and r2, r1, #1
; CHECK-LE-NEXT: rsbs r3, r2, #0		; CHECK-LE-NEXT: rsbs r3, r2, #0
; CHECK-LE-NEXT: movs r2, #0		; CHECK-LE-NEXT: movs r2, #0
; CHECK-LE-NEXT: bfi r2, r3, #0, #1		; CHECK-LE-NEXT: bfi r2, r3, #0, #1
; CHECK-LE-NEXT: ubfx r3, r1, #2, #1		; CHECK-LE-NEXT: ubfx r3, r1, #2, #1
; CHECK-LE-NEXT: rsbs r3, r3, #0		; CHECK-LE-NEXT: rsbs r3, r3, #0
▲ Show 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
; CHECK-LE-NEXT: lsls r2, r1, #25		; CHECK-LE-NEXT: lsls r2, r1, #25
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: vmovmi.u16 r2, q0[6]		; CHECK-LE-NEXT: vmovmi.u16 r2, q0[6]
; CHECK-LE-NEXT: strhmi r2, [r0, #12]		; CHECK-LE-NEXT: strhmi r2, [r0, #12]
; CHECK-LE-NEXT: lsls r1, r1, #24		; CHECK-LE-NEXT: lsls r1, r1, #24
; CHECK-LE-NEXT: itt mi		; CHECK-LE-NEXT: itt mi
; CHECK-LE-NEXT: vmovmi.u16 r1, q0[7]		; CHECK-LE-NEXT: vmovmi.u16 r1, q0[7]
; CHECK-LE-NEXT: strhmi r1, [r0, #14]		; CHECK-LE-NEXT: strhmi r1, [r0, #14]
; CHECK-LE-NEXT: add sp, #8		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8i16_align1:		; CHECK-BE-LABEL: masked_v8i16_align1:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .pad #8		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: sub sp, #8		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vcmp.s16 gt, q1, zr		; CHECK-BE-NEXT: vcmp.s16 gt, q1, zr
; CHECK-BE-NEXT: vmrs r1, p0		; CHECK-BE-NEXT: vmrs r1, p0
; CHECK-BE-NEXT: ubfx r2, r1, #14, #1		; CHECK-BE-NEXT: ubfx r2, r1, #14, #1
; CHECK-BE-NEXT: rsbs r3, r2, #0		; CHECK-BE-NEXT: rsbs r3, r2, #0
; CHECK-BE-NEXT: movs r2, #0		; CHECK-BE-NEXT: movs r2, #0
; CHECK-BE-NEXT: bfi r2, r3, #0, #1		; CHECK-BE-NEXT: bfi r2, r3, #0, #1
; CHECK-BE-NEXT: ubfx r3, r1, #12, #1		; CHECK-BE-NEXT: ubfx r3, r1, #12, #1
▲ Show 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
; CHECK-BE-NEXT: lsls r2, r1, #30		; CHECK-BE-NEXT: lsls r2, r1, #30
; CHECK-BE-NEXT: itt mi		; CHECK-BE-NEXT: itt mi
; CHECK-BE-NEXT: vmovmi.u16 r2, q1[6]		; CHECK-BE-NEXT: vmovmi.u16 r2, q1[6]
; CHECK-BE-NEXT: strhmi r2, [r0, #12]		; CHECK-BE-NEXT: strhmi r2, [r0, #12]
; CHECK-BE-NEXT: lsls r1, r1, #31		; CHECK-BE-NEXT: lsls r1, r1, #31
; CHECK-BE-NEXT: itt ne		; CHECK-BE-NEXT: itt ne
; CHECK-BE-NEXT: vmovne.u16 r1, q1[7]		; CHECK-BE-NEXT: vmovne.u16 r1, q1[7]
; CHECK-BE-NEXT: strhne r1, [r0, #14]		; CHECK-BE-NEXT: strhne r1, [r0, #14]
; CHECK-BE-NEXT: add sp, #8		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %a, <8 x i16>* %dest, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %a, <8 x i16>* %dest, i32 1, <8 x i1> %c)
ret void		ret void
}		}

define i8* @masked_v8i16_pre(i8* %y, i8* %x, <8 x i16> %a) {		define i8* @masked_v8i16_pre(i8* %y, i8* %x, <8 x i16> %a) {
▲ Show 20 Lines • Show All 314 Lines • ▼ Show 20 Lines	entry:
%c = icmp ugt <8 x i16> %b, zeroinitializer		%c = icmp ugt <8 x i16> %b, zeroinitializer
call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %a, <8 x half>* %dest, i32 2, <8 x i1> %c)		call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %a, <8 x half>* %dest, i32 2, <8 x i1> %c)
ret void		ret void
}		}

define arm_aapcs_vfpcc void @masked_v8f16_align1(<8 x half> *%dest, <8 x half> %a, <8 x i16> %b) {		define arm_aapcs_vfpcc void @masked_v8f16_align1(<8 x half> *%dest, <8 x half> %a, <8 x i16> %b) {
; CHECK-LE-LABEL: masked_v8f16_align1:		; CHECK-LE-LABEL: masked_v8f16_align1:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .pad #40		; CHECK-LE-NEXT: .pad #36
; CHECK-LE-NEXT: sub sp, #40		; CHECK-LE-NEXT: sub sp, #36
; CHECK-LE-NEXT: vcmp.i16 ne, q1, zr		; CHECK-LE-NEXT: vcmp.i16 ne, q1, zr
; CHECK-LE-NEXT: movs r2, #0		; CHECK-LE-NEXT: movs r2, #0
; CHECK-LE-NEXT: vmrs r1, p0		; CHECK-LE-NEXT: vmrs r1, p0
; CHECK-LE-NEXT: and r3, r1, #1		; CHECK-LE-NEXT: and r3, r1, #1
; CHECK-LE-NEXT: rsbs r3, r3, #0		; CHECK-LE-NEXT: rsbs r3, r3, #0
; CHECK-LE-NEXT: bfi r2, r3, #0, #1		; CHECK-LE-NEXT: bfi r2, r3, #0, #1
; CHECK-LE-NEXT: ubfx r3, r1, #2, #1		; CHECK-LE-NEXT: ubfx r3, r1, #2, #1
; CHECK-LE-NEXT: rsbs r3, r3, #0		; CHECK-LE-NEXT: rsbs r3, r3, #0
Show All 36 Lines
; CHECK-LE-NEXT: bmi .LBB16_14		; CHECK-LE-NEXT: bmi .LBB16_14
; CHECK-LE-NEXT: .LBB16_6: @ %else10		; CHECK-LE-NEXT: .LBB16_6: @ %else10
; CHECK-LE-NEXT: lsls r2, r1, #25		; CHECK-LE-NEXT: lsls r2, r1, #25
; CHECK-LE-NEXT: bmi .LBB16_15		; CHECK-LE-NEXT: bmi .LBB16_15
; CHECK-LE-NEXT: .LBB16_7: @ %else12		; CHECK-LE-NEXT: .LBB16_7: @ %else12
; CHECK-LE-NEXT: lsls r1, r1, #24		; CHECK-LE-NEXT: lsls r1, r1, #24
; CHECK-LE-NEXT: bmi .LBB16_16		; CHECK-LE-NEXT: bmi .LBB16_16
; CHECK-LE-NEXT: .LBB16_8: @ %else14		; CHECK-LE-NEXT: .LBB16_8: @ %else14
; CHECK-LE-NEXT: add sp, #40		; CHECK-LE-NEXT: add sp, #36
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
; CHECK-LE-NEXT: .LBB16_9: @ %cond.store		; CHECK-LE-NEXT: .LBB16_9: @ %cond.store
; CHECK-LE-NEXT: vstr.16 s0, [sp, #28]		; CHECK-LE-NEXT: vstr.16 s0, [sp, #28]
; CHECK-LE-NEXT: ldrh.w r2, [sp, #28]		; CHECK-LE-NEXT: ldrh.w r2, [sp, #28]
; CHECK-LE-NEXT: strh r2, [r0]		; CHECK-LE-NEXT: strh r2, [r0]
; CHECK-LE-NEXT: lsls r2, r1, #30		; CHECK-LE-NEXT: lsls r2, r1, #30
; CHECK-LE-NEXT: bpl .LBB16_2		; CHECK-LE-NEXT: bpl .LBB16_2
; CHECK-LE-NEXT: .LBB16_10: @ %cond.store1		; CHECK-LE-NEXT: .LBB16_10: @ %cond.store1
Show All 35 Lines
; CHECK-LE-NEXT: strh r2, [r0, #12]		; CHECK-LE-NEXT: strh r2, [r0, #12]
; CHECK-LE-NEXT: lsls r1, r1, #24		; CHECK-LE-NEXT: lsls r1, r1, #24
; CHECK-LE-NEXT: bpl .LBB16_8		; CHECK-LE-NEXT: bpl .LBB16_8
; CHECK-LE-NEXT: .LBB16_16: @ %cond.store13		; CHECK-LE-NEXT: .LBB16_16: @ %cond.store13
; CHECK-LE-NEXT: vmovx.f16 s0, s3		; CHECK-LE-NEXT: vmovx.f16 s0, s3
; CHECK-LE-NEXT: vstr.16 s0, [sp]		; CHECK-LE-NEXT: vstr.16 s0, [sp]
; CHECK-LE-NEXT: ldrh.w r1, [sp]		; CHECK-LE-NEXT: ldrh.w r1, [sp]
; CHECK-LE-NEXT: strh r1, [r0, #14]		; CHECK-LE-NEXT: strh r1, [r0, #14]
; CHECK-LE-NEXT: add sp, #40		; CHECK-LE-NEXT: add sp, #36
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8f16_align1:		; CHECK-BE-LABEL: masked_v8f16_align1:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .pad #40		; CHECK-BE-NEXT: .pad #36
; CHECK-BE-NEXT: sub sp, #40		; CHECK-BE-NEXT: sub sp, #36
; CHECK-BE-NEXT: vrev64.16 q2, q1		; CHECK-BE-NEXT: vrev64.16 q2, q1
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vcmp.i16 ne, q2, zr		; CHECK-BE-NEXT: vcmp.i16 ne, q2, zr
; CHECK-BE-NEXT: vmrs r1, p0		; CHECK-BE-NEXT: vmrs r1, p0
; CHECK-BE-NEXT: ubfx r2, r1, #14, #1		; CHECK-BE-NEXT: ubfx r2, r1, #14, #1
; CHECK-BE-NEXT: rsbs r3, r2, #0		; CHECK-BE-NEXT: rsbs r3, r2, #0
; CHECK-BE-NEXT: movs r2, #0		; CHECK-BE-NEXT: movs r2, #0
; CHECK-BE-NEXT: bfi r2, r3, #0, #1		; CHECK-BE-NEXT: bfi r2, r3, #0, #1
Show All 38 Lines
; CHECK-BE-NEXT: bmi .LBB16_14		; CHECK-BE-NEXT: bmi .LBB16_14
; CHECK-BE-NEXT: .LBB16_6: @ %else10		; CHECK-BE-NEXT: .LBB16_6: @ %else10
; CHECK-BE-NEXT: lsls r2, r1, #30		; CHECK-BE-NEXT: lsls r2, r1, #30
; CHECK-BE-NEXT: bmi .LBB16_15		; CHECK-BE-NEXT: bmi .LBB16_15
; CHECK-BE-NEXT: .LBB16_7: @ %else12		; CHECK-BE-NEXT: .LBB16_7: @ %else12
; CHECK-BE-NEXT: lsls r1, r1, #31		; CHECK-BE-NEXT: lsls r1, r1, #31
; CHECK-BE-NEXT: bne .LBB16_16		; CHECK-BE-NEXT: bne .LBB16_16
; CHECK-BE-NEXT: .LBB16_8: @ %else14		; CHECK-BE-NEXT: .LBB16_8: @ %else14
; CHECK-BE-NEXT: add sp, #40		; CHECK-BE-NEXT: add sp, #36
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
; CHECK-BE-NEXT: .LBB16_9: @ %cond.store		; CHECK-BE-NEXT: .LBB16_9: @ %cond.store
; CHECK-BE-NEXT: vstr.16 s4, [sp, #28]		; CHECK-BE-NEXT: vstr.16 s4, [sp, #28]
; CHECK-BE-NEXT: ldrh.w r2, [sp, #28]		; CHECK-BE-NEXT: ldrh.w r2, [sp, #28]
; CHECK-BE-NEXT: strh r2, [r0]		; CHECK-BE-NEXT: strh r2, [r0]
; CHECK-BE-NEXT: lsls r2, r1, #25		; CHECK-BE-NEXT: lsls r2, r1, #25
; CHECK-BE-NEXT: bpl .LBB16_2		; CHECK-BE-NEXT: bpl .LBB16_2
; CHECK-BE-NEXT: .LBB16_10: @ %cond.store1		; CHECK-BE-NEXT: .LBB16_10: @ %cond.store1
Show All 35 Lines
; CHECK-BE-NEXT: strh r2, [r0, #12]		; CHECK-BE-NEXT: strh r2, [r0, #12]
; CHECK-BE-NEXT: lsls r1, r1, #31		; CHECK-BE-NEXT: lsls r1, r1, #31
; CHECK-BE-NEXT: beq .LBB16_8		; CHECK-BE-NEXT: beq .LBB16_8
; CHECK-BE-NEXT: .LBB16_16: @ %cond.store13		; CHECK-BE-NEXT: .LBB16_16: @ %cond.store13
; CHECK-BE-NEXT: vmovx.f16 s0, s7		; CHECK-BE-NEXT: vmovx.f16 s0, s7
; CHECK-BE-NEXT: vstr.16 s0, [sp]		; CHECK-BE-NEXT: vstr.16 s0, [sp]
; CHECK-BE-NEXT: ldrh.w r1, [sp]		; CHECK-BE-NEXT: ldrh.w r1, [sp]
; CHECK-BE-NEXT: strh r1, [r0, #14]		; CHECK-BE-NEXT: strh r1, [r0, #14]
; CHECK-BE-NEXT: add sp, #40		; CHECK-BE-NEXT: add sp, #36
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = icmp ugt <8 x i16> %b, zeroinitializer		%c = icmp ugt <8 x i16> %b, zeroinitializer
call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %a, <8 x half>* %dest, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %a, <8 x half>* %dest, i32 1, <8 x i1> %c)
ret void		ret void
}		}

define i8* @masked_v8f16_pre(i8* %y, i8* %x, <8 x i16> %a) {		define i8* @masked_v8f16_pre(i8* %y, i8* %x, <8 x i16> %a) {
▲ Show 20 Lines • Show All 839 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-pred-bitcast.ll

Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	entry:
%c = bitcast i4 %b to <4 x i1>		%c = bitcast i4 %b to <4 x i1>
%s = select <4 x i1> %c, <4 x i32> %a, <4 x i32> zeroinitializer		%s = select <4 x i1> %c, <4 x i32> %a, <4 x i32> zeroinitializer
ret <4 x i32> %s		ret <4 x i32> %s
}		}

define arm_aapcs_vfpcc <8 x i16> @bitcast_to_v8i1(i8 %b, <8 x i16> %a) {		define arm_aapcs_vfpcc <8 x i16> @bitcast_to_v8i1(i8 %b, <8 x i16> %a) {
; CHECK-LE-LABEL: bitcast_to_v8i1:		; CHECK-LE-LABEL: bitcast_to_v8i1:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .pad #8		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: sub sp, #8		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: uxtb r0, r0		; CHECK-LE-NEXT: uxtb r0, r0
; CHECK-LE-NEXT: vmov.i8 q1, #0x0		; CHECK-LE-NEXT: vmov.i8 q1, #0x0
; CHECK-LE-NEXT: vmov.i8 q2, #0xff		; CHECK-LE-NEXT: vmov.i8 q2, #0xff
; CHECK-LE-NEXT: vmsr p0, r0		; CHECK-LE-NEXT: vmsr p0, r0
; CHECK-LE-NEXT: vpsel q2, q2, q1		; CHECK-LE-NEXT: vpsel q2, q2, q1
; CHECK-LE-NEXT: vmov.u8 r0, q2[0]		; CHECK-LE-NEXT: vmov.u8 r0, q2[0]
; CHECK-LE-NEXT: vmov.16 q1[0], r0		; CHECK-LE-NEXT: vmov.16 q1[0], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[1]		; CHECK-LE-NEXT: vmov.u8 r0, q2[1]
; CHECK-LE-NEXT: vmov.16 q1[1], r0		; CHECK-LE-NEXT: vmov.16 q1[1], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[2]		; CHECK-LE-NEXT: vmov.u8 r0, q2[2]
; CHECK-LE-NEXT: vmov.16 q1[2], r0		; CHECK-LE-NEXT: vmov.16 q1[2], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[3]		; CHECK-LE-NEXT: vmov.u8 r0, q2[3]
; CHECK-LE-NEXT: vmov.16 q1[3], r0		; CHECK-LE-NEXT: vmov.16 q1[3], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[4]		; CHECK-LE-NEXT: vmov.u8 r0, q2[4]
; CHECK-LE-NEXT: vmov.16 q1[4], r0		; CHECK-LE-NEXT: vmov.16 q1[4], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[5]		; CHECK-LE-NEXT: vmov.u8 r0, q2[5]
; CHECK-LE-NEXT: vmov.16 q1[5], r0		; CHECK-LE-NEXT: vmov.16 q1[5], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[6]		; CHECK-LE-NEXT: vmov.u8 r0, q2[6]
; CHECK-LE-NEXT: vmov.16 q1[6], r0		; CHECK-LE-NEXT: vmov.16 q1[6], r0
; CHECK-LE-NEXT: vmov.u8 r0, q2[7]		; CHECK-LE-NEXT: vmov.u8 r0, q2[7]
; CHECK-LE-NEXT: vmov.16 q1[7], r0		; CHECK-LE-NEXT: vmov.16 q1[7], r0
; CHECK-LE-NEXT: vcmp.i16 ne, q1, zr		; CHECK-LE-NEXT: vcmp.i16 ne, q1, zr
; CHECK-LE-NEXT: vmov.i32 q1, #0x0		; CHECK-LE-NEXT: vmov.i32 q1, #0x0
; CHECK-LE-NEXT: vpsel q0, q0, q1		; CHECK-LE-NEXT: vpsel q0, q0, q1
; CHECK-LE-NEXT: add sp, #8		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: bitcast_to_v8i1:		; CHECK-BE-LABEL: bitcast_to_v8i1:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .pad #8		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: sub sp, #8		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: uxtb r0, r0		; CHECK-BE-NEXT: uxtb r0, r0
; CHECK-BE-NEXT: vmov.i8 q1, #0x0		; CHECK-BE-NEXT: vmov.i8 q1, #0x0
; CHECK-BE-NEXT: rbit r0, r0		; CHECK-BE-NEXT: rbit r0, r0
; CHECK-BE-NEXT: vmov.i8 q2, #0xff		; CHECK-BE-NEXT: vmov.i8 q2, #0xff
; CHECK-BE-NEXT: lsrs r0, r0, #24		; CHECK-BE-NEXT: lsrs r0, r0, #24
; CHECK-BE-NEXT: vmsr p0, r0		; CHECK-BE-NEXT: vmsr p0, r0
; CHECK-BE-NEXT: vpsel q2, q2, q1		; CHECK-BE-NEXT: vpsel q2, q2, q1
; CHECK-BE-NEXT: vmov.u8 r0, q2[0]		; CHECK-BE-NEXT: vmov.u8 r0, q2[0]
Show All 13 Lines
; CHECK-BE-NEXT: vmov.u8 r0, q2[7]		; CHECK-BE-NEXT: vmov.u8 r0, q2[7]
; CHECK-BE-NEXT: vmov.16 q1[7], r0		; CHECK-BE-NEXT: vmov.16 q1[7], r0
; CHECK-BE-NEXT: vcmp.i16 ne, q1, zr		; CHECK-BE-NEXT: vcmp.i16 ne, q1, zr
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vmov.i32 q0, #0x0		; CHECK-BE-NEXT: vmov.i32 q0, #0x0
; CHECK-BE-NEXT: vrev32.16 q0, q0		; CHECK-BE-NEXT: vrev32.16 q0, q0
; CHECK-BE-NEXT: vpsel q1, q1, q0		; CHECK-BE-NEXT: vpsel q1, q1, q0
; CHECK-BE-NEXT: vrev64.16 q0, q1		; CHECK-BE-NEXT: vrev64.16 q0, q1
; CHECK-BE-NEXT: add sp, #8		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = bitcast i8 %b to <8 x i1>		%c = bitcast i8 %b to <8 x i1>
%s = select <8 x i1> %c, <8 x i16> %a, <8 x i16> zeroinitializer		%s = select <8 x i1> %c, <8 x i16> %a, <8 x i16> zeroinitializer
ret <8 x i16> %s		ret <8 x i16> %s
}		}

define arm_aapcs_vfpcc <16 x i8> @bitcast_to_v16i1(i16 %b, <16 x i8> %a) {		define arm_aapcs_vfpcc <16 x i8> @bitcast_to_v16i1(i16 %b, <16 x i8> %a) {
; CHECK-LE-LABEL: bitcast_to_v16i1:		; CHECK-LE-LABEL: bitcast_to_v16i1:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .save {r4, r6, r7, lr}		; CHECK-LE-NEXT: .pad #4
		sdesmalenUnsubmitted Not Done Reply Inline Actions Not sure if this matters, but I can't see any operations (select) going through memory, so don't know why the code on the left was so convoluted or how your change affects this. sdesmalen: Not sure if this matters, but I can't see any operations (select) going through memory, so…
		efriedmaAuthorUnsubmitted Done Reply Inline Actions Type legalization is creating a stack temporary to lower the bitcast. The reason it doesn't show up in the assembly is that we optimize it out later: the resulting `<16 x i1>` load gets legalized to an i16 load followed by a PREDICATE_CAST, and then the whole store+load sequence gets optimized out. But the alignment requirement of the stack temporary sticks around. This patch avoids the issue by lowering the alignment of the temporary, so it doesn't trigger stack realignment. There's probably room for improvement here. efriedma: Type legalization is creating a stack temporary to lower the bitcast. The reason it doesn't…
		dmgreenUnsubmitted Not Done Reply Inline Actions Yeah, I'm a little surprised that it's doing that. There's no reason to go via a stack slot to begin with, and that dead stack slot are not removed... I was trying to custom lower it but running into legalizer problems. I may keep looking, but it's not an problem with this patch. dmgreen: Yeah, I'm a little surprised that it's doing that. There's no reason to go via a stack slot to…
		sdesmalenUnsubmitted Not Done Reply Inline Actions Thanks for confirming, I suspected is was something like that! sdesmalen: Thanks for confirming, I suspected is was something like that!
; CHECK-LE-NEXT: push {r4, r6, r7, lr}		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: .setfp r7, sp, #8
; CHECK-LE-NEXT: add r7, sp, #8
; CHECK-LE-NEXT: .pad #16
; CHECK-LE-NEXT: sub sp, #16
; CHECK-LE-NEXT: mov r4, sp
; CHECK-LE-NEXT: bfc r4, #0, #4
; CHECK-LE-NEXT: mov sp, r4
; CHECK-LE-NEXT: sub.w r4, r7, #8
; CHECK-LE-NEXT: vmsr p0, r0		; CHECK-LE-NEXT: vmsr p0, r0
; CHECK-LE-NEXT: vmov.i32 q1, #0x0		; CHECK-LE-NEXT: vmov.i32 q1, #0x0
; CHECK-LE-NEXT: vpsel q0, q0, q1		; CHECK-LE-NEXT: vpsel q0, q0, q1
; CHECK-LE-NEXT: mov sp, r4		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: pop {r4, r6, r7, pc}		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: bitcast_to_v16i1:		; CHECK-BE-LABEL: bitcast_to_v16i1:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .save {r4, r6, r7, lr}		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: push {r4, r6, r7, lr}		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: .setfp r7, sp, #8
; CHECK-BE-NEXT: add r7, sp, #8
; CHECK-BE-NEXT: .pad #16
; CHECK-BE-NEXT: sub sp, #16
; CHECK-BE-NEXT: mov r4, sp
; CHECK-BE-NEXT: bfc r4, #0, #4
; CHECK-BE-NEXT: mov sp, r4
; CHECK-BE-NEXT: uxth r0, r0		; CHECK-BE-NEXT: uxth r0, r0
; CHECK-BE-NEXT: vrev64.8 q1, q0		; CHECK-BE-NEXT: vrev64.8 q1, q0
; CHECK-BE-NEXT: rbit r0, r0		; CHECK-BE-NEXT: rbit r0, r0
; CHECK-BE-NEXT: vmov.i32 q0, #0x0		; CHECK-BE-NEXT: vmov.i32 q0, #0x0
; CHECK-BE-NEXT: sub.w r4, r7, #8
; CHECK-BE-NEXT: vrev32.8 q0, q0		; CHECK-BE-NEXT: vrev32.8 q0, q0
; CHECK-BE-NEXT: lsrs r0, r0, #16		; CHECK-BE-NEXT: lsrs r0, r0, #16
; CHECK-BE-NEXT: vmsr p0, r0		; CHECK-BE-NEXT: vmsr p0, r0
; CHECK-BE-NEXT: vpsel q1, q1, q0		; CHECK-BE-NEXT: vpsel q1, q1, q0
; CHECK-BE-NEXT: vrev64.8 q0, q1		; CHECK-BE-NEXT: vrev64.8 q0, q1
; CHECK-BE-NEXT: mov sp, r4		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: pop {r4, r6, r7, pc}		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = bitcast i16 %b to <16 x i1>		%c = bitcast i16 %b to <16 x i1>
%s = select <16 x i1> %c, <16 x i8> %a, <16 x i8> zeroinitializer		%s = select <16 x i1> %c, <16 x i8> %a, <16 x i8> zeroinitializer
ret <16 x i8> %s		ret <16 x i8> %s
}		}

define arm_aapcs_vfpcc <2 x i64> @bitcast_to_v2i1(i2 %b, <2 x i64> %a) {		define arm_aapcs_vfpcc <2 x i64> @bitcast_to_v2i1(i2 %b, <2 x i64> %a) {
; CHECK-LE-LABEL: bitcast_to_v2i1:		; CHECK-LE-LABEL: bitcast_to_v2i1:
▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines	entry:
%c = icmp eq <4 x i32> %a, zeroinitializer		%c = icmp eq <4 x i32> %a, zeroinitializer
%b = bitcast <4 x i1> %c to i4		%b = bitcast <4 x i1> %c to i4
ret i4 %b		ret i4 %b
}		}

define arm_aapcs_vfpcc i8 @bitcast_from_v8i1(<8 x i16> %a) {		define arm_aapcs_vfpcc i8 @bitcast_from_v8i1(<8 x i16> %a) {
; CHECK-LE-LABEL: bitcast_from_v8i1:		; CHECK-LE-LABEL: bitcast_from_v8i1:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .pad #8		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: sub sp, #8		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: vcmp.i16 eq, q0, zr		; CHECK-LE-NEXT: vcmp.i16 eq, q0, zr
; CHECK-LE-NEXT: vmrs r1, p0		; CHECK-LE-NEXT: vmrs r1, p0
; CHECK-LE-NEXT: and r0, r1, #1		; CHECK-LE-NEXT: and r0, r1, #1
; CHECK-LE-NEXT: rsbs r2, r0, #0		; CHECK-LE-NEXT: rsbs r2, r0, #0
; CHECK-LE-NEXT: movs r0, #0		; CHECK-LE-NEXT: movs r0, #0
; CHECK-LE-NEXT: bfi r0, r2, #0, #1		; CHECK-LE-NEXT: bfi r0, r2, #0, #1
; CHECK-LE-NEXT: ubfx r2, r1, #2, #1		; CHECK-LE-NEXT: ubfx r2, r1, #2, #1
; CHECK-LE-NEXT: rsbs r2, r2, #0		; CHECK-LE-NEXT: rsbs r2, r2, #0
Show All 12 Lines
; CHECK-LE-NEXT: bfi r0, r2, #5, #1		; CHECK-LE-NEXT: bfi r0, r2, #5, #1
; CHECK-LE-NEXT: ubfx r2, r1, #12, #1		; CHECK-LE-NEXT: ubfx r2, r1, #12, #1
; CHECK-LE-NEXT: ubfx r1, r1, #14, #1		; CHECK-LE-NEXT: ubfx r1, r1, #14, #1
; CHECK-LE-NEXT: rsbs r2, r2, #0		; CHECK-LE-NEXT: rsbs r2, r2, #0
; CHECK-LE-NEXT: bfi r0, r2, #6, #1		; CHECK-LE-NEXT: bfi r0, r2, #6, #1
; CHECK-LE-NEXT: rsbs r1, r1, #0		; CHECK-LE-NEXT: rsbs r1, r1, #0
; CHECK-LE-NEXT: bfi r0, r1, #7, #1		; CHECK-LE-NEXT: bfi r0, r1, #7, #1
; CHECK-LE-NEXT: uxtb r0, r0		; CHECK-LE-NEXT: uxtb r0, r0
; CHECK-LE-NEXT: add sp, #8		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: bitcast_from_v8i1:		; CHECK-BE-LABEL: bitcast_from_v8i1:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .pad #8		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: sub sp, #8		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vcmp.i16 eq, q1, zr		; CHECK-BE-NEXT: vcmp.i16 eq, q1, zr
; CHECK-BE-NEXT: vmrs r1, p0		; CHECK-BE-NEXT: vmrs r1, p0
; CHECK-BE-NEXT: ubfx r0, r1, #14, #1		; CHECK-BE-NEXT: ubfx r0, r1, #14, #1
; CHECK-BE-NEXT: rsbs r2, r0, #0		; CHECK-BE-NEXT: rsbs r2, r0, #0
; CHECK-BE-NEXT: movs r0, #0		; CHECK-BE-NEXT: movs r0, #0
; CHECK-BE-NEXT: bfi r0, r2, #0, #1		; CHECK-BE-NEXT: bfi r0, r2, #0, #1
; CHECK-BE-NEXT: ubfx r2, r1, #12, #1		; CHECK-BE-NEXT: ubfx r2, r1, #12, #1
Show All 13 Lines
; CHECK-BE-NEXT: bfi r0, r2, #5, #1		; CHECK-BE-NEXT: bfi r0, r2, #5, #1
; CHECK-BE-NEXT: ubfx r2, r1, #2, #1		; CHECK-BE-NEXT: ubfx r2, r1, #2, #1
; CHECK-BE-NEXT: and r1, r1, #1		; CHECK-BE-NEXT: and r1, r1, #1
; CHECK-BE-NEXT: rsbs r2, r2, #0		; CHECK-BE-NEXT: rsbs r2, r2, #0
; CHECK-BE-NEXT: bfi r0, r2, #6, #1		; CHECK-BE-NEXT: bfi r0, r2, #6, #1
; CHECK-BE-NEXT: rsbs r1, r1, #0		; CHECK-BE-NEXT: rsbs r1, r1, #0
; CHECK-BE-NEXT: bfi r0, r1, #7, #1		; CHECK-BE-NEXT: bfi r0, r1, #7, #1
; CHECK-BE-NEXT: uxtb r0, r0		; CHECK-BE-NEXT: uxtb r0, r0
; CHECK-BE-NEXT: add sp, #8		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = icmp eq <8 x i16> %a, zeroinitializer		%c = icmp eq <8 x i16> %a, zeroinitializer
%b = bitcast <8 x i1> %c to i8		%b = bitcast <8 x i1> %c to i8
ret i8 %b		ret i8 %b
}		}

define arm_aapcs_vfpcc i16 @bitcast_from_v16i1(<16 x i8> %a) {		define arm_aapcs_vfpcc i16 @bitcast_from_v16i1(<16 x i8> %a) {
; CHECK-LE-LABEL: bitcast_from_v16i1:		; CHECK-LE-LABEL: bitcast_from_v16i1:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: .save {r4, r6, r7, lr}		; CHECK-LE-NEXT: .pad #4
; CHECK-LE-NEXT: push {r4, r6, r7, lr}		; CHECK-LE-NEXT: sub sp, #4
; CHECK-LE-NEXT: .setfp r7, sp, #8
; CHECK-LE-NEXT: add r7, sp, #8
; CHECK-LE-NEXT: .pad #16
; CHECK-LE-NEXT: sub sp, #16
; CHECK-LE-NEXT: mov r4, sp
; CHECK-LE-NEXT: bfc r4, #0, #4
; CHECK-LE-NEXT: mov sp, r4
; CHECK-LE-NEXT: vcmp.i8 eq, q0, zr		; CHECK-LE-NEXT: vcmp.i8 eq, q0, zr
; CHECK-LE-NEXT: sub.w r4, r7, #8
; CHECK-LE-NEXT: vmrs r0, p0		; CHECK-LE-NEXT: vmrs r0, p0
; CHECK-LE-NEXT: uxth r0, r0		; CHECK-LE-NEXT: uxth r0, r0
; CHECK-LE-NEXT: mov sp, r4		; CHECK-LE-NEXT: add sp, #4
; CHECK-LE-NEXT: pop {r4, r6, r7, pc}		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: bitcast_from_v16i1:		; CHECK-BE-LABEL: bitcast_from_v16i1:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: .save {r4, r6, r7, lr}		; CHECK-BE-NEXT: .pad #4
; CHECK-BE-NEXT: push {r4, r6, r7, lr}		; CHECK-BE-NEXT: sub sp, #4
; CHECK-BE-NEXT: .setfp r7, sp, #8
; CHECK-BE-NEXT: add r7, sp, #8
; CHECK-BE-NEXT: .pad #16
; CHECK-BE-NEXT: sub sp, #16
; CHECK-BE-NEXT: mov r4, sp
; CHECK-BE-NEXT: bfc r4, #0, #4
; CHECK-BE-NEXT: mov sp, r4
; CHECK-BE-NEXT: vrev64.8 q1, q0		; CHECK-BE-NEXT: vrev64.8 q1, q0
; CHECK-BE-NEXT: sub.w r4, r7, #8
; CHECK-BE-NEXT: vcmp.i8 eq, q1, zr		; CHECK-BE-NEXT: vcmp.i8 eq, q1, zr
; CHECK-BE-NEXT: vmrs r0, p0		; CHECK-BE-NEXT: vmrs r0, p0
; CHECK-BE-NEXT: rbit r0, r0		; CHECK-BE-NEXT: rbit r0, r0
; CHECK-BE-NEXT: lsrs r0, r0, #16		; CHECK-BE-NEXT: lsrs r0, r0, #16
; CHECK-BE-NEXT: mov sp, r4		; CHECK-BE-NEXT: add sp, #4
; CHECK-BE-NEXT: pop {r4, r6, r7, pc}		; CHECK-BE-NEXT: bx lr
entry:		entry:
%c = icmp eq <16 x i8> %a, zeroinitializer		%c = icmp eq <16 x i8> %a, zeroinitializer
%b = bitcast <16 x i1> %c to i16		%b = bitcast <16 x i1> %c to i16
ret i16 %b		ret i16 %b
}		}

define arm_aapcs_vfpcc i2 @bitcast_from_v2i1(<2 x i64> %a) {		define arm_aapcs_vfpcc i2 @bitcast_from_v2i1(<2 x i64> %a) {
; CHECK-LE-LABEL: bitcast_from_v2i1:		; CHECK-LE-LABEL: bitcast_from_v2i1:
Show All 40 Lines

llvm/test/CodeGen/X86/avx512-extract-subvector-load-store.ll

	Show All 12 Lines
	; AVX512-NEXT: vpbroadcastq %xmm2, %xmm2			; AVX512-NEXT: vpbroadcastq %xmm2, %xmm2
	; AVX512-NEXT: vpmovq2m %xmm2, %k1			; AVX512-NEXT: vpmovq2m %xmm2, %k1
	; AVX512-NEXT: vmovapd %xmm0, %xmm1 {%k1}			; AVX512-NEXT: vmovapd %xmm0, %xmm1 {%k1}
	; AVX512-NEXT: vmovapd %xmm1, (%rsi)			; AVX512-NEXT: vmovapd %xmm1, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v8i1_broadcast_4_v2i1:			; AVX512NOTDQ-LABEL: load_v8i1_broadcast_4_v2i1:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $4, %k0, %k1			; AVX512NOTDQ-NEXT: kshiftrw $4, %k0, %k1
	; AVX512NOTDQ-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2			; AVX512NOTDQ-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
	; AVX512NOTDQ-NEXT: vmovdqa64 %xmm2, %xmm2 {%k1} {z}			; AVX512NOTDQ-NEXT: vmovdqa64 %xmm2, %xmm2 {%k1} {z}
	; AVX512NOTDQ-NEXT: vpbroadcastq %xmm2, %xmm2			; AVX512NOTDQ-NEXT: vpbroadcastq %xmm2, %xmm2
	; AVX512NOTDQ-NEXT: vptestmq %xmm2, %xmm2, %k1			; AVX512NOTDQ-NEXT: vptestmq %xmm2, %xmm2, %k1
	; AVX512NOTDQ-NEXT: vmovapd %xmm0, %xmm1 {%k1}			; AVX512NOTDQ-NEXT: vmovapd %xmm0, %xmm1 {%k1}
	; AVX512NOTDQ-NEXT: vmovapd %xmm1, (%rsi)			; AVX512NOTDQ-NEXT: vmovapd %xmm1, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	Show All 12 Lines
	; AVX512-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]
	; AVX512-NEXT: vpmovq2m %xmm2, %k1			; AVX512-NEXT: vpmovq2m %xmm2, %k1
	; AVX512-NEXT: vmovapd %xmm0, %xmm1 {%k1}			; AVX512-NEXT: vmovapd %xmm0, %xmm1 {%k1}
	; AVX512-NEXT: vmovapd %xmm1, (%rsi)			; AVX512-NEXT: vmovapd %xmm1, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v8i1_broadcast_7_v2i1:			; AVX512NOTDQ-LABEL: load_v8i1_broadcast_7_v2i1:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $6, %k0, %k1			; AVX512NOTDQ-NEXT: kshiftrw $6, %k0, %k1
	; AVX512NOTDQ-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2			; AVX512NOTDQ-NEXT: vpcmpeqd %xmm2, %xmm2, %xmm2
	; AVX512NOTDQ-NEXT: vmovdqa64 %xmm2, %xmm2 {%k1} {z}			; AVX512NOTDQ-NEXT: vmovdqa64 %xmm2, %xmm2 {%k1} {z}
	; AVX512NOTDQ-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]			; AVX512NOTDQ-NEXT: vpshufd {{.*#+}} xmm2 = xmm2[2,3,2,3]
	; AVX512NOTDQ-NEXT: vptestmq %xmm2, %xmm2, %k1			; AVX512NOTDQ-NEXT: vptestmq %xmm2, %xmm2, %k1
	; AVX512NOTDQ-NEXT: vmovapd %xmm0, %xmm1 {%k1}			; AVX512NOTDQ-NEXT: vmovapd %xmm0, %xmm1 {%k1}
	; AVX512NOTDQ-NEXT: vmovapd %xmm1, (%rsi)			; AVX512NOTDQ-NEXT: vmovapd %xmm1, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	▲ Show 20 Lines • Show All 614 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: kshiftrb $1, %k0, %k0			; AVX512-NEXT: kshiftrb $1, %k0, %k0
	; AVX512-NEXT: kshiftlb $7, %k0, %k0			; AVX512-NEXT: kshiftlb $7, %k0, %k0
	; AVX512-NEXT: kshiftrb $7, %k0, %k0			; AVX512-NEXT: kshiftrb $7, %k0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v2i1_broadcast_1_v1i1_store:			; AVX512NOTDQ-LABEL: load_v2i1_broadcast_1_v1i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $1, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $1, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	%d0 = load <2 x i1>, <2 x i1>* %a0			%d0 = load <2 x i1>, <2 x i1>* %a0
	%d1 = shufflevector <2 x i1> %d0,<2 x i1> undef,<1 x i32><i32 1>			%d1 = shufflevector <2 x i1> %d0,<2 x i1> undef,<1 x i32><i32 1>
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: kshiftrb $2, %k0, %k0			; AVX512-NEXT: kshiftrb $2, %k0, %k0
	; AVX512-NEXT: kshiftlb $7, %k0, %k0			; AVX512-NEXT: kshiftlb $7, %k0, %k0
	; AVX512-NEXT: kshiftrb $7, %k0, %k0			; AVX512-NEXT: kshiftrb $7, %k0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v4i1_broadcast_2_v1i1_store:			; AVX512NOTDQ-LABEL: load_v4i1_broadcast_2_v1i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $2, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $2, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	%d0 = load <4 x i1>, <4 x i1>* %a0			%d0 = load <4 x i1>, <4 x i1>* %a0
	%d1 = shufflevector <4 x i1> %d0,<4 x i1> undef,<1 x i32><i32 2>			%d1 = shufflevector <4 x i1> %d0,<4 x i1> undef,<1 x i32><i32 2>
	store <1 x i1> %d1, <1 x i1>* %a1			store <1 x i1> %d1, <1 x i1>* %a1
	ret void			ret void
	}			}
	define void @load_v4i1_broadcast_3_v1i1_store(<4 x i1>* %a0,<1 x i1>* %a1) {			define void @load_v4i1_broadcast_3_v1i1_store(<4 x i1>* %a0,<1 x i1>* %a1) {
	; AVX512-LABEL: load_v4i1_broadcast_3_v1i1_store:			; AVX512-LABEL: load_v4i1_broadcast_3_v1i1_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: kmovb (%rdi), %k0			; AVX512-NEXT: kmovb (%rdi), %k0
	; AVX512-NEXT: kshiftrb $3, %k0, %k0			; AVX512-NEXT: kshiftrb $3, %k0, %k0
	; AVX512-NEXT: kshiftlb $7, %k0, %k0			; AVX512-NEXT: kshiftlb $7, %k0, %k0
	; AVX512-NEXT: kshiftrb $7, %k0, %k0			; AVX512-NEXT: kshiftrb $7, %k0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v4i1_broadcast_3_v1i1_store:			; AVX512NOTDQ-LABEL: load_v4i1_broadcast_3_v1i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $3, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $3, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	%d0 = load <4 x i1>, <4 x i1>* %a0			%d0 = load <4 x i1>, <4 x i1>* %a0
	%d1 = shufflevector <4 x i1> %d0,<4 x i1> undef,<1 x i32><i32 3>			%d1 = shufflevector <4 x i1> %d0,<4 x i1> undef,<1 x i32><i32 3>
	store <1 x i1> %d1, <1 x i1>* %a1			store <1 x i1> %d1, <1 x i1>* %a1
	ret void			ret void
	}			}
	define void @load_v8i1_broadcast_4_v1i1_store(<8 x i1>* %a0,<1 x i1>* %a1) {			define void @load_v8i1_broadcast_4_v1i1_store(<8 x i1>* %a0,<1 x i1>* %a1) {
	; AVX512-LABEL: load_v8i1_broadcast_4_v1i1_store:			; AVX512-LABEL: load_v8i1_broadcast_4_v1i1_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: kmovb (%rdi), %k0			; AVX512-NEXT: kmovb (%rdi), %k0
	; AVX512-NEXT: kshiftrb $4, %k0, %k0			; AVX512-NEXT: kshiftrb $4, %k0, %k0
	; AVX512-NEXT: kshiftlb $7, %k0, %k0			; AVX512-NEXT: kshiftlb $7, %k0, %k0
	; AVX512-NEXT: kshiftrb $7, %k0, %k0			; AVX512-NEXT: kshiftrb $7, %k0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v8i1_broadcast_4_v1i1_store:			; AVX512NOTDQ-LABEL: load_v8i1_broadcast_4_v1i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $4, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $4, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	%d0 = load <8 x i1>, <8 x i1>* %a0			%d0 = load <8 x i1>, <8 x i1>* %a0
	%d1 = shufflevector <8 x i1> %d0,<8 x i1> undef,<1 x i32><i32 4>			%d1 = shufflevector <8 x i1> %d0,<8 x i1> undef,<1 x i32><i32 4>
	store <1 x i1> %d1, <1 x i1>* %a1			store <1 x i1> %d1, <1 x i1>* %a1
	ret void			ret void
	}			}
	define void @load_v8i1_broadcast_4_v2i1_store(<8 x i1>* %a0,<2 x i1>* %a1) {			define void @load_v8i1_broadcast_4_v2i1_store(<8 x i1>* %a0,<2 x i1>* %a1) {
	; AVX512-LABEL: load_v8i1_broadcast_4_v2i1_store:			; AVX512-LABEL: load_v8i1_broadcast_4_v2i1_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: kmovb (%rdi), %k0			; AVX512-NEXT: kmovb (%rdi), %k0
	; AVX512-NEXT: kshiftrb $4, %k0, %k0			; AVX512-NEXT: kshiftrb $4, %k0, %k0
	; AVX512-NEXT: vpmovm2q %k0, %xmm0			; AVX512-NEXT: vpmovm2q %k0, %xmm0
	; AVX512-NEXT: vpbroadcastq %xmm0, %xmm0			; AVX512-NEXT: vpbroadcastq %xmm0, %xmm0
	; AVX512-NEXT: vpmovq2m %xmm0, %k0			; AVX512-NEXT: vpmovq2m %xmm0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v8i1_broadcast_4_v2i1_store:			; AVX512NOTDQ-LABEL: load_v8i1_broadcast_4_v2i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $4, %k0, %k1			; AVX512NOTDQ-NEXT: kshiftrw $4, %k0, %k1
	; AVX512NOTDQ-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512NOTDQ-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512NOTDQ-NEXT: vmovdqa64 %xmm0, %xmm0 {%k1} {z}			; AVX512NOTDQ-NEXT: vmovdqa64 %xmm0, %xmm0 {%k1} {z}
	; AVX512NOTDQ-NEXT: vpbroadcastq %xmm0, %xmm0			; AVX512NOTDQ-NEXT: vpbroadcastq %xmm0, %xmm0
	; AVX512NOTDQ-NEXT: vptestmq %xmm0, %xmm0, %k0			; AVX512NOTDQ-NEXT: vptestmq %xmm0, %xmm0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	Show All 9 Lines
	; AVX512-NEXT: kshiftrb $7, %k0, %k0			; AVX512-NEXT: kshiftrb $7, %k0, %k0
	; AVX512-NEXT: kshiftlb $7, %k0, %k0			; AVX512-NEXT: kshiftlb $7, %k0, %k0
	; AVX512-NEXT: kshiftrb $7, %k0, %k0			; AVX512-NEXT: kshiftrb $7, %k0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v8i1_broadcast_7_v1i1_store:			; AVX512NOTDQ-LABEL: load_v8i1_broadcast_7_v1i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $7, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $7, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftlw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0			; AVX512NOTDQ-NEXT: kshiftrw $15, %k0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	%d0 = load <8 x i1>, <8 x i1>* %a0			%d0 = load <8 x i1>, <8 x i1>* %a0
	%d1 = shufflevector <8 x i1> %d0,<8 x i1> undef,<1 x i32><i32 7>			%d1 = shufflevector <8 x i1> %d0,<8 x i1> undef,<1 x i32><i32 7>
	store <1 x i1> %d1, <1 x i1>* %a1			store <1 x i1> %d1, <1 x i1>* %a1
	ret void			ret void
	}			}
	define void @load_v8i1_broadcast_7_v2i1_store(<8 x i1>* %a0,<2 x i1>* %a1) {			define void @load_v8i1_broadcast_7_v2i1_store(<8 x i1>* %a0,<2 x i1>* %a1) {
	; AVX512-LABEL: load_v8i1_broadcast_7_v2i1_store:			; AVX512-LABEL: load_v8i1_broadcast_7_v2i1_store:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: kmovb (%rdi), %k0			; AVX512-NEXT: kmovb (%rdi), %k0
	; AVX512-NEXT: kshiftrb $6, %k0, %k0			; AVX512-NEXT: kshiftrb $6, %k0, %k0
	; AVX512-NEXT: vpmovm2q %k0, %xmm0			; AVX512-NEXT: vpmovm2q %k0, %xmm0
	; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]			; AVX512-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
	; AVX512-NEXT: vpmovq2m %xmm0, %k0			; AVX512-NEXT: vpmovq2m %xmm0, %k0
	; AVX512-NEXT: kmovb %k0, (%rsi)			; AVX512-NEXT: kmovb %k0, (%rsi)
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	;			;
	; AVX512NOTDQ-LABEL: load_v8i1_broadcast_7_v2i1_store:			; AVX512NOTDQ-LABEL: load_v8i1_broadcast_7_v2i1_store:
	; AVX512NOTDQ: # %bb.0:			; AVX512NOTDQ: # %bb.0:
	; AVX512NOTDQ-NEXT: kmovw (%rdi), %k0			; AVX512NOTDQ-NEXT: movzbl (%rdi), %eax
				; AVX512NOTDQ-NEXT: kmovd %eax, %k0
	; AVX512NOTDQ-NEXT: kshiftrw $6, %k0, %k1			; AVX512NOTDQ-NEXT: kshiftrw $6, %k0, %k1
	; AVX512NOTDQ-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0			; AVX512NOTDQ-NEXT: vpcmpeqd %xmm0, %xmm0, %xmm0
	; AVX512NOTDQ-NEXT: vmovdqa64 %xmm0, %xmm0 {%k1} {z}			; AVX512NOTDQ-NEXT: vmovdqa64 %xmm0, %xmm0 {%k1} {z}
	; AVX512NOTDQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]			; AVX512NOTDQ-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[2,3,2,3]
	; AVX512NOTDQ-NEXT: vptestmq %xmm0, %xmm0, %k0			; AVX512NOTDQ-NEXT: vptestmq %xmm0, %xmm0, %k0
	; AVX512NOTDQ-NEXT: kmovd %k0, %eax			; AVX512NOTDQ-NEXT: kmovd %k0, %eax
	; AVX512NOTDQ-NEXT: movb %al, (%rsi)			; AVX512NOTDQ-NEXT: movb %al, (%rsi)
	; AVX512NOTDQ-NEXT: retq			; AVX512NOTDQ-NEXT: retq
	▲ Show 20 Lines • Show All 712 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-mask-op.ll

Show First 20 Lines • Show All 453 Lines • ▼ Show 20 Lines
; CHECK: ## %bb.0: ## %entry		; CHECK: ## %bb.0: ## %entry
; CHECK-NEXT: movb $-1, (%rdi)		; CHECK-NEXT: movb $-1, (%rdi)
; CHECK-NEXT: movb $-2, -{{[0-9]+}}(%rsp)		; CHECK-NEXT: movb $-2, -{{[0-9]+}}(%rsp)
; CHECK-NEXT: movb $-2, %al		; CHECK-NEXT: movb $-2, %al
; CHECK-NEXT: retq		; CHECK-NEXT: retq
;		;
; X86-LABEL: conv1:		; X86-LABEL: conv1:
; X86: ## %bb.0: ## %entry		; X86: ## %bb.0: ## %entry
; X86-NEXT: subl $12, %esp		; X86-NEXT: pushl %eax
; X86-NEXT: .cfi_def_cfa_offset 16		; X86-NEXT: .cfi_def_cfa_offset 8
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movb $-1, (%eax)		; X86-NEXT: movb $-1, (%eax)
; X86-NEXT: movb $-2, (%esp)		; X86-NEXT: movb $-2, {{[0-9]+}}(%esp)
; X86-NEXT: movb $-2, %al		; X86-NEXT: movb $-2, %al
; X86-NEXT: addl $12, %esp		; X86-NEXT: popl %ecx
; X86-NEXT: retl		; X86-NEXT: retl
entry:		entry:
store <8 x i1> <i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <8 x i1>* %R		store <8 x i1> <i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <8 x i1>* %R

%maskPtr = alloca <8 x i1>		%maskPtr = alloca <8 x i1>
store <8 x i1> <i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <8 x i1>* %maskPtr		store <8 x i1> <i1 0, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1, i1 1>, <8 x i1>* %maskPtr
%mask = load <8 x i1>, <8 x i1>* %maskPtr		%mask = load <8 x i1>, <8 x i1>* %maskPtr
%mask_convert = bitcast <8 x i1> %mask to i8		%mask_convert = bitcast <8 x i1> %mask to i8
▲ Show 20 Lines • Show All 1,809 Lines • ▼ Show 20 Lines	L2:
br label %End		br label %End
End:		End:
ret void		ret void
}		}

define <8 x i64> @load_8i1(<8 x i1>* %a) {		define <8 x i64> @load_8i1(<8 x i1>* %a) {
; KNL-LABEL: load_8i1:		; KNL-LABEL: load_8i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: kmovw (%rdi), %k1		; KNL-NEXT: movzbl (%rdi), %eax
		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}		; KNL-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: load_8i1:		; SKX-LABEL: load_8i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
; SKX-NEXT: vpmovm2q %k0, %zmm0		; SKX-NEXT: vpmovm2q %k0, %zmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: load_8i1:		; AVX512BW-LABEL: load_8i1:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovw (%rdi), %k1		; AVX512BW-NEXT: movzbl (%rdi), %eax
		; AVX512BW-NEXT: kmovd %eax, %k1
; AVX512BW-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}		; AVX512BW-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: load_8i1:		; AVX512DQ-LABEL: load_8i1:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: kmovb (%rdi), %k0		; AVX512DQ-NEXT: kmovb (%rdi), %k0
; AVX512DQ-NEXT: vpmovm2q %k0, %zmm0		; AVX512DQ-NEXT: vpmovm2q %k0, %zmm0
; AVX512DQ-NEXT: retq		; AVX512DQ-NEXT: retq
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	; X86-NEXT: retl
%b = load <16 x i1>, <16 x i1>* %a		%b = load <16 x i1>, <16 x i1>* %a
%c = sext <16 x i1> %b to <16 x i32>		%c = sext <16 x i1> %b to <16 x i32>
ret <16 x i32> %c		ret <16 x i32> %c
}		}

define <2 x i16> @load_2i1(<2 x i1>* %a) {		define <2 x i16> @load_2i1(<2 x i1>* %a) {
; KNL-LABEL: load_2i1:		; KNL-LABEL: load_2i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: kmovw (%rdi), %k1		; KNL-NEXT: movzbl (%rdi), %eax
		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}		; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
; KNL-NEXT: vpmovdw %zmm0, %ymm0		; KNL-NEXT: vpmovdw %zmm0, %ymm0
; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0		; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: load_2i1:		; SKX-LABEL: load_2i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
; SKX-NEXT: vpmovm2w %k0, %xmm0		; SKX-NEXT: vpmovm2w %k0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: load_2i1:		; AVX512BW-LABEL: load_2i1:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovw (%rdi), %k0		; AVX512BW-NEXT: movzbl (%rdi), %eax
		; AVX512BW-NEXT: kmovd %eax, %k0
; AVX512BW-NEXT: vpmovm2w %k0, %zmm0		; AVX512BW-NEXT: vpmovm2w %k0, %zmm0
; AVX512BW-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512BW-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: load_2i1:		; AVX512DQ-LABEL: load_2i1:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: kmovb (%rdi), %k0		; AVX512DQ-NEXT: kmovb (%rdi), %k0
Show All 12 Lines	; X86-NEXT: retl
%b = load <2 x i1>, <2 x i1>* %a		%b = load <2 x i1>, <2 x i1>* %a
%c = sext <2 x i1> %b to <2 x i16>		%c = sext <2 x i1> %b to <2 x i16>
ret <2 x i16> %c		ret <2 x i16> %c
}		}

define <4 x i16> @load_4i1(<4 x i1>* %a) {		define <4 x i16> @load_4i1(<4 x i1>* %a) {
; KNL-LABEL: load_4i1:		; KNL-LABEL: load_4i1:
; KNL: ## %bb.0:		; KNL: ## %bb.0:
; KNL-NEXT: kmovw (%rdi), %k1		; KNL-NEXT: movzbl (%rdi), %eax
		; KNL-NEXT: kmovw %eax, %k1
; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}		; KNL-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
; KNL-NEXT: vpmovdw %zmm0, %ymm0		; KNL-NEXT: vpmovdw %zmm0, %ymm0
; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0		; KNL-NEXT: ## kill: def $xmm0 killed $xmm0 killed $ymm0
; KNL-NEXT: vzeroupper		; KNL-NEXT: vzeroupper
; KNL-NEXT: retq		; KNL-NEXT: retq
;		;
; SKX-LABEL: load_4i1:		; SKX-LABEL: load_4i1:
; SKX: ## %bb.0:		; SKX: ## %bb.0:
; SKX-NEXT: kmovb (%rdi), %k0		; SKX-NEXT: kmovb (%rdi), %k0
; SKX-NEXT: vpmovm2w %k0, %xmm0		; SKX-NEXT: vpmovm2w %k0, %xmm0
; SKX-NEXT: retq		; SKX-NEXT: retq
;		;
; AVX512BW-LABEL: load_4i1:		; AVX512BW-LABEL: load_4i1:
; AVX512BW: ## %bb.0:		; AVX512BW: ## %bb.0:
; AVX512BW-NEXT: kmovw (%rdi), %k0		; AVX512BW-NEXT: movzbl (%rdi), %eax
		; AVX512BW-NEXT: kmovd %eax, %k0
; AVX512BW-NEXT: vpmovm2w %k0, %zmm0		; AVX512BW-NEXT: vpmovm2w %k0, %zmm0
; AVX512BW-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0		; AVX512BW-NEXT: ## kill: def $xmm0 killed $xmm0 killed $zmm0
; AVX512BW-NEXT: vzeroupper		; AVX512BW-NEXT: vzeroupper
; AVX512BW-NEXT: retq		; AVX512BW-NEXT: retq
;		;
; AVX512DQ-LABEL: load_4i1:		; AVX512DQ-LABEL: load_4i1:
; AVX512DQ: ## %bb.0:		; AVX512DQ: ## %bb.0:
; AVX512DQ-NEXT: kmovb (%rdi), %k0		; AVX512DQ-NEXT: kmovb (%rdi), %k0
▲ Show 20 Lines • Show All 2,819 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-select.ll

Show First 20 Lines • Show All 147 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
ret i8 %res;		ret i8 %res;
}		}

define i8 @select05_mem(<8 x i1>* %a.0, <8 x i1>* %m) {		define i8 @select05_mem(<8 x i1>* %a.0, <8 x i1>* %m) {
; X86-AVX512F-LABEL: select05_mem:		; X86-AVX512F-LABEL: select05_mem:
; X86-AVX512F: # %bb.0:		; X86-AVX512F: # %bb.0:
; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-AVX512F-NEXT: kmovw (%ecx), %k0		; X86-AVX512F-NEXT: movzbl (%ecx), %ecx
; X86-AVX512F-NEXT: kmovw (%eax), %k1		; X86-AVX512F-NEXT: kmovw %ecx, %k0
		; X86-AVX512F-NEXT: movzbl (%eax), %eax
		; X86-AVX512F-NEXT: kmovw %eax, %k1
; X86-AVX512F-NEXT: korw %k1, %k0, %k0		; X86-AVX512F-NEXT: korw %k1, %k0, %k0
; X86-AVX512F-NEXT: kmovw %k0, %eax		; X86-AVX512F-NEXT: kmovw %k0, %eax
; X86-AVX512F-NEXT: # kill: def $al killed $al killed $eax		; X86-AVX512F-NEXT: # kill: def $al killed $al killed $eax
; X86-AVX512F-NEXT: retl		; X86-AVX512F-NEXT: retl
;		;
; X64-AVX512F-LABEL: select05_mem:		; X64-AVX512F-LABEL: select05_mem:
; X64-AVX512F: # %bb.0:		; X64-AVX512F: # %bb.0:
; X64-AVX512F-NEXT: kmovw (%rsi), %k0		; X64-AVX512F-NEXT: movzbl (%rsi), %eax
; X64-AVX512F-NEXT: kmovw (%rdi), %k1		; X64-AVX512F-NEXT: kmovw %eax, %k0
		; X64-AVX512F-NEXT: movzbl (%rdi), %eax
		; X64-AVX512F-NEXT: kmovw %eax, %k1
; X64-AVX512F-NEXT: korw %k1, %k0, %k0		; X64-AVX512F-NEXT: korw %k1, %k0, %k0
; X64-AVX512F-NEXT: kmovw %k0, %eax		; X64-AVX512F-NEXT: kmovw %k0, %eax
; X64-AVX512F-NEXT: # kill: def $al killed $al killed $eax		; X64-AVX512F-NEXT: # kill: def $al killed $al killed $eax
; X64-AVX512F-NEXT: retq		; X64-AVX512F-NEXT: retq
;		;
; X86-AVX512BW-LABEL: select05_mem:		; X86-AVX512BW-LABEL: select05_mem:
; X86-AVX512BW: # %bb.0:		; X86-AVX512BW: # %bb.0:
; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-AVX512BW-NEXT: kmovw (%ecx), %k0		; X86-AVX512BW-NEXT: movzbl (%ecx), %ecx
; X86-AVX512BW-NEXT: kmovw (%eax), %k1		; X86-AVX512BW-NEXT: kmovd %ecx, %k0
		; X86-AVX512BW-NEXT: movzbl (%eax), %eax
		; X86-AVX512BW-NEXT: kmovd %eax, %k1
; X86-AVX512BW-NEXT: korw %k1, %k0, %k0		; X86-AVX512BW-NEXT: korw %k1, %k0, %k0
; X86-AVX512BW-NEXT: kmovd %k0, %eax		; X86-AVX512BW-NEXT: kmovd %k0, %eax
; X86-AVX512BW-NEXT: # kill: def $al killed $al killed $eax		; X86-AVX512BW-NEXT: # kill: def $al killed $al killed $eax
; X86-AVX512BW-NEXT: retl		; X86-AVX512BW-NEXT: retl
;		;
; X64-AVX512BW-LABEL: select05_mem:		; X64-AVX512BW-LABEL: select05_mem:
; X64-AVX512BW: # %bb.0:		; X64-AVX512BW: # %bb.0:
; X64-AVX512BW-NEXT: kmovw (%rsi), %k0		; X64-AVX512BW-NEXT: movzbl (%rsi), %eax
; X64-AVX512BW-NEXT: kmovw (%rdi), %k1		; X64-AVX512BW-NEXT: kmovd %eax, %k0
		; X64-AVX512BW-NEXT: movzbl (%rdi), %eax
		; X64-AVX512BW-NEXT: kmovd %eax, %k1
; X64-AVX512BW-NEXT: korw %k1, %k0, %k0		; X64-AVX512BW-NEXT: korw %k1, %k0, %k0
; X64-AVX512BW-NEXT: kmovd %k0, %eax		; X64-AVX512BW-NEXT: kmovd %k0, %eax
; X64-AVX512BW-NEXT: # kill: def $al killed $al killed $eax		; X64-AVX512BW-NEXT: # kill: def $al killed $al killed $eax
; X64-AVX512BW-NEXT: retq		; X64-AVX512BW-NEXT: retq
%mask = load <8 x i1> , <8 x i1>* %m		%mask = load <8 x i1> , <8 x i1>* %m
%a = load <8 x i1> , <8 x i1>* %a.0		%a = load <8 x i1> , <8 x i1>* %a.0
%r = select <8 x i1> %mask, <8 x i1> <i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1>, <8 x i1> %a		%r = select <8 x i1> %mask, <8 x i1> <i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1, i1 -1>, <8 x i1> %a
%res = bitcast <8 x i1> %r to i8		%res = bitcast <8 x i1> %r to i8
Show All 20 Lines	; X64-NEXT: retq
ret i8 %res;		ret i8 %res;
}		}

define i8 @select06_mem(<8 x i1>* %a.0, <8 x i1>* %m) {		define i8 @select06_mem(<8 x i1>* %a.0, <8 x i1>* %m) {
; X86-AVX512F-LABEL: select06_mem:		; X86-AVX512F-LABEL: select06_mem:
; X86-AVX512F: # %bb.0:		; X86-AVX512F: # %bb.0:
; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-AVX512F-NEXT: kmovw (%ecx), %k0		; X86-AVX512F-NEXT: movzbl (%ecx), %ecx
; X86-AVX512F-NEXT: kmovw (%eax), %k1		; X86-AVX512F-NEXT: kmovw %ecx, %k0
		; X86-AVX512F-NEXT: movzbl (%eax), %eax
		; X86-AVX512F-NEXT: kmovw %eax, %k1
; X86-AVX512F-NEXT: kandw %k1, %k0, %k0		; X86-AVX512F-NEXT: kandw %k1, %k0, %k0
; X86-AVX512F-NEXT: kmovw %k0, %eax		; X86-AVX512F-NEXT: kmovw %k0, %eax
; X86-AVX512F-NEXT: # kill: def $al killed $al killed $eax		; X86-AVX512F-NEXT: # kill: def $al killed $al killed $eax
; X86-AVX512F-NEXT: retl		; X86-AVX512F-NEXT: retl
;		;
; X64-AVX512F-LABEL: select06_mem:		; X64-AVX512F-LABEL: select06_mem:
; X64-AVX512F: # %bb.0:		; X64-AVX512F: # %bb.0:
; X64-AVX512F-NEXT: kmovw (%rsi), %k0		; X64-AVX512F-NEXT: movzbl (%rsi), %eax
; X64-AVX512F-NEXT: kmovw (%rdi), %k1		; X64-AVX512F-NEXT: kmovw %eax, %k0
		; X64-AVX512F-NEXT: movzbl (%rdi), %eax
		; X64-AVX512F-NEXT: kmovw %eax, %k1
; X64-AVX512F-NEXT: kandw %k1, %k0, %k0		; X64-AVX512F-NEXT: kandw %k1, %k0, %k0
; X64-AVX512F-NEXT: kmovw %k0, %eax		; X64-AVX512F-NEXT: kmovw %k0, %eax
; X64-AVX512F-NEXT: # kill: def $al killed $al killed $eax		; X64-AVX512F-NEXT: # kill: def $al killed $al killed $eax
; X64-AVX512F-NEXT: retq		; X64-AVX512F-NEXT: retq
;		;
; X86-AVX512BW-LABEL: select06_mem:		; X86-AVX512BW-LABEL: select06_mem:
; X86-AVX512BW: # %bb.0:		; X86-AVX512BW: # %bb.0:
; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-AVX512BW-NEXT: kmovw (%ecx), %k0		; X86-AVX512BW-NEXT: movzbl (%ecx), %ecx
; X86-AVX512BW-NEXT: kmovw (%eax), %k1		; X86-AVX512BW-NEXT: kmovd %ecx, %k0
		; X86-AVX512BW-NEXT: movzbl (%eax), %eax
		; X86-AVX512BW-NEXT: kmovd %eax, %k1
; X86-AVX512BW-NEXT: kandw %k1, %k0, %k0		; X86-AVX512BW-NEXT: kandw %k1, %k0, %k0
; X86-AVX512BW-NEXT: kmovd %k0, %eax		; X86-AVX512BW-NEXT: kmovd %k0, %eax
; X86-AVX512BW-NEXT: # kill: def $al killed $al killed $eax		; X86-AVX512BW-NEXT: # kill: def $al killed $al killed $eax
; X86-AVX512BW-NEXT: retl		; X86-AVX512BW-NEXT: retl
;		;
; X64-AVX512BW-LABEL: select06_mem:		; X64-AVX512BW-LABEL: select06_mem:
; X64-AVX512BW: # %bb.0:		; X64-AVX512BW: # %bb.0:
; X64-AVX512BW-NEXT: kmovw (%rsi), %k0		; X64-AVX512BW-NEXT: movzbl (%rsi), %eax
; X64-AVX512BW-NEXT: kmovw (%rdi), %k1		; X64-AVX512BW-NEXT: kmovd %eax, %k0
		; X64-AVX512BW-NEXT: movzbl (%rdi), %eax
		; X64-AVX512BW-NEXT: kmovd %eax, %k1
; X64-AVX512BW-NEXT: kandw %k1, %k0, %k0		; X64-AVX512BW-NEXT: kandw %k1, %k0, %k0
; X64-AVX512BW-NEXT: kmovd %k0, %eax		; X64-AVX512BW-NEXT: kmovd %k0, %eax
; X64-AVX512BW-NEXT: # kill: def $al killed $al killed $eax		; X64-AVX512BW-NEXT: # kill: def $al killed $al killed $eax
; X64-AVX512BW-NEXT: retq		; X64-AVX512BW-NEXT: retq
%mask = load <8 x i1> , <8 x i1>* %m		%mask = load <8 x i1> , <8 x i1>* %m
%a = load <8 x i1> , <8 x i1>* %a.0		%a = load <8 x i1> , <8 x i1>* %a.0
%r = select <8 x i1> %mask, <8 x i1> %a, <8 x i1> zeroinitializer		%r = select <8 x i1> %mask, <8 x i1> %a, <8 x i1> zeroinitializer
%res = bitcast <8 x i1> %r to i8		%res = bitcast <8 x i1> %r to i8
▲ Show 20 Lines • Show All 523 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/bitcast-vector-bool.ll

	Show First 20 Lines • Show All 472 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: shrl $16, %eax			; AVX2-NEXT: shrl $16, %eax
	; AVX2-NEXT: addl %ecx, %eax			; AVX2-NEXT: addl %ecx, %eax
	; AVX2-NEXT: # kill: def $ax killed $ax killed $eax			; AVX2-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: bitcast_v32i16_to_v2i16:			; AVX512-LABEL: bitcast_v32i16_to_v2i16:
	; AVX512: # %bb.0:			; AVX512: # %bb.0:
	; AVX512-NEXT: pushq %rbp
	; AVX512-NEXT: movq %rsp, %rbp
	; AVX512-NEXT: andq $-32, %rsp
	; AVX512-NEXT: subq $32, %rsp
	; AVX512-NEXT: vpmovw2m %zmm0, %k0			; AVX512-NEXT: vpmovw2m %zmm0, %k0
	; AVX512-NEXT: kmovd %k0, (%rsp)			; AVX512-NEXT: kmovd %k0, -{{[0-9]+}}(%rsp)
	; AVX512-NEXT: vmovdqa (%rsp), %xmm0			; AVX512-NEXT: vmovdqa -{{[0-9]+}}(%rsp), %xmm0
	; AVX512-NEXT: vmovd %xmm0, %ecx			; AVX512-NEXT: vmovd %xmm0, %ecx
	; AVX512-NEXT: vpextrw $1, %xmm0, %eax			; AVX512-NEXT: vpextrw $1, %xmm0, %eax
	; AVX512-NEXT: addl %ecx, %eax			; AVX512-NEXT: addl %ecx, %eax
	; AVX512-NEXT: # kill: def $ax killed $ax killed $eax			; AVX512-NEXT: # kill: def $ax killed $ax killed $eax
	; AVX512-NEXT: movq %rbp, %rsp
	; AVX512-NEXT: popq %rbp
	; AVX512-NEXT: vzeroupper			; AVX512-NEXT: vzeroupper
	; AVX512-NEXT: retq			; AVX512-NEXT: retq
	%1 = icmp slt <32 x i16> %a0, zeroinitializer			%1 = icmp slt <32 x i16> %a0, zeroinitializer
	%2 = bitcast <32 x i1> %1 to <2 x i16>			%2 = bitcast <32 x i1> %1 to <2 x i16>
	%3 = extractelement <2 x i16> %2, i32 0			%3 = extractelement <2 x i16> %2, i32 0
	%4 = extractelement <2 x i16> %2, i32 1			%4 = extractelement <2 x i16> %2, i32 1
	%5 = add i16 %3, %4			%5 = add i16 %3, %4
	ret i16 %5			ret i16 %5
	▲ Show 20 Lines • Show All 149 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/load-local-v3i129.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s

	define void @_start() {			define void @_start() {
	; CHECK-LABEL: _start:			; CHECK-LABEL: _start:
	; CHECK: # %bb.0: # %Entry			; CHECK: # %bb.0: # %Entry
	; CHECK-NEXT: pushq %rax
	; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rax			; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rax
	; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rcx			; CHECK-NEXT: movq -{{[0-9]+}}(%rsp), %rcx
	; CHECK-NEXT: shrdq $2, %rcx, %rax			; CHECK-NEXT: shrdq $2, %rcx, %rax
	; CHECK-NEXT: shrq $2, %rcx			; CHECK-NEXT: shrq $2, %rcx
	; CHECK-NEXT: leaq 1(,%rax,4), %rdx			; CHECK-NEXT: leaq 1(,%rax,4), %rdx
	; CHECK-NEXT: movq %rdx, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rdx, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: shrdq $62, %rcx, %rax			; CHECK-NEXT: shrdq $62, %rcx, %rax
	; CHECK-NEXT: movq %rax, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq %rax, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: orq $-2, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: orq $-2, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: movq $-1, -{{[0-9]+}}(%rsp)			; CHECK-NEXT: movq $-1, -{{[0-9]+}}(%rsp)
	; CHECK-NEXT: popq %rax
	; CHECK-NEXT: .cfi_def_cfa_offset 8
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	Entry:			Entry:
	%y = alloca <3 x i129>, align 4			%y = alloca <3 x i129>, align 4
	%L = load <3 x i129>, <3 x i129>* %y			%L = load <3 x i129>, <3 x i129>* %y
	%I1 = insertelement <3 x i129> %L, i129 340282366920938463463374607431768211455, i32 1			%I1 = insertelement <3 x i129> %L, i129 340282366920938463463374607431768211455, i32 1
	store <3 x i129> %I1, <3 x i129>* %y			store <3 x i129> %I1, <3 x i129>* %y
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/pr41619.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx2 \| FileCheck %s --check-prefixes=CHECK,AVX		; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx2 \| FileCheck %s --check-prefixes=CHECK
; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx512bw \| FileCheck %s --check-prefixes=CHECK,AVX512		; RUN: llc < %s -mtriple=x86_64-apple-macosx10.14.0 -mattr=avx512bw \| FileCheck %s --check-prefixes=CHECK

define void @foo(double %arg) {		define void @foo(double %arg) {
; CHECK-LABEL: foo:		; CHECK-LABEL: foo:
; CHECK: ## %bb.0: ## %bb		; CHECK: ## %bb.0: ## %bb
; CHECK-NEXT: vmovq %xmm0, %rax		; CHECK-NEXT: vmovq %xmm0, %rax
; CHECK-NEXT: vmovd %eax, %xmm0		; CHECK-NEXT: vmovd %eax, %xmm0
; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1		; CHECK-NEXT: vxorps %xmm1, %xmm1, %xmm1
; CHECK-NEXT: vmovq %xmm0, %rax		; CHECK-NEXT: vmovq %xmm0, %rax
Show All 12 Lines	bb:
%tmp8 = trunc i64 %tmp7 to i32		%tmp8 = trunc i64 %tmp7 to i32
store i32 %tmp8, i32* undef, align 4		store i32 %tmp8, i32* undef, align 4
store double %tmp5, double* undef, align 16		store double %tmp5, double* undef, align 16
ret void		ret void
}		}

; This used to crash with mask registers on avx512bw targets.		; This used to crash with mask registers on avx512bw targets.
define i32 @bar(double %blah) nounwind {		define i32 @bar(double %blah) nounwind {
; AVX-LABEL: bar:		; CHECK-LABEL: bar:
; AVX: ## %bb.0:		; CHECK: ## %bb.0:
; AVX-NEXT: pushq %rbp		; CHECK-NEXT: vmovq %xmm0, %rax
; AVX-NEXT: movq %rsp, %rbp		; CHECK-NEXT: ## kill: def $eax killed $eax killed $rax
; AVX-NEXT: andq $-32, %rsp		; CHECK-NEXT: retq
; AVX-NEXT: subq $32, %rsp
; AVX-NEXT: vmovq %xmm0, %rax
; AVX-NEXT: ## kill: def $eax killed $eax killed $rax
; AVX-NEXT: movq %rbp, %rsp
; AVX-NEXT: popq %rbp
; AVX-NEXT: retq
;
; AVX512-LABEL: bar:
; AVX512: ## %bb.0:
; AVX512-NEXT: vmovq %xmm0, %rax
; AVX512-NEXT: ## kill: def $eax killed $eax killed $rax
; AVX512-NEXT: retq
%z = bitcast double %blah to i64		%z = bitcast double %blah to i64
%y = trunc i64 %z to i32		%y = trunc i64 %z to i32
%a = bitcast i32 %y to <32 x i1>		%a = bitcast i32 %y to <32 x i1>
%b = shufflevector <32 x i1> %a, <32 x i1> undef, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38, i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46, i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54, i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62, i32 63>		%b = shufflevector <32 x i1> %a, <32 x i1> undef, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 32, i32 33, i32 34, i32 35, i32 36, i32 37, i32 38, i32 39, i32 40, i32 41, i32 42, i32 43, i32 44, i32 45, i32 46, i32 47, i32 48, i32 49, i32 50, i32 51, i32 52, i32 53, i32 54, i32 55, i32 56, i32 57, i32 58, i32 59, i32 60, i32 61, i32 62, i32 63>
%c = bitcast <64 x i1> %b to i64		%c = bitcast <64 x i1> %b to i64
%d = trunc i64 %c to i32		%d = trunc i64 %c to i32
ret i32 %d		ret i32 %d
}		}

llvm/test/CodeGen/X86/vector-sext.ll

	Show First 20 Lines • Show All 1,376 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: negq %rax			; AVX2-NEXT: negq %rax
	; AVX2-NEXT: vmovq %rax, %xmm0			; AVX2-NEXT: vmovq %rax, %xmm0
	; AVX2-NEXT: andl $1, %ecx			; AVX2-NEXT: andl $1, %ecx
	; AVX2-NEXT: negq %rcx			; AVX2-NEXT: negq %rcx
	; AVX2-NEXT: vmovq %rcx, %xmm1			; AVX2-NEXT: vmovq %rcx, %xmm1
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm0 = xmm1[0],xmm0[0]
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: load_sext_2i1_to_2i64:			; AVX512F-LABEL: load_sext_2i1_to_2i64:
	; AVX512: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512-NEXT: kmovw (%rdi), %k1			; AVX512F-NEXT: movzbl (%rdi), %eax
	; AVX512-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
	; AVX512-NEXT: vzeroupper			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: retq			; AVX512F-NEXT: vzeroupper
				; AVX512F-NEXT: retq
				;
				; AVX512BW-LABEL: load_sext_2i1_to_2i64:
				; AVX512BW: # %bb.0: # %entry
				; AVX512BW-NEXT: movzbl (%rdi), %eax
				; AVX512BW-NEXT: kmovd %eax, %k1
				; AVX512BW-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
	;			;
	; X86-SSE2-LABEL: load_sext_2i1_to_2i64:			; X86-SSE2-LABEL: load_sext_2i1_to_2i64:
	; X86-SSE2: # %bb.0: # %entry			; X86-SSE2: # %bb.0: # %entry
	; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE2-NEXT: movb (%eax), %al			; X86-SSE2-NEXT: movb (%eax), %al
	; X86-SSE2-NEXT: movzbl %al, %ecx			; X86-SSE2-NEXT: movzbl %al, %ecx
	; X86-SSE2-NEXT: shrb %al			; X86-SSE2-NEXT: shrb %al
	; X86-SSE2-NEXT: movzbl %al, %eax			; X86-SSE2-NEXT: movzbl %al, %eax
	▲ Show 20 Lines • Show All 214 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: negl %eax			; AVX2-NEXT: negl %eax
	; AVX2-NEXT: vpinsrd $2, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrd $2, %eax, %xmm0, %xmm0
	; AVX2-NEXT: shrb $3, %cl			; AVX2-NEXT: shrb $3, %cl
	; AVX2-NEXT: movzbl %cl, %eax			; AVX2-NEXT: movzbl %cl, %eax
	; AVX2-NEXT: negl %eax			; AVX2-NEXT: negl %eax
	; AVX2-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0			; AVX2-NEXT: vpinsrd $3, %eax, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: load_sext_4i1_to_4i32:			; AVX512F-LABEL: load_sext_4i1_to_4i32:
	; AVX512: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512-NEXT: kmovw (%rdi), %k1			; AVX512F-NEXT: movzbl (%rdi), %eax
	; AVX512-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
	; AVX512-NEXT: vzeroupper			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512-NEXT: retq			; AVX512F-NEXT: vzeroupper
				; AVX512F-NEXT: retq
				;
				; AVX512BW-LABEL: load_sext_4i1_to_4i32:
				; AVX512BW: # %bb.0: # %entry
				; AVX512BW-NEXT: movzbl (%rdi), %eax
				; AVX512BW-NEXT: kmovd %eax, %k1
				; AVX512BW-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
				; AVX512BW-NEXT: vzeroupper
				; AVX512BW-NEXT: retq
	;			;
	; X86-SSE2-LABEL: load_sext_4i1_to_4i32:			; X86-SSE2-LABEL: load_sext_4i1_to_4i32:
	; X86-SSE2: # %bb.0: # %entry			; X86-SSE2: # %bb.0: # %entry
	; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE2-NEXT: movb (%eax), %al			; X86-SSE2-NEXT: movb (%eax), %al
	; X86-SSE2-NEXT: movl %eax, %ecx			; X86-SSE2-NEXT: movl %eax, %ecx
	; X86-SSE2-NEXT: shrb $3, %cl			; X86-SSE2-NEXT: shrb $3, %cl
	; X86-SSE2-NEXT: movzbl %cl, %ecx			; X86-SSE2-NEXT: movzbl %cl, %ecx
	▲ Show 20 Lines • Show All 240 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: movzbl %cl, %eax			; AVX2-NEXT: movzbl %cl, %eax
	; AVX2-NEXT: andl $1, %eax			; AVX2-NEXT: andl $1, %eax
	; AVX2-NEXT: negq %rax			; AVX2-NEXT: negq %rax
	; AVX2-NEXT: vmovq %rax, %xmm2			; AVX2-NEXT: vmovq %rax, %xmm2
	; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]			; AVX2-NEXT: vpunpcklqdq {{.*#+}} xmm1 = xmm1[0],xmm2[0]
	; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0			; AVX2-NEXT: vinserti128 $1, %xmm0, %ymm1, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: load_sext_4i1_to_4i64:			; AVX512F-LABEL: load_sext_4i1_to_4i64:
	; AVX512: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512-NEXT: kmovw (%rdi), %k1			; AVX512F-NEXT: movzbl (%rdi), %eax
	; AVX512-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512F-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
	; AVX512-NEXT: retq			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
				; AVX512F-NEXT: retq
				;
				; AVX512BW-LABEL: load_sext_4i1_to_4i64:
				; AVX512BW: # %bb.0: # %entry
				; AVX512BW-NEXT: movzbl (%rdi), %eax
				; AVX512BW-NEXT: kmovd %eax, %k1
				; AVX512BW-NEXT: vpternlogq $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
				; AVX512BW-NEXT: retq
	;			;
	; X86-SSE2-LABEL: load_sext_4i1_to_4i64:			; X86-SSE2-LABEL: load_sext_4i1_to_4i64:
	; X86-SSE2: # %bb.0: # %entry			; X86-SSE2: # %bb.0: # %entry
	; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE2-NEXT: movb (%eax), %al			; X86-SSE2-NEXT: movb (%eax), %al
	; X86-SSE2-NEXT: movl %eax, %ecx			; X86-SSE2-NEXT: movl %eax, %ecx
	; X86-SSE2-NEXT: shrb %cl			; X86-SSE2-NEXT: shrb %cl
	; X86-SSE2-NEXT: andb $1, %cl			; X86-SSE2-NEXT: andb $1, %cl
	▲ Show 20 Lines • Show All 201 Lines • ▼ Show 20 Lines
	%sext = sext <4 x i8> %ld to <4 x i64>			%sext = sext <4 x i8> %ld to <4 x i64>
	%extract = shufflevector <4 x i64> %sext, <4 x i64> undef, <2 x i32> <i32 2, i32 3>			%extract = shufflevector <4 x i64> %sext, <4 x i64> undef, <2 x i32> <i32 2, i32 3>
	ret <2 x i64> %extract			ret <2 x i64> %extract
	}			}

	define <8 x i16> @load_sext_8i1_to_8i16(<8 x i1> *%ptr) {			define <8 x i16> @load_sext_8i1_to_8i16(<8 x i1> *%ptr) {
	; SSE-LABEL: load_sext_8i1_to_8i16:			; SSE-LABEL: load_sext_8i1_to_8i16:
	; SSE: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movzbl (%rdi), %eax
				; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; SSE-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]			; SSE-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]
	; SSE-NEXT: pand %xmm1, %xmm0			; SSE-NEXT: pand %xmm1, %xmm0
	; SSE-NEXT: pcmpeqw %xmm1, %xmm0			; SSE-NEXT: pcmpeqw %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: load_sext_8i1_to_8i16:			; AVX1-LABEL: load_sext_8i1_to_8i16:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX1-NEXT: movzbl (%rdi), %eax
				; AVX1-NEXT: vmovd %eax, %xmm0
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]			; AVX1-NEXT: vmovdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: load_sext_8i1_to_8i16:			; AVX2-LABEL: load_sext_8i1_to_8i16:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpbroadcastb (%rdi), %xmm0			; AVX2-NEXT: vpbroadcastb (%rdi), %xmm0
	; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]			; AVX2-NEXT: vmovdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqw %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: load_sext_8i1_to_8i16:			; AVX512F-LABEL: load_sext_8i1_to_8i16:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512F-NEXT: kmovw (%rdi), %k1			; AVX512F-NEXT: movzbl (%rdi), %eax
				; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
	; AVX512F-NEXT: vpmovdw %zmm0, %ymm0			; AVX512F-NEXT: vpmovdw %zmm0, %ymm0
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512BW-LABEL: load_sext_8i1_to_8i16:			; AVX512BW-LABEL: load_sext_8i1_to_8i16:
	; AVX512BW: # %bb.0: # %entry			; AVX512BW: # %bb.0: # %entry
	; AVX512BW-NEXT: kmovw (%rdi), %k0			; AVX512BW-NEXT: movzbl (%rdi), %eax
				; AVX512BW-NEXT: kmovd %eax, %k0
	; AVX512BW-NEXT: vpmovm2w %k0, %zmm0			; AVX512BW-NEXT: vpmovm2w %k0, %zmm0
	; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; X86-SSE-LABEL: load_sext_8i1_to_8i16:			; X86-SSE-LABEL: load_sext_8i1_to_8i16:
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movzbl (%eax), %eax
				; X86-SSE-NEXT: movd %eax, %xmm0
	; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128]
	; X86-SSE-NEXT: pand %xmm1, %xmm0			; X86-SSE-NEXT: pand %xmm1, %xmm0
	; X86-SSE-NEXT: pcmpeqw %xmm1, %xmm0			; X86-SSE-NEXT: pcmpeqw %xmm1, %xmm0
	; X86-SSE-NEXT: retl			; X86-SSE-NEXT: retl
	entry:			entry:
	%X = load <8 x i1>, <8 x i1>* %ptr			%X = load <8 x i1>, <8 x i1>* %ptr
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	%X = load <8 x i8>, <8 x i8>* %ptr			%X = load <8 x i8>, <8 x i8>* %ptr
	%Y = sext <8 x i8> %X to <8 x i64>			%Y = sext <8 x i8> %X to <8 x i64>
	ret <8 x i64> %Y			ret <8 x i64> %Y
	}			}

	define <8 x i32> @load_sext_8i1_to_8i32(<8 x i1> *%ptr) {			define <8 x i32> @load_sext_8i1_to_8i32(<8 x i1> *%ptr) {
	; SSE-LABEL: load_sext_8i1_to_8i32:			; SSE-LABEL: load_sext_8i1_to_8i32:
	; SSE: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movzbl (%rdi), %eax
				; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: pcmpeqd %xmm2, %xmm0			; SSE-NEXT: pcmpeqd %xmm2, %xmm0
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [16,32,64,128]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [16,32,64,128]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pcmpeqd %xmm2, %xmm1			; SSE-NEXT: pcmpeqd %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: load_sext_8i1_to_8i32:			; AVX1-LABEL: load_sext_8i1_to_8i32:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovss {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX1-NEXT: movzbl (%rdi), %eax
	; AVX1-NEXT: vpermilps {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vmovd %eax, %xmm0
				; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vpcmpeqd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1			; AVX1-NEXT: vpcmpeqd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpcmpeqd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: load_sext_8i1_to_8i32:			; AVX2-LABEL: load_sext_8i1_to_8i32:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vpbroadcastb (%rdi), %ymm0			; AVX2-NEXT: vpbroadcastb (%rdi), %ymm0
	; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [1,2,4,8,16,32,64,128]			; AVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [1,2,4,8,16,32,64,128]
	; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpand %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: vpcmpeqd %ymm1, %ymm0, %ymm0			; AVX2-NEXT: vpcmpeqd %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512-LABEL: load_sext_8i1_to_8i32:			; AVX512F-LABEL: load_sext_8i1_to_8i32:
	; AVX512: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	; AVX512-NEXT: kmovw (%rdi), %k1			; AVX512F-NEXT: movzbl (%rdi), %eax
	; AVX512-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}			; AVX512F-NEXT: kmovw %eax, %k1
	; AVX512-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512F-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
	; AVX512-NEXT: retq			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
				; AVX512F-NEXT: retq
				;
				; AVX512BW-LABEL: load_sext_8i1_to_8i32:
				; AVX512BW: # %bb.0: # %entry
				; AVX512BW-NEXT: movzbl (%rdi), %eax
				; AVX512BW-NEXT: kmovd %eax, %k1
				; AVX512BW-NEXT: vpternlogd $255, %zmm0, %zmm0, %zmm0 {%k1} {z}
				; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
				; AVX512BW-NEXT: retq
	;			;
	; X86-SSE-LABEL: load_sext_8i1_to_8i32:			; X86-SSE-LABEL: load_sext_8i1_to_8i32:
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movzbl (%eax), %eax
				; X86-SSE-NEXT: movd %eax, %xmm0
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8]
	; X86-SSE-NEXT: movdqa %xmm1, %xmm0			; X86-SSE-NEXT: movdqa %xmm1, %xmm0
	; X86-SSE-NEXT: pand %xmm2, %xmm0			; X86-SSE-NEXT: pand %xmm2, %xmm0
	; X86-SSE-NEXT: pcmpeqd %xmm2, %xmm0			; X86-SSE-NEXT: pcmpeqd %xmm2, %xmm0
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [16,32,64,128]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [16,32,64,128]
	; X86-SSE-NEXT: pand %xmm2, %xmm1			; X86-SSE-NEXT: pand %xmm2, %xmm1
	; X86-SSE-NEXT: pcmpeqd %xmm2, %xmm1			; X86-SSE-NEXT: pcmpeqd %xmm2, %xmm1
	▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines
	%X = load <8 x i8>, <8 x i8>* %ptr			%X = load <8 x i8>, <8 x i8>* %ptr
	%Y = sext <8 x i8> %X to <8 x i32>			%Y = sext <8 x i8> %X to <8 x i32>
	ret <8 x i32> %Y			ret <8 x i32> %Y
	}			}

	define <16 x i8> @load_sext_16i1_to_16i8(<16 x i1> *%ptr) nounwind readnone {			define <16 x i8> @load_sext_16i1_to_16i8(<16 x i1> *%ptr) nounwind readnone {
	; SSE2-LABEL: load_sext_16i1_to_16i8:			; SSE2-LABEL: load_sext_16i1_to_16i8:
	; SSE2: # %bb.0: # %entry			; SSE2: # %bb.0: # %entry
	; SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE2-NEXT: movzwl (%rdi), %eax
				; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,1,1,4,5,6,7]			; SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,1,1,4,5,6,7]
	; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]			; SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
	; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]
	; SSE2-NEXT: pand %xmm1, %xmm0			; SSE2-NEXT: pand %xmm1, %xmm0
	; SSE2-NEXT: pcmpeqb %xmm1, %xmm0			; SSE2-NEXT: pcmpeqb %xmm1, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: load_sext_16i1_to_16i8:			; SSSE3-LABEL: load_sext_16i1_to_16i8:
	; SSSE3: # %bb.0: # %entry			; SSSE3: # %bb.0: # %entry
	; SSSE3-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSSE3-NEXT: movzwl (%rdi), %eax
				; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]			; SSSE3-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]
	; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; SSSE3-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]
	; SSSE3-NEXT: pand %xmm1, %xmm0			; SSSE3-NEXT: pand %xmm1, %xmm0
	; SSSE3-NEXT: pcmpeqb %xmm1, %xmm0			; SSSE3-NEXT: pcmpeqb %xmm1, %xmm0
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: load_sext_16i1_to_16i8:			; SSE41-LABEL: load_sext_16i1_to_16i8:
	; SSE41: # %bb.0: # %entry			; SSE41: # %bb.0: # %entry
	; SSE41-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE41-NEXT: movzwl (%rdi), %eax
				; SSE41-NEXT: movd %eax, %xmm0
	; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]			; SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]
	; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]
	; SSE41-NEXT: pand %xmm1, %xmm0			; SSE41-NEXT: pand %xmm1, %xmm0
	; SSE41-NEXT: pcmpeqb %xmm1, %xmm0			; SSE41-NEXT: pcmpeqb %xmm1, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: load_sext_16i1_to_16i8:			; AVX1-LABEL: load_sext_16i1_to_16i8:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX1-NEXT: movzwl (%rdi), %eax
				; AVX1-NEXT: vmovd %eax, %xmm0
	; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]			; AVX1-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]
	; AVX1-NEXT: vmovddup {{.*#+}} xmm1 = [9241421688590303745,9241421688590303745]			; AVX1-NEXT: vmovddup {{.*#+}} xmm1 = [9241421688590303745,9241421688590303745]
	; AVX1-NEXT: # xmm1 = mem[0,0]			; AVX1-NEXT: # xmm1 = mem[0,0]
	; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: load_sext_16i1_to_16i8:			; AVX2-LABEL: load_sext_16i1_to_16i8:
	; AVX2: # %bb.0: # %entry			; AVX2: # %bb.0: # %entry
	; AVX2-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX2-NEXT: movzwl (%rdi), %eax
				; AVX2-NEXT: vmovd %eax, %xmm0
	; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]			; AVX2-NEXT: vpshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]
	; AVX2-NEXT: vpbroadcastq {{.*#+}} xmm1 = [9241421688590303745,9241421688590303745]			; AVX2-NEXT: vpbroadcastq {{.*#+}} xmm1 = [9241421688590303745,9241421688590303745]
	; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpand %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpcmpeqb %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: load_sext_16i1_to_16i8:			; AVX512F-LABEL: load_sext_16i1_to_16i8:
	; AVX512F: # %bb.0: # %entry			; AVX512F: # %bb.0: # %entry
	Show All 9 Lines
	; AVX512BW-NEXT: vpmovm2b %k0, %zmm0			; AVX512BW-NEXT: vpmovm2b %k0, %zmm0
	; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; X86-SSE2-LABEL: load_sext_16i1_to_16i8:			; X86-SSE2-LABEL: load_sext_16i1_to_16i8:
	; X86-SSE2: # %bb.0: # %entry			; X86-SSE2: # %bb.0: # %entry
	; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE2-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE2-NEXT: movzwl (%eax), %eax
				; X86-SSE2-NEXT: movd %eax, %xmm0
	; X86-SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]			; X86-SSE2-NEXT: punpcklbw {{.*#+}} xmm0 = xmm0[0,0,1,1,2,2,3,3,4,4,5,5,6,6,7,7]
	; X86-SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,1,1,4,5,6,7]			; X86-SSE2-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,1,1,4,5,6,7]
	; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]			; X86-SSE2-NEXT: pshufd {{.*#+}} xmm0 = xmm0[0,0,1,1]
	; X86-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; X86-SSE2-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]
	; X86-SSE2-NEXT: pand %xmm1, %xmm0			; X86-SSE2-NEXT: pand %xmm1, %xmm0
	; X86-SSE2-NEXT: pcmpeqb %xmm1, %xmm0			; X86-SSE2-NEXT: pcmpeqb %xmm1, %xmm0
	; X86-SSE2-NEXT: retl			; X86-SSE2-NEXT: retl
	;			;
	; X86-SSE41-LABEL: load_sext_16i1_to_16i8:			; X86-SSE41-LABEL: load_sext_16i1_to_16i8:
	; X86-SSE41: # %bb.0: # %entry			; X86-SSE41: # %bb.0: # %entry
	; X86-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE41-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE41-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE41-NEXT: movzwl (%eax), %eax
				; X86-SSE41-NEXT: movd %eax, %xmm0
	; X86-SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]			; X86-SSE41-NEXT: pshufb {{.*#+}} xmm0 = xmm0[0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1]
	; X86-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; X86-SSE41-NEXT: movdqa {{.*#+}} xmm1 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]
	; X86-SSE41-NEXT: pand %xmm1, %xmm0			; X86-SSE41-NEXT: pand %xmm1, %xmm0
	; X86-SSE41-NEXT: pcmpeqb %xmm1, %xmm0			; X86-SSE41-NEXT: pcmpeqb %xmm1, %xmm0
	; X86-SSE41-NEXT: retl			; X86-SSE41-NEXT: retl
	entry:			entry:
	%X = load <16 x i1>, <16 x i1>* %ptr			%X = load <16 x i1>, <16 x i1>* %ptr
	%Y = sext <16 x i1> %X to <16 x i8>			%Y = sext <16 x i1> %X to <16 x i8>
	ret <16 x i8> %Y			ret <16 x i8> %Y
	}			}

	define <16 x i16> @load_sext_16i1_to_16i16(<16 x i1> *%ptr) {			define <16 x i16> @load_sext_16i1_to_16i16(<16 x i1> *%ptr) {
	; SSE-LABEL: load_sext_16i1_to_16i16:			; SSE-LABEL: load_sext_16i1_to_16i16:
	; SSE: # %bb.0: # %entry			; SSE: # %bb.0: # %entry
	; SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; SSE-NEXT: movzwl (%rdi), %eax
				; SSE-NEXT: movd %eax, %xmm0
	; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]			; SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8,16,32,64,128]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8,16,32,64,128]
	; SSE-NEXT: movdqa %xmm1, %xmm0			; SSE-NEXT: movdqa %xmm1, %xmm0
	; SSE-NEXT: pand %xmm2, %xmm0			; SSE-NEXT: pand %xmm2, %xmm0
	; SSE-NEXT: pcmpeqw %xmm2, %xmm0			; SSE-NEXT: pcmpeqw %xmm2, %xmm0
	; SSE-NEXT: movdqa {{.*#+}} xmm2 = [256,512,1024,2048,4096,8192,16384,32768]			; SSE-NEXT: movdqa {{.*#+}} xmm2 = [256,512,1024,2048,4096,8192,16384,32768]
	; SSE-NEXT: pand %xmm2, %xmm1			; SSE-NEXT: pand %xmm2, %xmm1
	; SSE-NEXT: pcmpeqw %xmm2, %xmm1			; SSE-NEXT: pcmpeqw %xmm2, %xmm1
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX1-LABEL: load_sext_16i1_to_16i16:			; AVX1-LABEL: load_sext_16i1_to_16i16:
	; AVX1: # %bb.0: # %entry			; AVX1: # %bb.0: # %entry
	; AVX1-NEXT: vmovd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; AVX1-NEXT: movzwl (%rdi), %eax
				; AVX1-NEXT: vmovd %eax, %xmm0
	; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; AVX1-NEXT: vpshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]			; AVX1-NEXT: vpshufd {{.*#+}} xmm0 = xmm0[0,0,0,0]
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; AVX1-NEXT: vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX1-NEXT: vandps {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX1-NEXT: vpcmpeqw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1			; AVX1-NEXT: vpcmpeqw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; AVX1-NEXT: vpcmpeqw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX1-NEXT: vpcmpeqw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	Show All 19 Lines
	; AVX512BW-NEXT: kmovw (%rdi), %k0			; AVX512BW-NEXT: kmovw (%rdi), %k0
	; AVX512BW-NEXT: vpmovm2w %k0, %zmm0			; AVX512BW-NEXT: vpmovm2w %k0, %zmm0
	; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512BW-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; X86-SSE-LABEL: load_sext_16i1_to_16i16:			; X86-SSE-LABEL: load_sext_16i1_to_16i16:
	; X86-SSE: # %bb.0: # %entry			; X86-SSE: # %bb.0: # %entry
	; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-SSE-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-SSE-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-SSE-NEXT: movzwl (%eax), %eax
				; X86-SSE-NEXT: movd %eax, %xmm0
	; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]			; X86-SSE-NEXT: pshuflw {{.*#+}} xmm0 = xmm0[0,0,0,0,4,5,6,7]
	; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]			; X86-SSE-NEXT: pshufd {{.*#+}} xmm1 = xmm0[0,0,0,0]
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8,16,32,64,128]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [1,2,4,8,16,32,64,128]
	; X86-SSE-NEXT: movdqa %xmm1, %xmm0			; X86-SSE-NEXT: movdqa %xmm1, %xmm0
	; X86-SSE-NEXT: pand %xmm2, %xmm0			; X86-SSE-NEXT: pand %xmm2, %xmm0
	; X86-SSE-NEXT: pcmpeqw %xmm2, %xmm0			; X86-SSE-NEXT: pcmpeqw %xmm2, %xmm0
	; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [256,512,1024,2048,4096,8192,16384,32768]			; X86-SSE-NEXT: movdqa {{.*#+}} xmm2 = [256,512,1024,2048,4096,8192,16384,32768]
	; X86-SSE-NEXT: pand %xmm2, %xmm1			; X86-SSE-NEXT: pand %xmm2, %xmm1
	▲ Show 20 Lines • Show All 1,453 Lines • Show Last 20 Lines

llvm/test/Transforms/InstCombine/abs-intrinsic.ll

Show First 20 Lines • Show All 396 Lines • ▼ Show 20 Lines	;
%s = srem i32 %x, 2		%s = srem i32 %x, 2
%r = call i32 @llvm.abs.i32(i32 %s, i1 true)		%r = call i32 @llvm.abs.i32(i32 %s, i1 true)
ret i32 %r		ret i32 %r
}		}

define <3 x i82> @srem_by_2(<3 x i82> %x, <3 x i82>* %p) {		define <3 x i82> @srem_by_2(<3 x i82> %x, <3 x i82>* %p) {
; CHECK-LABEL: @srem_by_2(		; CHECK-LABEL: @srem_by_2(
; CHECK-NEXT: [[S:%.]] = srem <3 x i82> [[X:%.]], <i82 2, i82 2, i82 2>		; CHECK-NEXT: [[S:%.]] = srem <3 x i82> [[X:%.]], <i82 2, i82 2, i82 2>
; CHECK-NEXT: store <3 x i82> [[S]], <3 x i82>* [[P:%.*]], align 64		; CHECK-NEXT: store <3 x i82> [[S]], <3 x i82>* [[P:%.*]], align 32
; CHECK-NEXT: [[R:%.*]] = and <3 x i82> [[X]], <i82 1, i82 1, i82 1>		; CHECK-NEXT: [[R:%.*]] = and <3 x i82> [[X]], <i82 1, i82 1, i82 1>
; CHECK-NEXT: ret <3 x i82> [[R]]		; CHECK-NEXT: ret <3 x i82> [[R]]
;		;
%s = srem <3 x i82> %x, <i82 2, i82 2, i82 2>		%s = srem <3 x i82> %x, <i82 2, i82 2, i82 2>
store <3 x i82> %s, <3 x i82>* %p		store <3 x i82> %s, <3 x i82>* %p
%r = call <3 x i82> @llvm.abs.v3i82(<3 x i82> %s, i1 false)		%r = call <3 x i82> @llvm.abs.v3i82(<3 x i82> %s, i1 false)
ret <3 x i82> %r		ret <3 x i82> %r
}		}
Show All 13 Lines

llvm/test/Transforms/InstCombine/icmp-vec.ll

Show First 20 Lines • Show All 500 Lines • ▼ Show 20 Lines	;
%b = bitcast <3 x i1> %not to i3		%b = bitcast <3 x i1> %not to i3
%r = icmp ne i3 %b, -1		%r = icmp ne i3 %b, -1
ret i1 %r		ret i1 %r
}		}

define i1 @not_cast_ne-1_uses(<3 x i2> %x, <3 x i2>* %p) {		define i1 @not_cast_ne-1_uses(<3 x i2> %x, <3 x i2>* %p) {
; CHECK-LABEL: @not_cast_ne-1_uses(		; CHECK-LABEL: @not_cast_ne-1_uses(
; CHECK-NEXT: [[NOT:%.]] = xor <3 x i2> [[X:%.]], <i2 -1, i2 -1, i2 -1>		; CHECK-NEXT: [[NOT:%.]] = xor <3 x i2> [[X:%.]], <i2 -1, i2 -1, i2 -1>
; CHECK-NEXT: store <3 x i2> [[NOT]], <3 x i2>* [[P:%.*]], align 4		; CHECK-NEXT: store <3 x i2> [[NOT]], <3 x i2>* [[P:%.*]], align 1
; CHECK-NEXT: [[TMP1:%.*]] = bitcast <3 x i2> [[X]] to i6		; CHECK-NEXT: [[TMP1:%.*]] = bitcast <3 x i2> [[X]] to i6
; CHECK-NEXT: [[R:%.*]] = icmp ne i6 [[TMP1]], 0		; CHECK-NEXT: [[R:%.*]] = icmp ne i6 [[TMP1]], 0
; CHECK-NEXT: ret i1 [[R]]		; CHECK-NEXT: ret i1 [[R]]
;		;
%not = xor <3 x i2> %x, <i2 -1, i2 -1, i2 -1>		%not = xor <3 x i2> %x, <i2 -1, i2 -1, i2 -1>
store <3 x i2> %not, <3 x i2>* %p		store <3 x i2> %not, <3 x i2>* %p
%b = bitcast <3 x i2> %not to i6		%b = bitcast <3 x i2> %not to i6
%r = icmp ne i6 %b, -1		%r = icmp ne i6 %b, -1
Show All 30 Lines	;
ret i1 %r		ret i1 %r
}		}

; negative test - extra use		; negative test - extra use

define i1 @eq_cast_eq-1_use1(<2 x i4> %x, <2 x i4> %y, <2 x i1>* %p) {		define i1 @eq_cast_eq-1_use1(<2 x i4> %x, <2 x i4> %y, <2 x i1>* %p) {
; CHECK-LABEL: @eq_cast_eq-1_use1(		; CHECK-LABEL: @eq_cast_eq-1_use1(
; CHECK-NEXT: [[IC:%.]] = icmp sgt <2 x i4> [[X:%.]], [[Y:%.*]]		; CHECK-NEXT: [[IC:%.]] = icmp sgt <2 x i4> [[X:%.]], [[Y:%.*]]
; CHECK-NEXT: store <2 x i1> [[IC]], <2 x i1>* [[P:%.*]], align 2		; CHECK-NEXT: store <2 x i1> [[IC]], <2 x i1>* [[P:%.*]], align 1
; CHECK-NEXT: [[B:%.*]] = bitcast <2 x i1> [[IC]] to i2		; CHECK-NEXT: [[B:%.*]] = bitcast <2 x i1> [[IC]] to i2
; CHECK-NEXT: [[R:%.*]] = icmp eq i2 [[B]], -1		; CHECK-NEXT: [[R:%.*]] = icmp eq i2 [[B]], -1
; CHECK-NEXT: ret i1 [[R]]		; CHECK-NEXT: ret i1 [[R]]
;		;
%ic = icmp sgt <2 x i4> %x, %y		%ic = icmp sgt <2 x i4> %x, %y
store <2 x i1> %ic, <2 x i1>* %p		store <2 x i1> %ic, <2 x i1>* %p
%b = bitcast <2 x i1> %ic to i2		%b = bitcast <2 x i1> %ic to i2
%r = icmp eq i2 %b, -1		%r = icmp eq i2 %b, -1
Show All 20 Lines

llvm/test/Transforms/InstCombine/select-min-max.ll

Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	;
%m2 = call i5 @llvm.umin.i5(i5 %z, i5 %y)		%m2 = call i5 @llvm.umin.i5(i5 %z, i5 %y)
%sel = select i1 %cond, i5 %m1, i5 %m2		%sel = select i1 %cond, i5 %m1, i5 %m2
ret i5 %sel		ret i5 %sel
}		}

define <3 x i5> @umax_umax_common_op_11(i1 %cond, <3 x i5> %x, <3 x i5> %y, <3 x i5> %z, <3 x i5>* %p) {		define <3 x i5> @umax_umax_common_op_11(i1 %cond, <3 x i5> %x, <3 x i5> %y, <3 x i5> %z, <3 x i5>* %p) {
; CHECK-LABEL: @umax_umax_common_op_11(		; CHECK-LABEL: @umax_umax_common_op_11(
; CHECK-NEXT: [[M2:%.]] = call <3 x i5> @llvm.umax.v3i5(<3 x i5> [[Y:%.]], <3 x i5> [[Z:%.*]])		; CHECK-NEXT: [[M2:%.]] = call <3 x i5> @llvm.umax.v3i5(<3 x i5> [[Y:%.]], <3 x i5> [[Z:%.*]])
; CHECK-NEXT: store <3 x i5> [[M2]], <3 x i5>* [[P:%.*]], align 4		; CHECK-NEXT: store <3 x i5> [[M2]], <3 x i5>* [[P:%.*]], align 2
; CHECK-NEXT: [[MINMAXOP:%.]] = select i1 [[COND:%.]], <3 x i5> [[X:%.*]], <3 x i5> [[Y]]		; CHECK-NEXT: [[MINMAXOP:%.]] = select i1 [[COND:%.]], <3 x i5> [[X:%.*]], <3 x i5> [[Y]]
; CHECK-NEXT: [[SEL:%.*]] = call <3 x i5> @llvm.umax.v3i5(<3 x i5> [[MINMAXOP]], <3 x i5> [[Z]])		; CHECK-NEXT: [[SEL:%.*]] = call <3 x i5> @llvm.umax.v3i5(<3 x i5> [[MINMAXOP]], <3 x i5> [[Z]])
; CHECK-NEXT: ret <3 x i5> [[SEL]]		; CHECK-NEXT: ret <3 x i5> [[SEL]]
;		;
%m1 = call <3 x i5> @llvm.umax.v3i5(<3 x i5> %x, <3 x i5> %z)		%m1 = call <3 x i5> @llvm.umax.v3i5(<3 x i5> %x, <3 x i5> %z)
%m2 = call <3 x i5> @llvm.umax.v3i5(<3 x i5> %y, <3 x i5> %z)		%m2 = call <3 x i5> @llvm.umax.v3i5(<3 x i5> %y, <3 x i5> %z)
store <3 x i5> %m2, <3 x i5>* %p		store <3 x i5> %m2, <3 x i5>* %p
%sel = select i1 %cond, <3 x i5> %m1, <3 x i5> %m2		%sel = select i1 %cond, <3 x i5> %m1, <3 x i5> %m2
▲ Show 20 Lines • Show All 135 Lines • Show Last 20 Lines

llvm/test/Transforms/InstCombine/shufflevec-bitcast.ll

Show First 20 Lines • Show All 191 Lines • ▼ Show 20 Lines	;
%r = shufflevector <4 x i4> %b, <4 x i4> undef, <2 x i32> <i32 0, i32 1>		%r = shufflevector <4 x i4> %b, <4 x i4> undef, <2 x i32> <i32 0, i32 1>
ret <2 x i4> %r		ret <2 x i4> %r
}		}

define <2 x i4> @shuf_bitcast_insert_use2(<2 x i8> %v, i8 %x, <4 x i4>* %p) {		define <2 x i4> @shuf_bitcast_insert_use2(<2 x i8> %v, i8 %x, <4 x i4>* %p) {
; CHECK-LABEL: @shuf_bitcast_insert_use2(		; CHECK-LABEL: @shuf_bitcast_insert_use2(
; CHECK-NEXT: [[I:%.]] = insertelement <2 x i8> [[V:%.]], i8 [[X:%.*]], i32 0		; CHECK-NEXT: [[I:%.]] = insertelement <2 x i8> [[V:%.]], i8 [[X:%.*]], i32 0
; CHECK-NEXT: [[TMP1:%.]] = bitcast <4 x i4> [[P:%.]] to <2 x i8>		; CHECK-NEXT: [[TMP1:%.]] = bitcast <4 x i4> [[P:%.]] to <2 x i8>
; CHECK-NEXT: store <2 x i8> [[I]], <2 x i8>* [[TMP1]], align 4		; CHECK-NEXT: store <2 x i8> [[I]], <2 x i8>* [[TMP1]], align 2
; CHECK-NEXT: [[R:%.*]] = bitcast i8 [[X]] to <2 x i4>		; CHECK-NEXT: [[R:%.*]] = bitcast i8 [[X]] to <2 x i4>
; CHECK-NEXT: ret <2 x i4> [[R]]		; CHECK-NEXT: ret <2 x i4> [[R]]
;		;
%i = insertelement <2 x i8> %v, i8 %x, i32 0		%i = insertelement <2 x i8> %v, i8 %x, i32 0
%b = bitcast <2 x i8> %i to <4 x i4>		%b = bitcast <2 x i8> %i to <4 x i4>
store <4 x i4> %b, <4 x i4>* %p		store <4 x i4> %b, <4 x i4>* %p
%r = shufflevector <4 x i4> %b, <4 x i4> undef, <2 x i32> <i32 0, i32 1>		%r = shufflevector <4 x i4> %b, <4 x i4> undef, <2 x i32> <i32 0, i32 1>
ret <2 x i4> %r		ret <2 x i4> %r
Show All 30 Lines

llvm/test/Transforms/SROA/vector-promotion-different-size.ll

	; RUN: opt < %s -sroa -S \| FileCheck %s			; RUN: opt < %s -sroa -S \| FileCheck %s
	target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:32:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-n8:16:32:64"			target datalayout = "e-p:64:64:64-i1:8:8-i8:8:8-i16:16:16-i32:32:32-i64:32:64-f32:32:32-f64:64:64-v64:64:64-v128:128:128-a0:0:64-n8:16:32:64"

	define <4 x i1> @vector_bitcast() {			define <4 x i1> @vector_bitcast() {
	; CHECK-LABEL: @vector_bitcast			; CHECK-LABEL: @vector_bitcast
	; CHECK: alloca i1			; CHECK: alloca <3 x i1>
	arsenmUnsubmitted Not Done Reply Inline Actions This looks like it now fails to eliminate some of the elements? arsenm: This looks like it now fails to eliminate some of the elements?
	efriedmaAuthorUnsubmitted Done Reply Inline Actions The IR is basically the same either way. Only type of the alloca itself is different, and the difference doesn't have any practical effect here. (I haven't looked deeply at why SROA is choosing a different type, but it doesn't seem important.) efriedma: The IR is basically the same either way. Only type of the alloca itself is different, and the…

	%a = alloca <3 x i1>			%a = alloca <3 x i1>
	store <3 x i1> <i1 1,i1 0,i1 1>, <3 x i1>* %a			store <3 x i1> <i1 1,i1 0,i1 1>, <3 x i1>* %a
	%cast = bitcast <3 x i1>* %a to <4 x i1>*			%cast = bitcast <3 x i1>* %a to <4 x i1>*
	%vec = load <4 x i1>, <4 x i1>* %cast			%vec = load <4 x i1>, <4 x i1>* %cast
	ret <4 x i1> %vec			ret <4 x i1> %vec
	}			}

	Show All 10 Lines

llvm/test/Transforms/VectorCombine/load-insert-store.ll

Show First 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	entry:
%vecins = insertelement <vscale x 8 x i16> %0, i16 %s, i32 3		%vecins = insertelement <vscale x 8 x i16> %0, i16 %s, i32 3
store <vscale x 8 x i16> %vecins, <vscale x 8 x i16>* %q		store <vscale x 8 x i16> %vecins, <vscale x 8 x i16>* %q
ret void		ret void
}		}

define void @insert_store_v9i4(<9 x i4>* %q, i4 zeroext %s) {		define void @insert_store_v9i4(<9 x i4>* %q, i4 zeroext %s) {
; CHECK-LABEL: @insert_store_v9i4(		; CHECK-LABEL: @insert_store_v9i4(
; CHECK-NEXT: entry:		; CHECK-NEXT: entry:
; CHECK-NEXT: [[TMP0:%.]] = load <9 x i4>, <9 x i4> [[Q:%.*]], align 16		; CHECK-NEXT: [[TMP0:%.]] = load <9 x i4>, <9 x i4> [[Q:%.*]], align 8
; CHECK-NEXT: [[VECINS:%.]] = insertelement <9 x i4> [[TMP0]], i4 [[S:%.]], i32 3		; CHECK-NEXT: [[VECINS:%.]] = insertelement <9 x i4> [[TMP0]], i4 [[S:%.]], i32 3
; CHECK-NEXT: store <9 x i4> [[VECINS]], <9 x i4>* [[Q]], align 1		; CHECK-NEXT: store <9 x i4> [[VECINS]], <9 x i4>* [[Q]], align 1
; CHECK-NEXT: ret void		; CHECK-NEXT: ret void
;		;
entry:		entry:
%0 = load <9 x i4>, <9 x i4>* %q		%0 = load <9 x i4>, <9 x i4>* %q
%vecins = insertelement <9 x i4> %0, i4 %s, i32 3		%vecins = insertelement <9 x i4> %0, i4 %s, i32 3
store <9 x i4> %vecins, <9 x i4>* %q, align 1		store <9 x i4> %vecins, <9 x i4>* %q, align 1
▲ Show 20 Lines • Show All 457 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

Fix the default alignment of i1 vectors.ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 363320

clang/test/CodeGen/attr-arm-sve-vector-bits-bitcast.c

clang/test/CodeGen/attr-arm-sve-vector-bits-call.c

clang/test/CodeGen/attr-arm-sve-vector-bits-cast.c

clang/test/CodeGen/attr-arm-sve-vector-bits-codegen.c

clang/test/CodeGen/attr-arm-sve-vector-bits-globals.c

clang/test/CodeGen/builtins-ppc-pair-mma.c

llvm/lib/IR/DataLayout.cpp

llvm/lib/Target/AArch64/AArch64SVEInstrInfo.td

llvm/test/CodeGen/AArch64/GlobalISel/ret-vec-promote.ll

llvm/test/CodeGen/AArch64/spillfill-sve.ll

llvm/test/CodeGen/AArch64/sve-calling-convention-byref.ll

llvm/test/CodeGen/AMDGPU/lower-kernargs.ll

llvm/test/CodeGen/NVPTX/f16x2-instructions.ll

llvm/test/CodeGen/NVPTX/param-load-store.ll

llvm/test/CodeGen/RISCV/rvv/fixed-vectors-unaligned.ll

llvm/test/CodeGen/Thumb2/mve-masked-ldst.ll

llvm/test/CodeGen/Thumb2/mve-masked-load.ll

llvm/test/CodeGen/Thumb2/mve-masked-store.ll

llvm/test/CodeGen/Thumb2/mve-pred-bitcast.ll

llvm/test/CodeGen/X86/avx512-extract-subvector-load-store.ll

llvm/test/CodeGen/X86/avx512-mask-op.ll

llvm/test/CodeGen/X86/avx512-select.ll

llvm/test/CodeGen/X86/bitcast-vector-bool.ll

llvm/test/CodeGen/X86/load-local-v3i129.ll

llvm/test/CodeGen/X86/pr41619.ll

llvm/test/CodeGen/X86/vector-sext.ll

llvm/test/Transforms/InstCombine/abs-intrinsic.ll

llvm/test/Transforms/InstCombine/icmp-vec.ll

llvm/test/Transforms/InstCombine/select-min-max.ll

llvm/test/Transforms/InstCombine/shufflevec-bitcast.ll

llvm/test/Transforms/SROA/vector-promotion-different-size.ll

llvm/test/Transforms/VectorCombine/load-insert-store.ll

Fix the default alignment of i1 vectors.
ClosedPublic