This is an archive of the discontinued LLVM Phabricator instance.

[WebAssembly] Implement truncating vector stores
ClosedPublic

Authored by tlively on Jul 22 2020, 6:20 PM.

Download Raw Diff

Details

Reviewers

aheejin
dschuff

Commits

rGffd8c23ccb74: [WebAssembly] Implement truncating vector stores

Summary

Rather than expanding truncating stores so that vectors are stored one
lane at a time, lower them to a sequence of instructions using
narrowing operations instead, when possible. Since the narrowing
operations have saturating semantics, but truncating stores require
truncation, mask the stored value to manually truncate it before
narrowing. Also, since narrowing is a binary operation, pass in the
original vector as the unused second argument.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

tlively created this revision.Jul 22 2020, 6:20 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 22 2020, 6:20 PM

Herald added subscribers: llvm-commits, sunfish, hiraditya and 2 others. · View Herald Transcript

Harbormaster completed remote builds in B65318: Diff 279995.Jul 22 2020, 6:50 PM

srj added a subscriber: srj.Jul 23 2020, 10:35 AM

Improve codegen: use faster i32x4.splats and reuse the existing vector as the second narrowing argument

Harbormaster failed remote builds in B65465: Diff 280279!Jul 23 2020, 3:52 PM

tlively edited the summary of this revision. (Show Details)Jul 23 2020, 9:13 PM

It looks like very smart transformation!

llvm/lib/Target/WebAssembly/WebAssemblyInstrSIMD.td
939	This is dummy and not actually used, right? I think adding comment on this dummy would make reading a little easier.

This revision is now accepted and ready to land.Jul 24 2020, 12:56 AM

This revision was landed with ongoing or failed builds.Jul 28 2020, 5:46 PM

Closed by commit rGffd8c23ccb74: [WebAssembly] Implement truncating vector stores (authored by tlively). · Explain Why

This revision was automatically updated to reflect the committed changes.

tlively added a commit: rGffd8c23ccb74: [WebAssembly] Implement truncating vector stores.

aheejin mentioned this in D107502: [WebAssembly] Legalize vector types by widening.Aug 5 2021, 3:16 AM

Revision Contents

Path

Size

llvm/

lib/

Target/

WebAssembly/

WebAssemblyISelLowering.cpp

3 lines

WebAssemblyInstrSIMD.td

100 lines

test/

CodeGen/

WebAssembly/

simd-offset.ll

320 lines

Diff 281430

llvm/lib/Target/WebAssembly/WebAssemblyISelLowering.cpp

Show First 20 Lines • Show All 240 Lines • ▼ Show 20 Lines	for (auto T : {MVT::v16i8, MVT::v8i16, MVT::v4i32, MVT::v2i64, MVT::v4f32,
}		}
}		}
// But some vector extending loads are legal		// But some vector extending loads are legal
for (auto Ext : {ISD::EXTLOAD, ISD::SEXTLOAD, ISD::ZEXTLOAD}) {		for (auto Ext : {ISD::EXTLOAD, ISD::SEXTLOAD, ISD::ZEXTLOAD}) {
setLoadExtAction(Ext, MVT::v8i16, MVT::v8i8, Legal);		setLoadExtAction(Ext, MVT::v8i16, MVT::v8i8, Legal);
setLoadExtAction(Ext, MVT::v4i32, MVT::v4i16, Legal);		setLoadExtAction(Ext, MVT::v4i32, MVT::v4i16, Legal);
setLoadExtAction(Ext, MVT::v2i64, MVT::v2i32, Legal);		setLoadExtAction(Ext, MVT::v2i64, MVT::v2i32, Legal);
}		}
		// And some truncating stores are legal as well
		setTruncStoreAction(MVT::v8i16, MVT::v8i8, Legal);
		setTruncStoreAction(MVT::v4i32, MVT::v4i16, Legal);
}		}

// Don't do anything clever with build_pairs		// Don't do anything clever with build_pairs
setOperationAction(ISD::BUILD_PAIR, MVT::i64, Expand);		setOperationAction(ISD::BUILD_PAIR, MVT::i64, Expand);

// Trap lowers to wasm unreachable		// Trap lowers to wasm unreachable
setOperationAction(ISD::TRAP, MVT::Other, Legal);		setOperationAction(ISD::TRAP, MVT::Other, Legal);
setOperationAction(ISD::DEBUGTRAP, MVT::Other, Legal);		setOperationAction(ISD::DEBUGTRAP, MVT::Other, Legal);
▲ Show 20 Lines • Show All 1,498 Lines • Show Last 20 Lines

llvm/lib/Target/WebAssembly/WebAssemblyInstrSIMD.td

Show First 20 Lines • Show All 879 Lines • ▼ Show 20 Lines
// Floating point to integer with saturation: trunc_sat		// Floating point to integer with saturation: trunc_sat
defm "" : SIMDConvert<v4i32, v4f32, fp_to_sint, "i32x4.trunc_sat_f32x4_s", 248>;		defm "" : SIMDConvert<v4i32, v4f32, fp_to_sint, "i32x4.trunc_sat_f32x4_s", 248>;
defm "" : SIMDConvert<v4i32, v4f32, fp_to_uint, "i32x4.trunc_sat_f32x4_u", 249>;		defm "" : SIMDConvert<v4i32, v4f32, fp_to_uint, "i32x4.trunc_sat_f32x4_u", 249>;

// Integer to floating point: convert		// Integer to floating point: convert
defm "" : SIMDConvert<v4f32, v4i32, sint_to_fp, "f32x4.convert_i32x4_s", 250>;		defm "" : SIMDConvert<v4f32, v4i32, sint_to_fp, "f32x4.convert_i32x4_s", 250>;
defm "" : SIMDConvert<v4f32, v4i32, uint_to_fp, "f32x4.convert_i32x4_u", 251>;		defm "" : SIMDConvert<v4f32, v4i32, uint_to_fp, "f32x4.convert_i32x4_u", 251>;

		// Lower llvm.wasm.trunc.saturate.* to saturating instructions
		def : Pat<(v4i32 (int_wasm_trunc_saturate_signed (v4f32 V128:$src))),
		(fp_to_sint_v4i32_v4f32 (v4f32 V128:$src))>;
		def : Pat<(v4i32 (int_wasm_trunc_saturate_unsigned (v4f32 V128:$src))),
		(fp_to_uint_v4i32_v4f32 (v4f32 V128:$src))>;

// Widening operations		// Widening operations
multiclass SIMDWiden<ValueType vec_t, string vec, ValueType arg_t, string arg,		multiclass SIMDWiden<ValueType vec_t, string vec, ValueType arg_t, string arg,
bits<32> baseInst> {		bits<32> baseInst> {
defm "" : SIMDConvert<vec_t, arg_t, int_wasm_widen_low_signed,		defm "" : SIMDConvert<vec_t, arg_t, int_wasm_widen_low_signed,
vec#".widen_low_"#arg#"_s", baseInst>;		vec#".widen_low_"#arg#"_s", baseInst>;
defm "" : SIMDConvert<vec_t, arg_t, int_wasm_widen_high_signed,		defm "" : SIMDConvert<vec_t, arg_t, int_wasm_widen_high_signed,
vec#".widen_high_"#arg#"_s", !add(baseInst, 1)>;		vec#".widen_high_"#arg#"_s", !add(baseInst, 1)>;
defm "" : SIMDConvert<vec_t, arg_t, int_wasm_widen_low_unsigned,		defm "" : SIMDConvert<vec_t, arg_t, int_wasm_widen_low_unsigned,
Show All 20 Lines	SIMD_I<(outs V128:$dst), (ins V128:$low, V128:$high), (outs), (ins),
(arg_t V128:$low), (arg_t V128:$high))))],		(arg_t V128:$low), (arg_t V128:$high))))],
vec#".narrow_"#arg#"_u\t$dst, $low, $high", vec#".narrow_"#arg#"_u",		vec#".narrow_"#arg#"_u\t$dst, $low, $high", vec#".narrow_"#arg#"_u",
!add(baseInst, 1)>;		!add(baseInst, 1)>;
}		}

defm "" : SIMDNarrow<v16i8, "i8x16", v8i16, "i16x8", 101>;		defm "" : SIMDNarrow<v16i8, "i8x16", v8i16, "i16x8", 101>;
defm "" : SIMDNarrow<v8i16, "i16x8", v4i32, "i32x4", 133>;		defm "" : SIMDNarrow<v8i16, "i16x8", v4i32, "i32x4", 133>;

// Lower llvm.wasm.trunc.saturate.* to saturating instructions		// Use narrowing operations for truncating stores. Since the narrowing
def : Pat<(v4i32 (int_wasm_trunc_saturate_signed (v4f32 V128:$src))),		// operations are saturating instead of truncating, we need to mask
(fp_to_sint_v4i32_v4f32 (v4f32 V128:$src))>;		// the stored values first.
def : Pat<(v4i32 (int_wasm_trunc_saturate_unsigned (v4f32 V128:$src))),		// TODO: Use consts instead of splats
(fp_to_uint_v4i32_v4f32 (v4f32 V128:$src))>;		def store_v8i8_trunc_v8i16 :
		OutPatFrag<(ops node:$val),
		(EXTRACT_LANE_v2i64
		(NARROW_U_v16i8
		(AND_v4i32 (SPLAT_v4i32 (CONST_I32 0x00ff00ff)), node:$val),
		node:$val // Unused input
		aheejinUnsubmitted Not Done Reply Inline Actions This is dummy and not actually used, right? I think adding comment on this dummy would make reading a little easier. aheejin: This is dummy and not actually used, right? I think adding comment on this dummy would make…
		),
		0
		)>;

		def store_v4i16_trunc_v4i32 :
		OutPatFrag<(ops node:$val),
		(EXTRACT_LANE_v2i64
		(NARROW_U_v8i16
		(AND_v4i32 (SPLAT_v4i32 (CONST_I32 0x0000ffff)), node:$val),
		node:$val // Unused input
		),
		0
		)>;

		// Store patterns adapted from WebAssemblyInstrMemory.td
		multiclass NarrowingStorePatNoOffset<ValueType ty, PatFrag node,
		OutPatFrag out> {
		def : Pat<(node ty:$val, I32:$addr),
		(STORE_I64_A32 0, 0, I32:$addr, (i64 (out ty:$val)))>,
		Requires<[HasAddr32]>;
		def : Pat<(node ty:$val, I64:$addr),
		(STORE_I64_A64 0, 0, I64:$addr, (i64 (out ty:$val)))>,
		Requires<[HasAddr64]>;
		}

		defm : NarrowingStorePatNoOffset<v8i16, truncstorevi8, store_v8i8_trunc_v8i16>;
		defm : NarrowingStorePatNoOffset<v4i32, truncstorevi16,
		store_v4i16_trunc_v4i32>;

		multiclass NarrowingStorePatImmOff<ValueType ty, PatFrag kind,
		PatFrag operand, OutPatFrag out> {
		def : Pat<(kind ty:$val, (operand I32:$addr, imm:$off)),
		(STORE_I64_A32 0, imm:$off, I32:$addr, (i64 (out ty:$val)))>,
		Requires<[HasAddr32]>;
		def : Pat<(kind ty:$val, (operand I64:$addr, imm:$off)),
		(STORE_I64_A64 0, imm:$off, I64:$addr, (i64 (out ty:$val)))>,
		Requires<[HasAddr64]>;
		}

		defm : NarrowingStorePatImmOff<v8i16, truncstorevi8, regPlusImm,
		store_v8i8_trunc_v8i16>;
		defm : NarrowingStorePatImmOff<v4i32, truncstorevi16, regPlusImm,
		store_v4i16_trunc_v4i32>;
		defm : NarrowingStorePatImmOff<v8i16, truncstorevi8, or_is_add,
		store_v8i8_trunc_v8i16>;
		defm : NarrowingStorePatImmOff<v4i32, truncstorevi16, or_is_add,
		store_v4i16_trunc_v4i32>;

		multiclass NarrowingStorePatOffsetOnly<ValueType ty, PatFrag kind,
		OutPatFrag out> {
		def : Pat<(kind ty:$val, imm:$off),
		(STORE_I64_A32 0, imm:$off, (CONST_I32 0), (i64 (out ty:$val)))>,
		Requires<[HasAddr32]>;
		def : Pat<(kind ty:$val, imm:$off),
		(STORE_I64_A64 0, imm:$off, (CONST_I64 0), (i64 (out ty:$val)))>,
		Requires<[HasAddr64]>;
		}

		defm : NarrowingStorePatOffsetOnly<v8i16, truncstorevi8,
		store_v8i8_trunc_v8i16>;
		defm : NarrowingStorePatOffsetOnly<v4i32, truncstorevi16,
		store_v4i16_trunc_v4i32>;

		multiclass NarrowingStorePatGlobalAddrOffOnly<ValueType ty, PatFrag kind,
		OutPatFrag out> {
		def : Pat<(kind ty:$val, (WebAssemblywrapper tglobaladdr:$off)),
		(STORE_I64_A32
		0, tglobaladdr:$off, (CONST_I32 0), (i64 (out ty:$val)))>,
		Requires<[IsNotPIC, HasAddr32]>;
		def : Pat<(kind ty:$val, (WebAssemblywrapper tglobaladdr:$off)),
		(STORE_I64_A64
		0, tglobaladdr:$off, (CONST_I64 0), (i64 (out ty:$val)))>,
		Requires<[IsNotPIC, HasAddr64]>;
		}

		defm : NarrowingStorePatGlobalAddrOffOnly<v8i16, truncstorevi8,
		store_v8i8_trunc_v8i16>;
		defm : NarrowingStorePatGlobalAddrOffOnly<v4i32, truncstorevi16,
		store_v4i16_trunc_v4i32>;

// Bitcasts are nops		// Bitcasts are nops
// Matching bitcast t1 to t1 causes strange errors, so avoid repeating types		// Matching bitcast t1 to t1 causes strange errors, so avoid repeating types
foreach t1 = [v16i8, v8i16, v4i32, v2i64, v4f32, v2f64] in		foreach t1 = [v16i8, v8i16, v4i32, v2i64, v4f32, v2f64] in
foreach t2 = !foldl(		foreach t2 = !foldl(
[]<ValueType>, [v16i8, v8i16, v4i32, v2i64, v4f32, v2f64],		[]<ValueType>, [v16i8, v8i16, v4i32, v2i64, v4f32, v2f64],
acc, cur, !if(!eq(!cast<string>(t1), !cast<string>(cur)),		acc, cur, !if(!eq(!cast<string>(t1), !cast<string>(cur)),
acc, !listconcat(acc, [cur])		acc, !listconcat(acc, [cur])
Show All 25 Lines

llvm/test/CodeGen/WebAssembly/simd-offset.ll

	Show First 20 Lines • Show All 912 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	store <8 x i16> %v , <8 x i16>* %p			store <8 x i16> %v , <8 x i16>* %p
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16:
				; CHECK: .functype store_narrowing_v8i16 (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				store <8 x i8> %v, <8 x i8>* %p
				ret void
				}

	define void @store_v8i16_with_folded_offset(<8 x i16> %v, <8 x i16>* %p) {			define void @store_v8i16_with_folded_offset(<8 x i16> %v, <8 x i16>* %p) {
	; CHECK-LABEL: store_v8i16_with_folded_offset:			; CHECK-LABEL: store_v8i16_with_folded_offset:
	; CHECK: .functype store_v8i16_with_folded_offset (v128, i32) -> ()			; CHECK: .functype store_v8i16_with_folded_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 16			; CHECK-NEXT: v128.store 16
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%q = ptrtoint <8 x i16>* %p to i32			%q = ptrtoint <8 x i16>* %p to i32
	%r = add nuw i32 %q, 16			%r = add nuw i32 %q, 16
	%s = inttoptr i32 %r to <8 x i16>*			%s = inttoptr i32 %r to <8 x i16>*
	store <8 x i16> %v , <8 x i16>* %s			store <8 x i16> %v , <8 x i16>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_with_folded_offset(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16_with_folded_offset:
				; CHECK: .functype store_narrowing_v8i16_with_folded_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 16
				; CHECK-NEXT: # fallthrough-return
				%q = ptrtoint <8 x i8>* %p to i32
				%r = add nuw i32 %q, 16
				%s = inttoptr i32 %r to <8 x i8>*
				store <8 x i8> %v , <8 x i8>* %s
				ret void
				}

	define void @store_v8i16_with_folded_gep_offset(<8 x i16> %v, <8 x i16>* %p) {			define void @store_v8i16_with_folded_gep_offset(<8 x i16> %v, <8 x i16>* %p) {
	; CHECK-LABEL: store_v8i16_with_folded_gep_offset:			; CHECK-LABEL: store_v8i16_with_folded_gep_offset:
	; CHECK: .functype store_v8i16_with_folded_gep_offset (v128, i32) -> ()			; CHECK: .functype store_v8i16_with_folded_gep_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 16			; CHECK-NEXT: v128.store 16
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = getelementptr inbounds <8 x i16>, <8 x i16>* %p, i32 1			%s = getelementptr inbounds <8 x i16>, <8 x i16>* %p, i32 1
	store <8 x i16> %v , <8 x i16>* %s			store <8 x i16> %v , <8 x i16>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_with_folded_gep_offset(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16_with_folded_gep_offset:
				; CHECK: .functype store_narrowing_v8i16_with_folded_gep_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 8
				; CHECK-NEXT: # fallthrough-return
				%s = getelementptr inbounds <8 x i8>, <8 x i8>* %p, i32 1
				store <8 x i8> %v , <8 x i8>* %s
				ret void
				}

	define void @store_v8i16_with_unfolded_gep_negative_offset(<8 x i16> %v, <8 x i16>* %p) {			define void @store_v8i16_with_unfolded_gep_negative_offset(<8 x i16> %v, <8 x i16>* %p) {
	; CHECK-LABEL: store_v8i16_with_unfolded_gep_negative_offset:			; CHECK-LABEL: store_v8i16_with_unfolded_gep_negative_offset:
	; CHECK: .functype store_v8i16_with_unfolded_gep_negative_offset (v128, i32) -> ()			; CHECK: .functype store_v8i16_with_unfolded_gep_negative_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: i32.const -16			; CHECK-NEXT: i32.const -16
	; CHECK-NEXT: i32.add			; CHECK-NEXT: i32.add
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = getelementptr inbounds <8 x i16>, <8 x i16>* %p, i32 -1			%s = getelementptr inbounds <8 x i16>, <8 x i16>* %p, i32 -1
	store <8 x i16> %v , <8 x i16>* %s			store <8 x i16> %v , <8 x i16>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_with_unfolded_gep_negative_offset(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16_with_unfolded_gep_negative_offset:
				; CHECK: .functype store_narrowing_v8i16_with_unfolded_gep_negative_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const -8
				; CHECK-NEXT: i32.add
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				%s = getelementptr inbounds <8 x i8>, <8 x i8>* %p, i32 -1
				store <8 x i8> %v , <8 x i8>* %s
				ret void
				}

	define void @store_v8i16_with_unfolded_offset(<8 x i16> %v, <8 x i16>* %p) {			define void @store_v8i16_with_unfolded_offset(<8 x i16> %v, <8 x i16>* %p) {
	; CHECK-LABEL: store_v8i16_with_unfolded_offset:			; CHECK-LABEL: store_v8i16_with_unfolded_offset:
	; CHECK: .functype store_v8i16_with_unfolded_offset (v128, i32) -> ()			; CHECK: .functype store_v8i16_with_unfolded_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: i32.const 16			; CHECK-NEXT: i32.const 16
	; CHECK-NEXT: i32.add			; CHECK-NEXT: i32.add
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%q = ptrtoint <8 x i16>* %p to i32			%q = ptrtoint <8 x i16>* %p to i32
	%r = add nsw i32 %q, 16			%r = add nsw i32 %q, 16
	%s = inttoptr i32 %r to <8 x i16>*			%s = inttoptr i32 %r to <8 x i16>*
	store <8 x i16> %v , <8 x i16>* %s			store <8 x i16> %v , <8 x i16>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_with_unfolded_offset(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16_with_unfolded_offset:
				; CHECK: .functype store_narrowing_v8i16_with_unfolded_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 16
				; CHECK-NEXT: i32.add
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				%q = ptrtoint <8 x i8>* %p to i32
				%r = add nsw i32 %q, 16
				%s = inttoptr i32 %r to <8 x i8>*
				store <8 x i8> %v , <8 x i8>* %s
				ret void
				}

	define void @store_v8i16_with_unfolded_gep_offset(<8 x i16> %v, <8 x i16>* %p) {			define void @store_v8i16_with_unfolded_gep_offset(<8 x i16> %v, <8 x i16>* %p) {
	; CHECK-LABEL: store_v8i16_with_unfolded_gep_offset:			; CHECK-LABEL: store_v8i16_with_unfolded_gep_offset:
	; CHECK: .functype store_v8i16_with_unfolded_gep_offset (v128, i32) -> ()			; CHECK: .functype store_v8i16_with_unfolded_gep_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: i32.const 16			; CHECK-NEXT: i32.const 16
	; CHECK-NEXT: i32.add			; CHECK-NEXT: i32.add
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = getelementptr <8 x i16>, <8 x i16>* %p, i32 1			%s = getelementptr <8 x i16>, <8 x i16>* %p, i32 1
	store <8 x i16> %v , <8 x i16>* %s			store <8 x i16> %v , <8 x i16>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_with_unfolded_gep_offset(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16_with_unfolded_gep_offset:
				; CHECK: .functype store_narrowing_v8i16_with_unfolded_gep_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 8
				; CHECK-NEXT: i32.add
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				%s = getelementptr <8 x i8>, <8 x i8>* %p, i32 1
				store <8 x i8> %v , <8 x i8>* %s
				ret void
				}

	define void @store_v8i16_to_numeric_address(<8 x i16> %v) {			define void @store_v8i16_to_numeric_address(<8 x i16> %v) {
	; CHECK-LABEL: store_v8i16_to_numeric_address:			; CHECK-LABEL: store_v8i16_to_numeric_address:
	; CHECK: .functype store_v8i16_to_numeric_address (v128) -> ()			; CHECK: .functype store_v8i16_to_numeric_address (v128) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: i32.const 0			; CHECK-NEXT: i32.const 0
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 32			; CHECK-NEXT: v128.store 32
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = inttoptr i32 32 to <8 x i16>*			%s = inttoptr i32 32 to <8 x i16>*
	store <8 x i16> %v , <8 x i16>* %s			store <8 x i16> %v , <8 x i16>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_to_numeric_address(<8 x i8> %v, <8 x i8>* %p) {
				; CHECK-LABEL: store_narrowing_v8i16_to_numeric_address:
				; CHECK: .functype store_narrowing_v8i16_to_numeric_address (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: i32.const 0
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 32
				; CHECK-NEXT: # fallthrough-return
				%s = inttoptr i32 32 to <8 x i8>*
				store <8 x i8> %v , <8 x i8>* %s
				ret void
				}

	define void @store_v8i16_to_global_address(<8 x i16> %v) {			define void @store_v8i16_to_global_address(<8 x i16> %v) {
	; CHECK-LABEL: store_v8i16_to_global_address:			; CHECK-LABEL: store_v8i16_to_global_address:
	; CHECK: .functype store_v8i16_to_global_address (v128) -> ()			; CHECK: .functype store_v8i16_to_global_address (v128) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: i32.const 0			; CHECK-NEXT: i32.const 0
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store gv_v8i16			; CHECK-NEXT: v128.store gv_v8i16
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	store <8 x i16> %v , <8 x i16>* @gv_v8i16			store <8 x i16> %v , <8 x i16>* @gv_v8i16
	ret void			ret void
	}			}

				define void @store_narrowing_v8i16_to_global_address(<8 x i8> %v) {
				; CHECK-LABEL: store_narrowing_v8i16_to_global_address:
				; CHECK: .functype store_narrowing_v8i16_to_global_address (v128) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: i32.const 0
				; CHECK-NEXT: i32.const 16711935
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i8x16.narrow_i16x8_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store gv_v8i8
				; CHECK-NEXT: # fallthrough-return
				store <8 x i8> %v , <8 x i8>* @gv_v8i8
				ret void
				}

	; ==============================================================================			; ==============================================================================
	; 4 x i32			; 4 x i32
	; ==============================================================================			; ==============================================================================
	define <4 x i32> @load_v4i32(<4 x i32>* %p) {			define <4 x i32> @load_v4i32(<4 x i32>* %p) {
	; CHECK-LABEL: load_v4i32:			; CHECK-LABEL: load_v4i32:
	; CHECK: .functype load_v4i32 (i32) -> (v128)			; CHECK: .functype load_v4i32 (i32) -> (v128)
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	▲ Show 20 Lines • Show All 554 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	store <4 x i32> %v , <4 x i32>* %p			store <4 x i32> %v , <4 x i32>* %p
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32(<4 x i16> %v, <4 x i16>* %p) {
				; CHECK-LABEL: store_narrowing_v4i32:
				; CHECK: .functype store_narrowing_v4i32 (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				store <4 x i16> %v , <4 x i16>* %p
				ret void
				}

	define void @store_v4i32_with_folded_offset(<4 x i32> %v, <4 x i32>* %p) {			define void @store_v4i32_with_folded_offset(<4 x i32> %v, <4 x i32>* %p) {
	; CHECK-LABEL: store_v4i32_with_folded_offset:			; CHECK-LABEL: store_v4i32_with_folded_offset:
	; CHECK: .functype store_v4i32_with_folded_offset (v128, i32) -> ()			; CHECK: .functype store_v4i32_with_folded_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 16			; CHECK-NEXT: v128.store 16
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%q = ptrtoint <4 x i32>* %p to i32			%q = ptrtoint <4 x i32>* %p to i32
	%r = add nuw i32 %q, 16			%r = add nuw i32 %q, 16
	%s = inttoptr i32 %r to <4 x i32>*			%s = inttoptr i32 %r to <4 x i32>*
	store <4 x i32> %v , <4 x i32>* %s			store <4 x i32> %v , <4 x i32>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_with_folded_offset(<4 x i16> %v, <4 x i16>* %p) {
				; CHECK-LABEL: store_narrowing_v4i32_with_folded_offset:
				; CHECK: .functype store_narrowing_v4i32_with_folded_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 16
				; CHECK-NEXT: # fallthrough-return
				%q = ptrtoint <4 x i16>* %p to i32
				%r = add nuw i32 %q, 16
				%s = inttoptr i32 %r to <4 x i16>*
				store <4 x i16> %v , <4 x i16>* %s
				ret void
				}

	define void @store_v4i32_with_folded_gep_offset(<4 x i32> %v, <4 x i32>* %p) {			define void @store_v4i32_with_folded_gep_offset(<4 x i32> %v, <4 x i32>* %p) {
	; CHECK-LABEL: store_v4i32_with_folded_gep_offset:			; CHECK-LABEL: store_v4i32_with_folded_gep_offset:
	; CHECK: .functype store_v4i32_with_folded_gep_offset (v128, i32) -> ()			; CHECK: .functype store_v4i32_with_folded_gep_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 16			; CHECK-NEXT: v128.store 16
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = getelementptr inbounds <4 x i32>, <4 x i32>* %p, i32 1			%s = getelementptr inbounds <4 x i32>, <4 x i32>* %p, i32 1
	store <4 x i32> %v , <4 x i32>* %s			store <4 x i32> %v , <4 x i32>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_with_folded_gep_offset(<4 x i16> %v, <4 x i16>* %p) {
				; CHECK-LABEL: store_narrowing_v4i32_with_folded_gep_offset:
				; CHECK: .functype store_narrowing_v4i32_with_folded_gep_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 8
				; CHECK-NEXT: # fallthrough-return
				%s = getelementptr inbounds <4 x i16>, <4 x i16>* %p, i32 1
				store <4 x i16> %v , <4 x i16>* %s
				ret void
				}

	define void @store_v4i32_with_unfolded_gep_negative_offset(<4 x i32> %v, <4 x i32>* %p) {			define void @store_v4i32_with_unfolded_gep_negative_offset(<4 x i32> %v, <4 x i32>* %p) {
	; CHECK-LABEL: store_v4i32_with_unfolded_gep_negative_offset:			; CHECK-LABEL: store_v4i32_with_unfolded_gep_negative_offset:
	; CHECK: .functype store_v4i32_with_unfolded_gep_negative_offset (v128, i32) -> ()			; CHECK: .functype store_v4i32_with_unfolded_gep_negative_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: i32.const -16			; CHECK-NEXT: i32.const -16
	; CHECK-NEXT: i32.add			; CHECK-NEXT: i32.add
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = getelementptr inbounds <4 x i32>, <4 x i32>* %p, i32 -1			%s = getelementptr inbounds <4 x i32>, <4 x i32>* %p, i32 -1
	store <4 x i32> %v , <4 x i32>* %s			store <4 x i32> %v , <4 x i32>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_with_unfolded_gep_negative_offset(<4 x i16> %v, <4 x i16>* %p) {
				; CHECK-LABEL: store_narrowing_v4i32_with_unfolded_gep_negative_offset:
				; CHECK: .functype store_narrowing_v4i32_with_unfolded_gep_negative_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const -8
				; CHECK-NEXT: i32.add
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				%s = getelementptr inbounds <4 x i16>, <4 x i16>* %p, i32 -1
				store <4 x i16> %v , <4 x i16>* %s
				ret void
				}

	define void @store_v4i32_with_unfolded_offset(<4 x i32> %v, <4 x i32>* %p) {			define void @store_v4i32_with_unfolded_offset(<4 x i32> %v, <4 x i32>* %p) {
	; CHECK-LABEL: store_v4i32_with_unfolded_offset:			; CHECK-LABEL: store_v4i32_with_unfolded_offset:
	; CHECK: .functype store_v4i32_with_unfolded_offset (v128, i32) -> ()			; CHECK: .functype store_v4i32_with_unfolded_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: i32.const 16			; CHECK-NEXT: i32.const 16
	; CHECK-NEXT: i32.add			; CHECK-NEXT: i32.add
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%q = ptrtoint <4 x i32>* %p to i32			%q = ptrtoint <4 x i32>* %p to i32
	%r = add nsw i32 %q, 16			%r = add nsw i32 %q, 16
	%s = inttoptr i32 %r to <4 x i32>*			%s = inttoptr i32 %r to <4 x i32>*
	store <4 x i32> %v , <4 x i32>* %s			store <4 x i32> %v , <4 x i32>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_with_unfolded_offset(<4 x i16> %v, <4 x i16>* %p) {
				; CHECK-LABEL: store_narrowing_v4i32_with_unfolded_offset:
				; CHECK: .functype store_narrowing_v4i32_with_unfolded_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 16
				; CHECK-NEXT: i32.add
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				%q = ptrtoint <4 x i16>* %p to i32
				%r = add nsw i32 %q, 16
				%s = inttoptr i32 %r to <4 x i16>*
				store <4 x i16> %v , <4 x i16>* %s
				ret void
				}

	define void @store_v4i32_with_unfolded_gep_offset(<4 x i32> %v, <4 x i32>* %p) {			define void @store_v4i32_with_unfolded_gep_offset(<4 x i32> %v, <4 x i32>* %p) {
	; CHECK-LABEL: store_v4i32_with_unfolded_gep_offset:			; CHECK-LABEL: store_v4i32_with_unfolded_gep_offset:
	; CHECK: .functype store_v4i32_with_unfolded_gep_offset (v128, i32) -> ()			; CHECK: .functype store_v4i32_with_unfolded_gep_offset (v128, i32) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 1			; CHECK-NEXT: local.get 1
	; CHECK-NEXT: i32.const 16			; CHECK-NEXT: i32.const 16
	; CHECK-NEXT: i32.add			; CHECK-NEXT: i32.add
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 0			; CHECK-NEXT: v128.store 0
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = getelementptr <4 x i32>, <4 x i32>* %p, i32 1			%s = getelementptr <4 x i32>, <4 x i32>* %p, i32 1
	store <4 x i32> %v , <4 x i32>* %s			store <4 x i32> %v , <4 x i32>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_with_unfolded_gep_offset(<4 x i16> %v, <4 x i16>* %p) {
				; CHECK-LABEL: store_narrowing_v4i32_with_unfolded_gep_offset:
				; CHECK: .functype store_narrowing_v4i32_with_unfolded_gep_offset (v128, i32) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: local.get 1
				; CHECK-NEXT: i32.const 8
				; CHECK-NEXT: i32.add
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 0
				; CHECK-NEXT: # fallthrough-return
				%s = getelementptr <4 x i16>, <4 x i16>* %p, i32 1
				store <4 x i16> %v , <4 x i16>* %s
				ret void
				}

	define void @store_v4i32_to_numeric_address(<4 x i32> %v) {			define void @store_v4i32_to_numeric_address(<4 x i32> %v) {
	; CHECK-LABEL: store_v4i32_to_numeric_address:			; CHECK-LABEL: store_v4i32_to_numeric_address:
	; CHECK: .functype store_v4i32_to_numeric_address (v128) -> ()			; CHECK: .functype store_v4i32_to_numeric_address (v128) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: i32.const 0			; CHECK-NEXT: i32.const 0
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store 32			; CHECK-NEXT: v128.store 32
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	%s = inttoptr i32 32 to <4 x i32>*			%s = inttoptr i32 32 to <4 x i32>*
	store <4 x i32> %v , <4 x i32>* %s			store <4 x i32> %v , <4 x i32>* %s
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_to_numeric_address(<4 x i16> %v) {
				; CHECK-LABEL: store_narrowing_v4i32_to_numeric_address:
				; CHECK: .functype store_narrowing_v4i32_to_numeric_address (v128) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: i32.const 0
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store 32
				; CHECK-NEXT: # fallthrough-return
				%s = inttoptr i32 32 to <4 x i16>*
				store <4 x i16> %v , <4 x i16>* %s
				ret void
				}

	define void @store_v4i32_to_global_address(<4 x i32> %v) {			define void @store_v4i32_to_global_address(<4 x i32> %v) {
	; CHECK-LABEL: store_v4i32_to_global_address:			; CHECK-LABEL: store_v4i32_to_global_address:
	; CHECK: .functype store_v4i32_to_global_address (v128) -> ()			; CHECK: .functype store_v4i32_to_global_address (v128) -> ()
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: i32.const 0			; CHECK-NEXT: i32.const 0
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	; CHECK-NEXT: v128.store gv_v4i32			; CHECK-NEXT: v128.store gv_v4i32
	; CHECK-NEXT: # fallthrough-return			; CHECK-NEXT: # fallthrough-return
	store <4 x i32> %v , <4 x i32>* @gv_v4i32			store <4 x i32> %v , <4 x i32>* @gv_v4i32
	ret void			ret void
	}			}

				define void @store_narrowing_v4i32_to_global_address(<4 x i16> %v) {
				; CHECK-LABEL: store_narrowing_v4i32_to_global_address:
				; CHECK: .functype store_narrowing_v4i32_to_global_address (v128) -> ()
				; CHECK-NEXT: # %bb.0:
				; CHECK-NEXT: i32.const 0
				; CHECK-NEXT: i32.const 65535
				; CHECK-NEXT: i32x4.splat
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: v128.and
				; CHECK-NEXT: local.get 0
				; CHECK-NEXT: i16x8.narrow_i32x4_u
				; CHECK-NEXT: i64x2.extract_lane 0
				; CHECK-NEXT: i64.store gv_v4i16
				; CHECK-NEXT: # fallthrough-return
				store <4 x i16> %v , <4 x i16>* @gv_v4i16
				ret void
				}

	; ==============================================================================			; ==============================================================================
	; 2 x i64			; 2 x i64
	; ==============================================================================			; ==============================================================================
	define <2 x i64> @load_v2i64(<2 x i64>* %p) {			define <2 x i64> @load_v2i64(<2 x i64>* %p) {
	; CHECK-LABEL: load_v2i64:			; CHECK-LABEL: load_v2i64:
	; CHECK: .functype load_v2i64 (i32) -> (v128)			; CHECK: .functype load_v2i64 (i32) -> (v128)
	; CHECK-NEXT: # %bb.0:			; CHECK-NEXT: # %bb.0:
	; CHECK-NEXT: local.get 0			; CHECK-NEXT: local.get 0
	▲ Show 20 Lines • Show All 1,343 Lines • Show Last 20 Lines