This is an archive of the discontinued LLVM Phabricator instance.

[AVX-512] Teach isel lowering that a subvector broadcast being inserted into both halves of a 512-bit vector can be combined into a larger subvector broadcast.
ClosedPublic

Authored by craig.topper on Oct 15 2016, 10:32 PM.

Download Raw Diff

Details

Reviewers

RKSimon
delena
igorb

Commits

rGa4dc340cf2e5: [AVX-512] Teach isel lowering that a subvector broadcast being inserted into…
rL284567: [AVX-512] Teach isel lowering that a subvector broadcast being inserted into…

Summary

This allows us to create broadcasts of 128-bit vector loads into 512-bit vectors.

New patterns added to support 8-bit and 16-bit vector types and v2f64/v2i64->v8f64/v8i64 without DQI instructions.

There also fallback patterns when the load can't be folded. These patterns are a little complex as we first need to insert the lower 128-bits into the second 128-bits using a zmm subvector insert instruction. We need to use a zmm insert in case VLX isn't available. Then use another zmm sub vector insert to take those 256-bits and insert them into the upper bits. Since we used a zmm insert to create the 256-bits we also need to do a extract_subreg to get just the lower 256-bits to pass to the second insert.

The outer insert for the fallback patterns should have its type correct because eventually we should also supported masked operations here too. So we need a DQI and a NoDQI version of the v16f32/v16i32 patterns.

Diff Detail

Event Timeline

craig.topper updated this revision to Diff 74783.Oct 15 2016, 10:32 PM

craig.topper retitled this revision from to [AVX-512] Teach isel lowering that a subvector broadcast being inserted into both halves of a 512-bit vector can be combined into a larger subvector broadcast..

craig.topper updated this object.

craig.topper added reviewers: RKSimon, delena, igorb.

craig.topper added a subscriber: llvm-commits.

LGTM,
Thanks for looking at this!

This revision is now accepted and ready to land.Oct 18 2016, 12:53 AM

Closed by commit rL284567: [AVX-512] Teach isel lowering that a subvector broadcast being inserted into… (authored by ctopper). · Explain WhyOct 18 2016, 9:53 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

X86ISelLowering.cpp

6 lines

X86InstrAVX512.td

88 lines

test/

CodeGen/

X86/

avx512-vbroadcasti128.ll

74 lines

subvector-broadcast.ll

152 lines

Diff 74783

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 13,018 Lines • ▼ Show 20 Lines	if (Idx2 && Idx2->getZExtValue() == 0) {
// If lower/upper loads are the same and the only users of the load, then		// If lower/upper loads are the same and the only users of the load, then
// lower to a VBROADCASTF128/VBROADCASTI128/etc.		// lower to a VBROADCASTF128/VBROADCASTI128/etc.
if (auto *Ld = dyn_cast<LoadSDNode>(peekThroughOneUseBitcasts(SubVec2))) {		if (auto *Ld = dyn_cast<LoadSDNode>(peekThroughOneUseBitcasts(SubVec2))) {
if (SubVec2 == SubVec && ISD::isNormalLoad(Ld) &&		if (SubVec2 == SubVec && ISD::isNormalLoad(Ld) &&
areOnlyUsersOf(SubVec2.getNode(), {Op, Vec})) {		areOnlyUsersOf(SubVec2.getNode(), {Op, Vec})) {
return DAG.getNode(X86ISD::SUBV_BROADCAST, dl, OpVT, SubVec);		return DAG.getNode(X86ISD::SUBV_BROADCAST, dl, OpVT, SubVec);
}		}
}		}
		// If this is subv_broadcast insert into both halves, use a larger
		// subv_broadcast.
		if (SubVec.getOpcode() == X86ISD::SUBV_BROADCAST && SubVec == SubVec2) {
		return DAG.getNode(X86ISD::SUBV_BROADCAST, dl, OpVT,
		SubVec.getOperand(0));
		}
}		}
}		}

if (SubVecVT.is128BitVector())		if (SubVecVT.is128BitVector())
return insert128BitVector(Vec, SubVec, IdxVal, DAG, dl);		return insert128BitVector(Vec, SubVec, IdxVal, DAG, dl);

if (SubVecVT.is256BitVector())		if (SubVecVT.is256BitVector())
return insert256BitVector(Vec, SubVec, IdxVal, DAG, dl);		return insert256BitVector(Vec, SubVec, IdxVal, DAG, dl);
▲ Show 20 Lines • Show All 19,792 Lines • Show Last 20 Lines

lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,057 Lines • ▼ Show 20 Lines	def : Pat<(v16i32 (X86SubVBroadcast (v8i32 VR256X:$src))),
(VINSERTI64x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(VINSERTI64x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(v8i32 VR256X:$src), 1)>;		(v8i32 VR256X:$src), 1)>;
def : Pat<(v32i16 (X86SubVBroadcast (v16i16 VR256X:$src))),		def : Pat<(v32i16 (X86SubVBroadcast (v16i16 VR256X:$src))),
(VINSERTI64x4Zrr (INSERT_SUBREG (v32i16 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(VINSERTI64x4Zrr (INSERT_SUBREG (v32i16 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(v16i16 VR256X:$src), 1)>;		(v16i16 VR256X:$src), 1)>;
def : Pat<(v64i8 (X86SubVBroadcast (v32i8 VR256X:$src))),		def : Pat<(v64i8 (X86SubVBroadcast (v32i8 VR256X:$src))),
(VINSERTI64x4Zrr (INSERT_SUBREG (v64i8 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(VINSERTI64x4Zrr (INSERT_SUBREG (v64i8 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(v32i8 VR256X:$src), 1)>;		(v32i8 VR256X:$src), 1)>;

		def : Pat<(v32i16 (X86SubVBroadcast (bc_v8i16 (loadv2i64 addr:$src)))),
		(VBROADCASTI32X4rm addr:$src)>;
		def : Pat<(v64i8 (X86SubVBroadcast (bc_v16i8 (loadv2i64 addr:$src)))),
		(VBROADCASTI32X4rm addr:$src)>;

		// Provide fallback in case the load node that is used in the patterns above
		// is used by additional users, which prevents the pattern selection.
		def : Pat<(v8f64 (X86SubVBroadcast (v2f64 VR128X:$src))),
		(VINSERTF64x4Zrr
		(VINSERTF32x4Zrr (INSERT_SUBREG (v8f64 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v8f64 (VINSERTF32x4Zrr (INSERT_SUBREG (v8f64 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;
		def : Pat<(v8i64 (X86SubVBroadcast (v2i64 VR128X:$src))),
		(VINSERTI64x4Zrr
		(VINSERTI32x4Zrr (INSERT_SUBREG (v8i64 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v8i64 (VINSERTI32x4Zrr (INSERT_SUBREG (v8i64 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;

		def : Pat<(v32i16 (X86SubVBroadcast (v8i16 VR128X:$src))),
		(VINSERTI64x4Zrr
		(VINSERTI32x4Zrr (INSERT_SUBREG (v32i16 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v32i16 (VINSERTI32x4Zrr (INSERT_SUBREG (v32i16 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;
		def : Pat<(v64i8 (X86SubVBroadcast (v16i8 VR128X:$src))),
		(VINSERTI64x4Zrr
		(VINSERTI32x4Zrr (INSERT_SUBREG (v64i8 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v64i8 (VINSERTI32x4Zrr (INSERT_SUBREG (v64i8 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;
}		}

let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
defm VBROADCASTI32X4Z256 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti32x4",		defm VBROADCASTI32X4Z256 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti32x4",
v8i32x_info, v4i32x_info>,		v8i32x_info, v4i32x_info>,
EVEX_V256, EVEX_CD8<32, CD8VT4>;		EVEX_V256, EVEX_CD8<32, CD8VT4>;
defm VBROADCASTF32X4Z256 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",		defm VBROADCASTF32X4Z256 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",
v8f32x_info, v4f32x_info>,		v8f32x_info, v4f32x_info>,
▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	def : Pat<(v4f64 (X86SubVBroadcast (v2f64 VR128X:$src))),
(VINSERTF32x4Z256rr (INSERT_SUBREG (v4f64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(VINSERTF32x4Z256rr (INSERT_SUBREG (v4f64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(v2f64 VR128X:$src), 1)>;		(v2f64 VR128X:$src), 1)>;
def : Pat<(v4i64 (X86SubVBroadcast (v2i64 VR128X:$src))),		def : Pat<(v4i64 (X86SubVBroadcast (v2i64 VR128X:$src))),
(VINSERTI32x4Z256rr (INSERT_SUBREG (v4i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(VINSERTI32x4Z256rr (INSERT_SUBREG (v4i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(v2i64 VR128X:$src), 1)>;		(v2i64 VR128X:$src), 1)>;
}		}

let Predicates = [HasAVX512, NoDQI] in {		let Predicates = [HasAVX512, NoDQI] in {
		def : Pat<(v8f64 (X86SubVBroadcast (loadv2f64 addr:$src))),
		(VBROADCASTF32X4rm addr:$src)>;
		def : Pat<(v8i64 (X86SubVBroadcast (loadv2i64 addr:$src))),
		(VBROADCASTI32X4rm addr:$src)>;

		def : Pat<(v16f32 (X86SubVBroadcast (v4f32 VR128X:$src))),
		(VINSERTF64x4Zrr
		(VINSERTF32x4Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v16f32 (VINSERTF32x4Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;
		def : Pat<(v16i32 (X86SubVBroadcast (v4i32 VR128X:$src))),
		(VINSERTI64x4Zrr
		(VINSERTI32x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v16i32 (VINSERTI32x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;

def : Pat<(v16f32 (X86SubVBroadcast (loadv8f32 addr:$src))),		def : Pat<(v16f32 (X86SubVBroadcast (loadv8f32 addr:$src))),
(VBROADCASTF64X4rm addr:$src)>;		(VBROADCASTF64X4rm addr:$src)>;
def : Pat<(v16i32 (X86SubVBroadcast (bc_v8i32 (loadv4i64 addr:$src)))),		def : Pat<(v16i32 (X86SubVBroadcast (bc_v8i32 (loadv4i64 addr:$src)))),
(VBROADCASTI64X4rm addr:$src)>;		(VBROADCASTI64X4rm addr:$src)>;

// Provide fallback in case the load node that is used in the patterns above		// Provide fallback in case the load node that is used in the patterns above
// is used by additional users, which prevents the pattern selection.		// is used by additional users, which prevents the pattern selection.
def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),		def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),
Show All 21 Lines
// Provide fallback in case the load node that is used in the patterns above		// Provide fallback in case the load node that is used in the patterns above
// is used by additional users, which prevents the pattern selection.		// is used by additional users, which prevents the pattern selection.
def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),		def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),
(VINSERTF32x8Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(VINSERTF32x8Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(v8f32 VR256X:$src), 1)>;		(v8f32 VR256X:$src), 1)>;
def : Pat<(v16i32 (X86SubVBroadcast (v8i32 VR256X:$src))),		def : Pat<(v16i32 (X86SubVBroadcast (v8i32 VR256X:$src))),
(VINSERTI32x8Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),		(VINSERTI32x8Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
(v8i32 VR256X:$src), 1)>;		(v8i32 VR256X:$src), 1)>;

		def : Pat<(v16f32 (X86SubVBroadcast (v4f32 VR128X:$src))),
		(VINSERTF32x8Zrr
		(VINSERTF32x4Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v16f32 (VINSERTF32x4Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;
		def : Pat<(v16i32 (X86SubVBroadcast (v4i32 VR128X:$src))),
		(VINSERTI32x8Zrr
		(VINSERTI32x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1),
		(EXTRACT_SUBREG
		(v16i32 (VINSERTI32x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)),
		VR128X:$src, sub_xmm),
		VR128X:$src, 1)), sub_ymm), 1)>;
}		}

multiclass avx512_common_broadcast_32x2<bits<8> opc, string OpcodeStr,		multiclass avx512_common_broadcast_32x2<bits<8> opc, string OpcodeStr,
AVX512VLVectorVTInfo _Dst, AVX512VLVectorVTInfo _Src> {		AVX512VLVectorVTInfo _Dst, AVX512VLVectorVTInfo _Src> {
let Predicates = [HasDQI] in		let Predicates = [HasDQI] in
defm Z : avx512_broadcast_rm<opc, OpcodeStr, _Dst.info512, _Src.info128>,		defm Z : avx512_broadcast_rm<opc, OpcodeStr, _Dst.info512, _Src.info128>,
EVEX_V512;		EVEX_V512;
let Predicates = [HasDQI, HasVLX] in		let Predicates = [HasDQI, HasVLX] in
▲ Show 20 Lines • Show All 7,626 Lines • Show Last 20 Lines

test/CodeGen/X86/avx512-vbroadcasti128.ll

	Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines

	;			;
	; 128-bit Subvector Broadcast to 512-bit			; 128-bit Subvector Broadcast to 512-bit
	;			;

	define <8 x double> @test_broadcast_2f64_8f64(<2 x double> *%p) nounwind {			define <8 x double> @test_broadcast_2f64_8f64(<2 x double> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_2f64_8f64:			; X64-AVX512VL-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512VL-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512VL-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512VL-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_2f64_8f64:			; X64-AVX512BWVL-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BWVL-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_2f64_8f64:			; X64-AVX512DQVL-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vbroadcastf64x2 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX512DQVL-NEXT: vbroadcastf64x2 {{.*#+}} zmm0 = mem[0,1,0,1,0,1,0,1]
	; X64-AVX512DQVL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512DQVL-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: retq			; X64-AVX512DQVL-NEXT: retq
	%1 = load <2 x double>, <2 x double> *%p			%1 = load <2 x double>, <2 x double> *%p
	%2 = shufflevector <2 x double> %1, <2 x double> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>			%2 = shufflevector <2 x double> %1, <2 x double> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
	%3 = fadd <8 x double> %2, <double 1.0, double 2.0, double 3.0, double 4.0, double 5.0, double 6.0, double 7.0, double 8.0>			%3 = fadd <8 x double> %2, <double 1.0, double 2.0, double 3.0, double 4.0, double 5.0, double 6.0, double 7.0, double 8.0>
	ret <8 x double> %3			ret <8 x double> %3
	}			}

	define <8 x i64> @test_broadcast_2i64_8i64(<2 x i64> *%p) nounwind {			define <8 x i64> @test_broadcast_2i64_8i64(<2 x i64> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_2i64_8i64:			; X64-AVX512VL-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512VL-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512VL-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_2i64_8i64:			; X64-AVX512BWVL-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_2i64_8i64:			; X64-AVX512DQVL-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vbroadcasti64x2 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX512DQVL-NEXT: vbroadcasti64x2 {{.*#+}} zmm0 = mem[0,1,0,1,0,1,0,1]
	; X64-AVX512DQVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512DQVL-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: retq			; X64-AVX512DQVL-NEXT: retq
	%1 = load <2 x i64>, <2 x i64> *%p			%1 = load <2 x i64>, <2 x i64> *%p
	%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>			%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
	%3 = add <8 x i64> %2, <i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8>			%3 = add <8 x i64> %2, <i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8>
	ret <8 x i64> %3			ret <8 x i64> %3
	}			}

	define <16 x float> @test_broadcast_4f32_16f32(<4 x float> *%p) nounwind {			define <16 x float> @test_broadcast_4f32_16f32(<4 x float> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_4f32_16f32:			; X64-AVX512-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512VL-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512VL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512-NEXT: retq
	; X64-AVX512VL-NEXT: retq
	;
	; X64-AVX512BWVL-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq
	;
	; X64-AVX512DQVL-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQVL-NEXT: vinsertf32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: retq
	%1 = load <4 x float>, <4 x float> *%p			%1 = load <4 x float>, <4 x float> *%p
	%2 = shufflevector <4 x float> %1, <4 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x float> %1, <4 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	%3 = fadd <16 x float> %2, <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0, float 9.0, float 10.0, float 11.0, float 12.0, float 13.0, float 14.0, float 15.0, float 16.0>			%3 = fadd <16 x float> %2, <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0, float 9.0, float 10.0, float 11.0, float 12.0, float 13.0, float 14.0, float 15.0, float 16.0>
	ret <16 x float> %3			ret <16 x float> %3
	}			}

	define <16 x i32> @test_broadcast_4i32_16i32(<4 x i32> *%p) nounwind {			define <16 x i32> @test_broadcast_4i32_16i32(<4 x i32> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_4i32_16i32:			; X64-AVX512-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512VL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512-NEXT: retq
	; X64-AVX512VL-NEXT: retq
	;
	; X64-AVX512BWVL-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq
	;
	; X64-AVX512DQVL-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQVL-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: retq
	%1 = load <4 x i32>, <4 x i32> *%p			%1 = load <4 x i32>, <4 x i32> *%p
	%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	%3 = add <16 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16>			%3 = add <16 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16>
	ret <16 x i32> %3			ret <16 x i32> %3
	}			}

	define <32 x i16> @test_broadcast_8i16_32i16(<8 x i16> *%p) nounwind {			define <32 x i16> @test_broadcast_8i16_32i16(<8 x i16> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_8i16_32i16:			; X64-AVX512VL-LABEL: test_broadcast_8i16_32i16:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_8i16_32i16:			; X64-AVX512BWVL-LABEL: test_broadcast_8i16_32i16:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddw {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vpaddw {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_8i16_32i16:			; X64-AVX512DQVL-LABEL: test_broadcast_8i16_32i16:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512DQVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1
	Show All 9 Lines
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512VL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_16i8_64i8:			; X64-AVX512BWVL-LABEL: test_broadcast_16i8_64i8:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BWVL-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddb {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vpaddb {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_16i8_64i8:			; X64-AVX512DQVL-LABEL: test_broadcast_16i8_64i8:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512DQVL-NEXT: vbroadcasti32x4 {{.*#+}} ymm1 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1
	Show All 36 Lines

test/CodeGen/X86/subvector-broadcast.ll

	Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X32-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X32-AVX-NEXT: vmovdqa %ymm0, %ymm1			; X32-AVX-NEXT: vmovdqa %ymm0, %ymm1
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X32-AVX512F-LABEL: test_broadcast_2f64_8f64:			; X32-AVX512F-LABEL: test_broadcast_2f64_8f64:
	; X32-AVX512F: ## BB#0:			; X32-AVX512F: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512F-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_2f64_8f64:			; X32-AVX512BW-LABEL: test_broadcast_2f64_8f64:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512BW-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_2f64_8f64:			; X32-AVX512DQ-LABEL: test_broadcast_2f64_8f64:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vbroadcastf64x2 {{.*#+}} ymm0 = mem[0,1,0,1]			; X32-AVX512DQ-NEXT: vbroadcastf64x2 {{.*#+}} zmm0 = mem[0,1,0,1,0,1,0,1]
	; X32-AVX512DQ-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_2f64_8f64:			; X64-AVX-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X64-AVX-NEXT: vmovdqa %ymm0, %ymm1			; X64-AVX-NEXT: vmovdqa %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_2f64_8f64:			; X64-AVX512F-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512F-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_2f64_8f64:			; X64-AVX512BW-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BW-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_2f64_8f64:			; X64-AVX512DQ-LABEL: test_broadcast_2f64_8f64:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vbroadcastf64x2 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX512DQ-NEXT: vbroadcastf64x2 {{.*#+}} zmm0 = mem[0,1,0,1,0,1,0,1]
	; X64-AVX512DQ-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <2 x double>, <2 x double> *%p			%1 = load <2 x double>, <2 x double> *%p
	%2 = shufflevector <2 x double> %1, <2 x double> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>			%2 = shufflevector <2 x double> %1, <2 x double> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
	ret <8 x double> %2			ret <8 x double> %2
	}			}

	define <8 x double> @test_broadcast_4f64_8f64(<4 x double> *%p) nounwind {			define <8 x double> @test_broadcast_4f64_8f64(<4 x double> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_4f64_8f64:			; X32-AVX-LABEL: test_broadcast_4f64_8f64:
	▲ Show 20 Lines • Show All 86 Lines • ▼ Show 20 Lines
	; X32-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X32-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X32-AVX2-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX2-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	;			;
	; X32-AVX512F-LABEL: test_broadcast_2i64_8i64:			; X32-AVX512F-LABEL: test_broadcast_2i64_8i64:
	; X32-AVX512F: ## BB#0:			; X32-AVX512F: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_2i64_8i64:			; X32-AVX512BW-LABEL: test_broadcast_2i64_8i64:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_2i64_8i64:			; X32-AVX512DQ-LABEL: test_broadcast_2i64_8i64:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vbroadcasti64x2 {{.*#+}} ymm0 = mem[0,1,0,1]			; X32-AVX512DQ-NEXT: vbroadcasti64x2 {{.*#+}} zmm0 = mem[0,1,0,1,0,1,0,1]
	; X32-AVX512DQ-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX1-LABEL: test_broadcast_2i64_8i64:			; X64-AVX1-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX1: ## BB#0:			; X64-AVX1: ## BB#0:
	; X64-AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X64-AVX1-NEXT: vmovdqa %ymm0, %ymm1			; X64-AVX1-NEXT: vmovdqa %ymm0, %ymm1
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_broadcast_2i64_8i64:			; X64-AVX2-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX2: ## BB#0:			; X64-AVX2: ## BB#0:
	; X64-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X64-AVX2-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX2-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_2i64_8i64:			; X64-AVX512F-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_2i64_8i64:			; X64-AVX512BW-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_2i64_8i64:			; X64-AVX512DQ-LABEL: test_broadcast_2i64_8i64:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vbroadcasti64x2 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX512DQ-NEXT: vbroadcasti64x2 {{.*#+}} zmm0 = mem[0,1,0,1,0,1,0,1]
	; X64-AVX512DQ-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <2 x i64>, <2 x i64> *%p			%1 = load <2 x i64>, <2 x i64> *%p
	%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>			%2 = shufflevector <2 x i64> %1, <2 x i64> undef, <8 x i32> <i32 0, i32 1, i32 0, i32 1, i32 0, i32 1, i32 0, i32 1>
	ret <8 x i64> %2			ret <8 x i64> %2
	}			}

	define <8 x i64> @test_broadcast_4i64_8i64(<4 x i64> *%p) nounwind {			define <8 x i64> @test_broadcast_4i64_8i64(<4 x i64> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_4i64_8i64:			; X32-AVX-LABEL: test_broadcast_4i64_8i64:
	▲ Show 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	define <16 x float> @test_broadcast_4f32_16f32(<4 x float> *%p) nounwind {			define <16 x float> @test_broadcast_4f32_16f32(<4 x float> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_4f32_16f32:			; X32-AVX-LABEL: test_broadcast_4f32_16f32:
	; X32-AVX: ## BB#0:			; X32-AVX: ## BB#0:
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X32-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X32-AVX-NEXT: vmovdqa %ymm0, %ymm1			; X32-AVX-NEXT: vmovdqa %ymm0, %ymm1
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X32-AVX512F-LABEL: test_broadcast_4f32_16f32:			; X32-AVX512-LABEL: test_broadcast_4f32_16f32:
	; X32-AVX512F: ## BB#0:			; X32-AVX512: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0			; X32-AVX512-NEXT: retl
	; X32-AVX512F-NEXT: retl
	;
	; X32-AVX512BW-LABEL: test_broadcast_4f32_16f32:
	; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl
	;
	; X32-AVX512DQ-LABEL: test_broadcast_4f32_16f32:
	; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512DQ-NEXT: vinsertf32x8 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_4f32_16f32:			; X64-AVX-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X64-AVX-NEXT: vmovdqa %ymm0, %ymm1			; X64-AVX-NEXT: vmovdqa %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_4f32_16f32:			; X64-AVX512-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX512F: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512F-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512-NEXT: vbroadcastf32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512-NEXT: retq
	; X64-AVX512F-NEXT: retq
	;
	; X64-AVX512BW-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq
	;
	; X64-AVX512DQ-LABEL: test_broadcast_4f32_16f32:
	; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vbroadcastf32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQ-NEXT: vinsertf32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq
	%1 = load <4 x float>, <4 x float> *%p			%1 = load <4 x float>, <4 x float> *%p
	%2 = shufflevector <4 x float> %1, <4 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x float> %1, <4 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	ret <16 x float> %2			ret <16 x float> %2
	}			}

	define <16 x float> @test_broadcast_8f32_16f32(<8 x float> *%p) nounwind {			define <16 x float> @test_broadcast_8f32_16f32(<8 x float> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_8f32_16f32:			; X32-AVX-LABEL: test_broadcast_8f32_16f32:
	; X32-AVX: ## BB#0:			; X32-AVX: ## BB#0:
	▲ Show 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	;			;
	; X32-AVX2-LABEL: test_broadcast_4i32_16i32:			; X32-AVX2-LABEL: test_broadcast_4i32_16i32:
	; X32-AVX2: ## BB#0:			; X32-AVX2: ## BB#0:
	; X32-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX2-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X32-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X32-AVX2-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX2-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX2-NEXT: retl			; X32-AVX2-NEXT: retl
	;			;
	; X32-AVX512F-LABEL: test_broadcast_4i32_16i32:			; X32-AVX512-LABEL: test_broadcast_4i32_16i32:
	; X32-AVX512F: ## BB#0:			; X32-AVX512: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X32-AVX512-NEXT: retl
	; X32-AVX512F-NEXT: retl
	;
	; X32-AVX512BW-LABEL: test_broadcast_4i32_16i32:
	; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl
	;
	; X32-AVX512DQ-LABEL: test_broadcast_4i32_16i32:
	; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX1-LABEL: test_broadcast_4i32_16i32:			; X64-AVX1-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX1: ## BB#0:			; X64-AVX1: ## BB#0:
	; X64-AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX1-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X64-AVX1-NEXT: vmovdqa %ymm0, %ymm1			; X64-AVX1-NEXT: vmovdqa %ymm0, %ymm1
	; X64-AVX1-NEXT: retq			; X64-AVX1-NEXT: retq
	;			;
	; X64-AVX2-LABEL: test_broadcast_4i32_16i32:			; X64-AVX2-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX2: ## BB#0:			; X64-AVX2: ## BB#0:
	; X64-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]			; X64-AVX2-NEXT: vbroadcastf128 {{.*#+}} ymm0 = mem[0,1,0,1]
	; X64-AVX2-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX2-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX2-NEXT: retq			; X64-AVX2-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_4i32_16i32:			; X64-AVX512-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX512F: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512-NEXT: retq
	; X64-AVX512F-NEXT: retq
	;
	; X64-AVX512BW-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq
	;
	; X64-AVX512DQ-LABEL: test_broadcast_4i32_16i32:
	; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq
	%1 = load <4 x i32>, <4 x i32> *%p			%1 = load <4 x i32>, <4 x i32> *%p
	%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	ret <16 x i32> %2			ret <16 x i32> %2
	}			}

	define <16 x i32> @test_broadcast_8i32_16i32(<8 x i32> *%p) nounwind {			define <16 x i32> @test_broadcast_8i32_16i32(<8 x i32> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_8i32_16i32:			; X32-AVX-LABEL: test_broadcast_8i32_16i32:
	; X32-AVX: ## BB#0:			; X32-AVX: ## BB#0:
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1			; X32-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_8i16_32i16:			; X32-AVX512BW-LABEL: test_broadcast_8i16_32i16:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_8i16_32i16:			; X32-AVX512DQ-LABEL: test_broadcast_8i16_32i16:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1			; X32-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	Show All 13 Lines
	; X64-AVX512F-LABEL: test_broadcast_8i16_32i16:			; X64-AVX512F-LABEL: test_broadcast_8i16_32i16:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1			; X64-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_8i16_32i16:			; X64-AVX512BW-LABEL: test_broadcast_8i16_32i16:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_8i16_32i16:			; X64-AVX512DQ-LABEL: test_broadcast_8i16_32i16:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1			; X64-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <8 x i16>, <8 x i16> *%p			%1 = load <8 x i16>, <8 x i16> *%p
	▲ Show 20 Lines • Show All 103 Lines • ▼ Show 20 Lines
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1			; X32-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_16i8_64i8:			; X32-AVX512BW-LABEL: test_broadcast_16i8_64i8:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_16i8_64i8:			; X32-AVX512DQ-LABEL: test_broadcast_16i8_64i8:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X32-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1			; X32-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	Show All 13 Lines
	; X64-AVX512F-LABEL: test_broadcast_16i8_64i8:			; X64-AVX512F-LABEL: test_broadcast_16i8_64i8:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512F-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1			; X64-AVX512F-NEXT: vmovdqa64 %ymm0, %ymm1
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_16i8_64i8:			; X64-AVX512BW-LABEL: test_broadcast_16i8_64i8:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_16i8_64i8:			; X64-AVX512DQ-LABEL: test_broadcast_16i8_64i8:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]			; X64-AVX512DQ-NEXT: vbroadcasti32x4 {{.*#+}} ymm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1			; X64-AVX512DQ-NEXT: vmovdqa64 %ymm0, %ymm1
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <16 x i8>, <16 x i8> *%p			%1 = load <16 x i8>, <16 x i8> *%p
	▲ Show 20 Lines • Show All 512 Lines • ▼ Show 20 Lines
	;			;
	; X32-AVX512F-LABEL: test_broadcast_4i32_16i32_chain:			; X32-AVX512F-LABEL: test_broadcast_4i32_16i32_chain:
	; X32-AVX512F: ## BB#0:			; X32-AVX512F: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-AVX512F-NEXT: vmovdqa64 (%ecx), %xmm0			; X32-AVX512F-NEXT: vmovdqa64 (%ecx), %xmm0
	; X32-AVX512F-NEXT: vpxord %xmm1, %xmm1, %xmm1			; X32-AVX512F-NEXT: vpxord %xmm1, %xmm1, %xmm1
	; X32-AVX512F-NEXT: vmovdqa32 %xmm1, (%eax)			; X32-AVX512F-NEXT: vmovdqa32 %xmm1, (%eax)
	; X32-AVX512F-NEXT: vinserti32x4 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512F-NEXT: vinserti32x4 $1, %xmm0, %zmm0, %zmm0
	; X32-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X32-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_4i32_16i32_chain:			; X32-AVX512BW-LABEL: test_broadcast_4i32_16i32_chain:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-AVX512BW-NEXT: vmovdqa64 (%ecx), %xmm0			; X32-AVX512BW-NEXT: vmovdqa64 (%ecx), %xmm0
	; X32-AVX512BW-NEXT: vpxord %xmm1, %xmm1, %xmm1			; X32-AVX512BW-NEXT: vpxord %xmm1, %xmm1, %xmm1
	; X32-AVX512BW-NEXT: vmovdqa32 %xmm1, (%eax)			; X32-AVX512BW-NEXT: vmovdqa32 %xmm1, (%eax)
	; X32-AVX512BW-NEXT: vinserti32x4 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512BW-NEXT: vinserti32x4 $1, %xmm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_4i32_16i32_chain:			; X32-AVX512DQ-LABEL: test_broadcast_4i32_16i32_chain:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X32-AVX512DQ-NEXT: vmovdqa64 (%ecx), %xmm0			; X32-AVX512DQ-NEXT: vmovdqa64 (%ecx), %xmm0
	; X32-AVX512DQ-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X32-AVX512DQ-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X32-AVX512DQ-NEXT: vmovaps %xmm1, (%eax)			; X32-AVX512DQ-NEXT: vmovaps %xmm1, (%eax)
	; X32-AVX512DQ-NEXT: vinserti32x4 $1, %xmm0, %ymm0, %ymm0			; X32-AVX512DQ-NEXT: vinserti32x4 $1, %xmm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0			; X32-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_4i32_16i32_chain:			; X64-AVX-LABEL: test_broadcast_4i32_16i32_chain:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %xmm0			; X64-AVX-NEXT: vmovaps (%rdi), %xmm0
	; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-AVX-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-AVX-NEXT: vmovaps %xmm1, (%rsi)			; X64-AVX-NEXT: vmovaps %xmm1, (%rsi)
	; X64-AVX-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0			; X64-AVX-NEXT: vinsertf128 $1, %xmm0, %ymm0, %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_4i32_16i32_chain:			; X64-AVX512F-LABEL: test_broadcast_4i32_16i32_chain:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovdqa64 (%rdi), %xmm0			; X64-AVX512F-NEXT: vmovdqa64 (%rdi), %xmm0
	; X64-AVX512F-NEXT: vpxord %xmm1, %xmm1, %xmm1			; X64-AVX512F-NEXT: vpxord %xmm1, %xmm1, %xmm1
	; X64-AVX512F-NEXT: vmovdqa32 %xmm1, (%rsi)			; X64-AVX512F-NEXT: vmovdqa32 %xmm1, (%rsi)
	; X64-AVX512F-NEXT: vinserti32x4 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512F-NEXT: vinserti32x4 $1, %xmm0, %zmm0, %zmm0
	; X64-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_4i32_16i32_chain:			; X64-AVX512BW-LABEL: test_broadcast_4i32_16i32_chain:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovdqa64 (%rdi), %xmm0			; X64-AVX512BW-NEXT: vmovdqa64 (%rdi), %xmm0
	; X64-AVX512BW-NEXT: vpxord %xmm1, %xmm1, %xmm1			; X64-AVX512BW-NEXT: vpxord %xmm1, %xmm1, %xmm1
	; X64-AVX512BW-NEXT: vmovdqa32 %xmm1, (%rsi)			; X64-AVX512BW-NEXT: vmovdqa32 %xmm1, (%rsi)
	; X64-AVX512BW-NEXT: vinserti32x4 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512BW-NEXT: vinserti32x4 $1, %xmm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_4i32_16i32_chain:			; X64-AVX512DQ-LABEL: test_broadcast_4i32_16i32_chain:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovdqa64 (%rdi), %xmm0			; X64-AVX512DQ-NEXT: vmovdqa64 (%rdi), %xmm0
	; X64-AVX512DQ-NEXT: vxorps %xmm1, %xmm1, %xmm1			; X64-AVX512DQ-NEXT: vxorps %xmm1, %xmm1, %xmm1
	; X64-AVX512DQ-NEXT: vmovaps %xmm1, (%rsi)			; X64-AVX512DQ-NEXT: vmovaps %xmm1, (%rsi)
	; X64-AVX512DQ-NEXT: vinserti32x4 $1, %xmm0, %ymm0, %ymm0			; X64-AVX512DQ-NEXT: vinserti32x4 $1, %xmm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0			; X64-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <4 x i32>, <4 x i32>* %p0			%1 = load <4 x i32>, <4 x i32>* %p0
	store <4 x float> zeroinitializer, <4 x float>* %p1			store <4 x float> zeroinitializer, <4 x float>* %p1
	%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x i32> %1, <4 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	ret <16 x i32> %2			ret <16 x i32> %2
	}			}