This is an archive of the discontinued LLVM Phabricator instance.

[AVX-512] Add support for turning a 256-bit load that goes to both halfs of an insert_subvector into a subvector broadcast.
ClosedPublic

Authored by craig.topper on Oct 15 2016, 10:17 PM.

Download Raw Diff

Details

Reviewers

RKSimon
delena
igorb

Commits

rG715ad7fef5d4: [AVX-512] Add support for turning a 256-bit load that goes to both halfs of an…
rL284353: [AVX-512] Add support for turning a 256-bit load that goes to both halfs of an…

Summary

This builds on the existing support to do this for 128-bit loads into 256-bit vectors and generalizes it.

New patterns added to support 8-bit and 16-bit elements, v8f32->v16f32 without DQI instructions, and adding fallback for when the load can't be folded.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper updated this revision to Diff 74782.Oct 15 2016, 10:17 PM

craig.topper retitled this revision from to [AVX-512] Add support for turning a 256-bit load that goes to both halfs of an insert_subvector into a subvector broadcast..

craig.topper updated this object.

craig.topper added reviewers: RKSimon, delena, igorb.

craig.topper added a subscriber: llvm-commits.

LGTM

This revision is now accepted and ready to land.Oct 16 2016, 1:05 AM

Thanks for looking at this, as a future patch would it make sense to move this code into EltsFromConsecutiveLoads?

I've also wondered whether we should make X86ISD::SUBV_BROADCAST a memory intrinsic? I realise that AVX512 has at least partial reg-reg instruction support that would require handling by another approach.

lib/Target/X86/X86ISelLowering.cpp
12998 ↗	(On Diff #74782)	Update the comment?

Updated comment at Simon's request.

Closed by commit rL284353: [AVX-512] Add support for turning a 256-bit load that goes to both halfs of an… (authored by ctopper). · Explain WhyOct 16 2016, 4:39 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

35 lines

X86InstrAVX512.td

47 lines

test/

CodeGen/

X86/

avx512-vbroadcasti256.ll

30 lines

subvector-broadcast.ll

60 lines

Diff 74806

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,976 Lines • ▼ Show 20 Lines	static SDValue LowerINSERT_SUBVECTOR(SDValue Op, const X86Subtarget &Subtarget,
SDValue Vec = Op.getOperand(0);		SDValue Vec = Op.getOperand(0);
SDValue SubVec = Op.getOperand(1);		SDValue SubVec = Op.getOperand(1);
SDValue Idx = Op.getOperand(2);		SDValue Idx = Op.getOperand(2);

unsigned IdxVal = cast<ConstantSDNode>(Idx)->getZExtValue();		unsigned IdxVal = cast<ConstantSDNode>(Idx)->getZExtValue();
MVT OpVT = Op.getSimpleValueType();		MVT OpVT = Op.getSimpleValueType();
MVT SubVecVT = SubVec.getSimpleValueType();		MVT SubVecVT = SubVec.getSimpleValueType();

// Fold two 16-byte subvector loads into one 32-byte load:		if (OpVT.getVectorElementType() == MVT::i1)
// (insert_subvector (insert_subvector undef, (load addr), 0),		return insert1BitVector(Op, DAG, Subtarget);
// (load addr + 16), Elts/2)
		assert((OpVT.is256BitVector() \|\| OpVT.is512BitVector()) &&
		"Can only insert into 256-bit or 512-bit vectors");

		// Fold two 16-byte or 32-byte subvector loads into one 32-byte or 64-byte
		// load:
		// (insert_subvector (insert_subvector undef, (load16 addr), 0),
		// (load16 addr + 16), Elts/2)
// --> load32 addr		// --> load32 addr
// or a 16-byte broadcast:		// or:
// (insert_subvector (insert_subvector undef, (load addr), 0),		// (insert_subvector (insert_subvector undef, (load32 addr), 0),
// (load addr), Elts/2)		// (load32 addr + 32), Elts/2)
		// --> load64 addr
		// or a 16-byte or 32-byte broadcast:
		// (insert_subvector (insert_subvector undef, (load16 addr), 0),
		// (load16 addr), Elts/2)
// --> X86SubVBroadcast(load16 addr)		// --> X86SubVBroadcast(load16 addr)
		// or:
		// (insert_subvector (insert_subvector undef, (load32 addr), 0),
		// (load32 addr), Elts/2)
		// --> X86SubVBroadcast(load32 addr)
if ((IdxVal == OpVT.getVectorNumElements() / 2) &&		if ((IdxVal == OpVT.getVectorNumElements() / 2) &&
Vec.getOpcode() == ISD::INSERT_SUBVECTOR &&		Vec.getOpcode() == ISD::INSERT_SUBVECTOR &&
OpVT.is256BitVector() && SubVecVT.is128BitVector()) {		OpVT.getSizeInBits() == SubVecVT.getSizeInBits() * 2) {
auto *Idx2 = dyn_cast<ConstantSDNode>(Vec.getOperand(2));		auto *Idx2 = dyn_cast<ConstantSDNode>(Vec.getOperand(2));
if (Idx2 && Idx2->getZExtValue() == 0) {		if (Idx2 && Idx2->getZExtValue() == 0) {
SDValue SubVec2 = Vec.getOperand(1);		SDValue SubVec2 = Vec.getOperand(1);
// If needed, look through bitcasts to get to the load.		// If needed, look through bitcasts to get to the load.
if (auto *FirstLd = dyn_cast<LoadSDNode>(peekThroughBitcasts(SubVec2))) {		if (auto *FirstLd = dyn_cast<LoadSDNode>(peekThroughBitcasts(SubVec2))) {
bool Fast;		bool Fast;
unsigned Alignment = FirstLd->getAlignment();		unsigned Alignment = FirstLd->getAlignment();
unsigned AS = FirstLd->getAddressSpace();		unsigned AS = FirstLd->getAddressSpace();
Show All 11 Lines	if (Idx2 && Idx2->getZExtValue() == 0) {
if (SubVec2 == SubVec && ISD::isNormalLoad(Ld) &&		if (SubVec2 == SubVec && ISD::isNormalLoad(Ld) &&
areOnlyUsersOf(SubVec2.getNode(), {Op, Vec})) {		areOnlyUsersOf(SubVec2.getNode(), {Op, Vec})) {
return DAG.getNode(X86ISD::SUBV_BROADCAST, dl, OpVT, SubVec);		return DAG.getNode(X86ISD::SUBV_BROADCAST, dl, OpVT, SubVec);
}		}
}		}
}		}
}		}

if (OpVT.getVectorElementType() == MVT::i1)
return insert1BitVector(Op, DAG, Subtarget);

assert((OpVT.is256BitVector() \|\| OpVT.is512BitVector()) &&
"Can only insert into 256-bit or 512-bit vectors");

if (SubVecVT.is128BitVector())		if (SubVecVT.is128BitVector())
return insert128BitVector(Vec, SubVec, IdxVal, DAG, dl);		return insert128BitVector(Vec, SubVec, IdxVal, DAG, dl);

if (SubVecVT.is256BitVector())		if (SubVecVT.is256BitVector())
return insert256BitVector(Vec, SubVec, IdxVal, DAG, dl);		return insert256BitVector(Vec, SubVec, IdxVal, DAG, dl);

llvm_unreachable("Unimplemented!");		llvm_unreachable("Unimplemented!");
}		}
▲ Show 20 Lines • Show All 19,789 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,037 Lines • ▼ Show 20 Lines	defm VBROADCASTF32X4 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",
EVEX_V512, EVEX_CD8<32, CD8VT4>;		EVEX_V512, EVEX_CD8<32, CD8VT4>;
defm VBROADCASTI64X4 : avx512_subvec_broadcast_rm<0x5b, "vbroadcasti64x4",		defm VBROADCASTI64X4 : avx512_subvec_broadcast_rm<0x5b, "vbroadcasti64x4",
v8i64_info, v4i64x_info>, VEX_W,		v8i64_info, v4i64x_info>, VEX_W,
EVEX_V512, EVEX_CD8<64, CD8VT4>;		EVEX_V512, EVEX_CD8<64, CD8VT4>;
defm VBROADCASTF64X4 : avx512_subvec_broadcast_rm<0x1b, "vbroadcastf64x4",		defm VBROADCASTF64X4 : avx512_subvec_broadcast_rm<0x1b, "vbroadcastf64x4",
v8f64_info, v4f64x_info>, VEX_W,		v8f64_info, v4f64x_info>, VEX_W,
EVEX_V512, EVEX_CD8<64, CD8VT4>;		EVEX_V512, EVEX_CD8<64, CD8VT4>;

		let Predicates = [HasAVX512] in {
		def : Pat<(v32i16 (X86SubVBroadcast (bc_v16i16 (loadv4i64 addr:$src)))),
		(VBROADCASTI64X4rm addr:$src)>;
		def : Pat<(v64i8 (X86SubVBroadcast (bc_v32i8 (loadv4i64 addr:$src)))),
		(VBROADCASTI64X4rm addr:$src)>;

		// Provide fallback in case the load node that is used in the patterns above
		// is used by additional users, which prevents the pattern selection.
		def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),
		(VINSERTF64x4Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v8f32 VR256X:$src), 1)>;
		def : Pat<(v16i32 (X86SubVBroadcast (v8i32 VR256X:$src))),
		(VINSERTI64x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v8i32 VR256X:$src), 1)>;
		def : Pat<(v32i16 (X86SubVBroadcast (v16i16 VR256X:$src))),
		(VINSERTI64x4Zrr (INSERT_SUBREG (v32i16 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v16i16 VR256X:$src), 1)>;
		def : Pat<(v64i8 (X86SubVBroadcast (v32i8 VR256X:$src))),
		(VINSERTI64x4Zrr (INSERT_SUBREG (v64i8 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v32i8 VR256X:$src), 1)>;
		}

let Predicates = [HasVLX] in {		let Predicates = [HasVLX] in {
defm VBROADCASTI32X4Z256 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti32x4",		defm VBROADCASTI32X4Z256 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti32x4",
v8i32x_info, v4i32x_info>,		v8i32x_info, v4i32x_info>,
EVEX_V256, EVEX_CD8<32, CD8VT4>;		EVEX_V256, EVEX_CD8<32, CD8VT4>;
defm VBROADCASTF32X4Z256 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",		defm VBROADCASTF32X4Z256 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf32x4",
v8f32x_info, v4f32x_info>,		v8f32x_info, v4f32x_info>,
EVEX_V256, EVEX_CD8<32, CD8VT4>;		EVEX_V256, EVEX_CD8<32, CD8VT4>;

▲ Show 20 Lines • Show All 47 Lines • ▼ Show 20 Lines
def : Pat<(v4f64 (X86SubVBroadcast (v2f64 VR128X:$src))),		def : Pat<(v4f64 (X86SubVBroadcast (v2f64 VR128X:$src))),
(VINSERTF32x4Z256rr (INSERT_SUBREG (v4f64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(VINSERTF32x4Z256rr (INSERT_SUBREG (v4f64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(v2f64 VR128X:$src), 1)>;		(v2f64 VR128X:$src), 1)>;
def : Pat<(v4i64 (X86SubVBroadcast (v2i64 VR128X:$src))),		def : Pat<(v4i64 (X86SubVBroadcast (v2i64 VR128X:$src))),
(VINSERTI32x4Z256rr (INSERT_SUBREG (v4i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),		(VINSERTI32x4Z256rr (INSERT_SUBREG (v4i64 (IMPLICIT_DEF)), VR128X:$src, sub_xmm),
(v2i64 VR128X:$src), 1)>;		(v2i64 VR128X:$src), 1)>;
}		}

		let Predicates = [HasAVX512, NoDQI] in {
		def : Pat<(v16f32 (X86SubVBroadcast (loadv8f32 addr:$src))),
		(VBROADCASTF64X4rm addr:$src)>;
		def : Pat<(v16i32 (X86SubVBroadcast (bc_v8i32 (loadv4i64 addr:$src)))),
		(VBROADCASTI64X4rm addr:$src)>;

		// Provide fallback in case the load node that is used in the patterns above
		// is used by additional users, which prevents the pattern selection.
		def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),
		(VINSERTF64x4Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v8f32 VR256X:$src), 1)>;
		def : Pat<(v16i32 (X86SubVBroadcast (v8i32 VR256X:$src))),
		(VINSERTI64x4Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v8i32 VR256X:$src), 1)>;
		}

let Predicates = [HasDQI] in {		let Predicates = [HasDQI] in {
defm VBROADCASTI64X2 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti64x2",		defm VBROADCASTI64X2 : avx512_subvec_broadcast_rm<0x5a, "vbroadcasti64x2",
v8i64_info, v2i64x_info>, VEX_W,		v8i64_info, v2i64x_info>, VEX_W,
EVEX_V512, EVEX_CD8<64, CD8VT2>;		EVEX_V512, EVEX_CD8<64, CD8VT2>;
defm VBROADCASTI32X8 : avx512_subvec_broadcast_rm<0x5b, "vbroadcasti32x8",		defm VBROADCASTI32X8 : avx512_subvec_broadcast_rm<0x5b, "vbroadcasti32x8",
v16i32_info, v8i32x_info>,		v16i32_info, v8i32x_info>,
EVEX_V512, EVEX_CD8<32, CD8VT8>;		EVEX_V512, EVEX_CD8<32, CD8VT8>;
defm VBROADCASTF64X2 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf64x2",		defm VBROADCASTF64X2 : avx512_subvec_broadcast_rm<0x1a, "vbroadcastf64x2",
v8f64_info, v2f64x_info>, VEX_W,		v8f64_info, v2f64x_info>, VEX_W,
EVEX_V512, EVEX_CD8<64, CD8VT2>;		EVEX_V512, EVEX_CD8<64, CD8VT2>;
defm VBROADCASTF32X8 : avx512_subvec_broadcast_rm<0x1b, "vbroadcastf32x8",		defm VBROADCASTF32X8 : avx512_subvec_broadcast_rm<0x1b, "vbroadcastf32x8",
v16f32_info, v8f32x_info>,		v16f32_info, v8f32x_info>,
EVEX_V512, EVEX_CD8<32, CD8VT8>;		EVEX_V512, EVEX_CD8<32, CD8VT8>;

		// Provide fallback in case the load node that is used in the patterns above
		// is used by additional users, which prevents the pattern selection.
		def : Pat<(v16f32 (X86SubVBroadcast (v8f32 VR256X:$src))),
		(VINSERTF32x8Zrr (INSERT_SUBREG (v16f32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v8f32 VR256X:$src), 1)>;
		def : Pat<(v16i32 (X86SubVBroadcast (v8i32 VR256X:$src))),
		(VINSERTI32x8Zrr (INSERT_SUBREG (v16i32 (IMPLICIT_DEF)), VR256X:$src, sub_ymm),
		(v8i32 VR256X:$src), 1)>;
}		}

multiclass avx512_common_broadcast_32x2<bits<8> opc, string OpcodeStr,		multiclass avx512_common_broadcast_32x2<bits<8> opc, string OpcodeStr,
AVX512VLVectorVTInfo _Dst, AVX512VLVectorVTInfo _Src> {		AVX512VLVectorVTInfo _Dst, AVX512VLVectorVTInfo _Src> {
let Predicates = [HasDQI] in		let Predicates = [HasDQI] in
defm Z : avx512_broadcast_rm<opc, OpcodeStr, _Dst.info512, _Src.info128>,		defm Z : avx512_broadcast_rm<opc, OpcodeStr, _Dst.info512, _Src.info128>,
EVEX_V512;		EVEX_V512;
let Predicates = [HasDQI, HasVLX] in		let Predicates = [HasDQI, HasVLX] in
▲ Show 20 Lines • Show All 7,626 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512-vbroadcasti256.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512vl \| FileCheck %s --check-prefix=X64-AVX512 --check-prefix=X64-AVX512VL			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512vl \| FileCheck %s --check-prefix=X64-AVX512 --check-prefix=X64-AVX512VL
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefix=X64-AVX512 --check-prefix=X64-AVX512BWVL			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512bw,+avx512vl \| FileCheck %s --check-prefix=X64-AVX512 --check-prefix=X64-AVX512BWVL
	; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512dq,+avx512vl \| FileCheck %s --check-prefix=X64-AVX512 --check-prefix=X64-AVX512DQVL			; RUN: llc < %s -mtriple=x86_64-apple-darwin -mattr=+avx512dq,+avx512vl \| FileCheck %s --check-prefix=X64-AVX512 --check-prefix=X64-AVX512DQVL

	define <8 x double> @test_broadcast_4f64_8f64(<4 x double> *%p) nounwind {			define <8 x double> @test_broadcast_4f64_8f64(<4 x double> *%p) nounwind {
	; X64-AVX512-LABEL: test_broadcast_4f64_8f64:			; X64-AVX512-LABEL: test_broadcast_4f64_8f64:
	; X64-AVX512: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512-NEXT: vmovapd (%rdi), %ymm0			; X64-AVX512-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512-NEXT: vaddpd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = load <4 x double>, <4 x double> *%p			%1 = load <4 x double>, <4 x double> *%p
	%2 = shufflevector <4 x double> %1, <4 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x double> %1, <4 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	%3 = fadd <8 x double> %2, <double 1.0, double 2.0, double 3.0, double 4.0, double 5.0, double 6.0, double 7.0, double 8.0>			%3 = fadd <8 x double> %2, <double 1.0, double 2.0, double 3.0, double 4.0, double 5.0, double 6.0, double 7.0, double 8.0>
	ret <8 x double> %3			ret <8 x double> %3
	}			}

	define <8 x i64> @test_broadcast_4i64_8i64(<4 x i64> *%p) nounwind {			define <8 x i64> @test_broadcast_4i64_8i64(<4 x i64> *%p) nounwind {
	; X64-AVX512-LABEL: test_broadcast_4i64_8i64:			; X64-AVX512-LABEL: test_broadcast_4i64_8i64:
	; X64-AVX512: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512-NEXT: vmovdqa64 (%rdi), %ymm0			; X64-AVX512-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = load <4 x i64>, <4 x i64> *%p			%1 = load <4 x i64>, <4 x i64> *%p
	%2 = shufflevector <4 x i64> %1, <4 x i64> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x i64> %1, <4 x i64> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	%3 = add <8 x i64> %2, <i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8>			%3 = add <8 x i64> %2, <i64 1, i64 2, i64 3, i64 4, i64 5, i64 6, i64 7, i64 8>
	ret <8 x i64> %3			ret <8 x i64> %3
	}			}

	define <16 x float> @test_broadcast_8f32_16f32(<8 x float> *%p) nounwind {			define <16 x float> @test_broadcast_8f32_16f32(<8 x float> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_8f32_16f32:			; X64-AVX512VL-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vmovapd (%rdi), %ymm0			; X64-AVX512VL-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512VL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512VL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_8f32_16f32:			; X64-AVX512BWVL-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vmovapd (%rdi), %ymm0			; X64-AVX512BWVL-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_8f32_16f32:			; X64-AVX512DQVL-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX512DQVL-NEXT: vbroadcastf32x8 {{.*#+}} zmm0 = mem[0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; X64-AVX512DQVL-NEXT: vinsertf32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512DQVL-NEXT: vaddps {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: retq			; X64-AVX512DQVL-NEXT: retq
	%1 = load <8 x float>, <8 x float> *%p			%1 = load <8 x float>, <8 x float> *%p
	%2 = shufflevector <8 x float> %1, <8 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%2 = shufflevector <8 x float> %1, <8 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%3 = fadd <16 x float> %2, <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0, float 9.0, float 10.0, float 11.0, float 12.0, float 13.0, float 14.0, float 15.0, float 16.0>			%3 = fadd <16 x float> %2, <float 1.0, float 2.0, float 3.0, float 4.0, float 5.0, float 6.0, float 7.0, float 8.0, float 9.0, float 10.0, float 11.0, float 12.0, float 13.0, float 14.0, float 15.0, float 16.0>
	ret <16 x float> %3			ret <16 x float> %3
	}			}

	define <16 x i32> @test_broadcast_8i32_16i32(<8 x i32> *%p) nounwind {			define <16 x i32> @test_broadcast_8i32_16i32(<8 x i32> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_8i32_16i32:			; X64-AVX512VL-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vmovdqa32 (%rdi), %ymm0			; X64-AVX512VL-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512VL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512VL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512VL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_8i32_16i32:			; X64-AVX512BWVL-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vmovdqa32 (%rdi), %ymm0			; X64-AVX512BWVL-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_8i32_16i32:			; X64-AVX512DQVL-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vmovdqa32 (%rdi), %ymm0			; X64-AVX512DQVL-NEXT: vbroadcasti32x8 {{.*#+}} zmm0 = mem[0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; X64-AVX512DQVL-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512DQVL-NEXT: vpaddd {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512DQVL-NEXT: retq			; X64-AVX512DQVL-NEXT: retq
	%1 = load <8 x i32>, <8 x i32> *%p			%1 = load <8 x i32>, <8 x i32> *%p
	%2 = shufflevector <8 x i32> %1, <8 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%2 = shufflevector <8 x i32> %1, <8 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	%3 = add <16 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16>			%3 = add <16 x i32> %2, <i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16>
	ret <16 x i32> %3			ret <16 x i32> %3
	}			}

	define <32 x i16> @test_broadcast_16i16_32i16(<16 x i16> *%p) nounwind {			define <32 x i16> @test_broadcast_16i16_32i16(<16 x i16> *%p) nounwind {
	; X64-AVX512VL-LABEL: test_broadcast_16i16_32i16:			; X64-AVX512VL-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vmovdqa64 (%rdi), %ymm1			; X64-AVX512VL-NEXT: vmovdqa64 (%rdi), %ymm1
	; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512VL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_16i16_32i16:			; X64-AVX512BWVL-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vmovdqu16 (%rdi), %ymm0			; X64-AVX512BWVL-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddw {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vpaddw {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_16i16_32i16:			; X64-AVX512DQVL-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vmovdqa64 (%rdi), %ymm1			; X64-AVX512DQVL-NEXT: vmovdqa64 (%rdi), %ymm1
	; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512DQVL-NEXT: vpaddw {{.*}}(%rip), %ymm1, %ymm1
	Show All 9 Lines
	; X64-AVX512VL: ## BB#0:			; X64-AVX512VL: ## BB#0:
	; X64-AVX512VL-NEXT: vmovdqa64 (%rdi), %ymm1			; X64-AVX512VL-NEXT: vmovdqa64 (%rdi), %ymm1
	; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512VL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1
	; X64-AVX512VL-NEXT: retq			; X64-AVX512VL-NEXT: retq
	;			;
	; X64-AVX512BWVL-LABEL: test_broadcast_32i8_64i8:			; X64-AVX512BWVL-LABEL: test_broadcast_32i8_64i8:
	; X64-AVX512BWVL: ## BB#0:			; X64-AVX512BWVL: ## BB#0:
	; X64-AVX512BWVL-NEXT: vmovdqu8 (%rdi), %ymm0			; X64-AVX512BWVL-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BWVL-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: vpaddb {{.*}}(%rip), %zmm0, %zmm0			; X64-AVX512BWVL-NEXT: vpaddb {{.*}}(%rip), %zmm0, %zmm0
	; X64-AVX512BWVL-NEXT: retq			; X64-AVX512BWVL-NEXT: retq
	;			;
	; X64-AVX512DQVL-LABEL: test_broadcast_32i8_64i8:			; X64-AVX512DQVL-LABEL: test_broadcast_32i8_64i8:
	; X64-AVX512DQVL: ## BB#0:			; X64-AVX512DQVL: ## BB#0:
	; X64-AVX512DQVL-NEXT: vmovdqa64 (%rdi), %ymm1			; X64-AVX512DQVL-NEXT: vmovdqa64 (%rdi), %ymm1
	; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0			; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm0
	; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1			; X64-AVX512DQVL-NEXT: vpaddb {{.*}}(%rip), %ymm1, %ymm1
	; X64-AVX512DQVL-NEXT: retq			; X64-AVX512DQVL-NEXT: retq
	%1 = load <32 x i8>, <32 x i8> *%p			%1 = load <32 x i8>, <32 x i8> *%p
	%2 = shufflevector <32 x i8> %1, <32 x i8> undef, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>			%2 = shufflevector <32 x i8> %1, <32 x i8> undef, <64 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 8, i32 9, i32 10, i32 11, i32 12, i32 13, i32 14, i32 15, i32 16, i32 17, i32 18, i32 19, i32 20, i32 21, i32 22, i32 23, i32 24, i32 25, i32 26, i32 27, i32 28, i32 29, i32 30, i32 31>
	%3 = add <64 x i8> %2, <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31, i8 32, i8 33, i8 34, i8 35, i8 36, i8 37, i8 38, i8 39, i8 40, i8 41, i8 42, i8 43, i8 44, i8 45, i8 46, i8 47, i8 48, i8 49, i8 50, i8 51, i8 52, i8 53, i8 54, i8 55, i8 56, i8 57, i8 58, i8 59, i8 60, i8 61, i8 62, i8 63, i8 64>			%3 = add <64 x i8> %2, <i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 9, i8 10, i8 11, i8 12, i8 13, i8 14, i8 15, i8 16, i8 17, i8 18, i8 19, i8 20, i8 21, i8 22, i8 23, i8 24, i8 25, i8 26, i8 27, i8 28, i8 29, i8 30, i8 31, i8 32, i8 33, i8 34, i8 35, i8 36, i8 37, i8 38, i8 39, i8 40, i8 41, i8 42, i8 43, i8 44, i8 45, i8 46, i8 47, i8 48, i8 49, i8 50, i8 51, i8 52, i8 53, i8 54, i8 55, i8 56, i8 57, i8 58, i8 59, i8 60, i8 61, i8 62, i8 63, i8 64>
	ret <64 x i8> %3			ret <64 x i8> %3
	}			}

llvm/trunk/test/CodeGen/X86/subvector-broadcast.ll

	Show First 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: vmovaps (%eax), %ymm0			; X32-AVX-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X32-AVX512-LABEL: test_broadcast_4f64_8f64:			; X32-AVX512-LABEL: test_broadcast_4f64_8f64:
	; X32-AVX512: ## BB#0:			; X32-AVX512: ## BB#0:
	; X32-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512-NEXT: vmovapd (%eax), %ymm0			; X32-AVX512-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512-NEXT: retl			; X32-AVX512-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_4f64_8f64:			; X64-AVX-LABEL: test_broadcast_4f64_8f64:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_broadcast_4f64_8f64:			; X64-AVX512-LABEL: test_broadcast_4f64_8f64:
	; X64-AVX512: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512-NEXT: vmovapd (%rdi), %ymm0			; X64-AVX512-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = load <4 x double>, <4 x double> *%p			%1 = load <4 x double>, <4 x double> *%p
	%2 = shufflevector <4 x double> %1, <4 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x double> %1, <4 x double> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	ret <8 x double> %2			ret <8 x double> %2
	}			}

	define <4 x i64> @test_broadcast_2i64_4i64(<2 x i64> *%p) nounwind {			define <4 x i64> @test_broadcast_2i64_4i64(<2 x i64> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_2i64_4i64:			; X32-AVX-LABEL: test_broadcast_2i64_4i64:
	▲ Show 20 Lines • Show All 120 Lines • ▼ Show 20 Lines
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: vmovaps (%eax), %ymm0			; X32-AVX-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X32-AVX512-LABEL: test_broadcast_4i64_8i64:			; X32-AVX512-LABEL: test_broadcast_4i64_8i64:
	; X32-AVX512: ## BB#0:			; X32-AVX512: ## BB#0:
	; X32-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512-NEXT: vmovdqa64 (%eax), %ymm0			; X32-AVX512-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512-NEXT: retl			; X32-AVX512-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_4i64_8i64:			; X64-AVX-LABEL: test_broadcast_4i64_8i64:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512-LABEL: test_broadcast_4i64_8i64:			; X64-AVX512-LABEL: test_broadcast_4i64_8i64:
	; X64-AVX512: ## BB#0:			; X64-AVX512: ## BB#0:
	; X64-AVX512-NEXT: vmovdqa64 (%rdi), %ymm0			; X64-AVX512-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512-NEXT: retq			; X64-AVX512-NEXT: retq
	%1 = load <4 x i64>, <4 x i64> *%p			%1 = load <4 x i64>, <4 x i64> *%p
	%2 = shufflevector <4 x i64> %1, <4 x i64> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>			%2 = shufflevector <4 x i64> %1, <4 x i64> undef, <8 x i32> <i32 0, i32 1, i32 2, i32 3, i32 0, i32 1, i32 2, i32 3>
	ret <8 x i64> %2			ret <8 x i64> %2
	}			}

	define <8 x float> @test_broadcast_4f32_8f32(<4 x float> *%p) nounwind {			define <8 x float> @test_broadcast_4f32_8f32(<4 x float> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_4f32_8f32:			; X32-AVX-LABEL: test_broadcast_4f32_8f32:
	▲ Show 20 Lines • Show All 85 Lines • ▼ Show 20 Lines
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: vmovaps (%eax), %ymm0			; X32-AVX-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X32-AVX512F-LABEL: test_broadcast_8f32_16f32:			; X32-AVX512F-LABEL: test_broadcast_8f32_16f32:
	; X32-AVX512F: ## BB#0:			; X32-AVX512F: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vmovapd (%eax), %ymm0			; X32-AVX512F-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_8f32_16f32:			; X32-AVX512BW-LABEL: test_broadcast_8f32_16f32:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vmovapd (%eax), %ymm0			; X32-AVX512BW-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_8f32_16f32:			; X32-AVX512DQ-LABEL: test_broadcast_8f32_16f32:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vmovaps (%eax), %ymm0			; X32-AVX512DQ-NEXT: vbroadcastf32x8 {{.*#+}} zmm0 = mem[0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; X32-AVX512DQ-NEXT: vinsertf32x8 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_8f32_16f32:			; X64-AVX-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_8f32_16f32:			; X64-AVX512F-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovapd (%rdi), %ymm0			; X64-AVX512F-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_8f32_16f32:			; X64-AVX512BW-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovapd (%rdi), %ymm0			; X64-AVX512BW-NEXT: vbroadcastf64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinsertf64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_8f32_16f32:			; X64-AVX512DQ-LABEL: test_broadcast_8f32_16f32:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX512DQ-NEXT: vbroadcastf32x8 {{.*#+}} zmm0 = mem[0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; X64-AVX512DQ-NEXT: vinsertf32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <8 x float>, <8 x float> *%p			%1 = load <8 x float>, <8 x float> *%p
	%2 = shufflevector <8 x float> %1, <8 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%2 = shufflevector <8 x float> %1, <8 x float> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <16 x float> %2			ret <16 x float> %2
	}			}

	define <8 x i32> @test_broadcast_4i32_8i32(<4 x i32> *%p) nounwind {			define <8 x i32> @test_broadcast_4i32_8i32(<4 x i32> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_4i32_8i32:			; X32-AVX-LABEL: test_broadcast_4i32_8i32:
	▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
	; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX-NEXT: vmovaps (%eax), %ymm0			; X32-AVX-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX-NEXT: retl			; X32-AVX-NEXT: retl
	;			;
	; X32-AVX512F-LABEL: test_broadcast_8i32_16i32:			; X32-AVX512F-LABEL: test_broadcast_8i32_16i32:
	; X32-AVX512F: ## BB#0:			; X32-AVX512F: ## BB#0:
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vmovdqa32 (%eax), %ymm0			; X32-AVX512F-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_8i32_16i32:			; X32-AVX512BW-LABEL: test_broadcast_8i32_16i32:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vmovdqa32 (%eax), %ymm0			; X32-AVX512BW-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_8i32_16i32:			; X32-AVX512DQ-LABEL: test_broadcast_8i32_16i32:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vmovdqa32 (%eax), %ymm0			; X32-AVX512DQ-NEXT: vbroadcasti32x8 {{.*#+}} zmm0 = mem[0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; X32-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_8i32_16i32:			; X64-AVX-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_8i32_16i32:			; X64-AVX512F-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovdqa32 (%rdi), %ymm0			; X64-AVX512F-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512F-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_8i32_16i32:			; X64-AVX512BW-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovdqa32 (%rdi), %ymm0			; X64-AVX512BW-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_8i32_16i32:			; X64-AVX512DQ-LABEL: test_broadcast_8i32_16i32:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovdqa32 (%rdi), %ymm0			; X64-AVX512DQ-NEXT: vbroadcasti32x8 {{.*#+}} zmm0 = mem[0,1,2,3,4,5,6,7,0,1,2,3,4,5,6,7]
	; X64-AVX512DQ-NEXT: vinserti32x8 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <8 x i32>, <8 x i32> *%p			%1 = load <8 x i32>, <8 x i32> *%p
	%2 = shufflevector <8 x i32> %1, <8 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>			%2 = shufflevector <8 x i32> %1, <8 x i32> undef, <16 x i32> <i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7, i32 0, i32 1, i32 2, i32 3, i32 4, i32 5, i32 6, i32 7>
	ret <16 x i32> %2			ret <16 x i32> %2
	}			}

	define <16 x i16> @test_broadcast_8i16_16i16(<8 x i16> *%p) nounwind {			define <16 x i16> @test_broadcast_8i16_16i16(<8 x i16> *%p) nounwind {
	; X32-AVX-LABEL: test_broadcast_8i16_16i16:			; X32-AVX-LABEL: test_broadcast_8i16_16i16:
	▲ Show 20 Lines • Show All 105 Lines • ▼ Show 20 Lines
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vmovaps (%eax), %ymm0			; X32-AVX512F-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX512F-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX512F-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_16i16_32i16:			; X32-AVX512BW-LABEL: test_broadcast_16i16_32i16:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vmovdqu16 (%eax), %ymm0			; X32-AVX512BW-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_16i16_32i16:			; X32-AVX512DQ-LABEL: test_broadcast_16i16_32i16:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vmovaps (%eax), %ymm0			; X32-AVX512DQ-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_16i16_32i16:			; X64-AVX-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_16i16_32i16:			; X64-AVX512F-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX512F-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX512F-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX512F-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_16i16_32i16:			; X64-AVX512BW-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovdqu16 (%rdi), %ymm0			; X64-AVX512BW-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_16i16_32i16:			; X64-AVX512DQ-LABEL: test_broadcast_16i16_32i16:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX512DQ-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <16 x i16>, <16 x i16> *%p			%1 = load <16 x i16>, <16 x i16> *%p
	▲ Show 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512F-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512F-NEXT: vmovaps (%eax), %ymm0			; X32-AVX512F-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX512F-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX512F-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX512F-NEXT: retl			; X32-AVX512F-NEXT: retl
	;			;
	; X32-AVX512BW-LABEL: test_broadcast_32i8_64i8:			; X32-AVX512BW-LABEL: test_broadcast_32i8_64i8:
	; X32-AVX512BW: ## BB#0:			; X32-AVX512BW: ## BB#0:
	; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512BW-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512BW-NEXT: vmovdqu8 (%eax), %ymm0			; X32-AVX512BW-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X32-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X32-AVX512BW-NEXT: retl			; X32-AVX512BW-NEXT: retl
	;			;
	; X32-AVX512DQ-LABEL: test_broadcast_32i8_64i8:			; X32-AVX512DQ-LABEL: test_broadcast_32i8_64i8:
	; X32-AVX512DQ: ## BB#0:			; X32-AVX512DQ: ## BB#0:
	; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax			; X32-AVX512DQ-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X32-AVX512DQ-NEXT: vmovaps (%eax), %ymm0			; X32-AVX512DQ-NEXT: vmovaps (%eax), %ymm0
	; X32-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1			; X32-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1
	; X32-AVX512DQ-NEXT: retl			; X32-AVX512DQ-NEXT: retl
	;			;
	; X64-AVX-LABEL: test_broadcast_32i8_64i8:			; X64-AVX-LABEL: test_broadcast_32i8_64i8:
	; X64-AVX: ## BB#0:			; X64-AVX: ## BB#0:
	; X64-AVX-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX-NEXT: retq			; X64-AVX-NEXT: retq
	;			;
	; X64-AVX512F-LABEL: test_broadcast_32i8_64i8:			; X64-AVX512F-LABEL: test_broadcast_32i8_64i8:
	; X64-AVX512F: ## BB#0:			; X64-AVX512F: ## BB#0:
	; X64-AVX512F-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX512F-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX512F-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX512F-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX512F-NEXT: retq			; X64-AVX512F-NEXT: retq
	;			;
	; X64-AVX512BW-LABEL: test_broadcast_32i8_64i8:			; X64-AVX512BW-LABEL: test_broadcast_32i8_64i8:
	; X64-AVX512BW: ## BB#0:			; X64-AVX512BW: ## BB#0:
	; X64-AVX512BW-NEXT: vmovdqu8 (%rdi), %ymm0			; X64-AVX512BW-NEXT: vbroadcasti64x4 {{.*#+}} zmm0 = mem[0,1,2,3,0,1,2,3]
	; X64-AVX512BW-NEXT: vinserti64x4 $1, %ymm0, %zmm0, %zmm0
	; X64-AVX512BW-NEXT: retq			; X64-AVX512BW-NEXT: retq
	;			;
	; X64-AVX512DQ-LABEL: test_broadcast_32i8_64i8:			; X64-AVX512DQ-LABEL: test_broadcast_32i8_64i8:
	; X64-AVX512DQ: ## BB#0:			; X64-AVX512DQ: ## BB#0:
	; X64-AVX512DQ-NEXT: vmovaps (%rdi), %ymm0			; X64-AVX512DQ-NEXT: vmovaps (%rdi), %ymm0
	; X64-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1			; X64-AVX512DQ-NEXT: vmovaps %ymm0, %ymm1
	; X64-AVX512DQ-NEXT: retq			; X64-AVX512DQ-NEXT: retq
	%1 = load <32 x i8>, <32 x i8> *%p			%1 = load <32 x i8>, <32 x i8> *%p
	▲ Show 20 Lines • Show All 531 Lines • Show Last 20 Lines