This is an archive of the discontinued LLVM Phabricator instance.

Use X86ISD::VBROADCAST in place of v2f64 X86ISD::MOVDDUP when AVX2 is available
ClosedPublic

Authored by craig.topper on Oct 11 2017, 11:21 PM.

Download Raw Diff

Details

Reviewers

Commits

rGf6c69564e7f3: [X86] Use X86ISD::VBROADCAST in place of v2f64 X86ISD::MOVDDUP when AVX2 is…
rL315768: [X86] Use X86ISD::VBROADCAST in place of v2f64 X86ISD::MOVDDUP when AVX2 is…

Summary

This is particularly important for AVX512VL where we are better able to recognize the VBROADCAST loads to fold with other operations.

For AVX512VL we now use X86ISD::VBROADCAST for all of the patterns and remove the 128-bit X86ISD::VMOVDDUP.

We may be able to use this for AVX1 as well which would allow us to remove more isel patterns.

I also had to add X86ISD::VBROADCAST as a node to call combineShuffle for so that we treat it similar to X86ISD::MOVDDUP.

Diff Detail

Repository: rL LLVM

Event Timeline

craig.topper created this revision.Oct 11 2017, 11:21 PM

RKSimon added inline comments.Oct 13 2017, 7:10 AM

test/CodeGen/X86/avx512vl-vbroadcast.ll
183 ↗	(On Diff #118742)	Is a mask test needed as well?

Add masked fold test too

Harbormaster completed remote builds in B11135: Diff 118919.Oct 13 2017, 8:34 AM

LGTM

test/CodeGen/X86/sse3-schedule.ll
566 ↗	(On Diff #118919)	Make this change separately if you can.

This revision is now accepted and ready to land.Oct 13 2017, 9:07 AM

Closed by commit rL315768: [X86] Use X86ISD::VBROADCAST in place of v2f64 X86ISD::MOVDDUP when AVX2 is… (authored by ctopper). · Explain WhyOct 13 2017, 2:57 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

X86/

X86ISelLowering.cpp

11 lines

X86InstrAVX512.td

28 lines

X86InstrSSE.td

5 lines

test/

CodeGen/

X86/

avx512vl-vbroadcast.ll

29 lines

Diff 118978

llvm/trunk/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,994 Lines • ▼ Show 20 Lines	static SDValue lowerVectorShuffleAsBroadcast(const SDLoc &DL, MVT VT,
if (!((Subtarget.hasSSE3() && VT == MVT::v2f64) \|\|		if (!((Subtarget.hasSSE3() && VT == MVT::v2f64) \|\|
(Subtarget.hasAVX() && VT.isFloatingPoint()) \|\|		(Subtarget.hasAVX() && VT.isFloatingPoint()) \|\|
(Subtarget.hasAVX2() && VT.isInteger())))		(Subtarget.hasAVX2() && VT.isInteger())))
return SDValue();		return SDValue();

// With MOVDDUP (v2f64) we can broadcast from a register or a load, otherwise		// With MOVDDUP (v2f64) we can broadcast from a register or a load, otherwise
// we can only broadcast from a register with AVX2.		// we can only broadcast from a register with AVX2.
unsigned NumElts = Mask.size();		unsigned NumElts = Mask.size();
unsigned Opcode = VT == MVT::v2f64 ? X86ISD::MOVDDUP : X86ISD::VBROADCAST;		unsigned Opcode = (VT == MVT::v2f64 && !Subtarget.hasAVX2())
		? X86ISD::MOVDDUP
		: X86ISD::VBROADCAST;
bool BroadcastFromReg = (Opcode == X86ISD::MOVDDUP) \|\| Subtarget.hasAVX2();		bool BroadcastFromReg = (Opcode == X86ISD::MOVDDUP) \|\| Subtarget.hasAVX2();

// Check that the mask is a broadcast.		// Check that the mask is a broadcast.
int BroadcastIdx = -1;		int BroadcastIdx = -1;
for (int i = 0; i != (int)NumElts; ++i) {		for (int i = 0; i != (int)NumElts; ++i) {
SmallVector<int, 8> BroadcastMask(NumElts, i);		SmallVector<int, 8> BroadcastMask(NumElts, i);
if (isShuffleEquivalent(V1, V2, Mask, BroadcastMask)) {		if (isShuffleEquivalent(V1, V2, Mask, BroadcastMask)) {
BroadcastIdx = i;		BroadcastIdx = i;
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	if (V.getOpcode() == ISD::BUILD_VECTOR \|\|

// If we can't broadcast from a register, check that the input is a load.		// If we can't broadcast from a register, check that the input is a load.
if (!BroadcastFromReg && !isShuffleFoldableLoad(V))		if (!BroadcastFromReg && !isShuffleFoldableLoad(V))
return SDValue();		return SDValue();
} else if (MayFoldLoad(BC) && !cast<LoadSDNode>(BC)->isVolatile()) {		} else if (MayFoldLoad(BC) && !cast<LoadSDNode>(BC)->isVolatile()) {
// 32-bit targets need to load i64 as a f64 and then bitcast the result.		// 32-bit targets need to load i64 as a f64 and then bitcast the result.
if (!Subtarget.is64Bit() && VT.getScalarType() == MVT::i64) {		if (!Subtarget.is64Bit() && VT.getScalarType() == MVT::i64) {
BroadcastVT = MVT::getVectorVT(MVT::f64, VT.getVectorNumElements());		BroadcastVT = MVT::getVectorVT(MVT::f64, VT.getVectorNumElements());
Opcode = (BroadcastVT.is128BitVector() ? X86ISD::MOVDDUP : Opcode);		Opcode = (BroadcastVT.is128BitVector() && !Subtarget.hasAVX2())
		? X86ISD::MOVDDUP
		: Opcode;
}		}

// If we are broadcasting a load that is only used by the shuffle		// If we are broadcasting a load that is only used by the shuffle
// then we can reduce the vector load to the broadcasted scalar load.		// then we can reduce the vector load to the broadcasted scalar load.
LoadSDNode *Ld = cast<LoadSDNode>(BC);		LoadSDNode *Ld = cast<LoadSDNode>(BC);
SDValue BaseAddr = Ld->getOperand(1);		SDValue BaseAddr = Ld->getOperand(1);
EVT SVT = BroadcastVT.getScalarType();		EVT SVT = BroadcastVT.getScalarType();
unsigned Offset = BroadcastIdx * SVT.getStoreSize();		unsigned Offset = BroadcastIdx * SVT.getStoreSize();
▲ Show 20 Lines • Show All 17,214 Lines • ▼ Show 20 Lines	if (((MaskEltSize == 32) \|\| (MaskEltSize == 64 && Subtarget.hasSSE2())) &&
SrcVT = DstVT = !Subtarget.hasSSE2() ? MVT::v4f32 : MaskVT;		SrcVT = DstVT = !Subtarget.hasSSE2() ? MVT::v4f32 : MaskVT;
return true;		return true;
}		}

// Check if we have SSE3 which will let us use MOVDDUP etc. The		// Check if we have SSE3 which will let us use MOVDDUP etc. The
// instructions are no slower than UNPCKLPD but has the option to		// instructions are no slower than UNPCKLPD but has the option to
// fold the input operand into even an unaligned memory load.		// fold the input operand into even an unaligned memory load.
if (MaskVT.is128BitVector() && Subtarget.hasSSE3() && AllowFloatDomain) {		if (MaskVT.is128BitVector() && Subtarget.hasSSE3() && AllowFloatDomain) {
if (isTargetShuffleEquivalent(Mask, {0, 0})) {		if (!Subtarget.hasAVX2() && isTargetShuffleEquivalent(Mask, {0, 0})) {
Shuffle = X86ISD::MOVDDUP;		Shuffle = X86ISD::MOVDDUP;
SrcVT = DstVT = MVT::v2f64;		SrcVT = DstVT = MVT::v2f64;
return true;		return true;
}		}
if (isTargetShuffleEquivalent(Mask, {0, 0, 2, 2})) {		if (isTargetShuffleEquivalent(Mask, {0, 0, 2, 2})) {
Shuffle = X86ISD::MOVSLDUP;		Shuffle = X86ISD::MOVSLDUP;
SrcVT = DstVT = MVT::v4f32;		SrcVT = DstVT = MVT::v4f32;
return true;		return true;
▲ Show 20 Lines • Show All 9,078 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::PerformDAGCombine(SDNode *N,
case X86ISD::PSHUFD:		case X86ISD::PSHUFD:
case X86ISD::PSHUFHW:		case X86ISD::PSHUFHW:
case X86ISD::PSHUFLW:		case X86ISD::PSHUFLW:
case X86ISD::MOVSHDUP:		case X86ISD::MOVSHDUP:
case X86ISD::MOVSLDUP:		case X86ISD::MOVSLDUP:
case X86ISD::MOVDDUP:		case X86ISD::MOVDDUP:
case X86ISD::MOVSS:		case X86ISD::MOVSS:
case X86ISD::MOVSD:		case X86ISD::MOVSD:
		case X86ISD::VBROADCAST:
case X86ISD::VPPERM:		case X86ISD::VPPERM:
case X86ISD::VPERMI:		case X86ISD::VPERMI:
case X86ISD::VPERMV:		case X86ISD::VPERMV:
case X86ISD::VPERMV3:		case X86ISD::VPERMV3:
case X86ISD::VPERMIV3:		case X86ISD::VPERMIV3:
case X86ISD::VPERMIL2:		case X86ISD::VPERMIL2:
case X86ISD::VPERMILPI:		case X86ISD::VPERMILPI:
case X86ISD::VPERMILPV:		case X86ISD::VPERMILPV:
▲ Show 20 Lines • Show All 1,063 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrAVX512.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 9,094 Lines • ▼ Show 20 Lines
	defm VMOVSHDUP : avx512_replicate<0x16, "vmovshdup", X86Movshdup>;			defm VMOVSHDUP : avx512_replicate<0x16, "vmovshdup", X86Movshdup>;
	defm VMOVSLDUP : avx512_replicate<0x12, "vmovsldup", X86Movsldup>;			defm VMOVSLDUP : avx512_replicate<0x12, "vmovsldup", X86Movsldup>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// AVX-512 - MOVDDUP			// AVX-512 - MOVDDUP
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	multiclass avx512_movddup_128<bits<8> opc, string OpcodeStr, SDNode OpNode,			multiclass avx512_movddup_128<bits<8> opc, string OpcodeStr, SDNode OpNode,
	X86VectorVTInfo _> {			X86VectorVTInfo _> {
	let ExeDomain = _.ExeDomain in {			let ExeDomain = _.ExeDomain in {
	defm rr : AVX512_maskable<opc, MRMSrcReg, _, (outs _.RC:$dst),			defm rr : AVX512_maskable<opc, MRMSrcReg, _, (outs _.RC:$dst),
	(ins _.RC:$src), OpcodeStr, "$src", "$src",			(ins _.RC:$src), OpcodeStr, "$src", "$src",
	(_.VT (OpNode (_.VT _.RC:$src)))>, EVEX;			(_.VT (OpNode (_.VT _.RC:$src)))>, EVEX;
	defm rm : AVX512_maskable<opc, MRMSrcMem, _, (outs _.RC:$dst),			defm rm : AVX512_maskable<opc, MRMSrcMem, _, (outs _.RC:$dst),
	(ins _.ScalarMemOp:$src), OpcodeStr, "$src", "$src",			(ins _.ScalarMemOp:$src), OpcodeStr, "$src", "$src",
	(_.VT (OpNode (_.VT (scalar_to_vector			(_.VT (OpNode (_.VT (scalar_to_vector
	(_.ScalarLdFrag addr:$src)))))>,			(_.ScalarLdFrag addr:$src)))))>,
	EVEX, EVEX_CD8<_.EltSize, CD8VH>;			EVEX, EVEX_CD8<_.EltSize, CD8VH>;
	}			}
	}			}

	multiclass avx512_movddup_common<bits<8> opc, string OpcodeStr, SDNode OpNode,			multiclass avx512_movddup_common<bits<8> opc, string OpcodeStr, SDNode OpNode,
	AVX512VLVectorVTInfo VTInfo> {			AVX512VLVectorVTInfo VTInfo> {

	defm Z : avx512_unary_rm<opc, OpcodeStr, OpNode, VTInfo.info512>, EVEX_V512;			defm Z : avx512_unary_rm<opc, OpcodeStr, X86Movddup, VTInfo.info512>, EVEX_V512;

	let Predicates = [HasAVX512, HasVLX] in {			let Predicates = [HasAVX512, HasVLX] in {
	defm Z256 : avx512_unary_rm<opc, OpcodeStr, OpNode, VTInfo.info256>,			defm Z256 : avx512_unary_rm<opc, OpcodeStr, X86Movddup, VTInfo.info256>,
	EVEX_V256;			EVEX_V256;
	defm Z128 : avx512_movddup_128<opc, OpcodeStr, OpNode, VTInfo.info128>,			defm Z128 : avx512_movddup_128<opc, OpcodeStr, X86VBroadcast, VTInfo.info128>,
	EVEX_V128;			EVEX_V128;
	}			}
	}			}

	multiclass avx512_movddup<bits<8> opc, string OpcodeStr, SDNode OpNode>{			multiclass avx512_movddup<bits<8> opc, string OpcodeStr, SDNode OpNode>{
	defm NAME: avx512_movddup_common<opc, OpcodeStr, OpNode,			defm NAME: avx512_movddup_common<opc, OpcodeStr, OpNode,
	avx512vl_f64_info>, XD, VEX_W;			avx512vl_f64_info>, XD, VEX_W;
	}			}

	defm VMOVDDUP : avx512_movddup<0x12, "vmovddup", X86Movddup>;			defm VMOVDDUP : avx512_movddup<0x12, "vmovddup", X86Movddup>;

	let Predicates = [HasVLX] in {			let Predicates = [HasVLX] in {
	def : Pat<(X86Movddup (loadv2f64 addr:$src)),
	(VMOVDDUPZ128rm addr:$src)>;
	def : Pat<(v2f64 (X86VBroadcast (loadf64 addr:$src))),			def : Pat<(v2f64 (X86VBroadcast (loadf64 addr:$src))),
	(VMOVDDUPZ128rm addr:$src)>;			(VMOVDDUPZ128rm addr:$src)>;
	def : Pat<(v2f64 (X86VBroadcast f64:$src)),			def : Pat<(v2f64 (X86VBroadcast f64:$src)),
	(VMOVDDUPZ128rr (COPY_TO_REGCLASS FR64X:$src, VR128X))>;			(VMOVDDUPZ128rr (COPY_TO_REGCLASS FR64X:$src, VR128X))>;
				def : Pat<(v2f64 (X86VBroadcast (loadv2f64 addr:$src))),
	def : Pat<(vselect (v2i1 VK2WM:$mask), (X86Movddup (loadv2f64 addr:$src)),			(VMOVDDUPZ128rm addr:$src)>;
	(v2f64 VR128X:$src0)),
	(VMOVDDUPZ128rmk VR128X:$src0, VK2WM:$mask, addr:$src)>;
	def : Pat<(vselect (v2i1 VK2WM:$mask), (X86Movddup (loadv2f64 addr:$src)),
	(bitconvert (v4i32 immAllZerosV))),
	(VMOVDDUPZ128rmkz VK2WM:$mask, addr:$src)>;

	def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast f64:$src)),			def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast f64:$src)),
	(v2f64 VR128X:$src0)),			(v2f64 VR128X:$src0)),
	(VMOVDDUPZ128rrk VR128X:$src0, VK2WM:$mask,			(VMOVDDUPZ128rrk VR128X:$src0, VK2WM:$mask,
	(COPY_TO_REGCLASS FR64X:$src, VR128X))>;			(COPY_TO_REGCLASS FR64X:$src, VR128X))>;
	def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast f64:$src)),			def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast f64:$src)),
	(bitconvert (v4i32 immAllZerosV))),			(bitconvert (v4i32 immAllZerosV))),
	(VMOVDDUPZ128rrkz VK2WM:$mask, (COPY_TO_REGCLASS FR64X:$src, VR128X))>;			(VMOVDDUPZ128rrkz VK2WM:$mask, (COPY_TO_REGCLASS FR64X:$src, VR128X))>;

	def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast (loadf64 addr:$src))),			def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast (loadf64 addr:$src))),
	(v2f64 VR128X:$src0)),			(v2f64 VR128X:$src0)),
	(VMOVDDUPZ128rmk VR128X:$src0, VK2WM:$mask, addr:$src)>;			(VMOVDDUPZ128rmk VR128X:$src0, VK2WM:$mask, addr:$src)>;
	def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast (loadf64 addr:$src))),			def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast (loadf64 addr:$src))),
	(bitconvert (v4i32 immAllZerosV))),			(bitconvert (v4i32 immAllZerosV))),
	(VMOVDDUPZ128rmkz VK2WM:$mask, addr:$src)>;			(VMOVDDUPZ128rmkz VK2WM:$mask, addr:$src)>;

				def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast (loadv2f64 addr:$src))),
				(v2f64 VR128X:$src0)),
				(VMOVDDUPZ128rmk VR128X:$src0, VK2WM:$mask, addr:$src)>;
				def : Pat<(vselect (v2i1 VK2WM:$mask), (v2f64 (X86VBroadcast (loadv2f64 addr:$src))),
				(bitconvert (v4i32 immAllZerosV))),
				(VMOVDDUPZ128rmkz VK2WM:$mask, addr:$src)>;
	}			}

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// AVX-512 - Unpack Instructions			// AVX-512 - Unpack Instructions
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	defm VUNPCKH : avx512_fp_binop_p<0x15, "vunpckh", X86Unpckh, HasAVX512,			defm VUNPCKH : avx512_fp_binop_p<0x15, "vunpckh", X86Unpckh, HasAVX512,
	SSE_ALU_ITINS_S>;			SSE_ALU_ITINS_S>;
	defm VUNPCKL : avx512_fp_binop_p<0x14, "vunpckl", X86Unpckl, HasAVX512,			defm VUNPCKL : avx512_fp_binop_p<0x14, "vunpckl", X86Unpckl, HasAVX512,
	▲ Show 20 Lines • Show All 671 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/X86/X86InstrSSE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 7,963 Lines • ▼ Show 20 Lines	def : Pat<(v4i32 (X86VBroadcast (loadi32 addr:$src))),
// Provide fallback in case the load node that is used in the patterns above		// Provide fallback in case the load node that is used in the patterns above
// is used by additional users, which prevents the pattern selection.		// is used by additional users, which prevents the pattern selection.
let Predicates = [HasAVX, NoVLX] in {		let Predicates = [HasAVX, NoVLX] in {
// 128bit broadcasts:		// 128bit broadcasts:
def : Pat<(v2f64 (X86VBroadcast f64:$src)),		def : Pat<(v2f64 (X86VBroadcast f64:$src)),
(VMOVDDUPrr (COPY_TO_REGCLASS FR64:$src, VR128))>;		(VMOVDDUPrr (COPY_TO_REGCLASS FR64:$src, VR128))>;
def : Pat<(v2f64 (X86VBroadcast (loadf64 addr:$src))),		def : Pat<(v2f64 (X86VBroadcast (loadf64 addr:$src))),
(VMOVDDUPrm addr:$src)>;		(VMOVDDUPrm addr:$src)>;

		def : Pat<(v2f64 (X86VBroadcast v2f64:$src)),
		(VMOVDDUPrr VR128:$src)>;
		def : Pat<(v2f64 (X86VBroadcast (loadv2f64 addr:$src))),
		(VMOVDDUPrm addr:$src)>;
}		}

let Predicates = [HasAVX1Only] in {		let Predicates = [HasAVX1Only] in {
def : Pat<(v4f32 (X86VBroadcast FR32:$src)),		def : Pat<(v4f32 (X86VBroadcast FR32:$src)),
(VPERMILPSri (COPY_TO_REGCLASS FR32:$src, VR128), 0)>;		(VPERMILPSri (COPY_TO_REGCLASS FR32:$src, VR128), 0)>;
def : Pat<(v8f32 (X86VBroadcast FR32:$src)),		def : Pat<(v8f32 (X86VBroadcast FR32:$src)),
(VINSERTF128rr (INSERT_SUBREG (v8f32 (IMPLICIT_DEF)),		(VINSERTF128rr (INSERT_SUBREG (v8f32 (IMPLICIT_DEF)),
(VPERMILPSri (COPY_TO_REGCLASS FR32:$src, VR128), 0), sub_xmm),		(VPERMILPSri (COPY_TO_REGCLASS FR32:$src, VR128), 0), sub_xmm),
▲ Show 20 Lines • Show All 409 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/X86/avx512vl-vbroadcast.ll

	; NOTE: Assertions have been autogenerated by update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx512f -mattr=+avx512vl\| FileCheck %s			; RUN: llc < %s -mtriple=x86_64-unknown-linux-gnu -mattr=+avx512f -mattr=+avx512vl\| FileCheck %s

	declare void @func_f32(float)			declare void @func_f32(float)
	define <8 x float> @_256_broadcast_ss_spill(float %x) {			define <8 x float> @_256_broadcast_ss_spill(float %x) {
	; CHECK-LABEL: _256_broadcast_ss_spill:			; CHECK-LABEL: _256_broadcast_ss_spill:
	; CHECK: # BB#0:			; CHECK: # BB#0:
	; CHECK-NEXT: subq $24, %rsp			; CHECK-NEXT: subq $24, %rsp
	; CHECK-NEXT: .cfi_def_cfa_offset 32			; CHECK-NEXT: .cfi_def_cfa_offset 32
	▲ Show 20 Lines • Show All 155 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: vbroadcastsd %xmm0, %ymm0 {%k1} {z}			; CHECK-NEXT: vbroadcastsd %xmm0, %ymm0 {%k1} {z}
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%mask = icmp ne <4 x i32> %mask1, zeroinitializer			%mask = icmp ne <4 x i32> %mask1, zeroinitializer
	%b = insertelement <4 x double> undef, double %a, i32 0			%b = insertelement <4 x double> undef, double %a, i32 0
	%c = shufflevector <4 x double> %b, <4 x double> undef, <4 x i32> zeroinitializer			%c = shufflevector <4 x double> %b, <4 x double> undef, <4 x i32> zeroinitializer
	%r = select <4 x i1> %mask, <4 x double> %c, <4 x double> zeroinitializer			%r = select <4 x i1> %mask, <4 x double> %c, <4 x double> zeroinitializer
	ret <4 x double> %r			ret <4 x double> %r
	}			}

				define <2 x double> @test_v2f64_broadcast_fold(<2 x double> *%a0, <2 x double> %a1) {
				; CHECK-LABEL: test_v2f64_broadcast_fold:
				; CHECK: # BB#0:
				; CHECK-NEXT: vaddpd (%rdi){1to2}, %xmm0, %xmm0
				; CHECK-NEXT: retq
				%1 = load <2 x double>, <2 x double> *%a0, align 16
				%2 = shufflevector <2 x double> %1, <2 x double> undef, <2 x i32> zeroinitializer
				%3 = fadd <2 x double> %2, %a1
				ret <2 x double> %3
				}

				define <2 x double> @test_v2f64_broadcast_fold_mask(<2 x double> *%a0, <2 x double> %a1, <2 x i64> %mask1, <2 x double> %a2) {
				; CHECK-LABEL: test_v2f64_broadcast_fold_mask:
				; CHECK: # BB#0:
				; CHECK-NEXT: vpxor %xmm3, %xmm3, %xmm3
				; CHECK-NEXT: vpcmpneqq %xmm3, %xmm1, %k1
				; CHECK-NEXT: vaddpd (%rdi){1to2}, %xmm0, %xmm2 {%k1}
				; CHECK-NEXT: vmovapd %xmm2, %xmm0
				; CHECK-NEXT: retq
				%mask = icmp ne <2 x i64> %mask1, zeroinitializer
				%1 = load <2 x double>, <2 x double> *%a0, align 16
				%2 = shufflevector <2 x double> %1, <2 x double> undef, <2 x i32> zeroinitializer
				%3 = fadd <2 x double> %2, %a1
				%4 = select <2 x i1> %mask, <2 x double> %3, <2 x double> %a2
				ret <2 x double> %4
				}