This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
2/3
SelectionDAGBuilder.cpp
-
test/CodeGen/
-
CodeGen/
-
Mips/
-
implicit-sret.ll
-
X86/
-
pr34653.ll

Differential D78999

[SelectionDAGBuilder] Stop setting alignment to one for hidden sret values
ClosedPublic

Authored by arichardson on Apr 28 2020, 6:17 AM.

Download Raw Diff

Details

Reviewers

efriedma
sunfish
t.p.northover

Commits

rGd1ff003fbbb3: [SelectionDAGBuilder] Stop setting alignment to one for hidden sret values

Summary

We allocated a suitably aligned frame index so we know that all the values
have ABI alignment.
For MIPS this avoids using pair of lwl + lwr instructions instead of a
single lw. I found this when compiling CHERI pure capability code where
we can't use the lwl/lwr unaligned loads/stores and and were to falling
back to a byte load + shift + or sequence.

This should save a few instructions for MIPS and possibly other backends
that don't have fast unaligned loads/stores.
It also improves code generation for CodeGen/X86/pr34653.ll since it can
now use aligned loads.

Depends on D78998.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

arichardson created this revision.Apr 28 2020, 6:17 AM

Herald added a project: Restricted Project. · View Herald TranscriptApr 28 2020, 6:17 AM

Herald added subscribers: llvm-commits, atanasyan, jrtc27 and 2 others. · View Herald Transcript

arichardson requested review of this revision.Apr 28 2020, 6:19 AM

arichardson added reviewers: efriedma, sunfish, t.p.northover.

Harbormaster failed remote builds in B54953: Diff 260609!Apr 28 2020, 6:25 AM

efriedma added inline comments.Apr 28 2020, 3:29 PM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
1836	The alignment of the stack slot is computed using `Align Alignment = DL.getPrefTypeAlign(CLI.RetTy);`, Is there some reason to do something different here?
9287	You don't need to use min() here. The "alignment" argument of getLoad is actually the alignment of the object referred to by the MachinePointerInfo, excluding the offset.

address review feedback. Also appears to improve codegen in one wasm test

Herald added subscribers: aheejin, jgravelle-google, sbc100, dschuff. · View Herald TranscriptApr 29 2020, 1:45 AM

arichardson marked 2 inline comments as done.Apr 29 2020, 1:48 AM

Harbormaster failed remote builds in B55094: Diff 260861!Apr 29 2020, 2:38 AM

LGTM with one minor comment.

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
1849	`commonAlignment(BaseAlign, Offsets[i])`

This revision is now accepted and ready to land.Apr 29 2020, 1:19 PM

Closed by commit rGd1ff003fbbb3: [SelectionDAGBuilder] Stop setting alignment to one for hidden sret values (authored by arichardson). · Explain WhyMay 4 2020, 6:54 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

SelectionDAGBuilder.cpp

11 lines

test/

CodeGen/

Mips/

implicit-sret.ll

34 lines

X86/

pr34653.ll

50 lines

Diff 260609

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,827 Lines • ▼ Show 20 Lines	if (!FuncInfo.CanLowerReturn) {

SmallVector<EVT, 4> ValueVTs, MemVTs;		SmallVector<EVT, 4> ValueVTs, MemVTs;
SmallVector<uint64_t, 4> Offsets;		SmallVector<uint64_t, 4> Offsets;
ComputeValueVTs(TLI, DL, I.getOperand(0)->getType(), ValueVTs, &MemVTs,		ComputeValueVTs(TLI, DL, I.getOperand(0)->getType(), ValueVTs, &MemVTs,
&Offsets);		&Offsets);
unsigned NumValues = ValueVTs.size();		unsigned NumValues = ValueVTs.size();

SmallVector<SDValue, 4> Chains(NumValues);		SmallVector<SDValue, 4> Chains(NumValues);
		unsigned BaseAlign = DL.getABITypeAlignment(I.getOperand(0)->getType());
		efriedmaUnsubmitted Done Reply Inline Actions The alignment of the stack slot is computed using `Align Alignment = DL.getPrefTypeAlign(CLI.RetTy);`, Is there some reason to do something different here? efriedma: The alignment of the stack slot is computed using `Align Alignment = DL.getPrefTypeAlign(CLI.
for (unsigned i = 0; i != NumValues; ++i) {		for (unsigned i = 0; i != NumValues; ++i) {
// An aggregate return value cannot wrap around the address space, so		// An aggregate return value cannot wrap around the address space, so
// offsets to its parts don't wrap either.		// offsets to its parts don't wrap either.
SDValue Ptr = DAG.getObjectPtrOffset(getCurSDLoc(), RetPtr, Offsets[i]);		SDValue Ptr = DAG.getObjectPtrOffset(getCurSDLoc(), RetPtr, Offsets[i]);

SDValue Val = RetOp.getValue(RetOp.getResNo() + i);		SDValue Val = RetOp.getValue(RetOp.getResNo() + i);
if (MemVTs[i] != ValueVTs[i])		if (MemVTs[i] != ValueVTs[i])
Val = DAG.getPtrExtOrTrunc(Val, getCurSDLoc(), MemVTs[i]);		Val = DAG.getPtrExtOrTrunc(Val, getCurSDLoc(), MemVTs[i]);
Chains[i] = DAG.getStore(Chain, getCurSDLoc(), Val,		Chains[i] = DAG.getStore(
		Chain, getCurSDLoc(), Val,
// FIXME: better loc info would be nice.		// FIXME: better loc info would be nice.
Ptr, MachinePointerInfo::getUnknownStack(DAG.getMachineFunction()));		Ptr, MachinePointerInfo::getUnknownStack(DAG.getMachineFunction()),
		MinAlign(BaseAlign, Offsets[i]));
		efriedmaUnsubmitted Not Done Reply Inline Actions `commonAlignment(BaseAlign, Offsets[i])` efriedma: `commonAlignment(BaseAlign, Offsets[i])`
}		}

Chain = DAG.getNode(ISD::TokenFactor, getCurSDLoc(),		Chain = DAG.getNode(ISD::TokenFactor, getCurSDLoc(),
MVT::Other, Chains);		MVT::Other, Chains);
} else if (I.getNumOperands() != 0) {		} else if (I.getNumOperands() != 0) {
SmallVector<EVT, 4> ValueVTs;		SmallVector<EVT, 4> ValueVTs;
ComputeValueVTs(TLI, DL, I.getOperand(0)->getType(), ValueVTs);		ComputeValueVTs(TLI, DL, I.getOperand(0)->getType(), ValueVTs);
unsigned NumValues = ValueVTs.size();		unsigned NumValues = ValueVTs.size();
▲ Show 20 Lines • Show All 7,411 Lines • ▼ Show 20 Lines	if (!CanLowerReturn) {
ReturnValues.resize(NumValues);		ReturnValues.resize(NumValues);
SmallVector<SDValue, 4> Chains(NumValues);		SmallVector<SDValue, 4> Chains(NumValues);

// An aggregate return value cannot wrap around the address space, so		// An aggregate return value cannot wrap around the address space, so
// offsets to its parts don't wrap either.		// offsets to its parts don't wrap either.
SDNodeFlags Flags;		SDNodeFlags Flags;
Flags.setNoUnsignedWrap(true);		Flags.setNoUnsignedWrap(true);

		MachineFunction &MF = CLI.DAG.getMachineFunction();
		Align HiddenSRetAlign = MF.getFrameInfo().getObjectAlign(DemoteStackIdx);
for (unsigned i = 0; i < NumValues; ++i) {		for (unsigned i = 0; i < NumValues; ++i) {
SDValue Add = CLI.DAG.getNode(ISD::ADD, CLI.DL, PtrVT, DemoteStackSlot,		SDValue Add = CLI.DAG.getNode(ISD::ADD, CLI.DL, PtrVT, DemoteStackSlot,
CLI.DAG.getConstant(Offsets[i], CLI.DL,		CLI.DAG.getConstant(Offsets[i], CLI.DL,
PtrVT), Flags);		PtrVT), Flags);
SDValue L = CLI.DAG.getLoad(		SDValue L = CLI.DAG.getLoad(
RetTys[i], CLI.DL, CLI.Chain, Add,		RetTys[i], CLI.DL, CLI.Chain, Add,
MachinePointerInfo::getFixedStack(CLI.DAG.getMachineFunction(),		MachinePointerInfo::getFixedStack(CLI.DAG.getMachineFunction(),
DemoteStackIdx, Offsets[i]),		DemoteStackIdx, Offsets[i]),
/* Alignment = */ 1);		/* Alignment = */ MinAlign(HiddenSRetAlign.value(), Offsets[i]));
		efriedmaUnsubmitted Done Reply Inline Actions You don't need to use min() here. The "alignment" argument of getLoad is actually the alignment of the object referred to by the MachinePointerInfo, excluding the offset. efriedma: You don't need to use min() here. The "alignment" argument of getLoad is actually the…
ReturnValues[i] = L;		ReturnValues[i] = L;
Chains[i] = L.getValue(1);		Chains[i] = L.getValue(1);
}		}

CLI.Chain = CLI.DAG.getNode(ISD::TokenFactor, CLI.DL, MVT::Other, Chains);		CLI.Chain = CLI.DAG.getNode(ISD::TokenFactor, CLI.DL, MVT::Other, Chains);
} else {		} else {
// Collect the legal value parts into potentially illegal values		// Collect the legal value parts into potentially illegal values
// that correspond to the original function's return values.		// that correspond to the original function's return values.
▲ Show 20 Lines • Show All 1,274 Lines • Show Last 20 Lines

llvm/test/CodeGen/Mips/implicit-sret.ll

	Show All 10 Lines
	define internal void @test() unnamed_addr nounwind {			define internal void @test() unnamed_addr nounwind {
	; CHECK-LABEL: test:			; CHECK-LABEL: test:
	; CHECK: # %bb.0: # %start			; CHECK: # %bb.0: # %start
	; CHECK-NEXT: daddiu $sp, $sp, -48			; CHECK-NEXT: daddiu $sp, $sp, -48
	; CHECK-NEXT: sd $ra, 40($sp) # 8-byte Folded Spill			; CHECK-NEXT: sd $ra, 40($sp) # 8-byte Folded Spill
	; CHECK-NEXT: daddiu $4, $sp, 8			; CHECK-NEXT: daddiu $4, $sp, 8
	; CHECK-NEXT: jal implicit_sret_decl			; CHECK-NEXT: jal implicit_sret_decl
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: # implicit-def: $at_64			; CHECK-NEXT: ld $6, 24($sp)
	; CHECK-NEXT: ldl $1, 24($sp)			; CHECK-NEXT: ld $5, 16($sp)
	; CHECK-NEXT: ldr $1, 31($sp)			; CHECK-NEXT: ld $7, 32($sp)
				; CHECK-NEXT: lw $1, 8($sp)
	; CHECK-NEXT: # implicit-def: $v0_64			; CHECK-NEXT: # implicit-def: $v0_64
	; CHECK-NEXT: ldl $2, 16($sp)			; CHECK-NEXT: move $2, $1
	; CHECK-NEXT: ldr $2, 23($sp)			; CHECK-NEXT: move $4, $2
	; CHECK-NEXT: # implicit-def: $v1_64
	; CHECK-NEXT: ldl $3, 32($sp)
	; CHECK-NEXT: ldr $3, 39($sp)
	; CHECK-NEXT: # implicit-def: $a1
	; CHECK-NEXT: lwl $5, 8($sp)
	; CHECK-NEXT: lwr $5, 11($sp)
	; CHECK-NEXT: # implicit-def: $a0_64
	; CHECK-NEXT: move $4, $5
	; CHECK-NEXT: move $5, $2
	; CHECK-NEXT: move $6, $1
	; CHECK-NEXT: move $7, $3
	; CHECK-NEXT: jal use_sret			; CHECK-NEXT: jal use_sret
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: ld $ra, 40($sp) # 8-byte Folded Reload			; CHECK-NEXT: ld $ra, 40($sp) # 8-byte Folded Reload
	; CHECK-NEXT: daddiu $sp, $sp, 48			; CHECK-NEXT: daddiu $sp, $sp, 48
	; CHECK-NEXT: jr $ra			; CHECK-NEXT: jr $ra
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	start:			start:
	%0 = call { i32, i128, i64 } @implicit_sret_decl()			%0 = call { i32, i128, i64 } @implicit_sret_decl()
	Show All 26 Lines
	define internal void @test2() unnamed_addr nounwind {			define internal void @test2() unnamed_addr nounwind {
	; CHECK-LABEL: test2:			; CHECK-LABEL: test2:
	; CHECK: # %bb.0: # %start			; CHECK: # %bb.0: # %start
	; CHECK-NEXT: daddiu $sp, $sp, -32			; CHECK-NEXT: daddiu $sp, $sp, -32
	; CHECK-NEXT: sd $ra, 24($sp) # 8-byte Folded Spill			; CHECK-NEXT: sd $ra, 24($sp) # 8-byte Folded Spill
	; CHECK-NEXT: daddiu $4, $sp, 0			; CHECK-NEXT: daddiu $4, $sp, 0
	; CHECK-NEXT: jal implicit_sret_decl2			; CHECK-NEXT: jal implicit_sret_decl2
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	; CHECK-NEXT: # implicit-def: $at			; CHECK-NEXT: lw $1, 20($sp)
	; CHECK-NEXT: lwl $1, 20($sp)			; CHECK-NEXT: lw $2, 12($sp)
	; CHECK-NEXT: lwr $1, 23($sp)			; CHECK-NEXT: lw $3, 4($sp)
	; CHECK-NEXT: # implicit-def: $v0
	; CHECK-NEXT: lwl $2, 12($sp)
	; CHECK-NEXT: lwr $2, 15($sp)
	; CHECK-NEXT: # implicit-def: $v1
	; CHECK-NEXT: lwl $3, 4($sp)
	; CHECK-NEXT: lwr $3, 7($sp)
	; CHECK-NEXT: # implicit-def: $a0_64			; CHECK-NEXT: # implicit-def: $a0_64
	; CHECK-NEXT: move $4, $3			; CHECK-NEXT: move $4, $3
	; CHECK-NEXT: # implicit-def: $a1_64			; CHECK-NEXT: # implicit-def: $a1_64
	; CHECK-NEXT: move $5, $2			; CHECK-NEXT: move $5, $2
	; CHECK-NEXT: # implicit-def: $a2_64			; CHECK-NEXT: # implicit-def: $a2_64
	; CHECK-NEXT: move $6, $1			; CHECK-NEXT: move $6, $1
	; CHECK-NEXT: jal use_sret2			; CHECK-NEXT: jal use_sret2
	; CHECK-NEXT: nop			; CHECK-NEXT: nop
	Show All 34 Lines

llvm/test/CodeGen/X86/pr34653.ll

	Show All 9 Lines
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: .cfi_offset %rbp, -16			; CHECK-NEXT: .cfi_offset %rbp, -16
	; CHECK-NEXT: movq %rsp, %rbp			; CHECK-NEXT: movq %rsp, %rbp
	; CHECK-NEXT: .cfi_def_cfa_register %rbp			; CHECK-NEXT: .cfi_def_cfa_register %rbp
	; CHECK-NEXT: andq $-512, %rsp # imm = 0xFE00			; CHECK-NEXT: andq $-512, %rsp # imm = 0xFE00
	; CHECK-NEXT: subq $1536, %rsp # imm = 0x600			; CHECK-NEXT: subq $1536, %rsp # imm = 0x600
	; CHECK-NEXT: leaq {{[0-9]+}}(%rsp), %rdi			; CHECK-NEXT: leaq {{[0-9]+}}(%rsp), %rdi
	; CHECK-NEXT: callq test			; CHECK-NEXT: callq test
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm1			; CHECK-NEXT: vmovsd {{.*#+}} xmm1 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm2			; CHECK-NEXT: vmovsd {{.*#+}} xmm2 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm3			; CHECK-NEXT: vmovsd {{.*#+}} xmm3 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm4			; CHECK-NEXT: vmovsd {{.*#+}} xmm4 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm5			; CHECK-NEXT: vmovsd {{.*#+}} xmm5 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm6			; CHECK-NEXT: vmovsd {{.*#+}} xmm6 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm7			; CHECK-NEXT: vmovsd {{.*#+}} xmm7 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm8			; CHECK-NEXT: vmovsd {{.*#+}} xmm8 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm9			; CHECK-NEXT: vmovsd {{.*#+}} xmm9 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm10			; CHECK-NEXT: vmovsd {{.*#+}} xmm10 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm11			; CHECK-NEXT: vmovsd {{.*#+}} xmm11 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm12			; CHECK-NEXT: vmovsd {{.*#+}} xmm12 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm13			; CHECK-NEXT: vmovsd {{.*#+}} xmm13 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm14			; CHECK-NEXT: vmovsd {{.*#+}} xmm14 = mem[0],zero
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm15			; CHECK-NEXT: vmovsd {{.*#+}} xmm15 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovupd {{[0-9]+}}(%rsp), %xmm0
	; CHECK-NEXT: vmovsd {{.*#+}} xmm16 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm16 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm17 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm17 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm18 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm18 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm19 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm19 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm20 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm20 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm21 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm21 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm22 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm22 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm23 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm23 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm24 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm24 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm25 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm25 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm26 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm26 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm27 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm27 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm28 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm28 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm29 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm29 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm30 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm30 = mem[0],zero
	; CHECK-NEXT: vmovsd {{.*#+}} xmm31 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm31 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; CHECK-NEXT: vmovsd %xmm0, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; CHECK-NEXT: vmovsd {{[-0-9]+}}(%r{{[sb]}}p), %xmm0 # 8-byte Reload			; CHECK-NEXT: vmovsd {{.*#+}} xmm0 = mem[0],zero
	; CHECK-NEXT: # xmm0 = mem[0],zero
	; CHECK-NEXT: movq %rbp, %rsp			; CHECK-NEXT: movq %rbp, %rsp
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: .cfi_def_cfa %rsp, 8			; CHECK-NEXT: .cfi_def_cfa %rsp, 8
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	entry:			entry:
	%v = call fastcc <38 x double> @test()			%v = call fastcc <38 x double> @test()
	%v.0 = extractelement <38 x double> %v, i32 0			%v.0 = extractelement <38 x double> %v, i32 0
	ret void			ret void
	}			}