This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
-
X86InstrInfo.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
anyregcc.ll
-
avx-intel-ocl.ll
2/3
avx512-intel-ocl.ll
-
x86-64-xmm-spill-unaligned.ll

Differential D73126

[X86] Generate unaligned access for fixed slots in unaligned stack
ClosedPublic

Authored by thejh on Jan 21 2020, 10:25 AM.

Download Raw Diff

Details

Reviewers

craig.topper
asl
thegameg
delena
rnk
jyknight
arsenm

Commits

rG1ac98044dfc2: [X86] Generate unaligned access for fixed slots in unaligned stack

Summary

loadRegFromStackSlot()/storeRegToStackSlot() can generate aligned access
instructions for stack slots even if the stack is unaligned, based on the
assumption that the stack can be realigned.
However, this doesn't work for fixed slots, which are e.g. used for
spilling XMM registers in a non-leaf function with
__attribute__((preserve_all)).
When compiling such code with -mstack-alignment=8, this causes general
protection faults.

Fix it by only considering stack realignment for non-fixed slots.

Note that this changes the output of three existing tests which spill AVX
registers, since AVX requires higher alignment than the ABI provides on
stack frame entry.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

thejh created this revision.Jan 21 2020, 10:25 AM

Herald added subscribers: llvm-commits, hiraditya, wdng, qcolombet. · View Herald TranscriptJan 21 2020, 10:25 AM

Ah, and I don't have commit access. (The docs say I'm supposed to point that out.)

craig.topper added a reviewer: rnk.Jan 23 2020, 9:32 PM

rnk added inline comments.Jan 24 2020, 1:40 PM

llvm/test/CodeGen/X86/avx512-intel-ocl.ll
263–264	Is there some reason we are using fixed objects for these spills? We could use unfixed objects and store them relative to the aligned RSP after this alignment here. It's a big change, but it seems like the code would be better.

thejh marked an inline comment as done.Jan 25 2020, 8:26 AM

thejh added inline comments.

llvm/test/CodeGen/X86/avx512-intel-ocl.ll
263–264	AFAICS using unfixed objects makes sense as an optimization that will work in most cases. However, it might be easier to still have this variant, where spills go into fixed objects, as a fallback method at least, in case the function prologue has to call another function before the stack frame is properly set up - for example, when compiling with `-fsplit-stack`. The following case looks broken at the moment, and I think it might be easier to fix if the spills are in fixed slots. Otherwise, it would be necessary to either allocate stack memory for all the fixed slots before `callq __morestack` so that the non-fixed slots can be spilled into, or alternatively do something entirely different with the normally-callee-saved registers there. $ cat test.c void bar(); __attribute__((preserve_all)) void foo(void) { bar(); } $ ../bin/clang -fsplit-stack -fno-asynchronous-unwind-tables -S -o test.s test.c $ cat test.s .text .file "test.c" .globl foo # -- Begin function foo .p2align 4, 0x90 .type foo,@function foo: # @foo # %bb.2: leaq -344(%rsp), %r11 cmpq %fs:112, %r11 ja .LBB0_0 # %bb.1: movabsq $344, %r10 # imm = 0x158 movabsq $0, %r11 callq __morestack retq .LBB0_0: pushq %rbp movq %rsp, %rbp pushq %rsp pushq %r10 pushq %r9 pushq %r8 pushq %rdi pushq %rsi pushq %rdx pushq %rcx pushq %rax subq $264, %rsp # imm = 0x108 movaps %xmm15, -96(%rbp) # 16-byte Spill movaps %xmm14, -112(%rbp) # 16-byte Spill [...] At the moment, the spills that are necessary for the `preserve_all` calling convention only happen after various registers that would be caller-saved in the standard calling convention have already been clobbered - r11 and r10 are clobbered by the generated code directly, other registers are going to be clobbered by `__morestack`, which assumes that only argument registers need to be spilled before calling into standard C code. (In case you're wondering: No, I don't actually want to use `-fsplit-stack`, it was just the only example I could think of right now that needs function calls in the prologue.) But maybe I'm just overthinking this - I'm not all that familiar with LLVM internals.

thejh marked an inline comment as done.Jan 25 2020, 8:36 AM

thejh added inline comments.

llvm/test/CodeGen/X86/avx512-intel-ocl.ll
263–264	Anyway, my overall idea for this patch was that I wanted to fix a crash I was encountering; I realize that there is the potential for further optimization, but I did not want to invest the time necessary for that.

ping

nickdesaulniers added a subscriber: nickdesaulniers.Feb 12 2020, 9:39 AM

Even if it would be better to avoid using a fixed slots in some case, as long as fixed slots continue to exist this patch seems like the correct change.

Anyone disagree?

This revision is now accepted and ready to land.Feb 24 2020, 9:48 AM

I guess the code change would be correct even if we used unfixed objects for spill slots.

Are we sure we don't come to this codepath to load arguments passed in memory, which used fixed stack slots? I think we should assume that such a vector is aligned. Is that already tested?

Hi! What's the state of this change? Do you need help committing this?

arsenm resigned from this revision.Apr 5 2020, 7:46 AM

Just an easy rebase of the original patch.

No tests had to be updated at all.

Please let me know if I have properly attributed credits to original author.

By the way, I do not have commit access and will need help with that.

Herald added a subscriber: pengfei. · View Herald TranscriptFeb 4 2021, 3:49 PM

Harbormaster completed remote builds in B87998: Diff 321589.Feb 4 2021, 5:28 PM

This revision was landed with ongoing or failed builds.Feb 4 2021, 7:37 PM

Closed by commit rG1ac98044dfc2: [X86] Generate unaligned access for fixed slots in unaligned stack (authored by mizvekov, committed by Wang, Pengfei <pengfei.wang@intel.com>). · Explain Why

This revision was automatically updated to reflect the committed changes.

pengfei added a commit: rG1ac98044dfc2: [X86] Generate unaligned access for fixed slots in unaligned stack.

Done~

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86InstrInfo.cpp

8 lines

test/

CodeGen/

X86/

anyregcc.ll

32 lines

avx-intel-ocl.ll

40 lines

avx512-intel-ocl.ll

128 lines

x86-64-xmm-spill-unaligned.ll

15 lines

Diff 321636

llvm/lib/Target/X86/X86InstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 3,788 Lines • ▼ Show 20 Lines
}		}

void X86InstrInfo::storeRegToStackSlot(MachineBasicBlock &MBB,		void X86InstrInfo::storeRegToStackSlot(MachineBasicBlock &MBB,
MachineBasicBlock::iterator MI,		MachineBasicBlock::iterator MI,
Register SrcReg, bool isKill, int FrameIdx,		Register SrcReg, bool isKill, int FrameIdx,
const TargetRegisterClass *RC,		const TargetRegisterClass *RC,
const TargetRegisterInfo *TRI) const {		const TargetRegisterInfo *TRI) const {
const MachineFunction &MF = *MBB.getParent();		const MachineFunction &MF = *MBB.getParent();
assert(MF.getFrameInfo().getObjectSize(FrameIdx) >= TRI->getSpillSize(*RC) &&		const MachineFrameInfo &MFI = MF.getFrameInfo();
		assert(MFI.getObjectSize(FrameIdx) >= TRI->getSpillSize(*RC) &&
"Stack slot too small for store");		"Stack slot too small for store");
if (RC->getID() == X86::TILERegClassID) {		if (RC->getID() == X86::TILERegClassID) {
unsigned Opc = X86::TILESTORED;		unsigned Opc = X86::TILESTORED;
// tilestored %tmm, (%sp, %idx)		// tilestored %tmm, (%sp, %idx)
MachineRegisterInfo &RegInfo = MBB.getParent()->getRegInfo();		MachineRegisterInfo &RegInfo = MBB.getParent()->getRegInfo();
Register VirtReg = RegInfo.createVirtualRegister(&X86::GR64_NOSPRegClass);		Register VirtReg = RegInfo.createVirtualRegister(&X86::GR64_NOSPRegClass);
BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);		BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);
MachineInstr *NewMI =		MachineInstr *NewMI =
addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)
.addReg(SrcReg, getKillRegState(isKill));		.addReg(SrcReg, getKillRegState(isKill));
MachineOperand &MO = NewMI->getOperand(2);		MachineOperand &MO = NewMI->getOperand(2);
MO.setReg(VirtReg);		MO.setReg(VirtReg);
MO.setIsKill(true);		MO.setIsKill(true);
} else {		} else {
unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);		unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);
bool isAligned =		bool isAligned =
(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|		(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|
RI.canRealignStack(MF);		(RI.canRealignStack(MF) && !MFI.isFixedObjectIndex(FrameIdx));
unsigned Opc = getStoreRegOpcode(SrcReg, RC, isAligned, Subtarget);		unsigned Opc = getStoreRegOpcode(SrcReg, RC, isAligned, Subtarget);
addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc)), FrameIdx)
.addReg(SrcReg, getKillRegState(isKill));		.addReg(SrcReg, getKillRegState(isKill));
}		}
}		}

void X86InstrInfo::loadRegFromStackSlot(MachineBasicBlock &MBB,		void X86InstrInfo::loadRegFromStackSlot(MachineBasicBlock &MBB,
MachineBasicBlock::iterator MI,		MachineBasicBlock::iterator MI,
Show All 9 Lines	MachineInstr *NewMI =
BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);		BuildMI(MBB, MI, DebugLoc(), get(X86::MOV64ri), VirtReg).addImm(64);
NewMI = addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),		NewMI = addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),
FrameIdx);		FrameIdx);
MachineOperand &MO = NewMI->getOperand(3);		MachineOperand &MO = NewMI->getOperand(3);
MO.setReg(VirtReg);		MO.setReg(VirtReg);
MO.setIsKill(true);		MO.setIsKill(true);
} else {		} else {
const MachineFunction &MF = *MBB.getParent();		const MachineFunction &MF = *MBB.getParent();
		const MachineFrameInfo &MFI = MF.getFrameInfo();
unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);		unsigned Alignment = std::max<uint32_t>(TRI->getSpillSize(*RC), 16);
bool isAligned =		bool isAligned =
(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|		(Subtarget.getFrameLowering()->getStackAlign() >= Alignment) \|\|
RI.canRealignStack(MF);		(RI.canRealignStack(MF) && !MFI.isFixedObjectIndex(FrameIdx));
unsigned Opc = getLoadRegOpcode(DestReg, RC, isAligned, Subtarget);		unsigned Opc = getLoadRegOpcode(DestReg, RC, isAligned, Subtarget);
addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),		addFrameReference(BuildMI(MBB, MI, DebugLoc(), get(Opc), DestReg),
FrameIdx);		FrameIdx);
}		}
}		}

bool X86InstrInfo::analyzeCompare(const MachineInstr &MI, Register &SrcReg,		bool X86InstrInfo::analyzeCompare(const MachineInstr &MI, Register &SrcReg,
Register &SrcReg2, int &CmpMask,		Register &SrcReg2, int &CmpMask,
▲ Show 20 Lines • Show All 5,206 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/anyregcc.ll

	Show First 20 Lines • Show All 507 Lines • ▼ Show 20 Lines
	;AVX: pushq %r10			;AVX: pushq %r10
	;AVX: pushq %r9			;AVX: pushq %r9
	;AVX: pushq %r8			;AVX: pushq %r8
	;AVX: pushq %rdi			;AVX: pushq %rdi
	;AVX: pushq %rsi			;AVX: pushq %rsi
	;AVX: pushq %rdx			;AVX: pushq %rdx
	;AVX: pushq %rcx			;AVX: pushq %rcx
	;AVX: pushq %rbx			;AVX: pushq %rbx
	;AVX: vmovaps %ymm15			;AVX: vmovups %ymm15
	;AVX-NEXT: vmovaps %ymm14			;AVX-NEXT: vmovups %ymm14
	;AVX-NEXT: vmovaps %ymm13			;AVX-NEXT: vmovups %ymm13
	;AVX-NEXT: vmovaps %ymm12			;AVX-NEXT: vmovups %ymm12
	;AVX-NEXT: vmovaps %ymm11			;AVX-NEXT: vmovups %ymm11
	;AVX-NEXT: vmovaps %ymm10			;AVX-NEXT: vmovups %ymm10
	;AVX-NEXT: vmovaps %ymm9			;AVX-NEXT: vmovups %ymm9
	;AVX-NEXT: vmovaps %ymm8			;AVX-NEXT: vmovups %ymm8
	;AVX-NEXT: vmovaps %ymm7			;AVX-NEXT: vmovups %ymm7
	;AVX-NEXT: vmovaps %ymm6			;AVX-NEXT: vmovups %ymm6
	;AVX-NEXT: vmovaps %ymm5			;AVX-NEXT: vmovups %ymm5
	;AVX-NEXT: vmovaps %ymm4			;AVX-NEXT: vmovups %ymm4
	;AVX-NEXT: vmovaps %ymm3			;AVX-NEXT: vmovups %ymm3
	;AVX-NEXT: vmovaps %ymm2			;AVX-NEXT: vmovups %ymm2
	;AVX-NEXT: vmovaps %ymm1			;AVX-NEXT: vmovups %ymm1
	;AVX-NEXT: vmovaps %ymm0			;AVX-NEXT: vmovups %ymm0
	call void asm sideeffect "", "~{rax},~{rbx},~{rcx},~{rdx},~{rsi},~{rdi},~{r8},~{r9},~{r10},~{r11},~{r12},~{r13},~{r14},~{r15},~{rbp},~{xmm0},~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15}"()			call void asm sideeffect "", "~{rax},~{rbx},~{rcx},~{rdx},~{rsi},~{rdi},~{r8},~{r9},~{r10},~{r11},~{r12},~{r13},~{r14},~{r15},~{rbp},~{xmm0},~{xmm1},~{xmm2},~{xmm3},~{xmm4},~{xmm5},~{xmm6},~{xmm7},~{xmm8},~{xmm9},~{xmm10},~{xmm11},~{xmm12},~{xmm13},~{xmm14},~{xmm15}"()
	ret void			ret void
	}			}

	; Make sure we don't spill any XMMs/YMMs			; Make sure we don't spill any XMMs/YMMs
	declare anyregcc void @foo()			declare anyregcc void @foo()
	define void @anyregcc2() {			define void @anyregcc2() {
	entry:			entry:
	Show All 27 Lines

llvm/test/CodeGen/X86/avx-intel-ocl.ll

Show First 20 Lines • Show All 61 Lines • ▼ Show 20 Lines	define <16 x float> @testf16_regs(<16 x float> %a, <16 x float> %b) nounwind {
%2 = load <16 x float>, <16 x float>* %y, align 16		%2 = load <16 x float>, <16 x float>* %y, align 16
%3 = fadd <16 x float> %1, %b		%3 = fadd <16 x float> %1, %b
%4 = fadd <16 x float> %2, %3		%4 = fadd <16 x float> %2, %3
ret <16 x float> %4		ret <16 x float> %4
}		}

; test calling conventions - prolog and epilog		; test calling conventions - prolog and epilog
; WIN64-LABEL: test_prolog_epilog		; WIN64-LABEL: test_prolog_epilog
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: vmovaps {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill		; WIN64: vmovups {{%ymm([6-9]\|1[0-5])}}, {{.(%rbp).}} # 32-byte Spill
; WIN64: call		; WIN64: call
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload
; WIN64: vmovaps {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload		; WIN64: vmovups {{.(%rbp).}}, {{%ymm([6-9]\|1[0-5])}} # 32-byte Reload

; X64-LABEL: test_prolog_epilog		; X64-LABEL: test_prolog_epilog
; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill		; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill
; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill		; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill
; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill		; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill
; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill		; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill
; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill		; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill
; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill		; X64: vmovups {{%ymm([8-9]\|1[0-5])}}, {{.*}}(%rsp) ## 32-byte Spill
▲ Show 20 Lines • Show All 75 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/avx512-intel-ocl.ll

	Show First 20 Lines • Show All 184 Lines • ▼ Show 20 Lines
	; WIN64-KNL: # %bb.0:			; WIN64-KNL: # %bb.0:
	; WIN64-KNL-NEXT: pushq %rbp			; WIN64-KNL-NEXT: pushq %rbp
	; WIN64-KNL-NEXT: subq $1264, %rsp # imm = 0x4F0			; WIN64-KNL-NEXT: subq $1264, %rsp # imm = 0x4F0
	; WIN64-KNL-NEXT: leaq {{[0-9]+}}(%rsp), %rbp			; WIN64-KNL-NEXT: leaq {{[0-9]+}}(%rsp), %rbp
	; WIN64-KNL-NEXT: kmovw %k7, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill			; WIN64-KNL-NEXT: kmovw %k7, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; WIN64-KNL-NEXT: kmovw %k6, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill			; WIN64-KNL-NEXT: kmovw %k6, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; WIN64-KNL-NEXT: kmovw %k5, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill			; WIN64-KNL-NEXT: kmovw %k5, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; WIN64-KNL-NEXT: kmovw %k4, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill			; WIN64-KNL-NEXT: kmovw %k4, {{[-0-9]+}}(%r{{[sb]}}p) # 2-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm21, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm21, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm20, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm20, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm19, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm19, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm18, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm18, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm17, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm17, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm16, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm16, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm15, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm15, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm14, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm14, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm12, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm12, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm11, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm11, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm10, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm10, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm9, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm9, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm8, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm8, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: vmovaps %zmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-KNL-NEXT: vmovups %zmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-KNL-NEXT: andq $-64, %rsp			; WIN64-KNL-NEXT: andq $-64, %rsp
	; WIN64-KNL-NEXT: vmovaps %zmm1, {{[0-9]+}}(%rsp)			; WIN64-KNL-NEXT: vmovaps %zmm1, {{[0-9]+}}(%rsp)
	; WIN64-KNL-NEXT: vmovaps %zmm0, {{[0-9]+}}(%rsp)			; WIN64-KNL-NEXT: vmovaps %zmm0, {{[0-9]+}}(%rsp)
	; WIN64-KNL-NEXT: leaq {{[0-9]+}}(%rsp), %rcx			; WIN64-KNL-NEXT: leaq {{[0-9]+}}(%rsp), %rcx
	; WIN64-KNL-NEXT: leaq {{[0-9]+}}(%rsp), %rdx			; WIN64-KNL-NEXT: leaq {{[0-9]+}}(%rsp), %rdx
	; WIN64-KNL-NEXT: callq func_float16			; WIN64-KNL-NEXT: callq func_float16
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm6 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm6 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm7 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm7 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm8 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm8 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm9 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm9 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm10 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm10 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm11 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm11 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm12 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm12 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm13 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm13 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm14 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm14 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm15 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm15 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm16 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm16 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm17 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm17 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm18 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm18 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm19 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm19 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm20 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm20 # 64-byte Reload
	; WIN64-KNL-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm21 # 64-byte Reload			; WIN64-KNL-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm21 # 64-byte Reload
	; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k4 # 2-byte Reload			; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k4 # 2-byte Reload
	; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k5 # 2-byte Reload			; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k5 # 2-byte Reload
	; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k6 # 2-byte Reload			; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k6 # 2-byte Reload
	; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload			; WIN64-KNL-NEXT: kmovw {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 2-byte Reload
	; WIN64-KNL-NEXT: leaq 1136(%rbp), %rsp			; WIN64-KNL-NEXT: leaq 1136(%rbp), %rsp
	; WIN64-KNL-NEXT: popq %rbp			; WIN64-KNL-NEXT: popq %rbp
	; WIN64-KNL-NEXT: retq			; WIN64-KNL-NEXT: retq
	;			;
	; WIN64-SKX-LABEL: test_prolog_epilog:			; WIN64-SKX-LABEL: test_prolog_epilog:
	; WIN64-SKX: # %bb.0:			; WIN64-SKX: # %bb.0:
	; WIN64-SKX-NEXT: pushq %rbp			; WIN64-SKX-NEXT: pushq %rbp
	; WIN64-SKX-NEXT: subq $1264, %rsp # imm = 0x4F0			; WIN64-SKX-NEXT: subq $1264, %rsp # imm = 0x4F0
	; WIN64-SKX-NEXT: leaq {{[0-9]+}}(%rsp), %rbp			; WIN64-SKX-NEXT: leaq {{[0-9]+}}(%rsp), %rbp
	; WIN64-SKX-NEXT: kmovq %k7, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; WIN64-SKX-NEXT: kmovq %k7, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; WIN64-SKX-NEXT: kmovq %k6, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; WIN64-SKX-NEXT: kmovq %k6, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; WIN64-SKX-NEXT: kmovq %k5, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; WIN64-SKX-NEXT: kmovq %k5, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; WIN64-SKX-NEXT: kmovq %k4, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill			; WIN64-SKX-NEXT: kmovq %k4, {{[-0-9]+}}(%r{{[sb]}}p) # 8-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm21, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm21, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm20, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm20, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm19, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm19, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm18, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm18, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm17, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm17, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm16, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm16, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm15, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm15, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm14, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm14, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm13, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm12, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm12, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm11, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm11, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm10, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm10, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm9, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm9, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm8, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm8, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm7, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: vmovaps %zmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill			; WIN64-SKX-NEXT: vmovups %zmm6, {{[-0-9]+}}(%r{{[sb]}}p) # 64-byte Spill
	; WIN64-SKX-NEXT: andq $-64, %rsp			; WIN64-SKX-NEXT: andq $-64, %rsp
				rnkUnsubmitted Not Done Reply Inline Actions Is there some reason we are using fixed objects for these spills? We could use unfixed objects and store them relative to the aligned RSP after this alignment here. It's a big change, but it seems like the code would be better. rnk: Is there some reason we are using fixed objects for these spills? We could use unfixed objects…
				thejhAuthorUnsubmitted Done Reply Inline Actions AFAICS using unfixed objects makes sense as an optimization that will work in most cases. However, it might be easier to still have this variant, where spills go into fixed objects, as a fallback method at least, in case the function prologue has to call another function before the stack frame is properly set up - for example, when compiling with `-fsplit-stack`. The following case looks broken at the moment, and I think it might be easier to fix if the spills are in fixed slots. Otherwise, it would be necessary to either allocate stack memory for all the fixed slots before `callq __morestack` so that the non-fixed slots can be spilled into, or alternatively do something entirely different with the normally-callee-saved registers there. $ cat test.c void bar(); __attribute__((preserve_all)) void foo(void) { bar(); } $ ../bin/clang -fsplit-stack -fno-asynchronous-unwind-tables -S -o test.s test.c $ cat test.s .text .file "test.c" .globl foo # -- Begin function foo .p2align 4, 0x90 .type foo,@function foo: # @foo # %bb.2: leaq -344(%rsp), %r11 cmpq %fs:112, %r11 ja .LBB0_0 # %bb.1: movabsq $344, %r10 # imm = 0x158 movabsq $0, %r11 callq __morestack retq .LBB0_0: pushq %rbp movq %rsp, %rbp pushq %rsp pushq %r10 pushq %r9 pushq %r8 pushq %rdi pushq %rsi pushq %rdx pushq %rcx pushq %rax subq $264, %rsp # imm = 0x108 movaps %xmm15, -96(%rbp) # 16-byte Spill movaps %xmm14, -112(%rbp) # 16-byte Spill [...] At the moment, the spills that are necessary for the `preserve_all` calling convention only happen after various registers that would be caller-saved in the standard calling convention have already been clobbered - r11 and r10 are clobbered by the generated code directly, other registers are going to be clobbered by `__morestack`, which assumes that only argument registers need to be spilled before calling into standard C code. (In case you're wondering: No, I don't actually want to use `-fsplit-stack`, it was just the only example I could think of right now that needs function calls in the prologue.) But maybe I'm just overthinking this - I'm not all that familiar with LLVM internals. thejh: AFAICS using unfixed objects makes sense as an optimization that will work in most cases.
				thejhAuthorUnsubmitted Done Reply Inline Actions Anyway, my overall idea for this patch was that I wanted to fix a crash I was encountering; I realize that there is the potential for further optimization, but I did not want to invest the time necessary for that. thejh: Anyway, my overall idea for this patch was that I wanted to fix a crash I was encountering; I…
	; WIN64-SKX-NEXT: vmovaps %zmm1, {{[0-9]+}}(%rsp)			; WIN64-SKX-NEXT: vmovaps %zmm1, {{[0-9]+}}(%rsp)
	; WIN64-SKX-NEXT: vmovaps %zmm0, {{[0-9]+}}(%rsp)			; WIN64-SKX-NEXT: vmovaps %zmm0, {{[0-9]+}}(%rsp)
	; WIN64-SKX-NEXT: leaq {{[0-9]+}}(%rsp), %rcx			; WIN64-SKX-NEXT: leaq {{[0-9]+}}(%rsp), %rcx
	; WIN64-SKX-NEXT: leaq {{[0-9]+}}(%rsp), %rdx			; WIN64-SKX-NEXT: leaq {{[0-9]+}}(%rsp), %rdx
	; WIN64-SKX-NEXT: callq func_float16			; WIN64-SKX-NEXT: callq func_float16
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm6 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm6 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm7 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm7 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm8 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm8 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm9 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm9 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm10 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm10 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm11 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm11 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm12 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm12 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm13 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm13 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm14 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm14 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm15 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm15 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm16 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm16 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm17 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm17 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm18 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm18 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm19 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm19 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm20 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm20 # 64-byte Reload
	; WIN64-SKX-NEXT: vmovaps {{[-0-9]+}}(%r{{[sb]}}p), %zmm21 # 64-byte Reload			; WIN64-SKX-NEXT: vmovups {{[-0-9]+}}(%r{{[sb]}}p), %zmm21 # 64-byte Reload
	; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k4 # 8-byte Reload			; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k4 # 8-byte Reload
	; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k5 # 8-byte Reload			; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k5 # 8-byte Reload
	; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k6 # 8-byte Reload			; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k6 # 8-byte Reload
	; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 8-byte Reload			; WIN64-SKX-NEXT: kmovq {{[-0-9]+}}(%r{{[sb]}}p), %k7 # 8-byte Reload
	; WIN64-SKX-NEXT: leaq 1136(%rbp), %rsp			; WIN64-SKX-NEXT: leaq 1136(%rbp), %rsp
	; WIN64-SKX-NEXT: popq %rbp			; WIN64-SKX-NEXT: popq %rbp
	; WIN64-SKX-NEXT: retq			; WIN64-SKX-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 227 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/x86-64-xmm-spill-unaligned.ll

This file was added.

				; Make sure that when the stack may be misaligned on function entry, fixed frame
				; elements (here: XMM spills) are accessed using instructions that tolerate
				; unaligned access.
				;
				; RUN: llc -mtriple=x86_64-unknown-linux-gnu -mcpu=x86-64 -mattr=+sse,+sse-unaligned-mem -stack-alignment=8 --frame-pointer=all < %s \| FileCheck %s

				define dso_local preserve_allcc void @func() #0 {
				; CHECK-LABEL: func:
				; CHECK: movups %xmm0, -{{[0-9]+}}(%rbp)
				call void asm sideeffect "", "~{xmm0},~{dirflag},~{fpsr},~{flags}"() #1
				; CHECK: movups -{{[0-9]+}}(%rbp), %xmm0
				ret void
				}

				attributes #0 = { nounwind }