This is an archive of the discontinued LLVM Phabricator instance.

[X86][MMX] Fix folding of shift value loads to cover whole 64-bits
ClosedPublic

Authored by RKSimon on Mar 10 2017, 8:48 AM.

Download Raw Diff

Details

Reviewers

spatel
bruno
filcab
andreadb
craig.topper
gbedwell

Commits

rG9df7d08cb284: [X86][MMX] Fix folding of shift value loads to cover whole 64-bits
rL297667: [X86][MMX] Fix folding of shift value loads to cover whole 64-bits

Summary

rL230225 made the assumption that only the lower 32-bits of an MMX register load is used as a shift value, when in fact the whole 64-bits are reloaded and treated as a i64 to determine the shift value.

This patch reverts rL230225 to ensure that the whole 64-bits of memory are folded and ensures that the upper 32-bit are zero'd for cases where the shift value has come from a scalar source.

Found during fuzz testing.

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Mar 10 2017, 8:48 AM

Looks good to me.

I agree that reverting the original commit is the right thing to do. All those mmx patterns were incorrectly bypassing the zeroing of the upper half of the shift count.
The original shift count came from a MMX_MOVW2D node (which is equivalent to a cast from v2i32 to x86mmx of a BUILD_VECTOR that explicitly zeroes the second element).

This revision is now accepted and ready to land.Mar 13 2017, 11:33 AM

Closed by commit rL297667: [X86][MMX] Fix folding of shift value loads to cover whole 64-bits (authored by RKSimon). · Explain WhyMar 13 2017, 2:35 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

	X86InstrFragmentsSIMD.td
	X86InstrFragmentsSIMD.td (revision 297475)

2 lines

	X86InstrMMX.td
	X86InstrMMX.td (revision 297475)

19 lines

test/

CodeGen/

X86/

	bitcast-mmx.ll
	bitcast-mmx.ll (revision 297475)

22 lines

	mmx-fold-load.ll
	mmx-fold-load.ll (revision 297475)

64 lines

Diff 91357

lib/Target/X86/X86InstrFragmentsSIMD.td

	Show All 21 Lines
	def MMX_X86movw2d : SDNode<"X86ISD::MMX_MOVW2D", SDTypeProfile<1, 1,			def MMX_X86movw2d : SDNode<"X86ISD::MMX_MOVW2D", SDTypeProfile<1, 1,
	[SDTCisVT<0, x86mmx>, SDTCisVT<1, i32>]>>;			[SDTCisVT<0, x86mmx>, SDTCisVT<1, i32>]>>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// MMX Pattern Fragments			// MMX Pattern Fragments
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def load_mmx : PatFrag<(ops node:$ptr), (x86mmx (load node:$ptr))>;			def load_mmx : PatFrag<(ops node:$ptr), (x86mmx (load node:$ptr))>;
	def load_mvmmx : PatFrag<(ops node:$ptr),
	(x86mmx (MMX_X86movw2d (load node:$ptr)))>;

	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//
	// SSE specific DAG Nodes.			// SSE specific DAG Nodes.
	//===----------------------------------------------------------------------===//			//===----------------------------------------------------------------------===//

	def SDTX86VFCMP : SDTypeProfile<1, 3, [SDTCisFP<0>, SDTCisSameAs<1, 2>,			def SDTX86VFCMP : SDTypeProfile<1, 3, [SDTCisFP<0>, SDTCisSameAs<1, 2>,
	SDTCisFP<1>, SDTCisVT<3, i8>,			SDTCisFP<1>, SDTCisVT<3, i8>,
	SDTCisVec<1>]>;			SDTCisVec<1>]>;
	▲ Show 20 Lines • Show All 1,092 Lines • Show Last 20 Lines

lib/Target/X86/X86InstrMMX.td

Show First 20 Lines • Show All 473 Lines • ▼ Show 20 Lines	defm MMX_PSRLW : MMXI_binop_rmi_int<0xD1, 0x71, MRM2r, "psrlw",
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;
defm MMX_PSRLD : MMXI_binop_rmi_int<0xD2, 0x72, MRM2r, "psrld",		defm MMX_PSRLD : MMXI_binop_rmi_int<0xD2, 0x72, MRM2r, "psrld",
int_x86_mmx_psrl_d, int_x86_mmx_psrli_d,		int_x86_mmx_psrl_d, int_x86_mmx_psrli_d,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;
defm MMX_PSRLQ : MMXI_binop_rmi_int<0xD3, 0x73, MRM2r, "psrlq",		defm MMX_PSRLQ : MMXI_binop_rmi_int<0xD3, 0x73, MRM2r, "psrlq",
int_x86_mmx_psrl_q, int_x86_mmx_psrli_q,		int_x86_mmx_psrl_q, int_x86_mmx_psrli_q,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;

def : Pat<(int_x86_mmx_psrl_w VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSRLWrm VR64:$src1, addr:$src2)>;
def : Pat<(int_x86_mmx_psrl_d VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSRLDrm VR64:$src1, addr:$src2)>;
def : Pat<(int_x86_mmx_psrl_q VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSRLQrm VR64:$src1, addr:$src2)>;

defm MMX_PSLLW : MMXI_binop_rmi_int<0xF1, 0x71, MRM6r, "psllw",		defm MMX_PSLLW : MMXI_binop_rmi_int<0xF1, 0x71, MRM6r, "psllw",
int_x86_mmx_psll_w, int_x86_mmx_pslli_w,		int_x86_mmx_psll_w, int_x86_mmx_pslli_w,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;
defm MMX_PSLLD : MMXI_binop_rmi_int<0xF2, 0x72, MRM6r, "pslld",		defm MMX_PSLLD : MMXI_binop_rmi_int<0xF2, 0x72, MRM6r, "pslld",
int_x86_mmx_psll_d, int_x86_mmx_pslli_d,		int_x86_mmx_psll_d, int_x86_mmx_pslli_d,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;
defm MMX_PSLLQ : MMXI_binop_rmi_int<0xF3, 0x73, MRM6r, "psllq",		defm MMX_PSLLQ : MMXI_binop_rmi_int<0xF3, 0x73, MRM6r, "psllq",
int_x86_mmx_psll_q, int_x86_mmx_pslli_q,		int_x86_mmx_psll_q, int_x86_mmx_pslli_q,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;

def : Pat<(int_x86_mmx_psll_w VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSLLWrm VR64:$src1, addr:$src2)>;
def : Pat<(int_x86_mmx_psll_d VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSLLDrm VR64:$src1, addr:$src2)>;
def : Pat<(int_x86_mmx_psll_q VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSLLQrm VR64:$src1, addr:$src2)>;

defm MMX_PSRAW : MMXI_binop_rmi_int<0xE1, 0x71, MRM4r, "psraw",		defm MMX_PSRAW : MMXI_binop_rmi_int<0xE1, 0x71, MRM4r, "psraw",
int_x86_mmx_psra_w, int_x86_mmx_psrai_w,		int_x86_mmx_psra_w, int_x86_mmx_psrai_w,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;
defm MMX_PSRAD : MMXI_binop_rmi_int<0xE2, 0x72, MRM4r, "psrad",		defm MMX_PSRAD : MMXI_binop_rmi_int<0xE2, 0x72, MRM4r, "psrad",
int_x86_mmx_psra_d, int_x86_mmx_psrai_d,		int_x86_mmx_psra_d, int_x86_mmx_psrai_d,
MMX_SHIFT_ITINS>;		MMX_SHIFT_ITINS>;

def : Pat<(int_x86_mmx_psra_w VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSRAWrm VR64:$src1, addr:$src2)>;
def : Pat<(int_x86_mmx_psra_d VR64:$src1, (load_mvmmx addr:$src2)),
(MMX_PSRADrm VR64:$src1, addr:$src2)>;

// Comparison Instructions		// Comparison Instructions
defm MMX_PCMPEQB : MMXI_binop_rm_int<0x74, "pcmpeqb", int_x86_mmx_pcmpeq_b,		defm MMX_PCMPEQB : MMXI_binop_rm_int<0x74, "pcmpeqb", int_x86_mmx_pcmpeq_b,
MMX_INTALU_ITINS>;		MMX_INTALU_ITINS>;
defm MMX_PCMPEQW : MMXI_binop_rm_int<0x75, "pcmpeqw", int_x86_mmx_pcmpeq_w,		defm MMX_PCMPEQW : MMXI_binop_rm_int<0x75, "pcmpeqw", int_x86_mmx_pcmpeq_w,
MMX_INTALU_ITINS>;		MMX_INTALU_ITINS>;
defm MMX_PCMPEQD : MMXI_binop_rm_int<0x76, "pcmpeqd", int_x86_mmx_pcmpeq_d,		defm MMX_PCMPEQD : MMXI_binop_rm_int<0x76, "pcmpeqd", int_x86_mmx_pcmpeq_d,
MMX_INTALU_ITINS>;		MMX_INTALU_ITINS>;

▲ Show 20 Lines • Show All 150 Lines • Show Last 20 Lines

test/CodeGen/X86/bitcast-mmx.ll

	Show All 28 Lines

	define i64 @t1(i64 %x, i32 %n) nounwind {			define i64 @t1(i64 %x, i32 %n) nounwind {
	; X86-LABEL: t1:			; X86-LABEL: t1:
	; X86: # BB#0: # %entry			; X86: # BB#0: # %entry
	; X86-NEXT: pushl %ebp			; X86-NEXT: pushl %ebp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: movq 8(%ebp), %mm0			; X86-NEXT: movd 16(%ebp), %mm0
	; X86-NEXT: psllq 16(%ebp), %mm0			; X86-NEXT: movq 8(%ebp), %mm1
	; X86-NEXT: movq %mm0, (%esp)			; X86-NEXT: psllq %mm0, %mm1
				; X86-NEXT: movq %mm1, (%esp)
	; X86-NEXT: movl (%esp), %eax			; X86-NEXT: movl (%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: t1:			; X64-LABEL: t1:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	Show All 11 Lines

	define i64 @t2(i64 %x, i32 %n, i32 %w) nounwind {			define i64 @t2(i64 %x, i32 %n, i32 %w) nounwind {
	; X86-LABEL: t2:			; X86-LABEL: t2:
	; X86: # BB#0: # %entry			; X86: # BB#0: # %entry
	; X86-NEXT: pushl %ebp			; X86-NEXT: pushl %ebp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: movd 20(%ebp), %mm0			; X86-NEXT: movd 16(%ebp), %mm0
	; X86-NEXT: psllq 16(%ebp), %mm0			; X86-NEXT: movd 20(%ebp), %mm1
	; X86-NEXT: por 8(%ebp), %mm0			; X86-NEXT: psllq %mm0, %mm1
	; X86-NEXT: movq %mm0, (%esp)			; X86-NEXT: por 8(%ebp), %mm1
				; X86-NEXT: movq %mm1, (%esp)
	; X86-NEXT: movl (%esp), %eax			; X86-NEXT: movl (%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: t2:			; X64-LABEL: t2:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	Show All 20 Lines
	; X86: # BB#0: # %entry			; X86: # BB#0: # %entry
	; X86-NEXT: pushl %ebp			; X86-NEXT: pushl %ebp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $8, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: movl 12(%ebp), %eax			; X86-NEXT: movl 12(%ebp), %eax
	; X86-NEXT: movl 8(%ebp), %ecx			; X86-NEXT: movl 8(%ebp), %ecx
	; X86-NEXT: movq (%ecx), %mm0			; X86-NEXT: movq (%ecx), %mm0
	; X86-NEXT: psllq (%eax), %mm0			; X86-NEXT: movd (%eax), %mm1
				; X86-NEXT: psllq %mm1, %mm0
	; X86-NEXT: movq %mm0, (%esp)			; X86-NEXT: movq %mm0, (%esp)
	; X86-NEXT: movl (%esp), %eax			; X86-NEXT: movl (%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: t3:			; X64-LABEL: t3:
	; X64: # BB#0: # %entry			; X64: # BB#0: # %entry
	; X64-NEXT: movq (%rdi), %mm0			; X64-NEXT: movq (%rdi), %mm0
	; X64-NEXT: psllq (%rsi), %mm0			; X64-NEXT: movd (%rsi), %mm1
				; X64-NEXT: psllq %mm1, %mm0
	; X64-NEXT: movd %mm0, %rax			; X64-NEXT: movd %mm0, %rax
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	%0 = bitcast <1 x i64>* %y to x86_mmx*			%0 = bitcast <1 x i64>* %y to x86_mmx*
	%1 = load x86_mmx, x86_mmx* %0, align 8			%1 = load x86_mmx, x86_mmx* %0, align 8
	%2 = load i32, i32* %n, align 4			%2 = load i32, i32* %n, align 4
	%3 = tail call x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx %1, i32 %2)			%3 = tail call x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx %1, i32 %2)
	%4 = bitcast x86_mmx %3 to i64			%4 = bitcast x86_mmx %3 to i64
	ret i64 %4			ret i64 %4
	}			}

	declare x86_mmx @llvm.x86.sse.pshuf.w(x86_mmx, i8)			declare x86_mmx @llvm.x86.sse.pshuf.w(x86_mmx, i8)
	declare x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx, i32)			declare x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx, i32)
	declare x86_mmx @llvm.x86.mmx.por(x86_mmx, x86_mmx)			declare x86_mmx @llvm.x86.mmx.por(x86_mmx, x86_mmx)

test/CodeGen/X86/mmx-fold-load.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=i686-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X86		; RUN: llc < %s -mtriple=i686-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X86
; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X64		; RUN: llc < %s -mtriple=x86_64-unknown -mattr=+mmx,+sse2 \| FileCheck %s --check-prefix=X64

define i64 @t0(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t0(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t0:		; X86-LABEL: t0:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psllq (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psllq %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t0:		; X64-LABEL: t0:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psllq (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psllq %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.pslli.q(x86_mmx, i32)

define i64 @t1(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t1(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t1:		; X86-LABEL: t1:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psrlq (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psrlq %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t1:		; X64-LABEL: t1:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psrlq (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psrlq %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx, i32)

define i64 @t2(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t2(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t2:		; X86-LABEL: t2:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psllw (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psllw %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t2:		; X64-LABEL: t2:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psllw (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psllw %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.pslli.w(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.pslli.w(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.pslli.w(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.pslli.w(x86_mmx, i32)

define i64 @t3(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t3(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t3:		; X86-LABEL: t3:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psrlw (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psrlw %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t3:		; X64-LABEL: t3:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psrlw (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psrlw %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.psrli.w(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.psrli.w(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.psrli.w(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.psrli.w(x86_mmx, i32)

define i64 @t4(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t4(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t4:		; X86-LABEL: t4:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: pslld (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: pslld %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t4:		; X64-LABEL: t4:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: pslld (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: pslld %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.pslli.d(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.pslli.d(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.pslli.d(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.pslli.d(x86_mmx, i32)

define i64 @t5(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t5(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t5:		; X86-LABEL: t5:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psrld (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psrld %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t5:		; X64-LABEL: t5:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psrld (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psrld %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.psrli.d(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.psrli.d(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.psrli.d(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.psrli.d(x86_mmx, i32)

define i64 @t6(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t6(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t6:		; X86-LABEL: t6:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psraw (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psraw %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t6:		; X64-LABEL: t6:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psraw (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psraw %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.psrai.w(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.psrai.w(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
ret i64 %4		ret i64 %4
}		}
declare x86_mmx @llvm.x86.mmx.psrai.w(x86_mmx, i32)		declare x86_mmx @llvm.x86.mmx.psrai.w(x86_mmx, i32)

define i64 @t7(<1 x i64>* %a, i32* %b) nounwind {		define i64 @t7(<1 x i64>* %a, i32* %b) nounwind {
; X86-LABEL: t7:		; X86-LABEL: t7:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $8, %esp		; X86-NEXT: subl $8, %esp
; X86-NEXT: movl 12(%ebp), %eax		; X86-NEXT: movl 12(%ebp), %eax
; X86-NEXT: movl 8(%ebp), %ecx		; X86-NEXT: movl 8(%ebp), %ecx
; X86-NEXT: movq (%ecx), %mm0		; X86-NEXT: movq (%ecx), %mm0
; X86-NEXT: psrad (%eax), %mm0		; X86-NEXT: movd (%eax), %mm1
		; X86-NEXT: psrad %mm1, %mm0
; X86-NEXT: movq %mm0, (%esp)		; X86-NEXT: movq %mm0, (%esp)
; X86-NEXT: movl (%esp), %eax		; X86-NEXT: movl (%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: t7:		; X64-LABEL: t7:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movq (%rdi), %mm0		; X64-NEXT: movq (%rdi), %mm0
; X64-NEXT: psrad (%rsi), %mm0		; X64-NEXT: movd (%rsi), %mm1
		; X64-NEXT: psrad %mm1, %mm0
; X64-NEXT: movd %mm0, %rax		; X64-NEXT: movd %mm0, %rax
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = bitcast <1 x i64>* %a to x86_mmx*		%0 = bitcast <1 x i64>* %a to x86_mmx*
%1 = load x86_mmx, x86_mmx* %0, align 8		%1 = load x86_mmx, x86_mmx* %0, align 8
%2 = load i32, i32* %b, align 4		%2 = load i32, i32* %b, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.psrai.d(x86_mmx %1, i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.psrai.d(x86_mmx %1, i32 %2)
%4 = bitcast x86_mmx %3 to i64		%4 = bitcast x86_mmx %3 to i64
▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines	entry:
%v = load x86_mmx, x86_mmx* %q		%v = load x86_mmx, x86_mmx* %q
%u = tail call x86_mmx @llvm.x86.mmx.psrl.q(x86_mmx %t, x86_mmx %v)		%u = tail call x86_mmx @llvm.x86.mmx.psrl.q(x86_mmx %t, x86_mmx %v)
%s = bitcast x86_mmx %u to i64		%s = bitcast x86_mmx %u to i64
call void @llvm.x86.mmx.emms()		call void @llvm.x86.mmx.emms()
ret i64 %s		ret i64 %s
}		}
declare x86_mmx @llvm.x86.mmx.psrl.q(x86_mmx, x86_mmx)		declare x86_mmx @llvm.x86.mmx.psrl.q(x86_mmx, x86_mmx)

; FIXME: Show issue with storing i32 to stack and then reloading as x86_mmx
; which will lead to garbage in the other 32-bits.
define void @test_psrlq_by_volatile_shift_amount(x86_mmx* %t) nounwind {		define void @test_psrlq_by_volatile_shift_amount(x86_mmx* %t) nounwind {
; X86-LABEL: test_psrlq_by_volatile_shift_amount:		; X86-LABEL: test_psrlq_by_volatile_shift_amount:
; X86: # BB#0: # %entry		; X86: # BB#0: # %entry
; X86-NEXT: pushl %ebp		; X86-NEXT: pushl %ebp
; X86-NEXT: movl %esp, %ebp		; X86-NEXT: movl %esp, %ebp
; X86-NEXT: andl $-8, %esp		; X86-NEXT: andl $-8, %esp
; X86-NEXT: subl $16, %esp		; X86-NEXT: subl $16, %esp
; X86-NEXT: movl 8(%ebp), %eax		; X86-NEXT: movl 8(%ebp), %eax
; X86-NEXT: movl $1, {{[0-9]+}}(%esp)		; X86-NEXT: movl $1, {{[0-9]+}}(%esp)
		; X86-NEXT: movd {{[0-9]+}}(%esp), %mm0
; X86-NEXT: movl $0, {{[0-9]+}}(%esp)		; X86-NEXT: movl $0, {{[0-9]+}}(%esp)
; X86-NEXT: movl $255, {{[0-9]+}}(%esp)		; X86-NEXT: movl $255, {{[0-9]+}}(%esp)
; X86-NEXT: movq {{[0-9]+}}(%esp), %mm0		; X86-NEXT: movq {{[0-9]+}}(%esp), %mm1
; X86-NEXT: psrlq {{[0-9]+}}(%esp), %mm0		; X86-NEXT: psrlq %mm0, %mm1
; X86-NEXT: movq %mm0, (%eax)		; X86-NEXT: movq %mm1, (%eax)
; X86-NEXT: movl %ebp, %esp		; X86-NEXT: movl %ebp, %esp
; X86-NEXT: popl %ebp		; X86-NEXT: popl %ebp
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: test_psrlq_by_volatile_shift_amount:		; X64-LABEL: test_psrlq_by_volatile_shift_amount:
; X64: # BB#0: # %entry		; X64: # BB#0: # %entry
; X64-NEXT: movl $1, -{{[0-9]+}}(%rsp)		; X64-NEXT: movl $1, -{{[0-9]+}}(%rsp)
		; X64-NEXT: movd -{{[0-9]+}}(%rsp), %mm0
; X64-NEXT: movl $255, %eax		; X64-NEXT: movl $255, %eax
; X64-NEXT: movd %rax, %mm0		; X64-NEXT: movd %rax, %mm1
; X64-NEXT: psrlq -{{[0-9]+}}(%rsp), %mm0		; X64-NEXT: psrlq %mm0, %mm1
; X64-NEXT: movq %mm0, (%rdi)		; X64-NEXT: movq %mm1, (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq
entry:		entry:
%0 = alloca i32, align 4		%0 = alloca i32, align 4
%1 = bitcast i32* %0 to i8*		%1 = bitcast i32* %0 to i8*
call void @llvm.lifetime.start(i64 4, i8* nonnull %1)		call void @llvm.lifetime.start(i64 4, i8* nonnull %1)
store volatile i32 1, i32* %0, align 4		store volatile i32 1, i32* %0, align 4
%2 = load volatile i32, i32* %0, align 4		%2 = load volatile i32, i32* %0, align 4
%3 = tail call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx bitcast (<1 x i64> <i64 255> to x86_mmx), i32 %2)		%3 = tail call x86_mmx @llvm.x86.mmx.psrli.q(x86_mmx bitcast (<1 x i64> <i64 255> to x86_mmx), i32 %2)
store x86_mmx %3, x86_mmx* %t, align 8		store x86_mmx %3, x86_mmx* %t, align 8
call void @llvm.lifetime.end(i64 4, i8* nonnull %1)		call void @llvm.lifetime.end(i64 4, i8* nonnull %1)
ret void		ret void
}		}

declare void @llvm.lifetime.start(i64, i8* nocapture)		declare void @llvm.lifetime.start(i64, i8* nocapture)
declare void @llvm.lifetime.end(i64, i8* nocapture)		declare void @llvm.lifetime.end(i64, i8* nocapture)