This is an archive of the discontinued LLVM Phabricator instance.

[X86][SSE] Lower scalar_to_vector(0) to zero vector
ClosedPublic

Authored by RKSimon on Jan 24 2017, 1:56 PM.

Download Raw Diff

Details

Reviewers

spatel
andreadb
mkuper
craig.topper

Commits

rG76073f8d2217: [X86][SSE] Lower scalar_to_vector(0) to zero vector
rL293438: [X86][SSE] Lower scalar_to_vector(0) to zero vector

Summary

Replaces an xor+movd/movq with an xorps which will be shorter in codesize, avoid an int-fpu transfer, allow modern cores to fast path the result during decode and helps other combines recognise an all-zero vector.

The only reason I can think of that we'd want to keep scalar_to_vector in this case is to help recognise the upper elts are undef but this doesn't seem to be a problem?

Diff Detail

Repository: rL LLVM

Event Timeline

RKSimon created this revision.Jan 24 2017, 1:56 PM

Herald added a subscriber: igorb. · View Herald TranscriptJan 24 2017, 1:56 PM

Added v4i32 handling as well - we were treating v4i32 scalar_to_vector as legal so were missing some cases

Thanks Simon,
Looks good to me.

This revision is now accepted and ready to land.Jan 27 2017, 3:51 AM

Closed by commit rL293438: [X86][SSE] Lower scalar_to_vector(0) to zero vector (authored by RKSimon). · Explain WhyJan 29 2017, 10:25 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

X86/

	X86ISelLowering.cpp
	X86ISelLowering.cpp (revision 293062)

19 lines

test/

CodeGen/

X86/

	clear_upper_vector_element_bits.ll
	clear_upper_vector_element_bits.ll (revision 293062)

44 lines

	insertelement-zero.ll
	insertelement-zero.ll (revision 293062)

50 lines

	vector-shuffle-variable-128.ll
	vector-shuffle-variable-128.ll (revision 293062)

38 lines

Diff 85757

lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 776 Lines • ▼ Show 20 Lines	if (!Subtarget.useSoftFloat() && Subtarget.hasSSE2()) {

setOperationAction(ISD::SETCC, MVT::v2i64, Custom);		setOperationAction(ISD::SETCC, MVT::v2i64, Custom);
setOperationAction(ISD::SETCC, MVT::v16i8, Custom);		setOperationAction(ISD::SETCC, MVT::v16i8, Custom);
setOperationAction(ISD::SETCC, MVT::v8i16, Custom);		setOperationAction(ISD::SETCC, MVT::v8i16, Custom);
setOperationAction(ISD::SETCC, MVT::v4i32, Custom);		setOperationAction(ISD::SETCC, MVT::v4i32, Custom);

setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v16i8, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v16i8, Custom);
setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v8i16, Custom);		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v8i16, Custom);
		setOperationAction(ISD::SCALAR_TO_VECTOR, MVT::v4i32, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8i16, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v8i16, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i32, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4i32, Custom);
setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f32, Custom);		setOperationAction(ISD::INSERT_VECTOR_ELT, MVT::v4f32, Custom);

setOperationAction(ISD::CTPOP, MVT::v16i8, Custom);		setOperationAction(ISD::CTPOP, MVT::v16i8, Custom);
setOperationAction(ISD::CTPOP, MVT::v8i16, Custom);		setOperationAction(ISD::CTPOP, MVT::v8i16, Custom);
setOperationAction(ISD::CTPOP, MVT::v4i32, Custom);		setOperationAction(ISD::CTPOP, MVT::v4i32, Custom);
setOperationAction(ISD::CTPOP, MVT::v2i64, Custom);		setOperationAction(ISD::CTPOP, MVT::v2i64, Custom);
▲ Show 20 Lines • Show All 13,150 Lines • ▼ Show 20 Lines	if (N1.getValueType() != MVT::i32)
N1 = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i32, N1);		N1 = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i32, N1);
if (N2.getValueType() != MVT::i32)		if (N2.getValueType() != MVT::i32)
N2 = DAG.getIntPtrConstant(IdxVal, dl);		N2 = DAG.getIntPtrConstant(IdxVal, dl);
return DAG.getNode(X86ISD::PINSRW, dl, VT, N0, N1, N2);		return DAG.getNode(X86ISD::PINSRW, dl, VT, N0, N1, N2);
}		}
return SDValue();		return SDValue();
}		}

static SDValue LowerSCALAR_TO_VECTOR(SDValue Op, SelectionDAG &DAG) {		static SDValue LowerSCALAR_TO_VECTOR(SDValue Op, const X86Subtarget &Subtarget,
		SelectionDAG &DAG) {
SDLoc dl(Op);		SDLoc dl(Op);
MVT OpVT = Op.getSimpleValueType();		MVT OpVT = Op.getSimpleValueType();

		// It's always cheaper to replace a xor+movd with xorps and simplifies further
		// combines.
		if (X86::isZeroNode(Op.getOperand(0)))
		return getZeroVector(OpVT, Subtarget, DAG, dl);

// If this is a 256-bit vector result, first insert into a 128-bit		// If this is a 256-bit vector result, first insert into a 128-bit
// vector and then insert into the 256-bit vector.		// vector and then insert into the 256-bit vector.
if (!OpVT.is128BitVector()) {		if (!OpVT.is128BitVector()) {
// Insert into a 128-bit vector.		// Insert into a 128-bit vector.
unsigned SizeFactor = OpVT.getSizeInBits()/128;		unsigned SizeFactor = OpVT.getSizeInBits() / 128;
MVT VT128 = MVT::getVectorVT(OpVT.getVectorElementType(),		MVT VT128 = MVT::getVectorVT(OpVT.getVectorElementType(),
OpVT.getVectorNumElements() / SizeFactor);		OpVT.getVectorNumElements() / SizeFactor);

Op = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT128, Op.getOperand(0));		Op = DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, VT128, Op.getOperand(0));

// Insert the 128-bit vector.		// Insert the 128-bit vector.
return insert128BitVector(DAG.getUNDEF(OpVT), Op, 0, DAG, dl);		return insert128BitVector(DAG.getUNDEF(OpVT), Op, 0, DAG, dl);
}		}
		assert(OpVT.is128BitVector() && "Expected an SSE type!");

		// Pass through a v4i32 SCALAR_TO_VECTOR as that's what we use in tblgen.
		if (OpVT == MVT::v4i32)
		return Op;

SDValue AnyExt = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i32, Op.getOperand(0));		SDValue AnyExt = DAG.getNode(ISD::ANY_EXTEND, dl, MVT::i32, Op.getOperand(0));
assert(OpVT.is128BitVector() && "Expected an SSE type!");
return DAG.getBitcast(		return DAG.getBitcast(
OpVT, DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v4i32, AnyExt));		OpVT, DAG.getNode(ISD::SCALAR_TO_VECTOR, dl, MVT::v4i32, AnyExt));
}		}

// Lower a node with an EXTRACT_SUBVECTOR opcode. This may result in		// Lower a node with an EXTRACT_SUBVECTOR opcode. This may result in
// a simple subregister reference or explicit instructions to grab		// a simple subregister reference or explicit instructions to grab
// upper bits of a vector.		// upper bits of a vector.
static SDValue LowerEXTRACT_SUBVECTOR(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerEXTRACT_SUBVECTOR(SDValue Op, const X86Subtarget &Subtarget,
▲ Show 20 Lines • Show All 9,333 Lines • ▼ Show 20 Lines	SDValue X86TargetLowering::LowerOperation(SDValue Op, SelectionDAG &DAG) const {
case ISD::BUILD_VECTOR: return LowerBUILD_VECTOR(Op, DAG);		case ISD::BUILD_VECTOR: return LowerBUILD_VECTOR(Op, DAG);
case ISD::CONCAT_VECTORS: return LowerCONCAT_VECTORS(Op, Subtarget, DAG);		case ISD::CONCAT_VECTORS: return LowerCONCAT_VECTORS(Op, Subtarget, DAG);
case ISD::VECTOR_SHUFFLE: return lowerVectorShuffle(Op, Subtarget, DAG);		case ISD::VECTOR_SHUFFLE: return lowerVectorShuffle(Op, Subtarget, DAG);
case ISD::VSELECT: return LowerVSELECT(Op, DAG);		case ISD::VSELECT: return LowerVSELECT(Op, DAG);
case ISD::EXTRACT_VECTOR_ELT: return LowerEXTRACT_VECTOR_ELT(Op, DAG);		case ISD::EXTRACT_VECTOR_ELT: return LowerEXTRACT_VECTOR_ELT(Op, DAG);
case ISD::INSERT_VECTOR_ELT: return LowerINSERT_VECTOR_ELT(Op, DAG);		case ISD::INSERT_VECTOR_ELT: return LowerINSERT_VECTOR_ELT(Op, DAG);
case ISD::EXTRACT_SUBVECTOR: return LowerEXTRACT_SUBVECTOR(Op,Subtarget,DAG);		case ISD::EXTRACT_SUBVECTOR: return LowerEXTRACT_SUBVECTOR(Op,Subtarget,DAG);
case ISD::INSERT_SUBVECTOR: return LowerINSERT_SUBVECTOR(Op, Subtarget,DAG);		case ISD::INSERT_SUBVECTOR: return LowerINSERT_SUBVECTOR(Op, Subtarget,DAG);
case ISD::SCALAR_TO_VECTOR: return LowerSCALAR_TO_VECTOR(Op, DAG);		case ISD::SCALAR_TO_VECTOR: return LowerSCALAR_TO_VECTOR(Op, Subtarget,DAG);
case ISD::ConstantPool: return LowerConstantPool(Op, DAG);		case ISD::ConstantPool: return LowerConstantPool(Op, DAG);
case ISD::GlobalAddress: return LowerGlobalAddress(Op, DAG);		case ISD::GlobalAddress: return LowerGlobalAddress(Op, DAG);
case ISD::GlobalTLSAddress: return LowerGlobalTLSAddress(Op, DAG);		case ISD::GlobalTLSAddress: return LowerGlobalTLSAddress(Op, DAG);
case ISD::ExternalSymbol: return LowerExternalSymbol(Op, DAG);		case ISD::ExternalSymbol: return LowerExternalSymbol(Op, DAG);
case ISD::BlockAddress: return LowerBlockAddress(Op, DAG);		case ISD::BlockAddress: return LowerBlockAddress(Op, DAG);
case ISD::SHL_PARTS:		case ISD::SHL_PARTS:
case ISD::SRA_PARTS:		case ISD::SRA_PARTS:
case ISD::SRL_PARTS: return LowerShiftParts(Op, DAG);		case ISD::SRL_PARTS: return LowerShiftParts(Op, DAG);
▲ Show 20 Lines • Show All 11,764 Lines • Show Last 20 Lines

test/CodeGen/X86/clear_upper_vector_element_bits.ll

Show First 20 Lines • Show All 295 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%v14 = insertelement <16 x i8> %v13, i8 %ext14, i32 14		%v14 = insertelement <16 x i8> %v13, i8 %ext14, i32 14
%v15 = insertelement <16 x i8> %v14, i8 %ext15, i32 15		%v15 = insertelement <16 x i8> %v14, i8 %ext15, i32 15
ret <16 x i8> %v15		ret <16 x i8> %v15
}		}

define <2 x i64> @_clearupper2xi64b(<2 x i64>) nounwind {		define <2 x i64> @_clearupper2xi64b(<2 x i64>) nounwind {
; SSE-LABEL: _clearupper2xi64b:		; SSE-LABEL: _clearupper2xi64b:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: xorl %eax, %eax		; SSE-NEXT: xorps %xmm2, %xmm2
; SSE-NEXT: movd %eax, %xmm2		; SSE-NEXT: xorps %xmm1, %xmm1
; SSE-NEXT: movdqa %xmm2, %xmm1
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[0,0]
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[2,0],xmm0[2,3]
; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[2,0]		; SSE-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[2,0]
; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]		; SSE-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[2,0]
; SSE-NEXT: movaps %xmm1, %xmm0		; SSE-NEXT: movaps %xmm1, %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX1-LABEL: _clearupper2xi64b:		; AVX1-LABEL: _clearupper2xi64b:
Show All 36 Lines	; AVX-NEXT: retq
%r3 = insertelement <8 x i16> %r2, i16 zeroinitializer, i32 7		%r3 = insertelement <8 x i16> %r2, i16 zeroinitializer, i32 7
%r = bitcast <8 x i16> %r3 to <4 x i32>		%r = bitcast <8 x i16> %r3 to <4 x i32>
ret <4 x i32> %r		ret <4 x i32> %r
}		}

define <8 x i16> @_clearupper8xi16b(<8 x i16>) nounwind {		define <8 x i16> @_clearupper8xi16b(<8 x i16>) nounwind {
; SSE-LABEL: _clearupper8xi16b:		; SSE-LABEL: _clearupper8xi16b:
; SSE: # BB#0:		; SSE: # BB#0:
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,0,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; SSE-NEXT: andps {{.*}}(%rip), %xmm0
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: xorl %eax, %eax
; SSE-NEXT: movd %eax, %xmm1
; SSE-NEXT: movdqa %xmm1, %xmm3
; SSE-NEXT: psllw $8, %xmm3
; SSE-NEXT: pandn %xmm3, %xmm2
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,0,255,255,255,255,255,255,255,255,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: movdqa %xmm1, %xmm3
; SSE-NEXT: pslld $24, %xmm3
; SSE-NEXT: pandn %xmm3, %xmm2
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,0,255,255,255,255,255,255,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: movdqa %xmm1, %xmm3
; SSE-NEXT: psllq $40, %xmm3
; SSE-NEXT: pandn %xmm3, %xmm2
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,0,255,255,255,255,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: movdqa %xmm1, %xmm3
; SSE-NEXT: psllq $56, %xmm3
; SSE-NEXT: pandn %xmm3, %xmm2
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255,255,0,255,255,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: movdqa %xmm1, %xmm3
; SSE-NEXT: pslldq {{.*#+}} xmm3 = zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm3[0,1,2,3,4,5,6]
; SSE-NEXT: pandn %xmm3, %xmm2
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: movdqa {{.*#+}} xmm2 = [255,255,255,255,255,255,255,255,255,255,255,0,255,255,255,255]
; SSE-NEXT: pand %xmm2, %xmm0
; SSE-NEXT: pslldq {{.*#+}} xmm1 = zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,zero,xmm1[0,1,2,3,4]
; SSE-NEXT: pandn %xmm1, %xmm2
; SSE-NEXT: por %xmm2, %xmm0
; SSE-NEXT: pand {{.*}}(%rip), %xmm0
; SSE-NEXT: retq		; SSE-NEXT: retq
;		;
; AVX-LABEL: _clearupper8xi16b:		; AVX-LABEL: _clearupper8xi16b:
; AVX: # BB#0:		; AVX: # BB#0:
; AVX-NEXT: xorl %eax, %eax		; AVX-NEXT: xorl %eax, %eax
; AVX-NEXT: vpinsrb $1, %eax, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $1, %eax, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $3, %eax, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $3, %eax, %xmm0, %xmm0
; AVX-NEXT: vpinsrb $5, %eax, %xmm0, %xmm0		; AVX-NEXT: vpinsrb $5, %eax, %xmm0, %xmm0
▲ Show 20 Lines • Show All 260 Lines • Show Last 20 Lines

test/CodeGen/X86/insertelement-zero.ll

Show First 20 Lines • Show All 238 Lines • ▼ Show 20 Lines	; AVX-NEXT: retq
%1 = insertelement <8 x float> %a, float 0.0, i32 0		%1 = insertelement <8 x float> %a, float 0.0, i32 0
%2 = insertelement <8 x float> %1, float 0.0, i32 6		%2 = insertelement <8 x float> %1, float 0.0, i32 6
ret <8 x float> %2		ret <8 x float> %2
}		}

define <4 x i32> @insert_v4i32_01z3(<4 x i32> %a) {		define <4 x i32> @insert_v4i32_01z3(<4 x i32> %a) {
; SSE2-LABEL: insert_v4i32_01z3:		; SSE2-LABEL: insert_v4i32_01z3:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: xorl %eax, %eax		; SSE2-NEXT: xorps %xmm1, %xmm1
; SSE2-NEXT: movd %eax, %xmm1
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: insert_v4i32_01z3:		; SSE3-LABEL: insert_v4i32_01z3:
; SSE3: # BB#0:		; SSE3: # BB#0:
; SSE3-NEXT: xorl %eax, %eax		; SSE3-NEXT: xorps %xmm1, %xmm1
; SSE3-NEXT: movd %eax, %xmm1
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]
; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: insert_v4i32_01z3:		; SSSE3-LABEL: insert_v4i32_01z3:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: xorl %eax, %eax		; SSSE3-NEXT: xorps %xmm1, %xmm1
; SSSE3-NEXT: movd %eax, %xmm1
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,0],xmm0[3,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]		; SSSE3-NEXT: shufps {{.*#+}} xmm0 = xmm0[0,1],xmm1[0,2]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: insert_v4i32_01z3:		; SSE41-LABEL: insert_v4i32_01z3:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pxor %xmm1, %xmm1		; SSE41-NEXT: pxor %xmm1, %xmm1
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5],xmm0[6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5],xmm0[6,7]
Show All 14 Lines	; AVX2-NEXT: retq
ret <4 x i32> %1		ret <4 x i32> %1
}		}

define <8 x i32> @insert_v8i32_z12345z7(<8 x i32> %a) {		define <8 x i32> @insert_v8i32_z12345z7(<8 x i32> %a) {
; SSE2-LABEL: insert_v8i32_z12345z7:		; SSE2-LABEL: insert_v8i32_z12345z7:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: xorps %xmm2, %xmm2		; SSE2-NEXT: xorps %xmm2, %xmm2
; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]		; SSE2-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]
; SSE2-NEXT: xorl %eax, %eax		; SSE2-NEXT: xorps %xmm2, %xmm2
; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]		; SSE2-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]
; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; SSE2-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: insert_v8i32_z12345z7:		; SSE3-LABEL: insert_v8i32_z12345z7:
; SSE3: # BB#0:		; SSE3: # BB#0:
; SSE3-NEXT: xorps %xmm2, %xmm2		; SSE3-NEXT: xorps %xmm2, %xmm2
; SSE3-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]		; SSE3-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]
; SSE3-NEXT: xorl %eax, %eax		; SSE3-NEXT: xorps %xmm2, %xmm2
; SSE3-NEXT: movd %eax, %xmm2
; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]		; SSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]
; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; SSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: insert_v8i32_z12345z7:		; SSSE3-LABEL: insert_v8i32_z12345z7:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: xorps %xmm2, %xmm2		; SSSE3-NEXT: xorps %xmm2, %xmm2
; SSSE3-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]		; SSSE3-NEXT: movss {{.*#+}} xmm0 = xmm2[0],xmm0[1,2,3]
; SSSE3-NEXT: xorl %eax, %eax		; SSSE3-NEXT: xorps %xmm2, %xmm2
; SSSE3-NEXT: movd %eax, %xmm2
; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]		; SSSE3-NEXT: shufps {{.*#+}} xmm2 = xmm2[0,0],xmm1[3,0]
; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]		; SSSE3-NEXT: shufps {{.*#+}} xmm1 = xmm1[0,1],xmm2[0,2]
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: insert_v8i32_z12345z7:		; SSE41-LABEL: insert_v8i32_z12345z7:
; SSE41: # BB#0:		; SSE41: # BB#0:
; SSE41-NEXT: pxor %xmm2, %xmm2		; SSE41-NEXT: pxor %xmm2, %xmm2
; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3,4,5,6,7]		; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm2[0,1],xmm0[2,3,4,5,6,7]
▲ Show 20 Lines • Show All 113 Lines • ▼ Show 20 Lines	; AVX2-NEXT: retq
%2 = insertelement <16 x i16> %1, i16 0, i32 6		%2 = insertelement <16 x i16> %1, i16 0, i32 6
%3 = insertelement <16 x i16> %2, i16 0, i32 15		%3 = insertelement <16 x i16> %2, i16 0, i32 15
ret <16 x i16> %3		ret <16 x i16> %3
}		}

define <16 x i8> @insert_v16i8_z123456789ABCDEz(<16 x i8> %a) {		define <16 x i8> @insert_v16i8_z123456789ABCDEz(<16 x i8> %a) {
; SSE2-LABEL: insert_v16i8_z123456789ABCDEz:		; SSE2-LABEL: insert_v16i8_z123456789ABCDEz:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movdqa {{.*#+}} xmm1 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; SSE2-NEXT: andps {{.*}}(%rip), %xmm0
; SSE2-NEXT: pand %xmm1, %xmm0
; SSE2-NEXT: xorl %eax, %eax
; SSE2-NEXT: movd %eax, %xmm2
; SSE2-NEXT: pandn %xmm2, %xmm1
; SSE2-NEXT: por %xmm1, %xmm0
; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: insert_v16i8_z123456789ABCDEz:		; SSE3-LABEL: insert_v16i8_z123456789ABCDEz:
; SSE3: # BB#0:		; SSE3: # BB#0:
; SSE3-NEXT: movdqa {{.*#+}} xmm1 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; SSE3-NEXT: andps {{.*}}(%rip), %xmm0
; SSE3-NEXT: pand %xmm1, %xmm0
; SSE3-NEXT: xorl %eax, %eax
; SSE3-NEXT: movd %eax, %xmm2
; SSE3-NEXT: pandn %xmm2, %xmm1
; SSE3-NEXT: por %xmm1, %xmm0
; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: insert_v16i8_z123456789ABCDEz:		; SSSE3-LABEL: insert_v16i8_z123456789ABCDEz:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: andps {{.*}}(%rip), %xmm0		; SSSE3-NEXT: andps {{.*}}(%rip), %xmm0
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
;		;
; SSE41-LABEL: insert_v16i8_z123456789ABCDEz:		; SSE41-LABEL: insert_v16i8_z123456789ABCDEz:
Show All 12 Lines	; AVX-NEXT: retq
%1 = insertelement <16 x i8> %a, i8 0, i32 0		%1 = insertelement <16 x i8> %a, i8 0, i32 0
%2 = insertelement <16 x i8> %1, i8 0, i32 15		%2 = insertelement <16 x i8> %1, i8 0, i32 15
ret <16 x i8> %2		ret <16 x i8> %2
}		}

define <32 x i8> @insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz(<32 x i8> %a) {		define <32 x i8> @insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz(<32 x i8> %a) {
; SSE2-LABEL: insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz:		; SSE2-LABEL: insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz:
; SSE2: # BB#0:		; SSE2: # BB#0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; SSE2-NEXT: andps {{.*}}(%rip), %xmm0
; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: xorl %eax, %eax
; SSE2-NEXT: movd %eax, %xmm3
; SSE2-NEXT: pandn %xmm3, %xmm2
; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: pand {{.*}}(%rip), %xmm0
; SSE2-NEXT: andps {{.*}}(%rip), %xmm1		; SSE2-NEXT: andps {{.*}}(%rip), %xmm1
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; SSE3-LABEL: insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz:		; SSE3-LABEL: insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz:
; SSE3: # BB#0:		; SSE3: # BB#0:
; SSE3-NEXT: movdqa {{.*#+}} xmm2 = [0,255,255,255,255,255,255,255,255,255,255,255,255,255,255,255]		; SSE3-NEXT: andps {{.*}}(%rip), %xmm0
; SSE3-NEXT: pand %xmm2, %xmm0
; SSE3-NEXT: xorl %eax, %eax
; SSE3-NEXT: movd %eax, %xmm3
; SSE3-NEXT: pandn %xmm3, %xmm2
; SSE3-NEXT: por %xmm2, %xmm0
; SSE3-NEXT: pand {{.*}}(%rip), %xmm0
; SSE3-NEXT: andps {{.*}}(%rip), %xmm1		; SSE3-NEXT: andps {{.*}}(%rip), %xmm1
; SSE3-NEXT: retq		; SSE3-NEXT: retq
;		;
; SSSE3-LABEL: insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz:		; SSSE3-LABEL: insert_v32i8_z123456789ABCDEzGHIJKLMNOPQRSTzz:
; SSSE3: # BB#0:		; SSSE3: # BB#0:
; SSSE3-NEXT: andps {{.*}}(%rip), %xmm0		; SSSE3-NEXT: andps {{.*}}(%rip), %xmm0
; SSSE3-NEXT: andps {{.*}}(%rip), %xmm1		; SSSE3-NEXT: andps {{.*}}(%rip), %xmm1
; SSSE3-NEXT: retq		; SSSE3-NEXT: retq
▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

test/CodeGen/X86/vector-shuffle-variable-128.ll

	Show First 20 Lines • Show All 1,323 Lines • ▼ Show 20 Lines
	; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSE2-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSE2-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSE2-NEXT: andl $7, %edi			; SSE2-NEXT: andl $7, %edi
	; SSE2-NEXT: andl $7, %esi			; SSE2-NEXT: andl $7, %esi
	; SSE2-NEXT: andl $7, %edx			; SSE2-NEXT: andl $7, %edx
	; SSE2-NEXT: andl $7, %ecx			; SSE2-NEXT: andl $7, %ecx
	; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $7, %r8d			; SSE2-NEXT: andl $7, %r8d
	; SSE2-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; SSE2-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSE2-NEXT: andl $7, %r9d			; SSE2-NEXT: andl $7, %r9d
	; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%rsi,2), %eax
	; SSE2-NEXT: xorl %esi, %esi
	; SSE2-NEXT: movd %esi, %xmm0
	; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx			; SSE2-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm0
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: pxor %xmm1, %xmm1
				; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSE2-NEXT: movd %eax, %xmm2			; SSE2-NEXT: movd %eax, %xmm2
	; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax			; SSE2-NEXT: movzwl -24(%rsp,%r9,2), %eax
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movd %eax, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax			; SSE2-NEXT: movzwl -40(%rsp,%rdi,2), %eax
	; SSE2-NEXT: movzwl -40(%rsp,%rdx,2), %ecx			; SSE2-NEXT: movzwl -40(%rsp,%rdx,2), %ecx
	; SSE2-NEXT: movd %ecx, %xmm1			; SSE2-NEXT: movd %ecx, %xmm3
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
	; SSE2-NEXT: movd %eax, %xmm0			; SSE2-NEXT: movd %eax, %xmm0
	; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax			; SSE2-NEXT: movzwl -40(%rsp,%r8,2), %eax
	; SSE2-NEXT: movd %eax, %xmm3			; SSE2-NEXT: movd %eax, %xmm1
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSE2-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:			; SSSE3-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
	; SSSE3: # BB#0:			; SSSE3: # BB#0:
	; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSSE3-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSSE3-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSSE3-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>			; SSSE3-NEXT: # kill: %EDX<def> %EDX<kill> %RDX<def>
	; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>			; SSSE3-NEXT: # kill: %ESI<def> %ESI<kill> %RSI<def>
	; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>			; SSSE3-NEXT: # kill: %EDI<def> %EDI<kill> %RDI<def>
	; SSSE3-NEXT: andl $7, %edi			; SSSE3-NEXT: andl $7, %edi
	; SSSE3-NEXT: andl $7, %esi			; SSSE3-NEXT: andl $7, %esi
	; SSSE3-NEXT: andl $7, %edx			; SSSE3-NEXT: andl $7, %edx
	; SSSE3-NEXT: andl $7, %ecx			; SSSE3-NEXT: andl $7, %ecx
	; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movaps %xmm0, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $7, %r8d			; SSSE3-NEXT: andl $7, %r8d
	; SSSE3-NEXT: movaps %xmm1, -{{[0-9]+}}(%rsp)			; SSSE3-NEXT: movdqa %xmm1, -{{[0-9]+}}(%rsp)
	; SSSE3-NEXT: andl $7, %r9d			; SSSE3-NEXT: andl $7, %r9d
	; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%rsi,2), %eax
	; SSSE3-NEXT: xorl %esi, %esi
	; SSSE3-NEXT: movd %esi, %xmm0
	; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx			; SSSE3-NEXT: movzwl -24(%rsp,%rcx,2), %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm0
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: pxor %xmm1, %xmm1
				; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
	; SSSE3-NEXT: movd %eax, %xmm2			; SSSE3-NEXT: movd %eax, %xmm2
	; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax			; SSSE3-NEXT: movzwl -24(%rsp,%r9,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm3			; SSSE3-NEXT: movd %eax, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm3[0],xmm2[1],xmm3[1],xmm2[2],xmm3[2],xmm2[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm1[0],xmm2[1],xmm1[1],xmm2[2],xmm1[2],xmm2[3],xmm1[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm2 = xmm2[0],xmm0[0],xmm2[1],xmm0[1],xmm2[2],xmm0[2],xmm2[3],xmm0[3]
	; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax			; SSSE3-NEXT: movzwl -40(%rsp,%rdi,2), %eax
	; SSSE3-NEXT: movzwl -40(%rsp,%rdx,2), %ecx			; SSSE3-NEXT: movzwl -40(%rsp,%rdx,2), %ecx
	; SSSE3-NEXT: movd %ecx, %xmm1			; SSSE3-NEXT: movd %ecx, %xmm3
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm1 = xmm1[0],xmm0[0],xmm1[1],xmm0[1],xmm1[2],xmm0[2],xmm1[3],xmm0[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm3 = xmm3[0],xmm1[0],xmm3[1],xmm1[1],xmm3[2],xmm1[2],xmm3[3],xmm1[3]
	; SSSE3-NEXT: movd %eax, %xmm0			; SSSE3-NEXT: movd %eax, %xmm0
	; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax			; SSSE3-NEXT: movzwl -40(%rsp,%r8,2), %eax
	; SSSE3-NEXT: movd %eax, %xmm3			; SSSE3-NEXT: movd %eax, %xmm1
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1],xmm0[2],xmm1[2],xmm0[3],xmm1[3]
				; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm3[0],xmm0[1],xmm3[1],xmm0[2],xmm3[2],xmm0[3],xmm3[3]
	; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]			; SSSE3-NEXT: punpcklwd {{.*#+}} xmm0 = xmm0[0],xmm2[0],xmm0[1],xmm2[1],xmm0[2],xmm2[2],xmm0[3],xmm2[3]
	; SSSE3-NEXT: retq			; SSSE3-NEXT: retq
	;			;
	; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:			; SSE41-LABEL: var_shuffle_v8i16_v8i16_xyxyxy00_i16:
	; SSE41: # BB#0:			; SSE41: # BB#0:
	; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>			; SSE41-NEXT: # kill: %R9D<def> %R9D<kill> %R9<def>
	; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>			; SSE41-NEXT: # kill: %R8D<def> %R8D<kill> %R8<def>
	; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>			; SSE41-NEXT: # kill: %ECX<def> %ECX<kill> %RCX<def>
	▲ Show 20 Lines • Show All 93 Lines • Show Last 20 Lines