Diff 181601

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

Show First 20 Lines • Show All 4,096 Lines • ▼ Show 20 Lines	if (MemVT.getSizeInBits() <= WidenEltWidth)
break;		break;
auto Action = TLI.getTypeAction(*DAG.getContext(), MemVT);		auto Action = TLI.getTypeAction(*DAG.getContext(), MemVT);
if ((Action == TargetLowering::TypeLegal \|\|		if ((Action == TargetLowering::TypeLegal \|\|
Action == TargetLowering::TypePromoteInteger) &&		Action == TargetLowering::TypePromoteInteger) &&
(WidenWidth % MemVTWidth) == 0 &&		(WidenWidth % MemVTWidth) == 0 &&
isPowerOf2_32(WidenWidth / MemVTWidth) &&		isPowerOf2_32(WidenWidth / MemVTWidth) &&
(MemVTWidth <= Width \|\|		(MemVTWidth <= Width \|\|
(Align!=0 && MemVTWidth<=AlignInBits && MemVTWidth<=Width+WidenEx))) {		(Align!=0 && MemVTWidth<=AlignInBits && MemVTWidth<=Width+WidenEx))) {
		if (MemVTWidth == WidenWidth)
		return MemVT;
RetVT = MemVT;		RetVT = MemVT;
break;		break;
}		}
}		}

// See if there is a larger vector type to load/store that has the same vector		// See if there is a larger vector type to load/store that has the same vector
// element type and is evenly divisible with the WidenVT.		// element type and is evenly divisible with the WidenVT.
for (VT = (unsigned)MVT::LAST_VECTOR_VALUETYPE;		for (VT = (unsigned)MVT::LAST_VECTOR_VALUETYPE;
VT >= (unsigned)MVT::FIRST_VECTOR_VALUETYPE; --VT) {		VT >= (unsigned)MVT::FIRST_VECTOR_VALUETYPE; --VT) {
EVT MemVT = (MVT::SimpleValueType) VT;		EVT MemVT = (MVT::SimpleValueType) VT;
unsigned MemVTWidth = MemVT.getSizeInBits();		unsigned MemVTWidth = MemVT.getSizeInBits();
if (TLI.isTypeLegal(MemVT) && WidenEltVT == MemVT.getVectorElementType() &&		auto Action = TLI.getTypeAction(*DAG.getContext(), MemVT);
		if ((Action == TargetLowering::TypeLegal \|\|
		Action == TargetLowering::TypePromoteInteger) &&
		WidenEltVT == MemVT.getVectorElementType() &&
(WidenWidth % MemVTWidth) == 0 &&		(WidenWidth % MemVTWidth) == 0 &&
isPowerOf2_32(WidenWidth / MemVTWidth) &&		isPowerOf2_32(WidenWidth / MemVTWidth) &&
(MemVTWidth <= Width \|\|		(MemVTWidth <= Width \|\|
(Align!=0 && MemVTWidth<=AlignInBits && MemVTWidth<=Width+WidenEx))) {		(Align!=0 && MemVTWidth<=AlignInBits && MemVTWidth<=Width+WidenEx))) {
if (RetVT.getSizeInBits() < MemVTWidth \|\| MemVT == WidenVT)		if (RetVT.getSizeInBits() < MemVTWidth \|\| MemVT == WidenVT)
return MemVT;		return MemVT;
}		}
}		}
▲ Show 20 Lines • Show All 401 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load-constant-i16.ll

Show All 23 Lines	entry:
%ld = load <2 x i16>, <2 x i16> addrspace(4)* %in		%ld = load <2 x i16>, <2 x i16> addrspace(4)* %in
store <2 x i16> %ld, <2 x i16> addrspace(1)* %out		store <2 x i16> %ld, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}constant_load_v3i16:		; FUNC-LABEL: {{^}}constant_load_v3i16:
; GCN: s_load_dwordx2 s		; GCN: s_load_dwordx2 s

; EG-DAG: VTX_READ_32 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 0, #1		; EG-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 0, #1
		; EG-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 2, #1
; EG-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 4, #1		; EG-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 4, #1
define amdgpu_kernel void @constant_load_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(4)* %in) {		define amdgpu_kernel void @constant_load_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(4)* %in) {
entry:		entry:
%ld = load <3 x i16>, <3 x i16> addrspace(4)* %in		%ld = load <3 x i16>, <3 x i16> addrspace(4)* %in
store <3 x i16> %ld, <3 x i16> addrspace(1)* %out		store <3 x i16> %ld, <3 x i16> addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 140 Lines • ▼ Show 20 Lines

; FUNC-LABEL: {{^}}constant_zextload_v3i16_to_v3i32:		; FUNC-LABEL: {{^}}constant_zextload_v3i16_to_v3i32:
; GCN: s_load_dwordx2		; GCN: s_load_dwordx2

; v3i16 is naturally 8 byte aligned		; v3i16 is naturally 8 byte aligned
; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9].[XYZW]}},		; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9].[XYZW]}},
; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9].[XYZW]}},		; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9].[XYZW]}},
; EG: CF_END		; EG: CF_END
; EG-DAG: VTX_READ_32 [[DST_LO:T[0-9]\.[XYZW]]], {{T[0-9]\.[XYZW]}}, 0, #1		; EG-DAG: VTX_READ_16 [[ST_LO]].X, [[SRC:T[0-9]\.[XYZW]]], 0, #1
; EG-DAG: VTX_READ_16 [[DST_HI:T[0-9]\.[XYZW]]], {{T[0-9]\.[XYZW]}}, 4, #1		; EG-DAG: VTX_READ_16 {{T[0-9]\.[XYZW]}}, [[SRC]], 2, #1
; TODO: This should use DST, but for some there are redundant MOVs		; EG-DAG: VTX_READ_16 [[ST_HI]].X, [[SRC]], 4, #1
; EG-DAG: LSHR {{[* ]*}}[[ST_LO]].Y, {{T[0-9]\.[XYZW]}}, literal		; EG-DAG: LSHR {{[* ]*}}{{T[0-9]\.[XYZW]}}, {{T[0-9]\.[XYZW]}}, literal
; EG-DAG: 16		; EG-DAG: 16
; EG-DAG: AND_INT {{[* ]*}}[[ST_LO]].X, {{T[0-9]\.[XYZW]}}, literal
; EG-DAG: AND_INT {{[* ]*}}[[ST_HI]].X, {{T[0-9]\.[XYZW]}}, literal
; EG-DAG: 65535
; EG-DAG: 65535
jveselyUnsubmitted Done Reply Inline Actions is there any reason to remove these lines from the test? jvesely: is there any reason to remove these lines from the test?
taurilAuthorUnsubmitted Done Reply Inline Actions I removed these lines from the test because the generated code no longer has them in it. tauril: I removed these lines from the test because the generated code no longer has them in it.
jveselyUnsubmitted Done Reply Inline Actions I see. If the values are directly loaded to registers used in STORE_RAW, it'd be nice to preserve the tracking instead of using generic `{{T[0-9]\.[XYZW]}}` i.e: `VTX_READ_16 [[ST_LO]].X, ... 0, #1` `VTX_READ_16 [[ST_LO]].Y, ... 2, #1` `VTX_READ_16 [[ST_HI]].X, ... 4, #1` jvesely: I see. If the values are directly loaded to registers used in STORE_RAW, it'd be nice to…
define amdgpu_kernel void @constant_zextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(4)* %in) {		define amdgpu_kernel void @constant_zextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(4)* %in) {
entry:		entry:
%ld = load <3 x i16>, <3 x i16> addrspace(4)* %in		%ld = load <3 x i16>, <3 x i16> addrspace(4)* %in
%ext = zext <3 x i16> %ld to <3 x i32>		%ext = zext <3 x i16> %ld to <3 x i32>
store <3 x i32> %ext, <3 x i32> addrspace(1)* %out		store <3 x i32> %ext, <3 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}constant_sextload_v3i16_to_v3i32:		; FUNC-LABEL: {{^}}constant_sextload_v3i16_to_v3i32:
; GCN: s_load_dwordx2		; GCN: s_load_dwordx2

; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9].[XYZW]}},		; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9].[XYZW]}},
; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9].[XYZW]}},		; EG-DAG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9].[XYZW]}},
; v3i16 is naturally 8 byte aligned		; v3i16 is naturally 8 byte aligned
; EG-DAG: VTX_READ_32 [[DST_HI:T[0-9]\.[XYZW]]], [[PTR:T[0-9]\.[XYZW]]], 0, #1		; EG-DAG: VTX_READ_16 [[ST_LO]].X, [[SRC:T[0-9]\.[XYZW]]], 0, #1
; EG-DAG: VTX_READ_16 [[DST_LO:T[0-9]\.[XYZW]]], {{T[0-9]\.[XYZW]}}, 4, #1		; EG-DAG: VTX_READ_16 [[DST_MID:T[0-9]\.[XYZW]]], [[SRC]], 2, #1
; EG-DAG: ASHR {{[* ]*}}[[ST_LO]].Y, {{T[0-9]\.[XYZW]}}, literal		; EG-DAG: VTX_READ_16 [[ST_HI]].X, [[SRC]], 4, #1
; EG-DAG: BFE_INT {{[* ]*}}[[ST_LO]].X, {{T[0-9]\.[XYZW]}}, 0.0, literal		; EG-DAG: BFE_INT {{[* ]*}}[[ST_LO]].X, [[ST_LO]].X, 0.0, literal
; EG-DAG: BFE_INT {{[* ]*}}[[ST_HI]].X, {{T[0-9]\.[XYZW]}}, 0.0, literal		; EG-DAG: BFE_INT {{[* ]*}}[[ST_LO]].Y, [[DST_MID]], 0.0, literal
		; EG-DAG: BFE_INT {{[* ]*}}[[ST_HI]].X, [[ST_HI]].X, 0.0, literal
; EG-DAG: 16		; EG-DAG: 16
; EG-DAG: 16		; EG-DAG: 16
define amdgpu_kernel void @constant_sextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(4)* %in) {		define amdgpu_kernel void @constant_sextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(4)* %in) {
entry:		entry:
%ld = load <3 x i16>, <3 x i16> addrspace(4)* %in		%ld = load <3 x i16>, <3 x i16> addrspace(4)* %in
%ext = sext <3 x i16> %ld to <3 x i32>		%ext = sext <3 x i16> %ld to <3 x i32>
store <3 x i32> %ext, <3 x i32> addrspace(1)* %out		store <3 x i32> %ext, <3 x i32> addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 412 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load-global-i16.ll

Show All 28 Lines	entry:
store <2 x i16> %ld, <2 x i16> addrspace(1)* %out		store <2 x i16> %ld, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}global_load_v3i16:		; FUNC-LABEL: {{^}}global_load_v3i16:
; GCN-NOHSA: buffer_load_dwordx2 v		; GCN-NOHSA: buffer_load_dwordx2 v
; GCN-HSA: flat_load_dwordx2 v		; GCN-HSA: flat_load_dwordx2 v

; EGCM-DAG: VTX_READ_32 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 0, #1		; EGCM-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 0, #1
		; EGCM-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 2, #1
; EGCM-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 4, #1		; EGCM-DAG: VTX_READ_16 T{{[0-9]+}}.X, T{{[0-9]+}}.X, 4, #1
define amdgpu_kernel void @global_load_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(1)* %in) {		define amdgpu_kernel void @global_load_v3i16(<3 x i16> addrspace(1)* %out, <3 x i16> addrspace(1)* %in) {
entry:		entry:
%ld = load <3 x i16>, <3 x i16> addrspace(1)* %in		%ld = load <3 x i16>, <3 x i16> addrspace(1)* %in
store <3 x i16> %ld, <3 x i16> addrspace(1)* %out		store <3 x i16> %ld, <3 x i16> addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines
; FUNC-LABEL: {{^}}global_zextload_v3i16_to_v3i32:		; FUNC-LABEL: {{^}}global_zextload_v3i16_to_v3i32:
; GCN-NOHSA: buffer_load_dwordx2		; GCN-NOHSA: buffer_load_dwordx2
; GCN-HSA: flat_load_dwordx2		; GCN-HSA: flat_load_dwordx2

; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_LO:T[0-9]]], {{T[0-9]\.[XYZW]}}		; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_LO:T[0-9]]], {{T[0-9]\.[XYZW]}}
; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}}		; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}}
; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}},		; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}},
; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9]\.[XYZW]}},		; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9]\.[XYZW]}},
; EGCM-DAG: VTX_READ_32 [[DST_LO:T[0-9]\.[XYZW]]], {{T[0-9]\.[XYZW]}}, 0, #1		; EGCM-DAG: VTX_READ_16 [[ST_LO]].X, [[SRC:T[0-9]\.[XYZW]]], 0, #1
; EGCM-DAG: VTX_READ_16 [[DST_HI:T[0-9]\.[XYZW]]], {{T[0-9]\.[XYZW]}}, 4, #1		; EGCM-DAG: VTX_READ_16 {{T[0-9]\.[XYZW]}}, [[SRC]], 2, #1
; TODO: This should use DST, but for some there are redundant MOVs		; EGCM-DAG: VTX_READ_16 [[ST_HI]].X, [[SRC]], 4, #1
; EGCM: LSHR {{[* ]*}}[[ST_LO]].Y, {{T[0-9]\.[XYZW]}}, literal
jveselyUnsubmitted Done Reply Inline Actions have the extra moves been eliminated by this patch? if not, is there another reason to remove these lines? jvesely: have the extra moves been eliminated by this patch? if not, is there another reason to remove…
taurilAuthorUnsubmitted Done Reply Inline Actions Exactly, the moves have been eliminated by the patch! tauril: Exactly, the moves have been eliminated by the patch!
; EGCM: 16		; EGCM: 16
define amdgpu_kernel void @global_zextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(1)* %in) {		define amdgpu_kernel void @global_zextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(1)* %in) {
entry:		entry:
%ld = load <3 x i16>, <3 x i16> addrspace(1)* %in		%ld = load <3 x i16>, <3 x i16> addrspace(1)* %in
%ext = zext <3 x i16> %ld to <3 x i32>		%ext = zext <3 x i16> %ld to <3 x i32>
store <3 x i32> %ext, <3 x i32> addrspace(1)* %out		store <3 x i32> %ext, <3 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}global_sextload_v3i16_to_v3i32:		; FUNC-LABEL: {{^}}global_sextload_v3i16_to_v3i32:
; GCN-NOHSA: buffer_load_dwordx2		; GCN-NOHSA: buffer_load_dwordx2
; GCN-HSA: flat_load_dwordx2		; GCN-HSA: flat_load_dwordx2

; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_LO:T[0-9]]], {{T[0-9]\.[XYZW]}}		; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_LO:T[0-9]]], {{T[0-9]\.[XYZW]}}
; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}}		; CM: MEM_RAT_CACHELESS STORE_DWORD [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}}
; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}},		; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_HI:T[0-9]]].X, {{T[0-9]\.[XYZW]}},
; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9]\.[XYZW]}},		; EG: MEM_RAT_CACHELESS STORE_RAW [[ST_LO:T[0-9]]].XY, {{T[0-9]\.[XYZW]}},
; EGCM-DAG: VTX_READ_32 [[DST_LO:T[0-9]\.[XYZW]]], {{T[0-9].[XYZW]}}, 0, #1		; EGCM-DAG: VTX_READ_16 [[DST_LO:T[0-9]\.[XYZW]]], [[SRC:T[0-9]\.[XYZW]]], 0, #1
; EGCM-DAG: VTX_READ_16 [[DST_HI:T[0-9]\.[XYZW]]], {{T[0-9].[XYZW]}}, 4, #1		; EGCM-DAG: VTX_READ_16 [[DST_MID:T[0-9]\.[XYZW]]], [[SRC]], 2, #1
; TODO: This should use DST, but for some there are redundant MOVs		; EGCM-DAG: VTX_READ_16 [[DST_HI:T[0-9]\.[XYZW]]], [[SRC]], 4, #1
; EGCM-DAG: ASHR {{[* ]*}}[[ST_LO]].Y, {{T[0-9]\.[XYZW]}}, literal		; EGCM-DAG: BFE_INT {{[* ]*}}[[ST_LO]].X, [[DST_LO]], 0.0, literal
jveselyUnsubmitted Done Reply Inline Actions same here jvesely: same here
taurilAuthorUnsubmitted Done Reply Inline Actions Same thing here, the patch removed these lines from the generated code. tauril: Same thing here, the patch removed these lines from the generated code.
; EGCM-DAG: BFE_INT {{[* ]*}}[[ST_LO]].X, {{T[0-9]\.[XYZW]}}, 0.0, literal		; EGCM-DAG: BFE_INT {{[* ]*}}[[ST_LO]].Y, [[DST_MID]], 0.0, literal
; EGCM-DAG: BFE_INT {{[* ]*}}[[ST_HI]].X, [[DST_HI]], 0.0, literal		; EGCM-DAG: BFE_INT {{[* ]*}}[[ST_HI]].X, [[DST_HI]], 0.0, literal
; EGCM-DAG: 16		; EGCM-DAG: 16
; EGCM-DAG: 16		; EGCM-DAG: 16
define amdgpu_kernel void @global_sextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(1)* %in) {		define amdgpu_kernel void @global_sextload_v3i16_to_v3i32(<3 x i32> addrspace(1)* %out, <3 x i16> addrspace(1)* %in) {
entry:		entry:
%ld = load <3 x i16>, <3 x i16> addrspace(1)* %in		%ld = load <3 x i16>, <3 x i16> addrspace(1)* %in
%ext = sext <3 x i16> %ld to <3 x i32>		%ext = sext <3 x i16> %ld to <3 x i32>
store <3 x i32> %ext, <3 x i32> addrspace(1)* %out		store <3 x i32> %ext, <3 x i32> addrspace(1)* %out
▲ Show 20 Lines • Show All 430 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/load-local-i16.ll

	Show First 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; GFX9-NOT: m0			; GFX9-NOT: m0
	; SICIVI: s_mov_b32 m0			; SICIVI: s_mov_b32 m0

	; GCN: ds_read_b64			; GCN: ds_read_b64
	; GCN-DAG: ds_write_b32			; GCN-DAG: ds_write_b32
	; GCN-DAG: ds_write_b16			; GCN-DAG: ds_write_b16

	; EG-DAG: LDS_USHORT_READ_RET			; EG-DAG: LDS_USHORT_READ_RET
	; EG-DAG: LDS_READ_RET			; EG-DAG: LDS_USHORT_READ_RET
				; EG-DAG: LDS_USHORT_READ_RET
	define amdgpu_kernel void @local_load_v3i16(<3 x i16> addrspace(3)* %out, <3 x i16> addrspace(3)* %in) {			define amdgpu_kernel void @local_load_v3i16(<3 x i16> addrspace(3)* %out, <3 x i16> addrspace(3)* %in) {
	entry:			entry:
	%ld = load <3 x i16>, <3 x i16> addrspace(3)* %in			%ld = load <3 x i16>, <3 x i16> addrspace(3)* %in
	store <3 x i16> %ld, <3 x i16> addrspace(3)* %out			store <3 x i16> %ld, <3 x i16> addrspace(3)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}local_load_v4i16:			; FUNC-LABEL: {{^}}local_load_v4i16:
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; FUNC-LABEL: {{^}}local_local_zextload_v3i16_to_v3i32:			; FUNC-LABEL: {{^}}local_local_zextload_v3i16_to_v3i32:
	; GFX9-NOT: m0			; GFX9-NOT: m0
	; SICIVI: s_mov_b32 m0			; SICIVI: s_mov_b32 m0

	; GCN: ds_read_b64			; GCN: ds_read_b64
	; GCN-DAG: ds_write_b32			; GCN-DAG: ds_write_b32
	; GCN-DAG: ds_write_b64			; GCN-DAG: ds_write_b64

	; EG: LDS_READ_RET			; EG: LDS_USHORT_READ_RET
				; EG: LDS_USHORT_READ_RET
				; EG: LDS_USHORT_READ_RET
	define amdgpu_kernel void @local_local_zextload_v3i16_to_v3i32(<3 x i32> addrspace(3)* %out, <3 x i16> addrspace(3)* %in) {			define amdgpu_kernel void @local_local_zextload_v3i16_to_v3i32(<3 x i32> addrspace(3)* %out, <3 x i16> addrspace(3)* %in) {
	entry:			entry:
	%ld = load <3 x i16>, <3 x i16> addrspace(3)* %in			%ld = load <3 x i16>, <3 x i16> addrspace(3)* %in
	%ext = zext <3 x i16> %ld to <3 x i32>			%ext = zext <3 x i16> %ld to <3 x i32>
	store <3 x i32> %ext, <3 x i32> addrspace(3)* %out			store <3 x i32> %ext, <3 x i32> addrspace(3)* %out
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}local_local_sextload_v3i16_to_v3i32:			; FUNC-LABEL: {{^}}local_local_sextload_v3i16_to_v3i32:
	; GFX9-NOT: m0			; GFX9-NOT: m0
	; SICIVI: s_mov_b32 m0			; SICIVI: s_mov_b32 m0

	; GCN: ds_read_b64			; GCN: ds_read_b64
	; GCN-DAG: ds_write_b32			; GCN-DAG: ds_write_b32
	; GCN-DAG: ds_write_b64			; GCN-DAG: ds_write_b64

	; EG: LDS_READ_RET			; EG: LDS_USHORT_READ_RET
				; EG: LDS_USHORT_READ_RET
				; EG: LDS_USHORT_READ_RET
	; EG-DAG: BFE_INT			; EG-DAG: BFE_INT
	; EG-DAG: BFE_INT			; EG-DAG: BFE_INT
	; EG-DAG: BFE_INT			; EG-DAG: BFE_INT
	define amdgpu_kernel void @local_local_sextload_v3i16_to_v3i32(<3 x i32> addrspace(3)* %out, <3 x i16> addrspace(3)* %in) {			define amdgpu_kernel void @local_local_sextload_v3i16_to_v3i32(<3 x i32> addrspace(3)* %out, <3 x i16> addrspace(3)* %in) {
	entry:			entry:
	%ld = load <3 x i16>, <3 x i16> addrspace(3)* %in			%ld = load <3 x i16>, <3 x i16> addrspace(3)* %in
	%ext = sext <3 x i16> %ld to <3 x i32>			%ext = sext <3 x i16> %ld to <3 x i32>
	store <3 x i32> %ext, <3 x i32> addrspace(3)* %out			store <3 x i32> %ext, <3 x i32> addrspace(3)* %out
	▲ Show 20 Lines • Show All 698 Lines • Show Last 20 Lines

test/CodeGen/X86/load-local-v3i1.ll

	Show All 19 Lines

	define void @masked_store4_v3(<3 x i32>, i32 addrspace(1)*, <3 x i1>) {			define void @masked_store4_v3(<3 x i32>, i32 addrspace(1)*, <3 x i1>) {
	entry:			entry:
	%3 = bitcast i32 addrspace(1)* %1 to <3 x i32> addrspace(1)*			%3 = bitcast i32 addrspace(1)* %1 to <3 x i32> addrspace(1)*
	call void @llvm.masked.store.v3i32.p1v3i32(<3 x i32> %0, <3 x i32> addrspace(1)* %3, i32 4, <3 x i1> %2)			call void @llvm.masked.store.v3i32.p1v3i32(<3 x i32> %0, <3 x i32> addrspace(1)* %3, i32 4, <3 x i1> %2)
	ret void			ret void
	}			}

	define void @local_load_v3i1(i32 addrspace(1)* %out, i32 addrspace(1)* %in, <3 x i1>* %predicate_ptr) {			define void @local_load_v3i1(i32 addrspace(1)* %out, i32 addrspace(1)* %in, <3 x i1>* %predicate_ptr) {
				craig.topperUnsubmitted Done Reply Inline Actions Can you add 'nounwind' to this to drop the .cfi lines craig.topper: Can you add 'nounwind' to this to drop the .cfi lines
	; CHECK-LABEL: local_load_v3i1:			; CHECK-LABEL: local_load_v3i1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: pushq %rbp			; CHECK-NEXT: pushq %rbp
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: pushq %r14			; CHECK-NEXT: pushq %r15
	; CHECK-NEXT: .cfi_def_cfa_offset 24			; CHECK-NEXT: .cfi_def_cfa_offset 24
	; CHECK-NEXT: pushq %rbx			; CHECK-NEXT: pushq %r14
	; CHECK-NEXT: .cfi_def_cfa_offset 32			; CHECK-NEXT: .cfi_def_cfa_offset 32
	; CHECK-NEXT: .cfi_offset %rbx, -32			; CHECK-NEXT: pushq %rbx
	; CHECK-NEXT: .cfi_offset %r14, -24			; CHECK-NEXT: .cfi_def_cfa_offset 40
				; CHECK-NEXT: pushq %rax
				; CHECK-NEXT: .cfi_def_cfa_offset 48
				; CHECK-NEXT: .cfi_offset %rbx, -40
				; CHECK-NEXT: .cfi_offset %r14, -32
				; CHECK-NEXT: .cfi_offset %r15, -24
	; CHECK-NEXT: .cfi_offset %rbp, -16			; CHECK-NEXT: .cfi_offset %rbp, -16
	; CHECK-NEXT: movq %rdi, %r14			; CHECK-NEXT: movq %rdi, %r14
	; CHECK-NEXT: movb (%rdx), %al			; CHECK-NEXT: movzbl (%rdx), %ebp
	; CHECK-NEXT: movzbl %al, %ebp
	; CHECK-NEXT: movl %ebp, %eax			; CHECK-NEXT: movl %ebp, %eax
	; CHECK-NEXT: negb %al			; CHECK-NEXT: shrl %eax
	; CHECK-NEXT: movzbl %al, %ebx			; CHECK-NEXT: andl $1, %eax
				; CHECK-NEXT: movl %ebp, %ecx
				; CHECK-NEXT: andl $1, %ecx
				; CHECK-NEXT: movd %ecx, %xmm0
				; CHECK-NEXT: pinsrd $1, %eax, %xmm0
				; CHECK-NEXT: shrl $2, %ebp
				; CHECK-NEXT: andl $1, %ebp
				; CHECK-NEXT: pinsrd $2, %ebp, %xmm0
				; CHECK-NEXT: movd %xmm0, %ebx
				; CHECK-NEXT: pextrd $1, %xmm0, %r15d
	; CHECK-NEXT: movq %rsi, %rdi			; CHECK-NEXT: movq %rsi, %rdi
	; CHECK-NEXT: movl %ebp, %esi			; CHECK-NEXT: movl %ebx, %esi
	; CHECK-NEXT: movl %ebx, %edx			; CHECK-NEXT: movl %r15d, %edx
	; CHECK-NEXT: movl %ebx, %ecx			; CHECK-NEXT: movl %ebp, %ecx
	; CHECK-NEXT: callq masked_load_v3			; CHECK-NEXT: callq masked_load_v3
	; CHECK-NEXT: movq %r14, %rdi			; CHECK-NEXT: movq %r14, %rdi
	; CHECK-NEXT: movl %ebp, %esi			; CHECK-NEXT: movl %ebx, %esi
	; CHECK-NEXT: movl %ebx, %edx			; CHECK-NEXT: movl %r15d, %edx
	; CHECK-NEXT: movl %ebx, %ecx			; CHECK-NEXT: movl %ebp, %ecx
	; CHECK-NEXT: callq masked_store4_v3			; CHECK-NEXT: callq masked_store4_v3
				; CHECK-NEXT: addq $8, %rsp
				; CHECK-NEXT: .cfi_def_cfa_offset 40
	; CHECK-NEXT: popq %rbx			; CHECK-NEXT: popq %rbx
	; CHECK-NEXT: .cfi_def_cfa_offset 24			; CHECK-NEXT: .cfi_def_cfa_offset 32
	; CHECK-NEXT: popq %r14			; CHECK-NEXT: popq %r14
				; CHECK-NEXT: .cfi_def_cfa_offset 24
				; CHECK-NEXT: popq %r15
	; CHECK-NEXT: .cfi_def_cfa_offset 16			; CHECK-NEXT: .cfi_def_cfa_offset 16
	; CHECK-NEXT: popq %rbp			; CHECK-NEXT: popq %rbp
	; CHECK-NEXT: .cfi_def_cfa_offset 8			; CHECK-NEXT: .cfi_def_cfa_offset 8
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%predicate = load <3 x i1>, <3 x i1>* %predicate_ptr			%predicate = load <3 x i1>, <3 x i1>* %predicate_ptr
	%load1 = call <3 x i32> @masked_load_v3(i32 addrspace(1)* %in, <3 x i1> %predicate)			%load1 = call <3 x i32> @masked_load_v3(i32 addrspace(1)* %in, <3 x i1> %predicate)
	call void @masked_store4_v3(<3 x i32> %load1, i32 addrspace(1)* %out, <3 x i1> %predicate)			call void @masked_store4_v3(<3 x i32> %load1, i32 addrspace(1)* %out, <3 x i1> %predicate)
	ret void			ret void
	}			}

test/CodeGen/X86/widen_arith-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 -post-RA-scheduler=true \| FileCheck %s			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 -post-RA-scheduler=true \| FileCheck %s

	; Widen a v3i16 to v8i16 to do a vector add			; Widen a v3i16 to v8i16 to do a vector add

	@.str = internal constant [4 x i8] c"%d \00"			@.str = internal constant [4 x i8] c"%d \00"
	@.str1 = internal constant [2 x i8] c"\0A\00"			@.str1 = internal constant [2 x i8] c"\0A\00"

	define void @update(<3 x i16>* %dst, <3 x i16>* %src, i32 %n) nounwind {			define void @update(<3 x i16>* %dst, <3 x i16>* %src, i32 %n) nounwind {
	; CHECK-LABEL: update:			; CHECK-LABEL: update:
	; CHECK: # %bb.0: # %entry			; CHECK: # %bb.0: # %entry
	; CHECK-NEXT: pushl %ebp			; CHECK-NEXT: pushl %ebp
	; CHECK-NEXT: movl %esp, %ebp			; CHECK-NEXT: movl %esp, %ebp
	; CHECK-NEXT: andl $-8, %esp			; CHECK-NEXT: andl $-8, %esp
	; CHECK-NEXT: subl $40, %esp			; CHECK-NEXT: subl $32, %esp
	; CHECK-NEXT: movl {{\.LCPI.*}}, %eax			; CHECK-NEXT: movl {{\.LCPI.*}}, %eax
	; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; CHECK-NEXT: movdqa {{.*#+}} xmm1 = [0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; CHECK-NEXT: pcmpeqd %xmm0, %xmm0			; CHECK-NEXT: pcmpeqd %xmm0, %xmm0
	; CHECK-NEXT: movw $1, {{[0-9]+}}(%esp)			; CHECK-NEXT: movw $1, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl $0, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl $0, {{[0-9]+}}(%esp)
	; CHECK-NEXT: movl %eax, {{[0-9]+}}(%esp)			; CHECK-NEXT: movl %eax, {{[0-9]+}}(%esp)
	; CHECK-NEXT: jmp .LBB0_1			; CHECK-NEXT: jmp .LBB0_1
	; CHECK-NEXT: .p2align 4, 0x90			; CHECK-NEXT: .p2align 4, 0x90
	; CHECK-NEXT: .LBB0_2: # %forbody			; CHECK-NEXT: .LBB0_2: # %forbody
	; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1			; CHECK-NEXT: # in Loop: Header=BB0_1 Depth=1
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	; CHECK-NEXT: movl 12(%ebp), %edx			; CHECK-NEXT: movl 12(%ebp), %edx
	; CHECK-NEXT: movl 8(%ebp), %ecx			; CHECK-NEXT: movl 8(%ebp), %ecx
	; CHECK-NEXT: movd {{.*#+}} xmm2 = mem[0],zero,zero,zero			; CHECK-NEXT: pmovzxwd {{.*#+}} xmm2 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; CHECK-NEXT: pmovzxwd {{.*#+}} xmm2 = xmm2[0],zero,xmm2[1],zero,xmm2[2],zero,xmm2[3],zero
	; CHECK-NEXT: pinsrd $2, 4(%edx,%eax,8), %xmm2
	; CHECK-NEXT: psubd %xmm0, %xmm2			; CHECK-NEXT: psubd %xmm0, %xmm2
	; CHECK-NEXT: pextrw $4, %xmm2, 4(%ecx,%eax,8)			; CHECK-NEXT: pextrw $4, %xmm2, 4(%ecx,%eax,8)
	; CHECK-NEXT: pshufb %xmm1, %xmm2			; CHECK-NEXT: pshufb %xmm1, %xmm2
	; CHECK-NEXT: movd %xmm2, (%ecx,%eax,8)			; CHECK-NEXT: movd %xmm2, (%ecx,%eax,8)
	; CHECK-NEXT: incl {{[0-9]+}}(%esp)			; CHECK-NEXT: incl {{[0-9]+}}(%esp)
	; CHECK-NEXT: .LBB0_1: # %forcond			; CHECK-NEXT: .LBB0_1: # %forcond
	; CHECK-NEXT: # =>This Inner Loop Header: Depth=1			; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %eax
	▲ Show 20 Lines • Show All 47 Lines • Show Last 20 Lines

test/CodeGen/X86/widen_cast-2.ll

	Show All 16 Lines
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %ecx			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; CHECK-NEXT: shll $5, %eax			; CHECK-NEXT: shll $5, %eax
	; CHECK-NEXT: movl {{[0-9]+}}(%esp), %edx			; CHECK-NEXT: movl {{[0-9]+}}(%esp), %edx
	; CHECK-NEXT: movdqa (%edx,%eax), %xmm1			; CHECK-NEXT: movdqa (%edx,%eax), %xmm1
	; CHECK-NEXT: movdqa 16(%edx,%eax), %xmm2			; CHECK-NEXT: movdqa 16(%edx,%eax), %xmm2
	; CHECK-NEXT: psubw %xmm0, %xmm1			; CHECK-NEXT: psubw %xmm0, %xmm1
	; CHECK-NEXT: psubw %xmm0, %xmm2			; CHECK-NEXT: psubw %xmm0, %xmm2
	; CHECK-NEXT: pextrd $2, %xmm2, 24(%ecx,%eax)			; CHECK-NEXT: pextrd $2, %xmm2, 24(%ecx,%eax)
	; CHECK-NEXT: pextrd $1, %xmm2, 20(%ecx,%eax)			; CHECK-NEXT: movq %xmm2, 16(%ecx,%eax)
	; CHECK-NEXT: movd %xmm2, 16(%ecx,%eax)
	; CHECK-NEXT: movdqa %xmm1, (%ecx,%eax)			; CHECK-NEXT: movdqa %xmm1, (%ecx,%eax)
	; CHECK-NEXT: incl (%esp)			; CHECK-NEXT: incl (%esp)
	; CHECK-NEXT: cmpl $3, (%esp)			; CHECK-NEXT: cmpl $3, (%esp)
	; CHECK-NEXT: jle .LBB0_2			; CHECK-NEXT: jle .LBB0_2
	; CHECK-NEXT: .LBB0_3: # %afterfor			; CHECK-NEXT: .LBB0_3: # %afterfor
	; CHECK-NEXT: popl %eax			; CHECK-NEXT: popl %eax
	; CHECK-NEXT: retl			; CHECK-NEXT: retl
	entry:			entry:
	Show All 35 Lines

test/CodeGen/X86/widen_cast-3.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86			; RUN: llc < %s -mtriple=i686-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X86
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2 \| FileCheck %s --check-prefix=X64

	; bitcast v12i8 to v3i32			; bitcast v12i8 to v3i32

	define void @convert(<12 x i8>* %dst.addr, <3 x i32> %src) nounwind {			define void @convert(<12 x i8>* %dst.addr, <3 x i32> %src) nounwind {
	; X86-LABEL: convert:			; X86-LABEL: convert:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: pcmpeqd %xmm1, %xmm1			; X86-NEXT: pcmpeqd %xmm1, %xmm1
	; X86-NEXT: psubd %xmm1, %xmm0			; X86-NEXT: psubd %xmm1, %xmm0
	; X86-NEXT: pextrd $2, %xmm0, 8(%eax)			; X86-NEXT: pextrd $2, %xmm0, 8(%eax)
	; X86-NEXT: pextrd $1, %xmm0, 4(%eax)			; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: movd %xmm0, (%eax)
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: convert:			; X64-LABEL: convert:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: pcmpeqd %xmm1, %xmm1			; X64-NEXT: pcmpeqd %xmm1, %xmm1
	; X64-NEXT: psubd %xmm1, %xmm0			; X64-NEXT: psubd %xmm1, %xmm0
	; X64-NEXT: pextrd $2, %xmm0, 8(%rdi)			; X64-NEXT: pextrd $2, %xmm0, 8(%rdi)
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %xmm0, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%add = add <3 x i32> %src, < i32 1, i32 1, i32 1 >			%add = add <3 x i32> %src, < i32 1, i32 1, i32 1 >
	%conv = bitcast <3 x i32> %add to <12 x i8>			%conv = bitcast <3 x i32> %add to <12 x i8>
	store <12 x i8> %conv, <12 x i8>* %dst.addr			store <12 x i8> %conv, <12 x i8>* %dst.addr
	ret void			ret void
	}			}

test/CodeGen/X86/widen_load-2.ll

	Show All 9 Lines
	; X86-LABEL: add3i32:			; X86-LABEL: add3i32:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movdqa (%edx), %xmm0			; X86-NEXT: movdqa (%edx), %xmm0
	; X86-NEXT: paddd (%ecx), %xmm0			; X86-NEXT: paddd (%ecx), %xmm0
	; X86-NEXT: pextrd $2, %xmm0, 8(%eax)			; X86-NEXT: pextrd $2, %xmm0, 8(%eax)
	; X86-NEXT: pextrd $1, %xmm0, 4(%eax)			; X86-NEXT: movq %xmm0, (%eax)
	; X86-NEXT: movd %xmm0, (%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: add3i32:			; X64-LABEL: add3i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: movdqa (%rsi), %xmm0			; X64-NEXT: movdqa (%rsi), %xmm0
	; X64-NEXT: paddd (%rdx), %xmm0			; X64-NEXT: paddd (%rdx), %xmm0
	; X64-NEXT: pextrd $2, %xmm0, 8(%rdi)			; X64-NEXT: pextrd $2, %xmm0, 8(%rdi)
	; X64-NEXT: movq %xmm0, (%rdi)			; X64-NEXT: movq %xmm0, (%rdi)
	; X64-NEXT: retq			; X64-NEXT: retq
	%a = load %i32vec3, %i32vec3* %ap, align 16			%a = load %i32vec3, %i32vec3* %ap, align 16
	%b = load %i32vec3, %i32vec3* %bp, align 16			%b = load %i32vec3, %i32vec3* %bp, align 16
	%x = add %i32vec3 %a, %b			%x = add %i32vec3 %a, %b
	store %i32vec3 %x, %i32vec3* %ret, align 16			store %i32vec3 %x, %i32vec3* %ret, align 16
	ret void			ret void
	}			}

	define void @add3i32_2(%i32vec3* sret %ret, %i32vec3* %ap, %i32vec3* %bp) {			define void @add3i32_2(%i32vec3* sret %ret, %i32vec3* %ap, %i32vec3* %bp) {
	; X86-LABEL: add3i32_2:			; X86-LABEL: add3i32_2:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X86-NEXT: pinsrd $1, 4(%edx), %xmm0
	; X86-NEXT: pinsrd $2, 8(%edx), %xmm0			; X86-NEXT: pinsrd $2, 8(%edx), %xmm0
	; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero			; X86-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	; X86-NEXT: pinsrd $1, 4(%ecx), %xmm1
	; X86-NEXT: pinsrd $2, 8(%ecx), %xmm1			; X86-NEXT: pinsrd $2, 8(%ecx), %xmm1
	; X86-NEXT: paddd %xmm0, %xmm1			; X86-NEXT: paddd %xmm0, %xmm1
				; X86-NEXT: movq %xmm1, (%eax)
	; X86-NEXT: pextrd $2, %xmm1, 8(%eax)			; X86-NEXT: pextrd $2, %xmm1, 8(%eax)
	; X86-NEXT: pextrd $1, %xmm1, 4(%eax)
	; X86-NEXT: movd %xmm1, (%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: add3i32_2:			; X64-LABEL: add3i32_2:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm0 = mem[0],zero
	; X64-NEXT: pinsrd $2, 8(%rsi), %xmm0			; X64-NEXT: pinsrd $2, 8(%rsi), %xmm0
	; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero			; X64-NEXT: movq {{.*#+}} xmm1 = mem[0],zero
	Show All 16 Lines
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movdqa (%edx), %xmm0			; X86-NEXT: movdqa (%edx), %xmm0
	; X86-NEXT: movdqa 16(%edx), %xmm1			; X86-NEXT: movdqa 16(%edx), %xmm1
	; X86-NEXT: paddd (%ecx), %xmm0			; X86-NEXT: paddd (%ecx), %xmm0
	; X86-NEXT: paddd 16(%ecx), %xmm1			; X86-NEXT: paddd 16(%ecx), %xmm1
	; X86-NEXT: pextrd $2, %xmm1, 24(%eax)			; X86-NEXT: pextrd $2, %xmm1, 24(%eax)
	; X86-NEXT: pextrd $1, %xmm1, 20(%eax)			; X86-NEXT: movq %xmm1, 16(%eax)
	; X86-NEXT: movd %xmm1, 16(%eax)
	; X86-NEXT: movdqa %xmm0, (%eax)			; X86-NEXT: movdqa %xmm0, (%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: add7i32:			; X64-LABEL: add7i32:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: movdqa (%rsi), %xmm0			; X64-NEXT: movdqa (%rsi), %xmm0
	; X64-NEXT: movdqa 16(%rsi), %xmm1			; X64-NEXT: movdqa 16(%rsi), %xmm1
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines

	%i16vec3 = type <3 x i16>			%i16vec3 = type <3 x i16>
	define void @add3i16(%i16vec3* nocapture sret %ret, %i16vec3* %ap, %i16vec3* %bp) nounwind {			define void @add3i16(%i16vec3* nocapture sret %ret, %i16vec3* %ap, %i16vec3* %bp) nounwind {
	; X86-LABEL: add3i16:			; X86-LABEL: add3i16:
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: pushl %ebp			; X86-NEXT: pushl %ebp
	; X86-NEXT: movl %esp, %ebp			; X86-NEXT: movl %esp, %ebp
	; X86-NEXT: andl $-8, %esp			; X86-NEXT: andl $-8, %esp
	; X86-NEXT: subl $24, %esp			; X86-NEXT: subl $8, %esp
	; X86-NEXT: movl 8(%ebp), %eax			; X86-NEXT: movl 8(%ebp), %eax
	; X86-NEXT: movl 16(%ebp), %ecx			; X86-NEXT: movl 16(%ebp), %ecx
	; X86-NEXT: movl 12(%ebp), %edx			; X86-NEXT: movl 12(%ebp), %edx
	; X86-NEXT: movd {{.*#+}} xmm0 = mem[0],zero,zero,zero			; X86-NEXT: pmovzxwd {{.*#+}} xmm0 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-NEXT: pmovzxwd {{.*#+}} xmm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero			; X86-NEXT: pmovzxwd {{.*#+}} xmm1 = mem[0],zero,mem[1],zero,mem[2],zero,mem[3],zero
	; X86-NEXT: pinsrd $2, 4(%edx), %xmm0
	; X86-NEXT: movd {{.*#+}} xmm1 = mem[0],zero,zero,zero
	; X86-NEXT: pmovzxwd {{.*#+}} xmm1 = xmm1[0],zero,xmm1[1],zero,xmm1[2],zero,xmm1[3],zero
	; X86-NEXT: pinsrd $2, 4(%ecx), %xmm1
	; X86-NEXT: paddd %xmm0, %xmm1			; X86-NEXT: paddd %xmm0, %xmm1
	; X86-NEXT: pextrw $4, %xmm1, 4(%eax)			; X86-NEXT: pextrw $4, %xmm1, 4(%eax)
	; X86-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]			; X86-NEXT: pshufb {{.*#+}} xmm1 = xmm1[0,1,4,5,8,9,12,13,8,9,12,13,12,13,14,15]
	; X86-NEXT: movd %xmm1, (%eax)			; X86-NEXT: movd %xmm1, (%eax)
	; X86-NEXT: movl %ebp, %esp			; X86-NEXT: movl %ebp, %esp
	; X86-NEXT: popl %ebp			; X86-NEXT: popl %ebp
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	▲ Show 20 Lines • Show All 48 Lines • ▼ Show 20 Lines
	; X86: # %bb.0:			; X86: # %bb.0:
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax			; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movdqa (%edx), %xmm0			; X86-NEXT: movdqa (%edx), %xmm0
	; X86-NEXT: movdqa 16(%edx), %xmm1			; X86-NEXT: movdqa 16(%edx), %xmm1
	; X86-NEXT: paddw (%ecx), %xmm0			; X86-NEXT: paddw (%ecx), %xmm0
	; X86-NEXT: paddw 16(%ecx), %xmm1			; X86-NEXT: paddw 16(%ecx), %xmm1
	; X86-NEXT: pextrd $1, %xmm1, 20(%eax)			; X86-NEXT: movq %xmm1, 16(%eax)
	; X86-NEXT: movd %xmm1, 16(%eax)
	; X86-NEXT: movdqa %xmm0, (%eax)			; X86-NEXT: movdqa %xmm0, (%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: add12i16:			; X64-LABEL: add12i16:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: movdqa (%rsi), %xmm0			; X64-NEXT: movdqa (%rsi), %xmm0
	; X64-NEXT: movdqa 16(%rsi), %xmm1			; X64-NEXT: movdqa 16(%rsi), %xmm1
	▲ Show 20 Lines • Show All 91 Lines • ▼ Show 20 Lines
	; X86-NEXT: movl {{[0-9]+}}(%esp), %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: movdqa (%edx), %xmm0			; X86-NEXT: movdqa (%edx), %xmm0
	; X86-NEXT: movdqa 16(%edx), %xmm1			; X86-NEXT: movdqa 16(%edx), %xmm1
	; X86-NEXT: paddb (%ecx), %xmm0			; X86-NEXT: paddb (%ecx), %xmm0
	; X86-NEXT: paddb 16(%ecx), %xmm1			; X86-NEXT: paddb 16(%ecx), %xmm1
	; X86-NEXT: pextrb $14, %xmm1, 30(%eax)			; X86-NEXT: pextrb $14, %xmm1, 30(%eax)
	; X86-NEXT: pextrw $6, %xmm1, 28(%eax)			; X86-NEXT: pextrw $6, %xmm1, 28(%eax)
	; X86-NEXT: pextrd $2, %xmm1, 24(%eax)			; X86-NEXT: pextrd $2, %xmm1, 24(%eax)
	; X86-NEXT: pextrd $1, %xmm1, 20(%eax)			; X86-NEXT: movq %xmm1, 16(%eax)
	; X86-NEXT: movd %xmm1, 16(%eax)
	; X86-NEXT: movdqa %xmm0, (%eax)			; X86-NEXT: movdqa %xmm0, (%eax)
	; X86-NEXT: retl $4			; X86-NEXT: retl $4
	;			;
	; X64-LABEL: add31i8:			; X64-LABEL: add31i8:
	; X64: # %bb.0:			; X64: # %bb.0:
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: movdqa (%rsi), %xmm0			; X64-NEXT: movdqa (%rsi), %xmm0
	; X64-NEXT: movdqa 16(%rsi), %xmm1			; X64-NEXT: movdqa 16(%rsi), %xmm1
	▲ Show 20 Lines • Show All 68 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[LegalizeVectorTypes] Allow single loads and stores for more short vectors
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 181601

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

test/CodeGen/AMDGPU/load-constant-i16.ll

test/CodeGen/AMDGPU/load-global-i16.ll

test/CodeGen/AMDGPU/load-local-i16.ll

test/CodeGen/X86/load-local-v3i1.ll

test/CodeGen/X86/widen_arith-3.ll

test/CodeGen/X86/widen_cast-2.ll

test/CodeGen/X86/widen_cast-3.ll

test/CodeGen/X86/widen_load-2.ll

This is an archive of the discontinued LLVM Phabricator instance.

[LegalizeVectorTypes] Allow single loads and stores for more short vectorsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 181601

lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

test/CodeGen/AMDGPU/load-constant-i16.ll

test/CodeGen/AMDGPU/load-global-i16.ll

test/CodeGen/AMDGPU/load-local-i16.ll

test/CodeGen/X86/load-local-v3i1.ll

test/CodeGen/X86/widen_arith-3.ll

test/CodeGen/X86/widen_cast-2.ll

test/CodeGen/X86/widen_cast-3.ll

test/CodeGen/X86/widen_load-2.ll

[LegalizeVectorTypes] Allow single loads and stores for more short vectors
ClosedPublic