This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix for vector element insertion
ClosedPublic

Authored by timcorringham on Feb 1 2019, 7:05 AM.

Download Raw Diff

Details

Reviewers

arsenm
nhaehnle

Commits

rGfa3e4e5b53a8: [AMDGPU] Fix for vector element insertion
rL352885: [AMDGPU] Fix for vector element insertion

Summary

Incorrect code was generated when lowering insertelement operations
for vectors with 8 or 16 bit elements. The value being inserted was
not adjusted for the position of the element within the 32 bit word
and so only the low element within each 32 bit word could receive
the intended value.

Fixed by simply replicating the value to each element of a
congruent vector before the mask and or operation used to
update the intended element.

A number of affected LIT tests have been updated appropriately.

before the mask & or into the intended

Diff Detail

Repository

rL LLVM

Build Status

Buildable 27612
Build 27611: arc lint + arc unit

Event Timeline

timcorringham created this revision.Feb 1 2019, 7:05 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 1 2019, 7:05 AM

Herald added subscribers: t-tye, tpr, dstuttard and 6 others. · View Herald Transcript

Harbormaster completed remote builds in B27612: Diff 184747.Feb 1 2019, 7:05 AM

Herald added a subscriber: llvm-commits. · View Herald TranscriptFeb 1 2019, 7:05 AM

timcorringham added reviewers: arsenm, nhaehnle.Feb 1 2019, 7:19 AM

LGTM with a more descriptive comment

lib/Target/AMDGPU/SIISelLowering.cpp
4374	Can you elaborate more in this comment?

This revision is now accepted and ready to land.Feb 1 2019, 7:19 AM

Closed by commit rL352885: [AMDGPU] Fix for vector element insertion (authored by timcorringham). · Explain WhyFeb 1 2019, 8:51 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

SIISelLowering.cpp

9 lines

test/

CodeGen/

AMDGPU/

fcanonicalize-elimination.ll

2 lines

insert_vector_dynelt.ll

19 lines

insert_vector_elt.ll

20 lines

insert_vector_elt.v2i16.ll

31 lines

insert_vector_elt.v2i16.subtest-nosaddr.ll

2 lines

insert_vector_elt.v2i16.subtest-saddr.ll

2 lines

Diff 184747

lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,363 Lines • ▼ Show 20 Lines	SDValue SITargetLowering::lowerINSERT_VECTOR_ELT(SDValue Op,
}		}

if (isa<ConstantSDNode>(Idx))		if (isa<ConstantSDNode>(Idx))
return SDValue();		return SDValue();

MVT IntVT = MVT::getIntegerVT(VecSize);		MVT IntVT = MVT::getIntegerVT(VecSize);

// Avoid stack access for dynamic indexing.		// Avoid stack access for dynamic indexing.
SDValue Val = InsVal;
if (InsVal.getValueType() == MVT::f16)
Val = DAG.getNode(ISD::BITCAST, SL, MVT::i16, InsVal);

// v_bfi_b32 (v_bfm_b32 16, (shl idx, 16)), val, vec		// v_bfi_b32 (v_bfm_b32 16, (shl idx, 16)), val, vec
SDValue ExtVal = DAG.getNode(ISD::ZERO_EXTEND, SL, IntVT, Val);
		// Duplicate the value so that it doesn't matter which element is written
		arsenmUnsubmitted Not Done Reply Inline Actions Can you elaborate more in this comment? arsenm: Can you elaborate more in this comment?
		SDValue ExtVal = DAG.getNode(ISD::BITCAST, SL, IntVT,
		DAG.getSplatBuildVector(VecVT, SL, InsVal));

assert(isPowerOf2_32(EltSize));		assert(isPowerOf2_32(EltSize));
SDValue ScaleFactor = DAG.getConstant(Log2_32(EltSize), SL, MVT::i32);		SDValue ScaleFactor = DAG.getConstant(Log2_32(EltSize), SL, MVT::i32);

// Convert vector index to bit-index.		// Convert vector index to bit-index.
SDValue ScaledIdx = DAG.getNode(ISD::SHL, SL, MVT::i32, Idx, ScaleFactor);		SDValue ScaledIdx = DAG.getNode(ISD::SHL, SL, MVT::i32, Idx, ScaleFactor);

SDValue BCVec = DAG.getNode(ISD::BITCAST, SL, IntVT, Vec);		SDValue BCVec = DAG.getNode(ISD::BITCAST, SL, IntVT, Vec);
▲ Show 20 Lines • Show All 5,442 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

	Show First 20 Lines • Show All 808 Lines • ▼ Show 20 Lines
	define half @v_test_canonicalize_extract_element_v2f16(<2 x half> %vec) {			define half @v_test_canonicalize_extract_element_v2f16(<2 x half> %vec) {
	%vec.op = fmul <2 x half> %vec, <half 4.0, half 4.0>			%vec.op = fmul <2 x half> %vec, <half 4.0, half 4.0>
	%elt = extractelement <2 x half> %vec.op, i32 0			%elt = extractelement <2 x half> %vec.op, i32 0
	%canonicalized = call half @llvm.canonicalize.f16(half %elt)			%canonicalized = call half @llvm.canonicalize.f16(half %elt)
	ret half %canonicalized			ret half %canonicalized
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_insertelement_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_insertelement_v2f16:
	; GFX9: v_pk_mul_f16
	; GFX9: v_mul_f16_e32			; GFX9: v_mul_f16_e32
				; GFX9: v_pk_mul_f16
	; GFX9-NOT: v_max			; GFX9-NOT: v_max
	; GFX9-NOT: v_pk_max			; GFX9-NOT: v_pk_max
	define <2 x half> @v_test_canonicalize_insertelement_v2f16(<2 x half> %vec, half %val, i32 %idx) {			define <2 x half> @v_test_canonicalize_insertelement_v2f16(<2 x half> %vec, half %val, i32 %idx) {
	%vec.op = fmul <2 x half> %vec, <half 4.0, half 4.0>			%vec.op = fmul <2 x half> %vec, <half 4.0, half 4.0>
	%ins.op = fmul half %val, 8.0			%ins.op = fmul half %val, 8.0
	%ins = insertelement <2 x half> %vec.op, half %ins.op, i32 %idx			%ins = insertelement <2 x half> %vec.op, half %ins.op, i32 %idx
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %ins)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %ins)
	ret <2 x half> %canonicalized			ret <2 x half> %canonicalized
	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/insert_vector_dynelt.ll

Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
}		}

; GCN-LABEL: {{^}}half4_inselt:		; GCN-LABEL: {{^}}half4_inselt:
; GCN-NOT: v_cndmask_b32		; GCN-NOT: v_cndmask_b32
; GCN-NOT: v_movrel		; GCN-NOT: v_movrel
; GCN-NOT: buffer_		; GCN-NOT: buffer_
; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 4		; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 4
; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]		; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]
; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 0x3c00		; GCN: s_mov_b32 [[K:s[0-9]+]], 0x3c003c00
		; GCN: v_mov_b32_e32 [[V:v[0-9]+]], [[K]]
		; GCN: v_bfi_b32 v{{[0-9]+}}, s{{[0-9]+}}, [[V]], v{{[0-9]+}}
		; GCN: v_bfi_b32 v{{[0-9]+}}, s{{[0-9]+}}, [[V]], v{{[0-9]+}}
define amdgpu_kernel void @half4_inselt(<4 x half> addrspace(1)* %out, <4 x half> %vec, i32 %sel) {		define amdgpu_kernel void @half4_inselt(<4 x half> addrspace(1)* %out, <4 x half> %vec, i32 %sel) {
entry:		entry:
%v = insertelement <4 x half> %vec, half 1.000000e+00, i32 %sel		%v = insertelement <4 x half> %vec, half 1.000000e+00, i32 %sel
store <4 x half> %v, <4 x half> addrspace(1)* %out		store <4 x half> %v, <4 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}half2_inselt:		; GCN-LABEL: {{^}}half2_inselt:
Show All 39 Lines	entry:
store <8 x half> %v, <8 x half> addrspace(1)* %out		store <8 x half> %v, <8 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}short2_inselt:		; GCN-LABEL: {{^}}short2_inselt:
; GCN-NOT: v_cndmask_b32		; GCN-NOT: v_cndmask_b32
; GCN-NOT: v_movrel		; GCN-NOT: v_movrel
; GCN-NOT: buffer_		; GCN-NOT: buffer_
		; GCN: v_mov_b32_e32 [[K:v[0-9]+]], 0x10001
; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 4		; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 4
; GCN: s_lshl_b32 [[V:s[0-9]+]], 0xffff, [[SEL]]		; GCN: s_lshl_b32 [[V:s[0-9]+]], 0xffff, [[SEL]]
; GCN: v_bfi_b32 v{{[0-9]+}}, [[V]], 1, v{{[0-9]+}}		; GCN: v_bfi_b32 v{{[0-9]+}}, [[V]], [[K]], v{{[0-9]+}}
define amdgpu_kernel void @short2_inselt(<2 x i16> addrspace(1)* %out, <2 x i16> %vec, i32 %sel) {		define amdgpu_kernel void @short2_inselt(<2 x i16> addrspace(1)* %out, <2 x i16> %vec, i32 %sel) {
entry:		entry:
%v = insertelement <2 x i16> %vec, i16 1, i32 %sel		%v = insertelement <2 x i16> %vec, i16 1, i32 %sel
store <2 x i16> %v, <2 x i16> addrspace(1)* %out		store <2 x i16> %v, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}short4_inselt:		; GCN-LABEL: {{^}}short4_inselt:
; GCN-NOT: v_cndmask_b32		; GCN-NOT: v_cndmask_b32
; GCN-NOT: v_movrel		; GCN-NOT: v_movrel
; GCN-NOT: buffer_		; GCN-NOT: buffer_
; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 4		; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 4
; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]		; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]
; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 1		; GCN: s_mov_b32 [[K:s[0-9]+]], 0x10001
		; GCN: v_mov_b32_e32 [[V:v[0-9]+]], [[K]]
		; GCN: v_bfi_b32 v{{[0-9]+}}, s{{[0-9]+}}, [[V]], v{{[0-9]+}}
		; GCN: v_bfi_b32 v{{[0-9]+}}, s{{[0-9]+}}, [[V]], v{{[0-9]+}}
define amdgpu_kernel void @short4_inselt(<4 x i16> addrspace(1)* %out, <4 x i16> %vec, i32 %sel) {		define amdgpu_kernel void @short4_inselt(<4 x i16> addrspace(1)* %out, <4 x i16> %vec, i32 %sel) {
entry:		entry:
%v = insertelement <4 x i16> %vec, i16 1, i32 %sel		%v = insertelement <4 x i16> %vec, i16 1, i32 %sel
store <4 x i16> %v, <4 x i16> addrspace(1)* %out		store <4 x i16> %v, <4 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}byte8_inselt:		; GCN-LABEL: {{^}}byte8_inselt:
; GCN-NOT: v_movrel		; GCN-NOT: v_movrel
; GCN-NOT: buffer_		; GCN-NOT: buffer_
; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 3		; GCN: s_lshl_b32 [[SEL:s[0-9]+]], s{{[0-9]+}}, 3
; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]		; GCN: s_lshl_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SEL]]
; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, 1		; GCN: s_mov_b32 [[K:s[0-9]+]], 0x1010101
		; GCN: s_and_b32 s3, s1, [[K]]
		; GCN: s_and_b32 s{{[0-9]+}}, s{{[0-9]+}}, [[K]]
		; GCN: s_andn2_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]
		; GCN: s_or_b64 s[{{[0-9:]+}}], s[{{[0-9:]+}}], s[{{[0-9:]+}}]
define amdgpu_kernel void @byte8_inselt(<8 x i8> addrspace(1)* %out, <8 x i8> %vec, i32 %sel) {		define amdgpu_kernel void @byte8_inselt(<8 x i8> addrspace(1)* %out, <8 x i8> %vec, i32 %sel) {
entry:		entry:
%v = insertelement <8 x i8> %vec, i8 1, i32 %sel		%v = insertelement <8 x i8> %vec, i8 1, i32 %sel
store <8 x i8> %v, <8 x i8> addrspace(1)* %out		store <8 x i8> %v, <8 x i8> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}byte16_inselt:		; GCN-LABEL: {{^}}byte16_inselt:
▲ Show 20 Lines • Show All 104 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/insert_vector_elt.ll

	Show First 20 Lines • Show All 236 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}dynamic_insertelement_v2i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v2i8:
	; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28			; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28
	; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI-NOT: _load			; VI-NOT: _load
	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: v_lshlrev_b16_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], -1			; VI: v_lshlrev_b16_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], -1
	; VI: v_and_b32_e32 [[INSERT:v[0-9]+]], 5, [[MASK]]			; VI: v_and_b32_e32 [[INSERT:v[0-9]+]], 0x505, [[MASK]]
	; VI: v_xor_b32_e32 [[NOT_MASK:v[0-9]+]], -1, [[MASK]]			; VI: v_xor_b32_e32 [[NOT_MASK:v[0-9]+]], -1, [[MASK]]
	; VI: v_and_b32_e32 [[AND_NOT_MASK:v[0-9]+]], [[LOAD]], [[NOT_MASK]]			; VI: v_and_b32_e32 [[AND_NOT_MASK:v[0-9]+]], [[LOAD]], [[NOT_MASK]]
	; VI: v_or_b32_e32 [[OR:v[0-9]+]], [[INSERT]], [[AND_NOT_MASK]]			; VI: v_or_b32_e32 [[OR:v[0-9]+]], [[INSERT]], [[AND_NOT_MASK]]
	; VI: buffer_store_short [[OR]]			; VI: buffer_store_short [[OR]]
	define amdgpu_kernel void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, [8 x i32], <2 x i8> %a, [8 x i32], i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v2i8(<2 x i8> addrspace(1)* %out, [8 x i32], <2 x i8> %a, [8 x i32], i32 %b) nounwind {
	%vecins = insertelement <2 x i8> %a, i8 5, i32 %b			%vecins = insertelement <2 x i8> %a, i8 5, i32 %b
	store <2 x i8> %vecins, <2 x i8> addrspace(1)* %out, align 8			store <2 x i8> %vecins, <2 x i8> addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; FIXME: post legalize i16 and i32 shifts aren't merged because of			; FIXME: post legalize i16 and i32 shifts aren't merged because of
	; isTypeDesirableForOp in SimplifyDemandedBits			; isTypeDesirableForOp in SimplifyDemandedBits

	; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v3i8:
	; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28			; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28
	; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI-NOT: _load			; VI-NOT: _load

				; VI: v_mov_b32_e32 [[VAL:v[0-9]+]], 0x5050505
	; VI: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]			; VI: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
	; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]			; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]
	; VI: s_andn2_b32 [[AND_NOT_MASK:s[0-9]+]], [[LOAD]], [[SHIFTED_MASK]]			; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SHIFTED_MASK]], [[VAL]], [[V_LOAD]]
	; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SHIFTED_MASK]], 5, [[V_LOAD]]			; VI: v_lshrrev_b32_e32 [[V_HI2:v[0-9]+]], 16, [[BFI]]
	; VI: s_lshr_b32 [[HI2:s[0-9]+]], [[AND_NOT_MASK]], 16

	; VI-DAG: buffer_store_short [[BFI]]			; VI: buffer_store_short [[BFI]]
	; VI-DAG: v_mov_b32_e32 [[V_HI2:v[0-9]+]], [[HI2]]
	; VI: buffer_store_byte [[V_HI2]]			; VI: buffer_store_byte [[V_HI2]]
	define amdgpu_kernel void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, [8 x i32], <3 x i8> %a, [8 x i32], i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v3i8(<3 x i8> addrspace(1)* %out, [8 x i32], <3 x i8> %a, [8 x i32], i32 %b) nounwind {
	%vecins = insertelement <3 x i8> %a, i8 5, i32 %b			%vecins = insertelement <3 x i8> %a, i8 5, i32 %b
	store <3 x i8> %vecins, <3 x i8> addrspace(1)* %out, align 4			store <3 x i8> %vecins, <3 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}dynamic_insertelement_v4i8:			; GCN-LABEL: {{^}}dynamic_insertelement_v4i8:
	; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28			; VI: s_load_dword [[LOAD:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x28
	; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c			; VI-NEXT: s_load_dword [[IDX:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x4c
	; VI-NOT: _load			; VI-NOT: _load

				; VI: v_mov_b32_e32 [[VAL:v[0-9]+]], 0x5050505
	; VI: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]			; VI: v_mov_b32_e32 [[V_LOAD:v[0-9]+]], [[LOAD]]
	; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]			; VI: s_lshl_b32 [[SHIFTED_MASK:s[0-9]+]], 0xffff, [[SCALED_IDX]]
	; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SHIFTED_MASK]], 5, [[V_LOAD]]			; VI: v_bfi_b32 [[BFI:v[0-9]+]], [[SHIFTED_MASK]], [[VAL]], [[V_LOAD]]
	; VI: buffer_store_dword [[BFI]]			; VI: buffer_store_dword [[BFI]]
	define amdgpu_kernel void @dynamic_insertelement_v4i8(<4 x i8> addrspace(1)* %out, [8 x i32], <4 x i8> %a, [8 x i32], i32 %b) nounwind {			define amdgpu_kernel void @dynamic_insertelement_v4i8(<4 x i8> addrspace(1)* %out, [8 x i32], <4 x i8> %a, [8 x i32], i32 %b) nounwind {
	%vecins = insertelement <4 x i8> %a, i8 5, i32 %b			%vecins = insertelement <4 x i8> %a, i8 5, i32 %b
	store <4 x i8> %vecins, <4 x i8> addrspace(1)* %out, align 4			store <4 x i8> %vecins, <4 x i8> addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_dynamic_insertelement_v8i8:			; GCN-LABEL: {{^}}s_dynamic_insertelement_v8i8:
	; VI-NOT: {{buffer\|flat\|global}}_load			; VI-NOT: {{buffer\|flat\|global}}_load
	; VI-DAG: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x0			; VI-DAG: s_load_dwordx4 s{{\[[0-9]+:[0-9]+\]}}, s[4:5], 0x0
	; VI-DAG: s_load_dword [[IDX:s[0-9]]], s[4:5], 0x10			; VI-DAG: s_load_dword [[IDX:s[0-9]]], s[4:5], 0x10
	; VI-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0{{$}}			; VI-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0{{$}}
	; VI-DAG: s_load_dwordx2 [[VEC:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0			; VI-DAG: s_load_dwordx2 [[VEC:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, 0x0

	; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3			; VI-DAG: s_lshl_b32 [[SCALED_IDX:s[0-9]+]], [[IDX]], 3
	; VI-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff			; VI-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff
	; VI: s_lshl_b64 s{{\[}}[[MASK_SHIFT_LO:[0-9]+]]:[[MASK_SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]			; VI: s_lshl_b64 s{{\[}}[[MASK_SHIFT_LO:[0-9]+]]:[[MASK_SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]
				; VI: s_mov_b32 [[VAL:s[0-9]+]], 0x5050505
				; VI: s_and_b32 s[[INS_HI:[0-9]+]], s[[MASK_SHIFT_HI]], [[VAL]]
				; VI: s_and_b32 s[[INS_LO:[0-9]+]], s[[MASK_SHIFT_LO]], [[VAL]]
	; VI: s_andn2_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[VEC]], s{{\[}}[[MASK_SHIFT_LO]]:[[MASK_SHIFT_HI]]{{\]}}			; VI: s_andn2_b64 [[AND:s\[[0-9]+:[0-9]+\]]], [[VEC]], s{{\[}}[[MASK_SHIFT_LO]]:[[MASK_SHIFT_HI]]{{\]}}
	; VI: s_and_b32 s[[INS:[0-9]+]], s[[MASK_SHIFT_LO]], 5			; VI: s_or_b64 s{{\[}}[[RESULT0:[0-9]+]]:[[RESULT1:[0-9]+]]{{\]}}, s{{\[}}[[INS_LO]]:[[INS_HI]]{{\]}}, [[AND]]
	; VI: s_or_b64 s{{\[}}[[RESULT0:[0-9]+]]:[[RESULT1:[0-9]+]]{{\]}}, s{{\[}}[[INS]]:[[MASK_HI]]{{\]}}, [[AND]]
	; VI: v_mov_b32_e32 v[[V_RESULT0:[0-9]+]], s[[RESULT0]]			; VI: v_mov_b32_e32 v[[V_RESULT0:[0-9]+]], s[[RESULT0]]
	; VI: v_mov_b32_e32 v[[V_RESULT1:[0-9]+]], s[[RESULT1]]			; VI: v_mov_b32_e32 v[[V_RESULT1:[0-9]+]], s[[RESULT1]]
	; VI: buffer_store_dwordx2 v{{\[}}[[V_RESULT0]]:[[V_RESULT1]]{{\]}}			; VI: buffer_store_dwordx2 v{{\[}}[[V_RESULT0]]:[[V_RESULT1]]{{\]}}
	define amdgpu_kernel void @s_dynamic_insertelement_v8i8(<8 x i8> addrspace(1)* %out, <8 x i8> addrspace(4)* %a.ptr, i32 %b) nounwind {			define amdgpu_kernel void @s_dynamic_insertelement_v8i8(<8 x i8> addrspace(1)* %out, <8 x i8> addrspace(4)* %a.ptr, i32 %b) nounwind {
	%a = load <8 x i8>, <8 x i8> addrspace(4)* %a.ptr, align 4			%a = load <8 x i8>, <8 x i8> addrspace(4)* %a.ptr, align 4
	%vecins = insertelement <8 x i8> %a, i8 5, i32 %b			%vecins = insertelement <8 x i8> %a, i8 5, i32 %b
	store <8 x i8> %vecins, <8 x i8> addrspace(1)* %out, align 8			store <8 x i8> %vecins, <8 x i8> addrspace(1)* %out, align 8
	ret void			ret void
	▲ Show 20 Lines • Show All 161 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

Show First 20 Lines • Show All 440 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_insertelement_v2i16_dynamic_sgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 %idx) #0 {
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx		%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_dynamic_vgpr:		; GCN-LABEL: {{^}}v_insertelement_v2f16_dynamic_vgpr:
; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}		; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
; GCN-DAG: s_movk_i32 [[K:s[0-9]+]], 0x1234		; GCN-DAG: s_mov_b32 [[K:s[0-9]+]], 0x12341234

; GCN-DAG: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]		; GCN-DAG: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]
; GCN-DAG: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]		; GCN-DAG: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]

; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]		; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
}		}

; FIXME: Better code on CI?		; FIXME: Better code on CI?
; GCN-LABEL: {{^}}v_insertelement_v4i16_dynamic_vgpr:		; GCN-LABEL: {{^}}v_insertelement_v4i16_dynamic_vgpr:
; GCN-DAG: {{flat\|global}}_load_dword [[IDX:v[0-9]+]],		; GCN-DAG: {{flat\|global}}_load_dword [[IDX:v[0-9]+]],
; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]		; GCN-DAG: s_load_dword [[VAL:s[0-9]+]]
; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}		; GCN-DAG: {{flat\|global}}_load_dwordx2 v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]{{\]}}

; GCN-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]		; GCN-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff
; GCN-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0		; GCN-DAG: s_mov_b32 s[[MASK_HI:[0-9]+]], 0
; GCN-DAG: s_mov_b32 s[[MASK_LO:[0-9]+]], 0xffff{{$}}		; CIVI-DAG: s_and_b32 [[MASKED_VAL:s[0-9]+]], [[VAL]], s[[MASK_LO]]
		; VI-DAG: s_lshl_b32 [[SHIFTED_VAL:s[0-9]+]], [[MASKED_VAL]], 16
; GFX89: v_lshlrev_b64 v{{\[}}[[SHIFT_LO:[0-9]+]]:[[SHIFT_HI:[0-9]+]]{{\]}}, [[SCALED_IDX]], s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}		; CI-DAG: s_lshl_b32 [[SHIFTED_VAL:s[0-9]+]], [[VAL]], 16
; GFX89-DAG: v_not_b32_e32 v[[NOT_SHIFT_LO:[0-9+]]], v[[SHIFT_LO]]		; CIVI: s_or_b32 [[DUP_VAL:s[0-9]+]], [[MASKED_VAL]], [[SHIFTED_VAL]]
; GFX89-DAG: v_not_b32_e32 v[[NOT_SHIFT_HI:[0-9+]]], v[[SHIFT_HI]]		; GCN-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
; GFX89-DAG: v_and_b32_e32 v[[MASK:[0-9]+]], [[VAL]], v[[SHIFT_LO]]		; GFX9-DAG: s_pack_ll_b32_b16 [[DUP_VAL:s[0-9]+]], [[VAL]], [[VAL]]
		; GFX89: v_lshlrev_b64 v[{{[0-9:]+}}], [[SCALED_IDX]], s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}
; GFX89-DAG: v_and_b32_e32 v[[AND0:[0-9]+]], v[[NOT_SHIFT_LO]], v[[LO]]		; CI: v_lshl_b64 v[{{[0-9:]+}}], s[{{[0-9:]+}}], [[SCALED_IDX]]
; GFX89-DAG: v_and_b32_e32 v[[AND1:[0-9]+]], v[[NOT_SHIFT_HI]], v[[HI]]		; GCN: v_bfi_b32 v{{[0-9]+}}, v{{[0-9]+}}, [[DUP_VAL]], v{{[0-9]+}}
; GFX89: v_or_b32_sdwa v[[OR_SDWA:[0-9]+]], v[[MASK]], v[[AND0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD		; GCN: v_bfi_b32 v{{[0-9]+}}, v{{[0-9]+}}, [[DUP_VAL]], v{{[0-9]+}}


; CI: v_lshl_b64 v{{\[}}[[SHIFT_LO:[0-9]+]]:[[SHIFT_HI:[0-9]+]]{{\]}}, s{{\[}}[[MASK_LO]]:[[MASK_HI]]{{\]}}, [[SCALED_IDX]]
; CI-DAG: v_bfi_b32 v[[OR_SDWA:[0-9]+]], v[[SHIFT_LO]],
; CI-DAG: v_bfi_b32 v[[AND1:[0-9]+]], v[[SHIFT_HI]], 0,

; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[OR_SDWA]]:[[AND1]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[[0-9]+:[0-9]+\]}}
define amdgpu_kernel void @v_insertelement_v4i16_dynamic_vgpr(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {		define amdgpu_kernel void @v_insertelement_v4i16_dynamic_vgpr(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %in, i32 %val) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <4 x i16>, <4 x i16> addrspace(1)* %out, i64 %tid.ext
%idx.val = load volatile i32, i32 addrspace(1)* undef		%idx.val = load volatile i32, i32 addrspace(1)* undef
%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep		%vec = load <4 x i16>, <4 x i16> addrspace(1)* %in.gep
%val.trunc = trunc i32 %val to i16		%val.trunc = trunc i32 %val to i16
Show All 24 Lines

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.subtest-nosaddr.ll

	; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,VI,GFX89 %s			; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,VI,GFX89 %s
	; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,CI %s			; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -enable-amdgpu-aa=0 -mattr=+flat-for-global < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,CIVI,CI %s

	; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:			; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:
	; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}			; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
	; GCN-DAG: s_movk_i32 [[K:s[0-9]+]], 0x3e7			; GCN-DAG: s_mov_b32 [[K:s[0-9]+]], 0x3e703e7

	; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]			; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]
	; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]			; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]

	; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]			; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
	; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]			; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

	; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]			; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
	Show All 22 Lines

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.subtest-saddr.ll

	; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -enable-amdgpu-aa=0 -mattr=+flat-for-global,-fp64-fp16-denormals -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s			; RUN: llc -verify-machineinstrs -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -enable-amdgpu-aa=0 -mattr=+flat-for-global,-fp64-fp16-denormals -amdgpu-enable-global-sgpr-addr < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX89 %s

	; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:			; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:

	; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]			; GCN: {{flat\|global}}_load_dword [[IDX:v[0-9]+]]
	; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]			; GCN: {{flat\|global}}_load_dword [[VEC:v[0-9]+]]

	; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}			; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
	; GCN-DAG: s_movk_i32 [[K:s[0-9]+]], 0x3e7			; GCN-DAG: s_mov_b32 [[K:s[0-9]+]], 0x3e7

	; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]			; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
	; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]			; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

	; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]			; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 4, [[IDX]]
	; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]			; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]

	; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]			; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]
	Show All 19 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Fix for vector element insertionClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 184747

lib/Target/AMDGPU/SIISelLowering.cpp

test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

test/CodeGen/AMDGPU/insert_vector_dynelt.ll

test/CodeGen/AMDGPU/insert_vector_elt.ll

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.subtest-nosaddr.ll

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.subtest-saddr.ll

[AMDGPU] Fix for vector element insertion
ClosedPublic