This is an archive of the discontinued LLVM Phabricator instance.

lib/Target/AMDGPU/AMDGPUISelLowering.cpp
2567–2569	Yes. Apparently you aren't supposed to use BUILD_PAIR/EXTRACT_ELEMENT after legalization, although we do it anyway and it happens to work. We currently have a mix of bitcast + build_vector and build_pair. I'm not sure we really want either though. BUILD_PAIR isn't supposed to work, and the vector operations confuse other basic optimizations. computeKnownBits doesn't look through vector extracts for example, although it could be special cased for extract from a build_vector with a constant index.

r258090

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUISelLowering.h

1 line

AMDGPUISelLowering.cpp

47 lines

test/

CodeGen/

AMDGPU/

half.ll

2 lines

shift-i64-opts.ll

64 lines

Diff 45065

lib/Target/AMDGPU/AMDGPUISelLowering.h

Show First 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	private:
SDValue LowerFP64_TO_INT(SDValue Op, SelectionDAG &DAG, bool Signed) const;		SDValue LowerFP64_TO_INT(SDValue Op, SelectionDAG &DAG, bool Signed) const;
SDValue LowerFP_TO_UINT(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFP_TO_UINT(SDValue Op, SelectionDAG &DAG) const;
SDValue LowerFP_TO_SINT(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerFP_TO_SINT(SDValue Op, SelectionDAG &DAG) const;

SDValue LowerSIGN_EXTEND_INREG(SDValue Op, SelectionDAG &DAG) const;		SDValue LowerSIGN_EXTEND_INREG(SDValue Op, SelectionDAG &DAG) const;

SDValue performStoreCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performStoreCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performShlCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performShlCombine(SDNode *N, DAGCombinerInfo &DCI) const;
		SDValue performSrlCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performMulCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performMulCombine(SDNode *N, DAGCombinerInfo &DCI) const;
SDValue performCtlzCombine(SDLoc SL, SDValue Cond, SDValue LHS, SDValue RHS,		SDValue performCtlzCombine(SDLoc SL, SDValue Cond, SDValue LHS, SDValue RHS,
DAGCombinerInfo &DCI) const;		DAGCombinerInfo &DCI) const;
SDValue performSelectCombine(SDNode *N, DAGCombinerInfo &DCI) const;		SDValue performSelectCombine(SDNode *N, DAGCombinerInfo &DCI) const;

protected:		protected:
static EVT getEquivalentMemType(LLVMContext &Context, EVT VT);		static EVT getEquivalentMemType(LLVMContext &Context, EVT VT);
static EVT getEquivalentLoadRegType(LLVMContext &Context, EVT VT);		static EVT getEquivalentLoadRegType(LLVMContext &Context, EVT VT);
▲ Show 20 Lines • Show All 243 Lines • Show Last 20 Lines

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

Show First 20 Lines • Show All 371 Lines • ▼ Show 20 Lines	for (MVT VT : FloatVectorTypes) {
setOperationAction(ISD::FCOPYSIGN, VT, Expand);		setOperationAction(ISD::FCOPYSIGN, VT, Expand);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Expand);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Expand);
}		}

setOperationAction(ISD::FNEARBYINT, MVT::f32, Custom);		setOperationAction(ISD::FNEARBYINT, MVT::f32, Custom);
setOperationAction(ISD::FNEARBYINT, MVT::f64, Custom);		setOperationAction(ISD::FNEARBYINT, MVT::f64, Custom);

setTargetDAGCombine(ISD::SHL);		setTargetDAGCombine(ISD::SHL);
		setTargetDAGCombine(ISD::SRL);
setTargetDAGCombine(ISD::MUL);		setTargetDAGCombine(ISD::MUL);
setTargetDAGCombine(ISD::SELECT);		setTargetDAGCombine(ISD::SELECT);
setTargetDAGCombine(ISD::SELECT_CC);		setTargetDAGCombine(ISD::SELECT_CC);
setTargetDAGCombine(ISD::STORE);		setTargetDAGCombine(ISD::STORE);

setTargetDAGCombine(ISD::FADD);		setTargetDAGCombine(ISD::FADD);
setTargetDAGCombine(ISD::FSUB);		setTargetDAGCombine(ISD::FSUB);

▲ Show 20 Lines • Show All 2,169 Lines • ▼ Show 20 Lines	SDValue AMDGPUTargetLowering::performShlCombine(SDNode *N,

SDLoc SL(N);		SDLoc SL(N);
SelectionDAG &DAG = DCI.DAG;		SelectionDAG &DAG = DCI.DAG;

// Extract low 32-bits.		// Extract low 32-bits.
SDValue Lo = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, LHS);		SDValue Lo = DAG.getNode(ISD::TRUNCATE, SL, MVT::i32, LHS);

const SDValue Zero = DAG.getConstant(0, SL, MVT::i32);		const SDValue Zero = DAG.getConstant(0, SL, MVT::i32);
return DAG.getNode(ISD::BUILD_PAIR, SL, MVT::i64, Zero, Lo);
		SDValue Vec = DAG.getNode(ISD::BUILD_VECTOR, SL, MVT::v2i32, Zero, Lo);
		return DAG.getNode(ISD::BITCAST, SL, MVT::i64, Vec);
		}
		tstellarAMDUnsubmitted Not Done Reply Inline Actions Was this change meant for another commit? tstellarAMD: Was this change meant for another commit?
		arsenmAuthorUnsubmitted Not Done Reply Inline Actions Yes. Apparently you aren't supposed to use BUILD_PAIR/EXTRACT_ELEMENT after legalization, although we do it anyway and it happens to work. We currently have a mix of bitcast + build_vector and build_pair. I'm not sure we really want either though. BUILD_PAIR isn't supposed to work, and the vector operations confuse other basic optimizations. computeKnownBits doesn't look through vector extracts for example, although it could be special cased for extract from a build_vector with a constant index. arsenm: Yes. Apparently you aren't supposed to use BUILD_PAIR/EXTRACT_ELEMENT after legalization…

		SDValue AMDGPUTargetLowering::performSrlCombine(SDNode *N,
		DAGCombinerInfo &DCI) const {
		if (N->getValueType(0) != MVT::i64)
		return SDValue();

		const ConstantSDNode *RHS = dyn_cast<ConstantSDNode>(N->getOperand(1));
		if (!RHS)
		return SDValue();

		unsigned ShiftAmt = RHS->getZExtValue();
		if (ShiftAmt < 32)
		return SDValue();

		// srl (i64 x), C for C >= 32
		// =>
		// build_pair (srl (i32 hi_32(x)), (C - 32), 0)
		tstellarAMDUnsubmitted Not Done Reply Inline Actions The parentheses in this comment should be fixed to make it less confusing. tstellarAMD: The parentheses in this comment should be fixed to make it less confusing.

		SelectionDAG &DAG = DCI.DAG;
		SDLoc SL(N);

		SDValue One = DAG.getConstant(1, SL, MVT::i32);
		SDValue Zero = DAG.getConstant(0, SL, MVT::i32);

		SDValue VecOp = DAG.getNode(ISD::BITCAST, SL, MVT::v2i32, N->getOperand(0));
		SDValue Hi = DAG.getNode(ISD::EXTRACT_VECTOR_ELT, SL, MVT::i32,
		VecOp, One);

		SDValue NewConst = DAG.getConstant(ShiftAmt - 32, SL, MVT::i32);
		SDValue NewShift = DAG.getNode(ISD::SRL, SL, MVT::i32, Hi, NewConst);

		SDValue BuildPair = DAG.getNode(ISD::BUILD_VECTOR, SL, MVT::v2i32,
		NewShift, Zero);

		return DAG.getNode(ISD::BITCAST, SL, MVT::i64, BuildPair);
}		}

SDValue AMDGPUTargetLowering::performMulCombine(SDNode *N,		SDValue AMDGPUTargetLowering::performMulCombine(SDNode *N,
DAGCombinerInfo &DCI) const {		DAGCombinerInfo &DCI) const {
EVT VT = N->getValueType(0);		EVT VT = N->getValueType(0);

if (VT.isVector() \|\| VT.getSizeInBits() > 32)		if (VT.isVector() \|\| VT.getSizeInBits() > 32)
return SDValue();		return SDValue();
▲ Show 20 Lines • Show All 122 Lines • ▼ Show 20 Lines	SDValue AMDGPUTargetLowering::PerformDAGCombine(SDNode *N,
default:		default:
break;		break;
case ISD::SHL: {		case ISD::SHL: {
if (DCI.getDAGCombineLevel() < AfterLegalizeDAG)		if (DCI.getDAGCombineLevel() < AfterLegalizeDAG)
break;		break;

return performShlCombine(N, DCI);		return performShlCombine(N, DCI);
}		}
		case ISD::SRL: {
		if (DCI.getDAGCombineLevel() < AfterLegalizeDAG)
		break;

		return performSrlCombine(N, DCI);
		}
case ISD::MUL:		case ISD::MUL:
return performMulCombine(N, DCI);		return performMulCombine(N, DCI);
case AMDGPUISD::MUL_I24:		case AMDGPUISD::MUL_I24:
case AMDGPUISD::MUL_U24: {		case AMDGPUISD::MUL_U24: {
SDValue N0 = N->getOperand(0);		SDValue N0 = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
simplifyI24(N0, DCI);		simplifyI24(N0, DCI);
simplifyI24(N1, DCI);		simplifyI24(N1, DCI);
▲ Show 20 Lines • Show All 391 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/half.ll

Show First 20 Lines • Show All 390 Lines • ▼ Show 20 Lines	define void @global_extload_v2f16_to_v2f64(<2 x double> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%cvt = fpext <2 x half> %val to <2 x double>		%cvt = fpext <2 x half> %val to <2 x double>
store <2 x double> %cvt, <2 x double> addrspace(1)* %out		store <2 x double> %cvt, <2 x double> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}global_extload_v3f16_to_v3f64:		; GCN-LABEL: {{^}}global_extload_v3f16_to_v3f64:

; GCN: buffer_load_dwordx2 [[LOAD:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx2 [[LOAD:v\[[0-9]+:[0-9]+\]]]
; SI: v_lshr_b64 v{{\[[0-9]+:[0-9]+\]}}, [[LOAD]], 32
; VI: v_lshrrev_b64 v{{\[[0-9]+:[0-9]+\]}}, 32, [[LOAD]]
; GCN: v_lshrrev_b32_e32 {{v[0-9]+}}, 16, {{v[0-9]+}}		; GCN: v_lshrrev_b32_e32 {{v[0-9]+}}, 16, {{v[0-9]+}}

; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN: v_cvt_f32_f16_e32		; GCN: v_cvt_f32_f16_e32
; GCN-NOT: v_cvt_f32_f16_e32		; GCN-NOT: v_cvt_f32_f16_e32

; GCN: v_cvt_f64_f32_e32		; GCN: v_cvt_f64_f32_e32
▲ Show 20 Lines • Show All 257 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/shift-i64-opts.ll

This file was added.

				; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=FAST64 -check-prefix=GCN %s
				; RUN: llc -march=amdgcn -mcpu=bonaire < %s \| FileCheck -check-prefix=SLOW64 -check-prefix=GCN %s


				; lshr (i64 x), c: c > 32 => reg_sequence lshr (i32 hi_32(x)), (c - 32), 0
				; GCN-LABEL: {{^}}lshr_i64_35:
				; GCN: buffer_load_dword [[VAL:v[0-9]+]]
				; GCN: v_lshrrev_b32_e32 v[[LO:[0-9]+]], 3, [[VAL]]
				; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 0{{$}}
				; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}
				define void @lshr_i64_35(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {
				%val = load i64, i64 addrspace(1)* %in
				%shl = lshr i64 %val, 35
				store i64 %shl, i64 addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}lshr_i64_63:
				; GCN: buffer_load_dword [[VAL:v[0-9]+]]
				; GCN: v_lshrrev_b32_e32 v[[LO:[0-9]+]], 31, [[VAL]]
				; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 0{{$}}
				; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}
				define void @lshr_i64_63(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {
				%val = load i64, i64 addrspace(1)* %in
				%shl = lshr i64 %val, 63
				store i64 %shl, i64 addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}lshr_i64_33:
				; GCN: buffer_load_dword [[VAL:v[0-9]+]]
				; GCN: v_lshrrev_b32_e32 v[[LO:[0-9]+]], 1, [[VAL]]
				; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 0{{$}}
				; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}
				define void @lshr_i64_33(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {
				%val = load i64, i64 addrspace(1)* %in
				%shl = lshr i64 %val, 33
				store i64 %shl, i64 addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}lshr_i64_32:
				; GCN: buffer_load_dword v[[LO:[0-9]+]]
				; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], 0{{$}}
				; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}
				define void @lshr_i64_32(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {
				%val = load i64, i64 addrspace(1)* %in
				%shl = lshr i64 %val, 32
				store i64 %shl, i64 addrspace(1)* %out
				ret void
				}

				; GCN-LABEL: {{^}}lshr_and_i64_35:
				; XGCN: buffer_load_dword [[VAL:v[0-9]+]]
				; XGCN: v_lshlrev_b32_e32 v[[LO:[0-9]+]], 3, [[VAL]]
				; XGCN: v_mov_b32_e32 v[[HI:[0-9]+]], 0{{$}}
				; XGCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}
				define void @lshr_and_i64_35(i64 addrspace(1)* %out, i64 addrspace(1)* %in) {
				%val = load i64, i64 addrspace(1)* %in
				%and = and i64 %val, 2147483647 ; 0x7fffffff
				%shl = lshr i64 %and, 35
				store i64 %shl, i64 addrspace(1)* %out
				ret void
				}

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Reduce 64-bit lshr by constant to 32-bitClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 45065

lib/Target/AMDGPU/AMDGPUISelLowering.h

lib/Target/AMDGPU/AMDGPUISelLowering.cpp

test/CodeGen/AMDGPU/half.ll

test/CodeGen/AMDGPU/shift-i64-opts.ll

AMDGPU: Reduce 64-bit lshr by constant to 32-bit
ClosedPublic