Diff 333939

llvm/lib/Target/AMDGPU/VOP3Instructions.td

Show First 20 Lines • Show All 358 Lines • ▼ Show 20 Lines
} // End mayRaiseFPException		} // End mayRaiseFPException

defm V_BFE_U32 : VOP3Inst <"v_bfe_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUbfe_u32>;		defm V_BFE_U32 : VOP3Inst <"v_bfe_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUbfe_u32>;
defm V_BFE_I32 : VOP3Inst <"v_bfe_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUbfe_i32>;		defm V_BFE_I32 : VOP3Inst <"v_bfe_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUbfe_i32>;
defm V_BFI_B32 : VOP3Inst <"v_bfi_b32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUbfi>;		defm V_BFI_B32 : VOP3Inst <"v_bfi_b32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUbfi>;
defm V_ALIGNBIT_B32 : VOP3Inst <"v_alignbit_b32", VOP3_Profile<VOP_I32_I32_I32_I32>, fshr>;		defm V_ALIGNBIT_B32 : VOP3Inst <"v_alignbit_b32", VOP3_Profile<VOP_I32_I32_I32_I32>, fshr>;
defm V_ALIGNBYTE_B32 : VOP3Inst <"v_alignbyte_b32", VOP3_Profile<VOP_I32_I32_I32_I32>, int_amdgcn_alignbyte>;		defm V_ALIGNBYTE_B32 : VOP3Inst <"v_alignbyte_b32", VOP3_Profile<VOP_I32_I32_I32_I32>, int_amdgcn_alignbyte>;

let mayRaiseFPException = 0 in { // XXX - Seems suspect but manual doesn't say it does		// XXX - No FPException seems suspect but manual doesn't say it does
defm V_MIN3_F32 : VOP3Inst <"v_min3_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUfmin3>;		let mayRaiseFPException = 0, isCommutable = 1 in {
defm V_MIN3_I32 : VOP3Inst <"v_min3_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUsmin3>;		defm V_MIN3_I32 : VOP3Inst <"v_min3_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUsmin3>;
defm V_MIN3_U32 : VOP3Inst <"v_min3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumin3>;		defm V_MIN3_U32 : VOP3Inst <"v_min3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumin3>;
defm V_MAX3_F32 : VOP3Inst <"v_max3_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUfmax3>;		defm V_MIN3_F32 : VOP3Inst <"v_min3_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUfmin3>;
		foadUnsubmitted Not Done Reply Inline Actions You have to be super careful with fp min/max/med because the NaN handling is not commutative. You could commute them with suitable "nnan" or other IEEE-related flags, but it's probably not worth it. So I would suggest dropping them. foad: You have to be super careful with fp min/max/med because the NaN handling is not commutative.
defm V_MAX3_I32 : VOP3Inst <"v_max3_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUsmax3>;		defm V_MAX3_I32 : VOP3Inst <"v_max3_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUsmax3>;
defm V_MAX3_U32 : VOP3Inst <"v_max3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumax3>;		defm V_MAX3_U32 : VOP3Inst <"v_max3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumax3>;
defm V_MED3_F32 : VOP3Inst <"v_med3_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUfmed3>;		defm V_MAX3_F32 : VOP3Inst <"v_max3_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUfmax3>;
defm V_MED3_I32 : VOP3Inst <"v_med3_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUsmed3>;		defm V_MED3_I32 : VOP3Inst <"v_med3_i32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUsmed3>;
defm V_MED3_U32 : VOP3Inst <"v_med3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumed3>;		defm V_MED3_U32 : VOP3Inst <"v_med3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>, AMDGPUumed3>;
} // End mayRaiseFPException = 0		defm V_MED3_F32 : VOP3Inst <"v_med3_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUfmed3>;
		} // End mayRaiseFPException = 0, isCommutable = 1

		let isCommutable = 1 in {
defm V_SAD_U8 : VOP3Inst <"v_sad_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		defm V_SAD_U8 : VOP3Inst <"v_sad_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
defm V_SAD_HI_U8 : VOP3Inst <"v_sad_hi_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		defm V_SAD_HI_U8 : VOP3Inst <"v_sad_hi_u8", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
defm V_SAD_U16 : VOP3Inst <"v_sad_u16", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		defm V_SAD_U16 : VOP3Inst <"v_sad_u16", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
defm V_SAD_U32 : VOP3Inst <"v_sad_u32", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;		defm V_SAD_U32 : VOP3Inst <"v_sad_u32", VOP3_Profile<VOP_I32_I32_I32_I32, VOP3_CLAMP>>;
		} // End isCommutable = 1
defm V_CVT_PK_U8_F32 : VOP3Inst<"v_cvt_pk_u8_f32", VOP3_Profile<VOP_I32_F32_I32_I32>, int_amdgcn_cvt_pk_u8_f32>;		defm V_CVT_PK_U8_F32 : VOP3Inst<"v_cvt_pk_u8_f32", VOP3_Profile<VOP_I32_F32_I32_I32>, int_amdgcn_cvt_pk_u8_f32>;

defm V_DIV_FIXUP_F32 : VOP3Inst <"v_div_fixup_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUdiv_fixup>;		defm V_DIV_FIXUP_F32 : VOP3Inst <"v_div_fixup_f32", VOP3_Profile<VOP_F32_F32_F32_F32>, AMDGPUdiv_fixup>;

let SchedRW = [WriteDoubleAdd], FPDPRounding = 1 in {		let SchedRW = [WriteDoubleAdd], FPDPRounding = 1 in {
defm V_DIV_FIXUP_F64 : VOP3Inst <"v_div_fixup_f64", VOP3_Profile<VOP_F64_F64_F64_F64>, AMDGPUdiv_fixup>;		defm V_DIV_FIXUP_F64 : VOP3Inst <"v_div_fixup_f64", VOP3_Profile<VOP_F64_F64_F64_F64>, AMDGPUdiv_fixup>;
defm V_LDEXP_F64 : VOP3Inst <"v_ldexp_f64", VOP3_Profile<VOP_F64_F64_I32>, AMDGPUldexp, 1>;		defm V_LDEXP_F64 : VOP3Inst <"v_ldexp_f64", VOP3_Profile<VOP_F64_F64_I32>, AMDGPUldexp, 1>;
} // End SchedRW = [WriteDoubleAdd], FPDPRounding = 1		} // End SchedRW = [WriteDoubleAdd], FPDPRounding = 1
▲ Show 20 Lines • Show All 223 Lines • ▼ Show 20 Lines	for (unsigned i = 0; i < 3; ++i) {
return false;		return false;
}		}
}		}
return true;		return true;
}];		}];
}		}

let SubtargetPredicate = isGFX9Plus in {		let SubtargetPredicate = isGFX9Plus in {
defm V_PACK_B32_F16 : VOP3Inst <"v_pack_b32_f16", VOP3_Profile<VOP_B32_F16_F16, VOP3_OPSEL>>;		let isCommutable = 1 in {
defm V_LSHL_ADD_U32 : VOP3Inst <"v_lshl_add_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
defm V_ADD_LSHL_U32 : VOP3Inst <"v_add_lshl_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
defm V_ADD3_U32 : VOP3Inst <"v_add3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;		defm V_ADD3_U32 : VOP3Inst <"v_add3_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
defm V_LSHL_OR_B32 : VOP3Inst <"v_lshl_or_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
defm V_AND_OR_B32 : VOP3Inst <"v_and_or_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;		defm V_AND_OR_B32 : VOP3Inst <"v_and_or_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
defm V_OR3_B32 : VOP3Inst <"v_or3_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;		defm V_OR3_B32 : VOP3Inst <"v_or3_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;

defm V_XAD_U32 : VOP3Inst <"v_xad_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;		defm V_XAD_U32 : VOP3Inst <"v_xad_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;

defm V_MED3_F16 : VOP3Inst <"v_med3_f16", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>, AMDGPUfmed3>;
defm V_MED3_I16 : VOP3Inst <"v_med3_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUsmed3>;		defm V_MED3_I16 : VOP3Inst <"v_med3_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUsmed3>;
defm V_MED3_U16 : VOP3Inst <"v_med3_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUumed3>;		defm V_MED3_U16 : VOP3Inst <"v_med3_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUumed3>;
		defm V_MED3_F16 : VOP3Inst <"v_med3_f16", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>, AMDGPUfmed3>;
		foadUnsubmitted Not Done Reply Inline Actions Likewise, drop f16 min/max/med. foad: Likewise, drop f16 min/max/med.
defm V_MIN3_F16 : VOP3Inst <"v_min3_f16", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>, AMDGPUfmin3>;
defm V_MIN3_I16 : VOP3Inst <"v_min3_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUsmin3>;		defm V_MIN3_I16 : VOP3Inst <"v_min3_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUsmin3>;
defm V_MIN3_U16 : VOP3Inst <"v_min3_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUumin3>;		defm V_MIN3_U16 : VOP3Inst <"v_min3_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUumin3>;
		defm V_MIN3_F16 : VOP3Inst <"v_min3_f16", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>, AMDGPUfmin3>;
defm V_MAX3_F16 : VOP3Inst <"v_max3_f16", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>, AMDGPUfmax3>;
defm V_MAX3_I16 : VOP3Inst <"v_max3_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUsmax3>;		defm V_MAX3_I16 : VOP3Inst <"v_max3_i16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUsmax3>;
defm V_MAX3_U16 : VOP3Inst <"v_max3_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUumax3>;		defm V_MAX3_U16 : VOP3Inst <"v_max3_u16", VOP3_Profile<VOP_I16_I16_I16_I16, VOP3_OPSEL>, AMDGPUumax3>;
		defm V_MAX3_F16 : VOP3Inst <"v_max3_f16", VOP3_Profile<VOP_F16_F16_F16_F16, VOP3_OPSEL>, AMDGPUfmax3>;
defm V_ADD_I16 : VOP3Inst <"v_add_i16", VOP3_Profile<VOP_I16_I16_I16, VOP3_OPSEL>>;		defm V_ADD_I16 : VOP3Inst <"v_add_i16", VOP3_Profile<VOP_I16_I16_I16, VOP3_OPSEL>>;
defm V_SUB_I16 : VOP3Inst <"v_sub_i16", VOP3_Profile<VOP_I16_I16_I16, VOP3_OPSEL>>;

defm V_MAD_U32_U16 : VOP3Inst <"v_mad_u32_u16", VOP3_Profile<VOP_I32_I16_I16_I32, VOP3_OPSEL>>;		defm V_MAD_U32_U16 : VOP3Inst <"v_mad_u32_u16", VOP3_Profile<VOP_I32_I16_I16_I32, VOP3_OPSEL>>;
defm V_MAD_I32_I16 : VOP3Inst <"v_mad_i32_i16", VOP3_Profile<VOP_I32_I16_I16_I32, VOP3_OPSEL>>;		defm V_MAD_I32_I16 : VOP3Inst <"v_mad_i32_i16", VOP3_Profile<VOP_I32_I16_I16_I32, VOP3_OPSEL>>;

defm V_CVT_PKNORM_I16_F16 : VOP3Inst <"v_cvt_pknorm_i16_f16", VOP3_Profile<VOP_B32_F16_F16, VOP3_OPSEL>>;
defm V_CVT_PKNORM_U16_F16 : VOP3Inst <"v_cvt_pknorm_u16_f16", VOP3_Profile<VOP_B32_F16_F16, VOP3_OPSEL>>;

defm V_ADD_I32 : VOP3Inst <"v_add_i32", VOP3_Profile<VOP_I32_I32_I32_ARITH>>;		defm V_ADD_I32 : VOP3Inst <"v_add_i32", VOP3_Profile<VOP_I32_I32_I32_ARITH>>;
		defm V_ADD_LSHL_U32 : VOP3Inst <"v_add_lshl_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
		} // End isCommutable = 1
		foadUnsubmitted Done Reply Inline Actions Subtraction is not commutative! foad: Subtraction is not commutative!
		rampitecUnsubmitted Done Reply Inline Actions It is commutative since there is subrev, but it needs to define Commutable_REV<> which it does not. rampitec: It is commutative since there is subrev, but it needs to define Commutable_REV<> which it does…
		Joe_NashAuthorUnsubmitted Done Reply Inline Actions Going to leave it as not commutative for now, since no VOP3 handle Commutable_REV<> at the moment Joe_Nash: Going to leave it as not commutative for now, since no VOP3 handle Commutable_REV<> at the…
		rampitecUnsubmitted Not Done Reply Inline Actions Actually there is no subrev for VOP3 opcode too. rampitec: Actually there is no subrev for VOP3 opcode too.
		defm V_SUB_I16 : VOP3Inst <"v_sub_i16", VOP3_Profile<VOP_I16_I16_I16, VOP3_OPSEL>>;
defm V_SUB_I32 : VOP3Inst <"v_sub_i32", VOP3_Profile<VOP_I32_I32_I32_ARITH>>;		defm V_SUB_I32 : VOP3Inst <"v_sub_i32", VOP3_Profile<VOP_I32_I32_I32_ARITH>>;
		defm V_PACK_B32_F16 : VOP3Inst <"v_pack_b32_f16", VOP3_Profile<VOP_B32_F16_F16, VOP3_OPSEL>>;
		defm V_LSHL_ADD_U32 : VOP3Inst <"v_lshl_add_u32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
		defm V_LSHL_OR_B32 : VOP3Inst <"v_lshl_or_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
		foadUnsubmitted Done Reply Inline Actions add_lshl is (s0 + s1) << s2 which is commutative. foad: add_lshl is (s0 + s1) << s2 which is commutative.


		defm V_CVT_PKNORM_I16_F16 : VOP3Inst <"v_cvt_pknorm_i16_f16", VOP3_Profile<VOP_B32_F16_F16, VOP3_OPSEL>>;
		defm V_CVT_PKNORM_U16_F16 : VOP3Inst <"v_cvt_pknorm_u16_f16", VOP3_Profile<VOP_B32_F16_F16, VOP3_OPSEL>>;

class ThreeOp_i32_Pats <SDPatternOperator op1, SDPatternOperator op2, Instruction inst> : GCNPat <		class ThreeOp_i32_Pats <SDPatternOperator op1, SDPatternOperator op2, Instruction inst> : GCNPat <
// This matches (op2 (op1 i32:$src0, i32:$src1), i32:$src2) with conditions.		// This matches (op2 (op1 i32:$src0, i32:$src1), i32:$src2) with conditions.
(ThreeOpFrag<op1, op2> i32:$src0, i32:$src1, i32:$src2),		(ThreeOpFrag<op1, op2> i32:$src0, i32:$src1, i32:$src2),
(inst VSrc_b32:$src0, VSrc_b32:$src1, VSrc_b32:$src2)		(inst VSrc_b32:$src0, VSrc_b32:$src1, VSrc_b32:$src2)
>;		>;

def : ThreeOp_i32_Pats<shl, add, V_LSHL_ADD_U32_e64>;		def : ThreeOp_i32_Pats<shl, add, V_LSHL_ADD_U32_e64>;
def : ThreeOp_i32_Pats<add, shl, V_ADD_LSHL_U32_e64>;		def : ThreeOp_i32_Pats<add, shl, V_ADD_LSHL_U32_e64>;
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	(permlane srcvalue, i32:$src0, i32:$src1, i32:$src2,
timm:$fi, timm:$bc),		timm:$fi, timm:$bc),
(inst (as_i1timm $fi), VGPR_32:$src0, (as_i1timm $bc),		(inst (as_i1timm $fi), VGPR_32:$src0, (as_i1timm $bc),
SCSrc_b32:$src1, 0, SCSrc_b32:$src2,		SCSrc_b32:$src1, 0, SCSrc_b32:$src2,
(IMPLICIT_DEF))		(IMPLICIT_DEF))
>;		>;


let SubtargetPredicate = isGFX10Plus in {		let SubtargetPredicate = isGFX10Plus in {
		let isCommutable = 1 in {
defm V_XOR3_B32 : VOP3Inst <"v_xor3_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;		defm V_XOR3_B32 : VOP3Inst <"v_xor3_b32", VOP3_Profile<VOP_I32_I32_I32_I32>>;
		} // End isCommutable = 1
def : ThreeOp_i32_Pats<xor, xor, V_XOR3_B32_e64>;		def : ThreeOp_i32_Pats<xor, xor, V_XOR3_B32_e64>;

let Constraints = "$vdst = $vdst_in", DisableEncoding="$vdst_in" in {		let Constraints = "$vdst = $vdst_in", DisableEncoding="$vdst_in" in {
defm V_PERMLANE16_B32 : VOP3Inst<"v_permlane16_b32", VOP3_PERMLANE_Profile>;		defm V_PERMLANE16_B32 : VOP3Inst<"v_permlane16_b32", VOP3_PERMLANE_Profile>;
defm V_PERMLANEX16_B32 : VOP3Inst<"v_permlanex16_b32", VOP3_PERMLANE_Profile>;		defm V_PERMLANEX16_B32 : VOP3Inst<"v_permlanex16_b32", VOP3_PERMLANE_Profile>;
} // End $vdst = $vdst_in, DisableEncoding $vdst_in		} // End $vdst = $vdst_in, DisableEncoding $vdst_in

def : PermlanePat<int_amdgcn_permlane16, V_PERMLANE16_B32_e64>;		def : PermlanePat<int_amdgcn_permlane16, V_PERMLANE16_B32_e64>;
▲ Show 20 Lines • Show All 527 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/add_shl.ll

	Show First 20 Lines • Show All 106 Lines • ▼ Show 20 Lines
	; GFX9-LABEL: add_shl_vgpr_const_inline_const:			; GFX9-LABEL: add_shl_vgpr_const_inline_const:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: v_mov_b32_e32 v1, 0x3f4			; GFX9-NEXT: v_mov_b32_e32 v1, 0x3f4
	; GFX9-NEXT: v_add_lshl_u32 v0, v0, v1, 9			; GFX9-NEXT: v_add_lshl_u32 v0, v0, v1, 9
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: add_shl_vgpr_const_inline_const:			; GFX10-LABEL: add_shl_vgpr_const_inline_const:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_add_lshl_u32 v0, v0, 0x3f4, 9			; GFX10-NEXT: v_add_lshl_u32 v0, 0x3f4, v0, 9
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%x = add i32 %a, 1012			%x = add i32 %a, 1012
	%result = shl i32 %x, 9			%result = shl i32 %x, 9
	%bc = bitcast i32 %result to float			%bc = bitcast i32 %result to float
	ret float %bc			ret float %bc
	}			}

	define amdgpu_ps float @add_shl_vgpr_inline_const_x2(i32 %a) {			define amdgpu_ps float @add_shl_vgpr_inline_const_x2(i32 %a) {
	Show All 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,549 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_subrev_nc_u32_e32 v4, 16, v2			; GFX10-NEXT: v_subrev_nc_u32_e32 v4, 16, v2
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v2			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v2
	; GFX10-NEXT: v_subrev_nc_u32_e32 v5, 16, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v5, 16, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v3			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo
	; GFX10-NEXT: v_and_or_b32 v2, v3, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v3, v2
	; GFX10-NEXT: v_pk_sub_i16 v3, 16, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_sub_i16 v3, 16, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, v2, v0			; GFX10-NEXT: v_pk_lshlrev_b16 v0, v2, v0
	; GFX10-NEXT: v_pk_lshrrev_b16 v1, v3, v1			; GFX10-NEXT: v_pk_lshrrev_b16 v1, v3, v1
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> <i16 4, i16 8>)			%result = call <2 x i16> @llvm.fshl.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> <i16 4, i16 8>)
	ret <2 x i16> %result			ret <2 x i16> %result
	}			}
	▲ Show 20 Lines • Show All 3,908 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 3,449 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_subrev_nc_u32_e32 v4, 16, v2			; GFX10-NEXT: v_subrev_nc_u32_e32 v4, 16, v2
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v2			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v2
	; GFX10-NEXT: v_subrev_nc_u32_e32 v5, 16, v3			; GFX10-NEXT: v_subrev_nc_u32_e32 v5, 16, v3
	; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v2, v2, v4, vcc_lo
	; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v3			; GFX10-NEXT: v_cmp_le_u32_e32 vcc_lo, 16, v3
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo			; GFX10-NEXT: v_cndmask_b32_e32 v3, v3, v5, vcc_lo
	; GFX10-NEXT: v_and_or_b32 v2, v3, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v3, v2
	; GFX10-NEXT: v_pk_sub_i16 v3, 16, v2 op_sel_hi:[0,1]			; GFX10-NEXT: v_pk_sub_i16 v3, 16, v2 op_sel_hi:[0,1]
	; GFX10-NEXT: v_pk_lshrrev_b16 v1, v2, v1			; GFX10-NEXT: v_pk_lshrrev_b16 v1, v2, v1
	; GFX10-NEXT: v_pk_lshlrev_b16 v0, v3, v0			; GFX10-NEXT: v_pk_lshlrev_b16 v0, v3, v0
	; GFX10-NEXT: v_or_b32_e32 v0, v0, v1			; GFX10-NEXT: v_or_b32_e32 v0, v0, v1
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	%result = call <2 x i16> @llvm.fshr.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> <i16 4, i16 8>)			%result = call <2 x i16> @llvm.fshr.v2i16(<2 x i16> %lhs, <2 x i16> %rhs, <2 x i16> <i16 4, i16 8>)
	ret <2 x i16> %result			ret <2 x i16> %result
	}			}
	▲ Show 20 Lines • Show All 4,106 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

	Show First 20 Lines • Show All 463 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: atomic_add_i32_2d:			; GFX10-LABEL: atomic_add_i32_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D unorm glc a16			; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D unorm glc a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: atomic_add_i32_1darray:			; GFX10-LABEL: atomic_add_i32_1darray:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16			; GFX10-NEXT: image_atomic_add v0, v1, s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	▲ Show 20 Lines • Show All 630 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: atomic_add_i64_2d:			; GFX10-LABEL: atomic_add_i64_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v2, v2, 0xffff, v3			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D unorm glc a16			; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D unorm glc a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: atomic_add_i64_1darray:			; GFX10-LABEL: atomic_add_i64_1darray:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v2, v2, 0xffff, v3			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16			; GFX10-NEXT: image_atomic_add v[0:1], v2, s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_1D_ARRAY unorm glc a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	▲ Show 20 Lines • Show All 214 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

	Show All 38 Lines
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, 0xffff, v1			; GFX10NSA-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28
	; GFX10NSA-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v0, s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2d.v4f32.f16(i32 1, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28
	; GFX10NSA-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28
	; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f32.f16(i32 1, float %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.2d.v4f32.f32.f16(i32 1, float %bias, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}
	Show All 35 Lines
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v2, v2, 0xffff, v3			; GFX10NSA-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s28
	; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f32.f16(i32 1, float %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.2d.v4f32.f32.f16(i32 1, float %bias, float %zcompare, half %s, half %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}
	▲ Show 20 Lines • Show All 238 Lines • ▼ Show 20 Lines
	;			;
	; GFX10NSA-LABEL: gather4_lz_2d:			; GFX10NSA-LABEL: gather4_lz_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, 0xffff, v1			; GFX10NSA-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	Show All 29 Lines
	;			;
	; GFX10NSA-LABEL: gather4_c_lz_2d:			; GFX10NSA-LABEL: gather4_c_lz_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4			; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: s_mov_b32 s4, s6			; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
	; GFX10NSA-NEXT: s_mov_b32 s6, s8			; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
	; GFX10NSA-NEXT: s_mov_b32 s8, s10			; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
	; GFX10NSA-NEXT: s_mov_b32 s10, s12			; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	Show All 24 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.ltolz.a16.ll

	Show First 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	;			;
	; GFX10-LABEL: sample_l_2d:			; GFX10-LABEL: sample_l_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v0, v0, 0xffff, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 32 Lines
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16			; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, s12			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, s12
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	; GFX10-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	Show All 26 Lines
	;			;
	; GFX10-LABEL: sample_c_l_2d:			; GFX10-LABEL: sample_c_l_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 32 Lines
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16			; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, s12			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, s12
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	; GFX10-NEXT: image_sample_lz_o v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_lz_o v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	Show All 26 Lines
	;			;
	; GFX10-LABEL: sample_l_o_2d:			; GFX10-LABEL: sample_l_o_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 32 Lines
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16			; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: v_and_or_b32 v2, v2, 0xffff, s12			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	; GFX10-NEXT: image_sample_c_lz_o v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_lz_o v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	Show All 26 Lines
	;			;
	; GFX10-LABEL: sample_c_l_o_2d:			; GFX10-LABEL: sample_c_l_o_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v2, v2, 0xffff, v3			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 29 Lines
	;			;
	; GFX10-LABEL: gather4_l_2d:			; GFX10-LABEL: gather4_l_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v0, v0, 0xffff, v1			; GFX10-NEXT: v_and_or_b32 v0, 0xffff, v0, v1
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 29 Lines
	;			;
	; GFX10-LABEL: gather4_c_l_2d:			; GFX10-LABEL: gather4_c_l_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 29 Lines
	;			;
	; GFX10-LABEL: gather4_l_o_2d:			; GFX10-LABEL: gather4_l_o_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v1, v1, 0xffff, v2			; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 29 Lines
	;			;
	; GFX10-LABEL: gather4_c_l_o_2d:			; GFX10-LABEL: gather4_c_l_o_2d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
	; GFX10-NEXT: s_mov_b32 s2, s4			; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
	; GFX10-NEXT: v_and_or_b32 v2, v2, 0xffff, v3			; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10-NEXT: s_mov_b32 s4, s6			; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
	; GFX10-NEXT: s_mov_b32 s6, s8			; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: s_mov_b32 s8, s10			; GFX10-NEXT: s_mov_b32 s8, s10
	; GFX10-NEXT: s_mov_b32 s9, s11			; GFX10-NEXT: s_mov_b32 s9, s11
	; GFX10-NEXT: s_mov_b32 s10, s12			; GFX10-NEXT: s_mov_b32 s10, s12
	; GFX10-NEXT: s_mov_b32 s11, s13			; GFX10-NEXT: s_mov_b32 s11, s13
	Show All 22 Lines

llvm/test/CodeGen/AMDGPU/commute-vop3.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -run-pass=machine-cse -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -o - %s \| FileCheck -check-prefix=GFX9 %s
				# RUN: llc -run-pass=machine-cse -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs -o - %s \| FileCheck -check-prefix=GFX10 %s

				---

				name: commute_vop3
				tracksRegLiveness: true

				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX9-LABEL: name: commute_vop3
				; GFX9: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX9: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX9: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX9: [[V_XOR3_B32_e64_:%[0-9]+]]:vgpr_32 = V_XOR3_B32_e64 [[COPY]], [[COPY1]], [[COPY2]], implicit $exec
				; GFX9: [[V_MED3_F16_e64_:%[0-9]+]]:vgpr_32 = V_MED3_F16_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_MED3_F16_e64_1:%[0-9]+]]:vgpr_32 = V_MED3_F16_e64 0, [[COPY1]], 0, [[COPY]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_MED3_I16_e64_:%[0-9]+]]:vgpr_32 = V_MED3_I16_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $exec
				; GFX9: [[V_MAX3_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX3_F32_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_SAD_HI_U8_e64_:%[0-9]+]]:vgpr_32 = V_SAD_HI_U8_e64 [[COPY]], [[COPY1]], [[COPY2]], 0, implicit $exec
				; GFX9: [[V_SUB_I32_e64_:%[0-9]+]]:vgpr_32 = V_SUB_I32_e64 [[COPY]], [[COPY1]], 0, implicit $exec
				; GFX9: [[V_SUB_I32_e64_1:%[0-9]+]]:vgpr_32 = V_SUB_I32_e64 [[COPY1]], [[COPY]], 0, implicit $exec
				; GFX9: [[V_MAX3_F32_e64_1:%[0-9]+]]:vgpr_32 = V_MAX3_F32_e64 0, [[COPY]], 2, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_MAX3_F32_e64_2:%[0-9]+]]:vgpr_32 = V_MAX3_F32_e64 1, [[COPY1]], 0, [[COPY]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_FMA_F32_e64_:%[0-9]+]]:vgpr_32 = V_FMA_F32_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_FMA_F32_e64_1:%[0-9]+]]:vgpr_32 = V_FMA_F32_e64 1, [[COPY1]], 0, [[COPY]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX9: [[V_MIN3_F32_e64_:%[0-9]+]]:vgpr_32 = V_MIN3_F32_e64 8, [[COPY]], 4, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10-LABEL: name: commute_vop3
				; GFX10: liveins: $vgpr0, $vgpr1, $vgpr2
				; GFX10: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
				; GFX10: [[COPY1:%[0-9]+]]:vgpr_32 = COPY $vgpr1
				; GFX10: [[COPY2:%[0-9]+]]:vgpr_32 = COPY $vgpr2
				; GFX10: [[V_XOR3_B32_e64_:%[0-9]+]]:vgpr_32 = V_XOR3_B32_e64 [[COPY]], [[COPY1]], [[COPY2]], implicit $exec
				; GFX10: [[V_MED3_F16_e64_:%[0-9]+]]:vgpr_32 = V_MED3_F16_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_MED3_F16_e64_1:%[0-9]+]]:vgpr_32 = V_MED3_F16_e64 0, [[COPY1]], 0, [[COPY]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_MED3_I16_e64_:%[0-9]+]]:vgpr_32 = V_MED3_I16_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $exec
				; GFX10: [[V_MAX3_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX3_F32_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_SAD_HI_U8_e64_:%[0-9]+]]:vgpr_32 = V_SAD_HI_U8_e64 [[COPY]], [[COPY1]], [[COPY2]], 0, implicit $exec
				; GFX10: [[V_SUB_I32_e64_:%[0-9]+]]:vgpr_32 = V_SUB_I32_e64 [[COPY]], [[COPY1]], 0, implicit $exec
				; GFX10: [[V_SUB_I32_e64_1:%[0-9]+]]:vgpr_32 = V_SUB_I32_e64 [[COPY1]], [[COPY]], 0, implicit $exec
				; GFX10: [[V_MAX3_F32_e64_1:%[0-9]+]]:vgpr_32 = V_MAX3_F32_e64 0, [[COPY]], 2, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_MAX3_F32_e64_2:%[0-9]+]]:vgpr_32 = V_MAX3_F32_e64 1, [[COPY1]], 0, [[COPY]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_FMA_F32_e64_:%[0-9]+]]:vgpr_32 = V_FMA_F32_e64 0, [[COPY]], 0, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_FMA_F32_e64_1:%[0-9]+]]:vgpr_32 = V_FMA_F32_e64 1, [[COPY1]], 0, [[COPY]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				; GFX10: [[V_MIN3_F32_e64_:%[0-9]+]]:vgpr_32 = V_MIN3_F32_e64 8, [[COPY]], 4, [[COPY1]], 0, [[COPY2]], 0, 0, implicit $mode, implicit $exec
				%0:vgpr_32 = COPY $vgpr0
				%1:vgpr_32 = COPY $vgpr1
				%2:vgpr_32 = COPY $vgpr2
				%3:vgpr_32 = V_XOR3_B32_e64 %0, %1, %2, implicit $exec
				%4:vgpr_32 = V_XOR3_B32_e64 %1, %0, %2, implicit $exec
				; Insts with MayRaiseFPException do not get CSE
				%5:vgpr_32 = V_MED3_F16_e64 0, %0, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%6:vgpr_32 = V_MED3_F16_e64 0, %1, 0, %0, 0, %2, 0, 0, implicit $mode, implicit $exec
				%7:vgpr_32 = V_MED3_I16_e64 0, %0, 0, %1, 0, %2, 0, 0, implicit $exec
				%8:vgpr_32 = V_MED3_I16_e64 0, %1, 0, %0, 0, %2, 0, 0, implicit $exec
				%9:vgpr_32 = V_MAX3_F32_e64 0, %0, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%10:vgpr_32 = V_MAX3_F32_e64 0, %1, 0, %0, 0, %2, 0, 0, implicit $mode, implicit $exec
				%11:vgpr_32 = V_SAD_HI_U8_e64 %0, %1, %2, 0, implicit $exec
				%12:vgpr_32 = V_SAD_HI_U8_e64 %1, %0, %2, 0, implicit $exec
				; Sub should not be commuted
				%13:vgpr_32 = V_SUB_I32_e64 %0, %1, 0, implicit $exec
				%14:vgpr_32 = V_SUB_I32_e64 %1, %0, 0, implicit $exec
				; non-matching modifiers means no commute and cse
				%15:vgpr_32 = V_MAX3_F32_e64 0, %0, 2, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%16:vgpr_32 = V_MAX3_F32_e64 1, %1, 0, %0, 0, %2, 0, 0, implicit $mode, implicit $exec
				%17:vgpr_32 = V_FMA_F32_e64 0, %0, 0, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%18:vgpr_32 = V_FMA_F32_e64 1, %1, 0, %0, 0, %2, 0, 0, implicit $mode, implicit $exec
				; matching modifiers can be commuted and cse
				%19:vgpr_32 = V_MIN3_F32_e64 8, %0, 4, %1, 0, %2, 0, 0, implicit $mode, implicit $exec
				%20:vgpr_32 = V_MIN3_F32_e64 4, %1, 8, %0, 0, %2, 0, 0, implicit $mode, implicit $exec

				...

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Mark additional VOP3 as commutable
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 333939

llvm/lib/Target/AMDGPU/VOP3Instructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/add_shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.ltolz.a16.ll

llvm/test/CodeGen/AMDGPU/commute-vop3.mir

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Mark additional VOP3 as commutableClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 333939

llvm/lib/Target/AMDGPU/VOP3Instructions.td

llvm/test/CodeGen/AMDGPU/GlobalISel/add_shl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshl.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/fshr.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.ltolz.a16.ll

llvm/test/CodeGen/AMDGPU/commute-vop3.mir

[AMDGPU] Mark additional VOP3 as commutable
ClosedPublic