Diff 334451

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines	def int_minmax_to_med3 : GICombineRule<
(defs root:$min_or_max, med3_matchdata:$matchinfo),		(defs root:$min_or_max, med3_matchdata:$matchinfo),
(match (wip_match_opcode G_SMAX,		(match (wip_match_opcode G_SMAX,
G_SMIN,		G_SMIN,
G_UMAX,		G_UMAX,
G_UMIN):$min_or_max,		G_UMIN):$min_or_max,
[{ return RegBankHelper.matchIntMinMaxToMed3(*${min_or_max}, ${matchinfo}); }]),		[{ return RegBankHelper.matchIntMinMaxToMed3(*${min_or_max}, ${matchinfo}); }]),
(apply [{ RegBankHelper.applyMed3(*${min_or_max}, ${matchinfo}); }])>;		(apply [{ RegBankHelper.applyMed3(*${min_or_max}, ${matchinfo}); }])>;

		def remove_fcanonicalize_matchinfo : GIDefMatchData<"Register">;

		def remove_fcanonicalize : GICombineRule<
		(defs root:$fcanonicalize, remove_fcanonicalize_matchinfo:$matchinfo),
		(match (wip_match_opcode G_FCANONICALIZE):$fcanonicalize,
		[{ return PostLegalizerHelper.matchRemoveFcanonicalize(*${fcanonicalize}, ${matchinfo}); }]),
		(apply [{ Helper.replaceSingleDefInstWithReg(*${fcanonicalize}, ${matchinfo}); }])>;

// Combines which should only apply on SI/VI		// Combines which should only apply on SI/VI
def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;		def gfx6gfx7_combines : GICombineGroup<[fcmp_select_to_fmin_fmax_legacy]>;

def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<		def AMDGPUPreLegalizerCombinerHelper: GICombinerHelper<
"AMDGPUGenPreLegalizerCombinerHelper", [all_combines, clamp_i64_to_i16]> {		"AMDGPUGenPreLegalizerCombinerHelper", [all_combines, clamp_i64_to_i16]> {
let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";		let DisableRuleOption = "amdgpuprelegalizercombiner-disable-rule";
let StateClass = "AMDGPUPreLegalizerCombinerHelperState";		let StateClass = "AMDGPUPreLegalizerCombinerHelperState";
}		}

def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<		def AMDGPUPostLegalizerCombinerHelper: GICombinerHelper<
"AMDGPUGenPostLegalizerCombinerHelper",		"AMDGPUGenPostLegalizerCombinerHelper",
[all_combines, gfx6gfx7_combines,		[all_combines, gfx6gfx7_combines,
uchar_to_float, cvt_f32_ubyteN]> {		uchar_to_float, cvt_f32_ubyteN, remove_fcanonicalize]> {
let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";		let DisableRuleOption = "amdgpupostlegalizercombiner-disable-rule";
let StateClass = "AMDGPUPostLegalizerCombinerHelperState";		let StateClass = "AMDGPUPostLegalizerCombinerHelperState";
let AdditionalArguments = [];		let AdditionalArguments = [];
}		}

def AMDGPURegBankCombinerHelper : GICombinerHelper<		def AMDGPURegBankCombinerHelper : GICombinerHelper<
"AMDGPUGenRegBankCombinerHelper", [zext_trunc_fold, int_minmax_to_med3]> {		"AMDGPUGenRegBankCombinerHelper", [zext_trunc_fold, int_minmax_to_med3]> {
let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";		let DisableRuleOption = "amdgpuregbankcombiner-disable-rule";
let StateClass = "AMDGPURegBankCombinerHelperState";		let StateClass = "AMDGPURegBankCombinerHelperState";
let AdditionalArguments = [];		let AdditionalArguments = [];
}		}

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	public:
struct CvtF32UByteMatchInfo {		struct CvtF32UByteMatchInfo {
Register CvtVal;		Register CvtVal;
unsigned ShiftOffset;		unsigned ShiftOffset;
};		};

bool matchCvtF32UByteN(MachineInstr &MI, CvtF32UByteMatchInfo &MatchInfo);		bool matchCvtF32UByteN(MachineInstr &MI, CvtF32UByteMatchInfo &MatchInfo);
void applyCvtF32UByteN(MachineInstr &MI,		void applyCvtF32UByteN(MachineInstr &MI,
const CvtF32UByteMatchInfo &MatchInfo);		const CvtF32UByteMatchInfo &MatchInfo);

		bool matchRemoveFcanonicalize(MachineInstr &MI, Register &Reg);
};		};

bool AMDGPUPostLegalizerCombinerHelper::matchFMinFMaxLegacy(		bool AMDGPUPostLegalizerCombinerHelper::matchFMinFMaxLegacy(
MachineInstr &MI, FMinFMaxLegacyInfo &Info) {		MachineInstr &MI, FMinFMaxLegacyInfo &Info) {
// FIXME: Combines should have subtarget predicates, and we shouldn't need		// FIXME: Combines should have subtarget predicates, and we shouldn't need
// this here.		// this here.
if (!MF.getSubtarget<GCNSubtarget>().hasFminFmaxLegacy())		if (!MF.getSubtarget<GCNSubtarget>().hasFminFmaxLegacy())
return false;		return false;
▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines	if (SrcTy != S32) {
CvtSrc = B.buildAnyExt(S32, CvtSrc).getReg(0);		CvtSrc = B.buildAnyExt(S32, CvtSrc).getReg(0);
}		}

assert(MI.getOpcode() != NewOpc);		assert(MI.getOpcode() != NewOpc);
B.buildInstr(NewOpc, {MI.getOperand(0)}, {CvtSrc}, MI.getFlags());		B.buildInstr(NewOpc, {MI.getOperand(0)}, {CvtSrc}, MI.getFlags());
MI.eraseFromParent();		MI.eraseFromParent();
}		}

		bool AMDGPUPostLegalizerCombinerHelper::matchRemoveFcanonicalize(
		foadUnsubmitted Not Done Reply Inline Actions I think the C should be capital too, `matchRemoveFCanonicalize`. This matches `buildFCanonicalize` in MIRBuilder. foad: I think the C should be capital too, `matchRemoveFCanonicalize`. This matches…
		MachineInstr &MI, Register &Reg) {
		const SITargetLowering TLI = static_cast<const SITargetLowering >(
		MF.getSubtarget().getTargetLowering());
		Reg = MI.getOperand(1).getReg();
		return TLI->isCanonicalized(Reg, MF);
		arsenmUnsubmitted Not Done Reply Inline Actions Really we should have an isCanonicalized utility function like we do in the DAG rather than special casing these two arsenm: Really we should have an isCanonicalized utility function like we do in the DAG rather than…
		}

		foadUnsubmitted Not Done Reply Inline Actions You can use standard replaceSingleDefInstWithOperand or replaceSingleDefInstWithReg instead of defining your own apply function. foad: You can use standard replaceSingleDefInstWithOperand or replaceSingleDefInstWithReg instead of…
class AMDGPUPostLegalizerCombinerHelperState {		class AMDGPUPostLegalizerCombinerHelperState {
protected:		protected:
CombinerHelper &Helper;		CombinerHelper &Helper;
AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper;		AMDGPUPostLegalizerCombinerHelper &PostLegalizerHelper;

public:		public:
AMDGPUPostLegalizerCombinerHelperState(		AMDGPUPostLegalizerCombinerHelperState(
CombinerHelper &Helper,		CombinerHelper &Helper,
▲ Show 20 Lines • Show All 138 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.h

Show First 20 Lines • Show All 437 Lines • ▼ Show 20 Lines	public:
Align computeKnownAlignForTargetInstr(GISelKnownBits &Analysis, Register R,		Align computeKnownAlignForTargetInstr(GISelKnownBits &Analysis, Register R,
const MachineRegisterInfo &MRI,		const MachineRegisterInfo &MRI,
unsigned Depth = 0) const override;		unsigned Depth = 0) const override;
bool isSDNodeSourceOfDivergence(const SDNode *N,		bool isSDNodeSourceOfDivergence(const SDNode *N,
FunctionLoweringInfo FLI, LegacyDivergenceAnalysis DA) const override;		FunctionLoweringInfo FLI, LegacyDivergenceAnalysis DA) const override;

bool isCanonicalized(SelectionDAG &DAG, SDValue Op,		bool isCanonicalized(SelectionDAG &DAG, SDValue Op,
unsigned MaxDepth = 5) const;		unsigned MaxDepth = 5) const;
		bool isCanonicalized(Register Reg, MachineFunction &MF,
		unsigned MaxDepth = 5) const;
bool denormalsEnabledForType(const SelectionDAG &DAG, EVT VT) const;		bool denormalsEnabledForType(const SelectionDAG &DAG, EVT VT) const;
		bool denormalsEnabledForType(LLT Ty, MachineFunction &MF) const;

bool isKnownNeverNaNForTargetNode(SDValue Op,		bool isKnownNeverNaNForTargetNode(SDValue Op,
const SelectionDAG &DAG,		const SelectionDAG &DAG,
bool SNaN = false,		bool SNaN = false,
unsigned Depth = 0) const override;		unsigned Depth = 0) const override;
AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *) const override;		AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *) const override;

virtual const TargetRegisterClass *		virtual const TargetRegisterClass *
▲ Show 20 Lines • Show All 42 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 9,640 Lines • ▼ Show 20 Lines	bool SITargetLowering::isCanonicalized(SelectionDAG &DAG, SDValue Op,
default:		default:
return denormalsEnabledForType(DAG, Op.getValueType()) &&		return denormalsEnabledForType(DAG, Op.getValueType()) &&
DAG.isKnownNeverSNaN(Op);		DAG.isKnownNeverSNaN(Op);
}		}

llvm_unreachable("invalid operation");		llvm_unreachable("invalid operation");
}		}

		bool SITargetLowering::isCanonicalized(Register Reg, MachineFunction &MF,
		arsenmUnsubmitted Not Done Reply Inline Actions I don't think this really belongs in SITargetLowering, but I don't have a better suggestion for now arsenm: I don't think this really belongs in SITargetLowering, but I don't have a better suggestion for…
		unsigned MaxDepth) const {
		MachineRegisterInfo &MRI = MF.getRegInfo();
		MachineInstr *MI = MRI.getVRegDef(Reg);
		unsigned Opcode = MI->getOpcode();

		if (Opcode == AMDGPU::G_FCANONICALIZE)
		return true;

		if (Opcode == AMDGPU::G_FCANONICALIZE) {
		arsenmUnsubmitted Not Done Reply Inline Actions Duplicated / dead path for fcanonicalize. This meant G_FCONSTANT arsenm: Duplicated / dead path for fcanonicalize. This meant G_FCONSTANT
		auto F = MI->getOperand(1).getFPImm()->getValueAPF();
		if (F.isNaN() && F.isSignaling())
		return false;
		return !F.isDenormal() \|\| denormalsEnabledForType(MRI.getType(Reg), MF);
		}

		if (MaxDepth == 0)
		return false;

		switch (Opcode) {
		case AMDGPU::G_FMINNUM_IEEE:
		case AMDGPU::G_FMAXNUM_IEEE: {
		if (Subtarget->supportsMinMaxDenormModes() \|\|
		arsenmUnsubmitted Not Done Reply Inline Actions We shouldn't actually treat these generic instructions differently based on the subtarget, but I guess that's an existing problem arsenm: We shouldn't actually treat these generic instructions differently based on the subtarget, but…
		denormalsEnabledForType(MRI.getType(Reg), MF))
		return true;
		for (unsigned I = 1, E = MI->getNumOperands(); I != E; ++I) {
		if (!isCanonicalized(MI->getOperand(I).getReg(), MF, MaxDepth - 1))
		return false;
		}
		return true;
		}
		default:
		return denormalsEnabledForType(MRI.getType(Reg), MF) &&
		isKnownNeverSNaN(Reg, MRI);
		}

		llvm_unreachable("invalid operation");
		}

// Constant fold canonicalize.		// Constant fold canonicalize.
SDValue SITargetLowering::getCanonicalConstantFP(		SDValue SITargetLowering::getCanonicalConstantFP(
SelectionDAG &DAG, const SDLoc &SL, EVT VT, const APFloat &C) const {		SelectionDAG &DAG, const SDLoc &SL, EVT VT, const APFloat &C) const {
// Flush denormals to 0 if not enabled.		// Flush denormals to 0 if not enabled.
if (C.isDenormal() && !denormalsEnabledForType(DAG, VT))		if (C.isDenormal() && !denormalsEnabledForType(DAG, VT))
return DAG.getConstantFP(0.0, SL, VT);		return DAG.getConstantFP(0.0, SL, VT);

if (C.isNaN()) {		if (C.isNaN()) {
▲ Show 20 Lines • Show All 2,257 Lines • ▼ Show 20 Lines	bool SITargetLowering::denormalsEnabledForType(const SelectionDAG &DAG,
case MVT::f64:		case MVT::f64:
case MVT::f16:		case MVT::f16:
return hasFP64FP16Denormals(DAG.getMachineFunction());		return hasFP64FP16Denormals(DAG.getMachineFunction());
default:		default:
return false;		return false;
}		}
}		}

		bool SITargetLowering::denormalsEnabledForType(LLT Ty,
		MachineFunction &MF) const {
		switch (Ty.getScalarSizeInBits()) {
		case 32:
		return hasFP32Denormals(MF);
		case 64:
		case 16:
		return hasFP64FP16Denormals(MF);
		default:
		return false;
		}
		}

bool SITargetLowering::isKnownNeverNaNForTargetNode(SDValue Op,		bool SITargetLowering::isKnownNeverNaNForTargetNode(SDValue Op,
const SelectionDAG &DAG,		const SelectionDAG &DAG,
bool SNaN,		bool SNaN,
unsigned Depth) const {		unsigned Depth) const {
if (Op.getOpcode() == AMDGPUISD::CLAMP) {		if (Op.getOpcode() == AMDGPUISD::CLAMP) {
const MachineFunction &MF = DAG.getMachineFunction();		const MachineFunction &MF = DAG.getMachineFunction();
const SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();		const SIMachineFunctionInfo *Info = MF.getInfo<SIMachineFunctionInfo>();

▲ Show 20 Lines • Show All 192 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -mtriple=amdgcn-amd-amdhsa -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s

				---
				name: test_fminnum_with_fminnum_argument_s32_ieee_mode_on
				tracksRegLiveness: true
				legalized: true
				machineFunctionInfo:
				mode:
				ieee: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; CHECK-LABEL: name: test_fminnum_with_fminnum_argument_s32_ieee_mode_on
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[FCANONICALIZE:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY]]
				; CHECK: [[FCANONICALIZE1:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY1]]
				; CHECK: [[FMINNUM_IEEE:%[0-9]+]]:_(s32) = G_FMINNUM_IEEE [[FCANONICALIZE]], [[FCANONICALIZE1]]
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[FCANONICALIZE2:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY2]]
				; CHECK: [[FMINNUM_IEEE1:%[0-9]+]]:_(s32) = G_FMINNUM_IEEE [[FMINNUM_IEEE]], [[FCANONICALIZE2]]
				; CHECK: $vgpr0 = COPY [[FMINNUM_IEEE1]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%7:_(s32) = G_FCANONICALIZE %0
				%8:_(s32) = G_FCANONICALIZE %1
				%2:_(s32) = G_FMINNUM_IEEE %7, %8
				%3:_(s32) = COPY $vgpr2
				%5:_(s32) = G_FCANONICALIZE %2
				%6:_(s32) = G_FCANONICALIZE %3
				%4:_(s32) = G_FMINNUM_IEEE %5, %6
				$vgpr0 = COPY %4(s32)
				...

				---
				name: test_fminnum_with_fmaxnum_argument_s32_ieee_mode_on
				tracksRegLiveness: true
				legalized: true
				machineFunctionInfo:
				mode:
				ieee: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; CHECK-LABEL: name: test_fminnum_with_fmaxnum_argument_s32_ieee_mode_on
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[FCANONICALIZE:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY]]
				; CHECK: [[FCANONICALIZE1:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY1]]
				; CHECK: [[FMAXNUM_IEEE:%[0-9]+]]:_(s32) = G_FMAXNUM_IEEE [[FCANONICALIZE]], [[FCANONICALIZE1]]
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[FCANONICALIZE2:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY2]]
				; CHECK: [[FMINNUM_IEEE:%[0-9]+]]:_(s32) = G_FMINNUM_IEEE [[FMAXNUM_IEEE]], [[FCANONICALIZE2]]
				; CHECK: $vgpr0 = COPY [[FMINNUM_IEEE]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%7:_(s32) = G_FCANONICALIZE %0
				%8:_(s32) = G_FCANONICALIZE %1
				%2:_(s32) = G_FMAXNUM_IEEE %7, %8
				%3:_(s32) = COPY $vgpr2
				%5:_(s32) = G_FCANONICALIZE %2
				%6:_(s32) = G_FCANONICALIZE %3
				%4:_(s32) = G_FMINNUM_IEEE %5, %6
				$vgpr0 = COPY %4(s32)
				...

				---
				name: test_fmaxnum_with_fmaxnum_argument_s32_ieee_mode_on
				tracksRegLiveness: true
				legalized: true
				machineFunctionInfo:
				mode:
				ieee: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; CHECK-LABEL: name: test_fmaxnum_with_fmaxnum_argument_s32_ieee_mode_on
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[FCANONICALIZE:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY]]
				; CHECK: [[FCANONICALIZE1:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY1]]
				; CHECK: [[FMAXNUM_IEEE:%[0-9]+]]:_(s32) = G_FMAXNUM_IEEE [[FCANONICALIZE]], [[FCANONICALIZE1]]
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[FCANONICALIZE2:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY2]]
				; CHECK: [[FMAXNUM_IEEE1:%[0-9]+]]:_(s32) = G_FMAXNUM_IEEE [[FMAXNUM_IEEE]], [[FCANONICALIZE2]]
				; CHECK: $vgpr0 = COPY [[FMAXNUM_IEEE1]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%7:_(s32) = G_FCANONICALIZE %0
				%8:_(s32) = G_FCANONICALIZE %1
				%2:_(s32) = G_FMAXNUM_IEEE %7, %8
				%3:_(s32) = COPY $vgpr2
				%5:_(s32) = G_FCANONICALIZE %2
				%6:_(s32) = G_FCANONICALIZE %3
				%4:_(s32) = G_FMAXNUM_IEEE %5, %6
				$vgpr0 = COPY %4(s32)
				...

				---
				name: test_fmaxnum_with_fminnum_argument_s32_ieee_mode_on
				tracksRegLiveness: true
				legalized: true
				machineFunctionInfo:
				mode:
				ieee: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1, $vgpr2

				; CHECK-LABEL: name: test_fmaxnum_with_fminnum_argument_s32_ieee_mode_on
				; CHECK: liveins: $vgpr0, $vgpr1, $vgpr2
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[FCANONICALIZE:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY]]
				; CHECK: [[FCANONICALIZE1:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY1]]
				; CHECK: [[FMINNUM_IEEE:%[0-9]+]]:_(s32) = G_FMINNUM_IEEE [[FCANONICALIZE]], [[FCANONICALIZE1]]
				; CHECK: [[COPY2:%[0-9]+]]:_(s32) = COPY $vgpr2
				; CHECK: [[FCANONICALIZE2:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY2]]
				; CHECK: [[FMAXNUM_IEEE:%[0-9]+]]:_(s32) = G_FMAXNUM_IEEE [[FMINNUM_IEEE]], [[FCANONICALIZE2]]
				; CHECK: $vgpr0 = COPY [[FMAXNUM_IEEE]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%7:_(s32) = G_FCANONICALIZE %0
				%8:_(s32) = G_FCANONICALIZE %1
				%2:_(s32) = G_FMINNUM_IEEE %7, %8
				%3:_(s32) = COPY $vgpr2
				%5:_(s32) = G_FCANONICALIZE %2
				%6:_(s32) = G_FCANONICALIZE %3
				%4:_(s32) = G_FMAXNUM_IEEE %5, %6
				$vgpr0 = COPY %4(s32)
				...

				---
				name: test_multiple_uses
				tracksRegLiveness: true
				legalized: true
				machineFunctionInfo:
				mode:
				ieee: true
				body: \|
				bb.0:
				liveins: $vgpr0, $vgpr1

				; CHECK-LABEL: name: test_multiple_uses
				; CHECK: liveins: $vgpr0, $vgpr1
				; CHECK: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK: [[COPY1:%[0-9]+]]:_(s32) = COPY $vgpr1
				; CHECK: [[FCANONICALIZE:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY]]
				; CHECK: [[FCANONICALIZE1:%[0-9]+]]:_(s32) = G_FCANONICALIZE [[COPY1]]
				; CHECK: [[FMINNUM_IEEE:%[0-9]+]]:_(s32) = G_FMINNUM_IEEE [[FCANONICALIZE]], [[FCANONICALIZE1]]
				; CHECK: [[FMAXNUM_IEEE:%[0-9]+]]:_(s32) = G_FMAXNUM_IEEE [[FMINNUM_IEEE]], [[FMINNUM_IEEE]]
				; CHECK: $vgpr0 = COPY [[FMAXNUM_IEEE]](s32)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = COPY $vgpr1
				%6:_(s32) = G_FCANONICALIZE %0
				%7:_(s32) = G_FCANONICALIZE %1
				%2:_(s32) = G_FMINNUM_IEEE %6, %7
				%4:_(s32) = G_FCANONICALIZE %2
				%5:_(s32) = G_FCANONICALIZE %2
				%3:_(s32) = G_FMAXNUM_IEEE %4, %5
				$vgpr0 = COPY %3(s32)
				...
				arsenmUnsubmitted Not Done Reply Inline Actions Needs tests for the G_FCONSTANT cases arsenm: Needs tests for the G_FCONSTANT cases

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

	Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; SI-NEXT: buffer_load_dword v4, v[0:1], s[8:11], 0 addr64 glc			; SI-NEXT: buffer_load_dword v4, v[0:1], s[8:11], 0 addr64 glc
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_sub_f32_e32 v2, 0x80000000, v2			; SI-NEXT: v_sub_f32_e32 v2, 0x80000000, v2
	; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3			; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3
	; SI-NEXT: v_min_f32_e32 v5, v2, v3			; SI-NEXT: v_min_f32_e32 v5, v2, v3
	; SI-NEXT: v_max_f32_e32 v2, v2, v3			; SI-NEXT: v_max_f32_e32 v2, v2, v3
	; SI-NEXT: v_mul_f32_e32 v3, 1.0, v4			; SI-NEXT: v_mul_f32_e32 v3, 1.0, v4
	; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; SI-NEXT: v_min_f32_e32 v2, v2, v3			; SI-NEXT: v_min_f32_e32 v2, v2, v3
	; SI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; SI-NEXT: v_max_f32_e32 v2, v5, v2
	; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; SI-NEXT: v_max_f32_e32 v2, v3, v2
	; SI-NEXT: s_mov_b64 s[2:3], s[10:11]			; SI-NEXT: s_mov_b64 s[2:3], s[10:11]
	; SI-NEXT: buffer_store_dword v2, v[0:1], s[0:3], 0 addr64			; SI-NEXT: buffer_store_dword v2, v[0:1], s[0:3], 0 addr64
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_test_no_global_nnans_med3_f32_pat0_srcmod0:			; VI-LABEL: v_test_no_global_nnans_med3_f32_pat0_srcmod0:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v6, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v6, 2, v0
	Show All 21 Lines
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_sub_f32_e32 v4, 0x80000000, v7			; VI-NEXT: v_sub_f32_e32 v4, 0x80000000, v7
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_mul_f32_e32 v4, 1.0, v4			; VI-NEXT: v_mul_f32_e32 v4, 1.0, v4
	; VI-NEXT: v_min_f32_e32 v5, v4, v2			; VI-NEXT: v_min_f32_e32 v5, v4, v2
	; VI-NEXT: v_max_f32_e32 v2, v4, v2			; VI-NEXT: v_max_f32_e32 v2, v4, v2
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_min_f32_e32 v2, v2, v3			; VI-NEXT: v_min_f32_e32 v2, v2, v3
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; VI-NEXT: v_max_f32_e32 v2, v5, v2
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_max_f32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_no_global_nnans_med3_f32_pat0_srcmod0:			; GFX9-LABEL: v_test_no_global_nnans_med3_f32_pat0_srcmod0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[2:3] glc			; GFX9-NEXT: global_load_dword v1, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[4:5] glc			; GFX9-NEXT: global_load_dword v2, v0, s[4:5] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v3, v0, s[6:7] glc			; GFX9-NEXT: global_load_dword v3, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_sub_f32_e32 v1, 0x80000000, v1			; GFX9-NEXT: v_sub_f32_e32 v1, 0x80000000, v1
	; GFX9-NEXT: v_max_f32_e32 v2, v2, v2			; GFX9-NEXT: v_max_f32_e32 v2, v2, v2
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v1			; GFX9-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX9-NEXT: v_min_f32_e32 v4, v1, v2			; GFX9-NEXT: v_min_f32_e32 v4, v1, v2
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v2			; GFX9-NEXT: v_max_f32_e32 v1, v1, v2
	; GFX9-NEXT: v_max_f32_e32 v3, v3, v3			; GFX9-NEXT: v_max_f32_e32 v2, v3, v3
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v1			; GFX9-NEXT: v_min_f32_e32 v1, v1, v2
	; GFX9-NEXT: v_min_f32_e32 v1, v1, v3			; GFX9-NEXT: v_max_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_max_f32_e32 v2, v4, v4
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX9-NEXT: v_max_f32_e32 v1, v2, v1
	; GFX9-NEXT: global_store_dword v0, v1, s[0:1]			; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_test_no_global_nnans_med3_f32_pat0_srcmod0:			; GFX10-LABEL: v_test_no_global_nnans_med3_f32_pat0_srcmod0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dword v1, v0, s[2:3] glc dlc			; GFX10-NEXT: global_load_dword v1, v0, s[2:3] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_dword v2, v0, s[4:5] glc dlc			; GFX10-NEXT: global_load_dword v2, v0, s[4:5] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_dword v3, v0, s[6:7] glc dlc			; GFX10-NEXT: global_load_dword v3, v0, s[6:7] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_sub_f32_e32 v1, 0x80000000, v1			; GFX10-NEXT: v_sub_f32_e32 v1, 0x80000000, v1
	; GFX10-NEXT: v_max_f32_e32 v2, v2, v2			; GFX10-NEXT: v_max_f32_e32 v2, v2, v2
	; GFX10-NEXT: v_max_f32_e32 v3, v3, v3			; GFX10-NEXT: v_max_f32_e32 v3, v3, v3
	; GFX10-NEXT: v_max_f32_e32 v1, v1, v1			; GFX10-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX10-NEXT: v_max_f32_e32 v4, v1, v2			; GFX10-NEXT: v_max_f32_e32 v4, v1, v2
	; GFX10-NEXT: v_min_f32_e32 v1, v1, v2			; GFX10-NEXT: v_min_f32_e32 v1, v1, v2
	; GFX10-NEXT: v_max_f32_e32 v4, v4, v4
	; GFX10-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX10-NEXT: v_min_f32_e32 v2, v4, v3			; GFX10-NEXT: v_min_f32_e32 v2, v4, v3
	; GFX10-NEXT: v_max_f32_e32 v2, v2, v2
	; GFX10-NEXT: v_max_f32_e32 v1, v1, v2			; GFX10-NEXT: v_max_f32_e32 v1, v1, v2
	; GFX10-NEXT: global_store_dword v0, v1, s[0:1]			; GFX10-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid			%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid
	%gep1 = getelementptr float, float addrspace(1)* %bptr, i32 %tid			%gep1 = getelementptr float, float addrspace(1)* %bptr, i32 %tid
	%gep2 = getelementptr float, float addrspace(1)* %cptr, i32 %tid			%gep2 = getelementptr float, float addrspace(1)* %cptr, i32 %tid
	%outgep = getelementptr float, float addrspace(1)* %out, i32 %tid			%outgep = getelementptr float, float addrspace(1)* %out, i32 %tid
	▲ Show 20 Lines • Show All 396 Lines • ▼ Show 20 Lines
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3			; SI-NEXT: v_mul_f32_e32 v3, 1.0, v3
	; SI-NEXT: v_min_f32_e32 v5, v2, v3			; SI-NEXT: v_min_f32_e32 v5, v2, v3
	; SI-NEXT: v_max_f32_e32 v2, v2, v3			; SI-NEXT: v_max_f32_e32 v2, v2, v3
	; SI-NEXT: v_mul_f32_e32 v3, 1.0, v4			; SI-NEXT: v_mul_f32_e32 v3, 1.0, v4
	; SI-NEXT: buffer_store_dword v5, off, s[0:3], 0			; SI-NEXT: buffer_store_dword v5, off, s[0:3], 0
	; SI-NEXT: s_waitcnt vmcnt(0)			; SI-NEXT: s_waitcnt vmcnt(0)
	; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; SI-NEXT: v_min_f32_e32 v2, v2, v3			; SI-NEXT: v_min_f32_e32 v2, v2, v3
	; SI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; SI-NEXT: v_max_f32_e32 v2, v5, v2
	; SI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; SI-NEXT: v_max_f32_e32 v2, v3, v2
	; SI-NEXT: s_mov_b64 s[2:3], s[10:11]			; SI-NEXT: s_mov_b64 s[2:3], s[10:11]
	; SI-NEXT: buffer_store_dword v2, v[0:1], s[0:3], 0 addr64			; SI-NEXT: buffer_store_dword v2, v[0:1], s[0:3], 0 addr64
	; SI-NEXT: s_endpgm			; SI-NEXT: s_endpgm
	;			;
	; VI-LABEL: v_test_safe_med3_f32_pat0_multi_use0:			; VI-LABEL: v_test_safe_med3_f32_pat0_multi_use0:
	; VI: ; %bb.0:			; VI: ; %bb.0:
	; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; VI-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; VI-NEXT: v_lshlrev_b32_e32 v6, 2, v0			; VI-NEXT: v_lshlrev_b32_e32 v6, 2, v0
	Show All 18 Lines
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: v_mov_b32_e32 v0, s0			; VI-NEXT: v_mov_b32_e32 v0, s0
	; VI-NEXT: v_mov_b32_e32 v1, s1			; VI-NEXT: v_mov_b32_e32 v1, s1
	; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6			; VI-NEXT: v_add_u32_e32 v0, vcc, v0, v6
	; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc			; VI-NEXT: v_addc_u32_e32 v1, vcc, 0, v1, vcc
	; VI-NEXT: v_mul_f32_e32 v4, 1.0, v7			; VI-NEXT: v_mul_f32_e32 v4, 1.0, v7
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_min_f32_e32 v5, v4, v2			; VI-NEXT: v_min_f32_e32 v5, v4, v2
	; VI-NEXT: v_max_f32_e32 v2, v4, v2
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3			; VI-NEXT: v_mul_f32_e32 v3, 1.0, v3
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2			; VI-NEXT: v_max_f32_e32 v2, v4, v2
	; VI-NEXT: v_min_f32_e32 v2, v2, v3			; VI-NEXT: v_min_f32_e32 v2, v2, v3
	; VI-NEXT: v_mul_f32_e32 v3, 1.0, v5			; VI-NEXT: v_max_f32_e32 v2, v5, v2
	; VI-NEXT: v_mul_f32_e32 v2, 1.0, v2
	; VI-NEXT: v_max_f32_e32 v2, v3, v2
	; VI-NEXT: flat_store_dword v[0:1], v5			; VI-NEXT: flat_store_dword v[0:1], v5
	; VI-NEXT: s_waitcnt vmcnt(0)			; VI-NEXT: s_waitcnt vmcnt(0)
	; VI-NEXT: flat_store_dword v[0:1], v2			; VI-NEXT: flat_store_dword v[0:1], v2
	; VI-NEXT: s_endpgm			; VI-NEXT: s_endpgm
	;			;
	; GFX9-LABEL: v_test_safe_med3_f32_pat0_multi_use0:			; GFX9-LABEL: v_test_safe_med3_f32_pat0_multi_use0:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX9-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX9-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX9-NEXT: s_waitcnt lgkmcnt(0)			; GFX9-NEXT: s_waitcnt lgkmcnt(0)
	; GFX9-NEXT: global_load_dword v1, v0, s[2:3] glc			; GFX9-NEXT: global_load_dword v1, v0, s[2:3] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v2, v0, s[4:5] glc			; GFX9-NEXT: global_load_dword v2, v0, s[4:5] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_load_dword v3, v0, s[6:7] glc			; GFX9-NEXT: global_load_dword v3, v0, s[6:7] glc
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v1			; GFX9-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX9-NEXT: v_max_f32_e32 v2, v2, v2			; GFX9-NEXT: v_max_f32_e32 v2, v2, v2
	; GFX9-NEXT: v_min_f32_e32 v4, v1, v2			; GFX9-NEXT: v_min_f32_e32 v4, v1, v2
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v2			; GFX9-NEXT: v_max_f32_e32 v1, v1, v2
				; GFX9-NEXT: v_max_f32_e32 v3, v3, v3
	; GFX9-NEXT: global_store_dword v[0:1], v4, off			; GFX9-NEXT: global_store_dword v[0:1], v4, off
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: v_max_f32_e32 v3, v3, v3
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX9-NEXT: v_min_f32_e32 v1, v1, v3			; GFX9-NEXT: v_min_f32_e32 v1, v1, v3
	; GFX9-NEXT: v_max_f32_e32 v2, v4, v4			; GFX9-NEXT: v_max_f32_e32 v1, v4, v1
	; GFX9-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX9-NEXT: v_max_f32_e32 v1, v2, v1
	; GFX9-NEXT: global_store_dword v0, v1, s[0:1]			; GFX9-NEXT: global_store_dword v0, v1, s[0:1]
	; GFX9-NEXT: s_endpgm			; GFX9-NEXT: s_endpgm
	;			;
	; GFX10-LABEL: v_test_safe_med3_f32_pat0_multi_use0:			; GFX10-LABEL: v_test_safe_med3_f32_pat0_multi_use0:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24			; GFX10-NEXT: s_load_dwordx8 s[0:7], s[0:1], 0x24
	; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0			; GFX10-NEXT: v_lshlrev_b32_e32 v0, 2, v0
	; GFX10-NEXT: s_waitcnt lgkmcnt(0)			; GFX10-NEXT: s_waitcnt lgkmcnt(0)
	; GFX10-NEXT: global_load_dword v1, v0, s[2:3] glc dlc			; GFX10-NEXT: global_load_dword v1, v0, s[2:3] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_dword v2, v0, s[4:5] glc dlc			; GFX10-NEXT: global_load_dword v2, v0, s[4:5] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_load_dword v3, v0, s[6:7] glc dlc			; GFX10-NEXT: global_load_dword v3, v0, s[6:7] glc dlc
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: v_max_f32_e32 v1, v1, v1			; GFX10-NEXT: v_max_f32_e32 v1, v1, v1
	; GFX10-NEXT: v_max_f32_e32 v2, v2, v2			; GFX10-NEXT: v_max_f32_e32 v2, v2, v2
	; GFX10-NEXT: v_max_f32_e32 v3, v3, v3			; GFX10-NEXT: v_max_f32_e32 v3, v3, v3
	; GFX10-NEXT: v_max_f32_e32 v4, v1, v2			; GFX10-NEXT: v_max_f32_e32 v4, v1, v2
	; GFX10-NEXT: v_min_f32_e32 v1, v1, v2			; GFX10-NEXT: v_min_f32_e32 v1, v1, v2
	; GFX10-NEXT: v_max_f32_e32 v4, v4, v4
	; GFX10-NEXT: v_min_f32_e32 v2, v4, v3			; GFX10-NEXT: v_min_f32_e32 v2, v4, v3
	; GFX10-NEXT: v_max_f32_e32 v3, v1, v1			; GFX10-NEXT: v_max_f32_e32 v2, v1, v2
	; GFX10-NEXT: v_max_f32_e32 v2, v2, v2
	; GFX10-NEXT: v_max_f32_e32 v2, v3, v2
	; GFX10-NEXT: global_store_dword v[0:1], v1, off			; GFX10-NEXT: global_store_dword v[0:1], v1, off
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: global_store_dword v0, v2, s[0:1]			; GFX10-NEXT: global_store_dword v0, v2, s[0:1]
	; GFX10-NEXT: s_endpgm			; GFX10-NEXT: s_endpgm
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid			%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid
	%gep1 = getelementptr float, float addrspace(1)* %bptr, i32 %tid			%gep1 = getelementptr float, float addrspace(1)* %bptr, i32 %tid
	%gep2 = getelementptr float, float addrspace(1)* %cptr, i32 %tid			%gep2 = getelementptr float, float addrspace(1)* %cptr, i32 %tid
	Show All 26 Lines

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU/GlobalISel: Remove redundant G_FCANONICALIZE
ClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 334451

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU/GlobalISel: Remove redundant G_FCANONICALIZEClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 334451

llvm/lib/Target/AMDGPU/AMDGPUCombine.td

llvm/lib/Target/AMDGPU/AMDGPUPostLegalizerCombiner.cpp

llvm/lib/Target/AMDGPU/SIISelLowering.h

llvm/lib/Target/AMDGPU/SIISelLowering.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/fmed3.ll

AMDGPU/GlobalISel: Remove redundant G_FCANONICALIZE
ClosedPublic