This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/CodeGen/SelectionDAG/
-
CodeGen/
-
SelectionDAG/
3/3
DAGCombiner.cpp
-
SelectionDAGBuilder.h
1/11
SelectionDAGBuilder.cpp
-
test/CodeGen/
-
CodeGen/
-
AMDGPU/
-
fcanonicalize-elimination.ll
-
fcanonicalize.f16.ll
-
fcanonicalize.ll
-
fdiv32-to-rcp-folding.ll
-
fmuladd.f16.ll
-
fmuladd.f32.ll
1
fneg-combines.ll
-
llvm.amdgcn.fmed3.ll
-
selectcc-opt.ll
-
set-dx10.ll
-
X86/
-
fp-denormals.ll

Differential D73978

[WIP][FPEnv] Don't transform FSUB(-0.0,X)->FNEG(X) when flushing denormals
AbandonedPublic

Authored by cameron.mcinally on Feb 4 2020, 10:07 AM.

Download Raw Diff

Details

Reviewers

arsenm
spatel
craig.topper
andrew.w.kaylor
kpn
uweigand
pengfei
sepavloff

Summary

When in a mode that flushes denormals, we don't want to transform FSUB(-0.0,X) -> FNEG(X). The former is an arith operation that will flush a denormal input to 0. The latter is a bitwise operation that will only flip the sign bit.

Marked as [WIP] since the logic is a little weird. Hoping @arsenm and others can offer some guidance...

Notice that we still perform the transformation when in DenormalMode::IEEE. This is counter-intuitive. IEEE-754 is what specifies that these operations are distinct, but only in regards to side-effects, not denormal flushing. LLVM optimizations do not preserve side-effects, and both operation results will be bitwise identical when we're not flushing denormals, so I think this is the correct thing to do.

Although, there's also the problem of this transform changing the sign of a NaN in DenormalMode::IEEE. Do we want to take that into consideration? E.g. an FSUB(-0.0, NaN) should produce a canonical NaN with the same payload, while FNEG(NaN) produces -NaN. If I'm not mistaken, IEEE-754 doesn't specify the sign of a NaN result, besides being a canonical NaN.

Also notice that we still perform the transformation when in DenormalMode::Invalid. I believe that Invalid is actually a flush to zero mode. However, I think it makes sense to leave the default mode unchanged wrt disabling this transform. There could be a very small (and hard to measure) performance penalty for using a proper FSUB on some targets.

Thoughts about any of this?

Diff Detail

Event Timeline

cameron.mcinally created this revision.Feb 4 2020, 10:07 AM

Herald added a project: Restricted Project. · View Herald TranscriptFeb 4 2020, 10:07 AM

Herald added subscribers: llvm-commits, hiraditya, wdng. · View Herald Transcript

arsenm added inline comments.Feb 4 2020, 10:17 AM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
12589–12591	This will need updating for the splitting the input and output patch I just committed
llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	Why does SelectionDAGBuilder bother doing this fold at all? It should just directly translate the fsub?

arsenm added inline comments.Feb 4 2020, 10:19 AM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	I think this should be just ripped out in a separate patch. The same problem seems to have been copied to IRTranslator, which should also be removed

The DenormalMode::Invalid is a temporary state and should not really be a concern. It should be invalid and never seen after D69989

cameron.mcinally marked 2 inline comments as done.Feb 4 2020, 11:14 AM

cameron.mcinally added inline comments.

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
12589–12591	Ok, thanks. Will wait for the builds to go green and then update.
llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	@sanjay, what do you think? Seems reasonable to me. I think it made sense to do this when FNEG(X) was the canonical form of FSUB(-0.0, X). Wouldn't want two forms floating around for even a small amount of time. But now that there are cases where the operations are distinct through llc, it seems ok to wait until DAGCombine.

spatel added inline comments.Feb 4 2020, 12:31 PM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	Yes, now that we can use DenormMode to distinguish target behavior, it seems better to do it later in DAGCombiner if that would make sense for the target.

cameron.mcinally planned changes to this revision.Feb 5 2020, 7:21 AM

cameron.mcinally marked an inline comment as done.

cameron.mcinally added inline comments.

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	I'll have to put a pin in this for now. Removing this block is causing regressions in about 15 tests. The regressions appear to be subtle lowering differences, so I suspect it will take some time to straighten them out.

cameron.mcinally marked an inline comment as not done.Feb 12 2020, 7:32 AM

cameron.mcinally added inline comments.

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	I looked into removing this and there are warts underneath. Some are surmountable (different lowerings), but one is worrisome. I.e. the case where the FNeg operand is undef: FNEG(undef) -> undef FSUB(-0.0, undef) -> NaN That is, removing this transform propagates NaNs where we previously had undef values. Any thoughts on how to proceed? Do we want to minimize code differences by keeping this transform in place? Or are we okay moving forward with the undef->NaN change?

spatel added inline comments.Feb 12 2020, 11:42 AM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	Did that difference show up as real regressions or something benign? We could add a special-case fold for this here or getNode() if it helps: fsub C, undef --> undef (as long as C is not NaN or Inf?)

arsenm added inline comments.Feb 12 2020, 12:58 PM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	This sounds more correct to me. I don't see why this would be special cased

spatel added inline comments.Feb 12 2020, 1:56 PM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	It's a special-case in the sense that folding to NaN is correct in general. Just dealing with this particular pattern is also a special-case because we could do something similar for all FP ops, not just fsub with constant operand 0. But we'll need to work out if/how the corner cases differ per opcode.

cameron.mcinally marked an inline comment as not done.Feb 13 2020, 7:18 AM

cameron.mcinally added inline comments.

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	Benign llc regression tests. The NaN and undef propagate differently, so the asm differences appear worse than they are. We could add a special-case fold for this here or getNode() if it helps: fsub C, undef --> undef (as long as C is not NaN or Inf?) That's a good idea. I don't feel strongly about it, but the current transform might be more obvious than adding a special case fold though.

spatel mentioned this in D74713: [ConstantFold] fold fsub -0.0, undef to undef rather than NaN.Feb 17 2020, 6:50 AM

spatel added inline comments.Feb 20 2020, 6:43 AM

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp
2986–2987	I tried to generalize this over in D74713, but there doesn't appear to be support for bending the theoretical definition of undef to the practical constraints of real-life floating-point. So our options are: Add a constant fold for this exact case: fsub -0.0, undef --> undef Ignore the diffs caused by removing this transform. I'd lean toward #1 (I can limit D74713 to that case as the start of that effort).

Thanks, Sanjay. I'm okay with either approach.

I'll pick this up again in the near future. I've been distracted with another project...

spatel mentioned this in rGd799190851fd: [ConstantFold] fold fsub -0.0, undef to undef rather than NaN.Feb 21 2020, 5:21 AM

spatel mentioned this in rGa253a2a793cd: [SDAG] fold fsub -0.0, undef to undef rather than NaN.Feb 23 2020, 8:39 AM

In D73978#1884643, @cameron.mcinally wrote:

Thanks, Sanjay. I'm okay with either approach.

rGa253a2a793cd: [SDAG] fold fsub -0.0, undef to undef rather than NaN.

Thanks for that patch, Sanjay.

I have another issue which I hope you can help me sort out. There's a transform in narrowExtractedVectorBinOp(...) in DAGCombiner.cpp:

// extract (binop B0, B1), N --> binop (extract B0, N), (extract B1, N)

This transform only happens for binops, so we don't see it when SelectionDAGBuilder converts the FSUB->FNEG.

The IR is...

%rhs_neg = fsub <4 x float> <float -0.0, float -0.0, float -0.0, float -0.0>, %rhs
%splat = shufflevector <4 x float> %rhs_neg, <4 x float> undef, <2 x i32> <i32 3, i32 3>

and after DAGCombine we end up with DAGs like this...

FNEG:
<               t9: v4f32 = bitcast t8
<             t24: v4f32 = fneg t9
<           t15: v2f32 = extract_subvector t24, Constant:i64<2>
<         t17: v2f32 = vector_shuffle<1,1> t15, undef:v2f32

FSUB:
>               t29: v1i64 = extract_subvector t8, Constant:i64<1>
>             t30: v2f32 = bitcast t29
>           t32: v2f32 = fneg t30
>         t17: v2f32 = vector_shuffle<1,1> t32, undef:v2f32

Moving the extract to the operands (FSUB) is a problem on AArch64 since the extract could be rolled into the shuffle (FNEG). E.g.:

FNEG:
<             t9: v4f32 = bitcast t8
<           t24: v4f32 = fneg t9
<         t26: v2f32 = AArch64ISD::DUPLANE32 t24, Constant:i64<3>

FSUB:
>                 t29: v1i64 = extract_subvector t8, Constant:i64<1>
>               t30: v2f32 = bitcast t29
>             t32: v2f32 = fneg t30
>           t36: v4f32 = insert_subvector undef:v4f32, t32, Constant:i32<0>
>         t37: v2f32 = AArch64ISD::DUPLANE32 t36, Constant:i64<1>

Any insight on the best way to correct this difference? I suppose I could fix up the extract+insert at the MachineInstruction level, but that doesn't seem like the correct fix since other targets could have the same problem.

I'm also a little skeptical about moving the extracts to the operands, and if it's a win in the general case. Seems like it would be stronger after any extract+insert peeps have occurred, but I suppose that's why it's done in DAGCombine. :/

spatel mentioned this in rG894ce940db59: [AArch64] add tests for fake fneg; NFC.Feb 26 2020, 8:05 AM

spatel mentioned this in rGb3d0c798367d: [DAGCombiner] avoid narrowing fake fneg vector op.Feb 26 2020, 8:33 AM

In D73978#1890311, @cameron.mcinally wrote:
Thanks for that patch, Sanjay.

I have another issue which I hope you can help me sort out. There's a transform in narrowExtractedVectorBinOp(...) in DAGCombiner.cpp:

// extract (binop B0, B1), N --> binop (extract B0, N), (extract B1, N)

This transform only happens for binops, so we don't see it when SelectionDAGBuilder converts the FSUB->FNEG.

The IR is...
%rhs_neg = fsub <4 x float> <float -0.0, float -0.0, float -0.0, float -0.0>, %rhs
%splat = shufflevector <4 x float> %rhs_neg, <4 x float> undef, <2 x i32> <i32 3, i32 3>
and after DAGCombine we end up with DAGs like this...
FNEG:
<               t9: v4f32 = bitcast t8
<             t24: v4f32 = fneg t9
<           t15: v2f32 = extract_subvector t24, Constant:i64<2>
<         t17: v2f32 = vector_shuffle<1,1> t15, undef:v2f32

FSUB:
>               t29: v1i64 = extract_subvector t8, Constant:i64<1>
>             t30: v2f32 = bitcast t29
>           t32: v2f32 = fneg t30
>         t17: v2f32 = vector_shuffle<1,1> t32, undef:v2f32
Moving the extract to the operands (FSUB) is a problem on AArch64 since the extract could be rolled into the shuffle (FNEG). E.g.:
FNEG:
<             t9: v4f32 = bitcast t8
<           t24: v4f32 = fneg t9
<         t26: v2f32 = AArch64ISD::DUPLANE32 t24, Constant:i64<3>

FSUB:
>                 t29: v1i64 = extract_subvector t8, Constant:i64<1>
>               t30: v2f32 = bitcast t29
>             t32: v2f32 = fneg t30
>           t36: v4f32 = insert_subvector undef:v4f32, t32, Constant:i32<0>
>         t37: v2f32 = AArch64ISD::DUPLANE32 t36, Constant:i64<1>
Any insight on the best way to correct this difference? I suppose I could fix up the extract+insert at the MachineInstruction level, but that doesn't seem like the correct fix since other targets could have the same problem.

I'm also a little skeptical about moving the extracts to the operands, and if it's a win in the general case. Seems like it would be stronger after any extract+insert peeps have occurred, but I suppose that's why it's done in DAGCombine. :/

The motivation for narrowExtractedVectorBinOp() was to shrink unnecessarily wide vector ops on x86 (256/512-bit vector code can run much slower than 128-bit vector code).
But we want to avoid moving fneg around too much because it can be folded into some other op for free in many cases. We can show there's an inconsistency in the handling in an independent example, so:
rGb3d0c798367d

Let me know if that works to remove the problem here.

Thanks again, Sanjay. That did help. I have other issues to work through on AMDGPU, but it's getting closer...

In D73978#1893862, @cameron.mcinally wrote:

Thanks again, Sanjay. That did help. I have other issues to work through on AMDGPU, but it's getting closer...

As a heads up, AMDGPU doesn’t respect the denormal attribute yet and still uses the custom subtarget features. The patch to switch is posted but held up by its dependencies

spatel mentioned this in D75576: [SDAG] simplify FP binops to undef.Mar 3 2020, 2:59 PM

spatel mentioned this in rG29a2b20ab363: [SDAG] simplify FP binops to undef.Mar 4 2020, 7:54 AM

Rebase and AMDGPU test changes to elucidate a problem with this Diff.

@arsenm, The problem in the AMDGPU tests is that FSUB(-0.0, X) is not folding into the following instruction, as it would if it was transformed into an FNEG(X).

It's probably okay to fold some of these. E.g.

-  %fneg.a = fsub float -0.000000e+00, %a
+  %fneg.a = fneg float %a
   %add = fadd float %fneg.a, %b

If we're flushing input to zero, it's probably okay to fold a FSUB(-0,X) into the FADD, since the FADD will flush denorms. Although, if we're flushing output to zero, that probably is NOT ok, since something like FADD(largest_denorm, largest_denorm) would return a normal.

I guess what I'm really asking is how important is this to AMDGPU? It seems to be the only target that is upset about the changes in this Diff.

Would it be enough to update the CHECK lines to not expect a FSUB(-0,X) to fold? Or does this need more peeps to fold the cases where it's safe? And if the latter, should we move ahead with this Diff and optimize later?

Herald added subscribers: kerbowa, nhaehnle, jvesely. · View Herald TranscriptMar 31 2020, 8:31 AM

In D73978#1952649, @cameron.mcinally wrote:
Rebase and AMDGPU test changes to elucidate a problem with this Diff.

@arsenm, The problem in the AMDGPU tests is that FSUB(-0.0, X) is not folding into the following instruction, as it would if it was transformed into an FNEG(X).

It's probably okay to fold some of these. E.g.
-  %fneg.a = fsub float -0.000000e+00, %a
+  %fneg.a = fneg float %a
   %add = fadd float %fneg.a, %b
If we're flushing input to zero, it's probably okay to fold a FSUB(-0,X) into the FADD, since the FADD will flush denorms. Although, if we're flushing output to zero, that probably is NOT ok, since something like FADD(largest_denorm, largest_denorm) would return a normal.

I guess what I'm really asking is how important is this to AMDGPU? It seems to be the only target that is upset about the changes in this Diff.

AMDGPU isn't respecting the new attributes yet. My patches to switch to it are still working their way through the review/commit process

arsenm added inline comments.Mar 31 2020, 2:45 PM

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
12590	Shouldn't be considering invalid anymore

Remove DenormalMode::Invalid check as suggested by @arsenm.

cameron.mcinally marked 2 inline comments as done.Apr 1 2020, 7:43 AM

AMDGPU should now be properly respecting the new attributes

Thanks, Matt. It looks like preventing the FSUB->FNEG transform is still causing trouble with folding the negate into instructions. E.g.

<scrubbed>/clang/llvm-project/llvm/test/CodeGen/AMDGPU/v_mac_f16.ll:125:7: error: SI: expected string not found in input
; SI: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}

It seems that there are a handful of new test failures too.

Any suggestions on how to proceed?

Should we not expect the explicit FSUB(-0,X) to fold under denormal flushing modes? (Too big a hammer, but correct)

Or maybe fold the FSUB(-0,X) into the instruction in the backend where possible? (Might cause some slightly wrong answers, unless we're careful)

In D73978#1959879, @cameron.mcinally wrote:
Thanks, Matt. It looks like preventing the FSUB->FNEG transform is still causing trouble with folding the negate into instructions. E.g.
<scrubbed>/clang/llvm-project/llvm/test/CodeGen/AMDGPU/v_mac_f16.ll:125:7: error: SI: expected string not found in input
; SI: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}
It seems that there are a handful of new test failures too.

Any suggestions on how to proceed?

Should we not expect the explicit FSUB(-0,X) to fold under denormal flushing modes? (Too big a hammer, but correct)

That's what I would expect. Additional context is needed to know the flush will be performed elsewhere

Or maybe fold the FSUB(-0,X) into the instruction in the backend where possible? (Might cause some slightly wrong answers, unless we're careful)

I don't think we need to fold this in the target, we should be able to fold based on another instruction we know will flush. In the sample you gave there, the f16 operation was promoted to f32 and the conversion should also flush

In D73978#1960092, @arsenm wrote:

Should we not expect the explicit FSUB(-0,X) to fold under denormal flushing modes? (Too big a hammer, but correct)

That's what I would expect. Additional context is needed to know the flush will be performed elsewhere

Or maybe fold the FSUB(-0,X) into the instruction in the backend where possible? (Might cause some slightly wrong answers, unless we're careful)

I don't think we need to fold this in the target, we should be able to fold based on another instruction we know will flush. In the sample you gave there, the f16 operation was promoted to f32 and the conversion should also flush

Good point. I suppose we'd need a switch to check if the user's opcode is a flushing operation.

That's kind of ugly though. Anyone know of a better way to do it?

In D73978#1960683, @cameron.mcinally wrote:

In D73978#1960092, @arsenm wrote:

Should we not expect the explicit FSUB(-0,X) to fold under denormal flushing modes? (Too big a hammer, but correct)

That's what I would expect. Additional context is needed to know the flush will be performed elsewhere

Or maybe fold the FSUB(-0,X) into the instruction in the backend where possible? (Might cause some slightly wrong answers, unless we're careful)

I don't think we need to fold this in the target, we should be able to fold based on another instruction we know will flush. In the sample you gave there, the f16 operation was promoted to f32 and the conversion should also flush

Good point. I suppose we'd need a switch to check if the user's opcode is a flushing operation.

That's kind of ugly though. Anyone know of a better way to do it?

Also the if the input is flushing

ychen added a subscriber: ychen.Apr 3 2020, 6:52 PM

Sorry for the long wait time. I'm still working on this. The AMDGPU tests are proving hard to clean up. Update hopefully coming soon...

Made some more progress on sorting out the AMDGPU backend, but I'm running up against walls: some optimization opportunities that will need further work; some newly exposed bugs in existing code; and some are my lack of experience with the AMDGPU instruction set. I added FIXME comments with some details about the cases I'm not familiar with. @arsenm Any comments on these changes?

The general intent of this patch is to check if the FSUB(+-0, X)->FNEG(X) transform is safe while in a DAZ/FTZ mode. This is done by checking if all uses of a FSUB(+-0, X) will flush denormals. If so, the transform is safe to do. Most cases are caught okay, but some are trickier. I couldn't solve them all.

(Digressing: I think we need a TableGen flag for instructions that could flush denormals.)

arsenm added inline comments.Jun 16 2020, 10:15 AM

llvm/include/llvm/CodeGen/TargetLowering.h
464 ↗	(On Diff #271109)	AMDGPU basically already has this, but it requires a depth argument similar to computeKnownBits.
llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
834 ↗	(On Diff #271109)	We're already doing this, but I'm made somewhat uncomfortable by how constant folding is done. We don't insert a canonicalize when constant folding, so if you check isCanonicalized(x), but x is constant folded away into something that should have flushed, this won't be quite right. I guess the way it's defined, this only matters when folding canonicalize inputs?
846 ↗	(On Diff #271109)	Weird to have FMAXNUM but not FMINNUM. I also think we have a defective implementation for subtargets where the instructions don't read the FP mode. We inspect the inputs of the generic node rather than introducing a target specific wrapper with the broken behavior
llvm/test/CodeGen/AMDGPU/fneg-combines.ll
11	Correct, this most of these are for source modifier folding purposes only

cameron.mcinally marked an inline comment as done.Jun 16 2020, 12:23 PM

cameron.mcinally added inline comments.

llvm/include/llvm/CodeGen/TargetLowering.h
464 ↗	(On Diff #271109)	I did see isCanonicalized(...), but it looks like it goes the other direction. I.e. isCanonicalized(...) checks to see if the predecessor is already canonicalized. willCanonicalize(...) checks to see if the successors will canonicalize the result of the operation. There are a number of existing tests that begin with an FSUB(-0, X), so that's why I choose this solution. I think we'd eventually want both directions, for completeness. But I noticed that isCanonicalized(...) only exists in SIISelLowering, and I didn't want to mess around with something I didn't fully understand.
llvm/lib/Target/AMDGPU/AMDGPUISelLowering.cpp
846 ↗	(On Diff #271109)	Agreed. This switch is only opcodes that existed in current testing, so there are some gaps. I should probably add FMINNUM under a separate patch. That said, I could introduce a test case pre-commit and then fix it in this patch. That's probably the right way to go forward. This switch is also likely incorrect at the edges (e.g. FMED3, FMA). I don't fully understand all the intricacies of AMDGPU flushing [as seen in isCanonicalized(...)]. There's more work needed here.

Remove FMAXNUM and a couple other opcodes from the willCanonicalize(...) switch. They are not currently tested, but rather leftover junk from building out this code. I was mistaken.

Ping. @arsenm

I know there are some problems with the current implementation, but I think it's a good first step. Landing the DAGCombiner changes is probably worth the edge-case precision bugs, so that other backends don't regress. In particular, the current DAGCombiner::visitFSub(...) code is vulnerable now. Thoughts on any of this?

The thing I'm somewhat worried about is a subtlety with constant folding. Constant folding will blindly fold unaware of whatever canonicalization needed to happen. willCanonicalize may have lied if something happened later that caused the canonicalizing operation to constant fold away

In D73978#2151964, @arsenm wrote:

The thing I'm somewhat worried about is a subtlety with constant folding. Constant folding will blindly fold unaware of whatever canonicalization needed to happen. willCanonicalize may have lied if something happened later that caused the canonicalizing operation to constant fold away

Ah, good point. I remember you saying that before, but I didn't absorb it at the time.

That's a sticky problem. We could wait until the MachineInstr level to do the FSUB->FNEG transform, to ensure that constant folding completed. But I suspect (pretty certain) that we'll have missed other FNEG peeps we'd want by then. So that won't work.

In general, it would be good to go for functional correctness first, and then try to optimize. That's kind of a problem for this specific project though, since so many existing tests would need to be updated. I'm not sure what to do. Will need to think about it...

In D73978#2153300, @cameron.mcinally wrote:

In D73978#2151964, @arsenm wrote:

The thing I'm somewhat worried about is a subtlety with constant folding. Constant folding will blindly fold unaware of whatever canonicalization needed to happen. willCanonicalize may have lied if something happened later that caused the canonicalizing operation to constant fold away

Ah, good point. I remember you saying that before, but I didn't absorb it at the time.

That's a sticky problem. We could wait until the MachineInstr level to do the FSUB->FNEG transform, to ensure that constant folding completed. But I suspect (pretty certain) that we'll have missed other FNEG peeps we'd want by then. So that won't work.

In general, it would be good to go for functional correctness first, and then try to optimize. That's kind of a problem for this specific project though, since so many existing tests would need to be updated. I'm not sure what to do. Will need to think about it...

If we modeled everything correctly, the correct thing to do would be to insert canonicalizes whenever occurs (but that's a massive change). I'm not a huge fan of getNode doing constant folding, so maybe eliminating that at least would help?

cameron.mcinally mentioned this in D84056: [FPEnv] Don't transform FSUB(-0, X) -> FNEG(X) in SelectionDAGBuilder..Jul 17 2020, 10:47 AM

Abandoning this Diff since most of it was covered in D84056. Will prepare a new patch to remove the problematic FSUB DAGCombine soon.

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

19 lines

SelectionDAGBuilder.h

2 lines

SelectionDAGBuilder.cpp

14 lines

test/

CodeGen/

AMDGPU/

fcanonicalize-elimination.ll

4 lines

fcanonicalize.f16.ll

12 lines

fcanonicalize.ll

8 lines

fdiv32-to-rcp-folding.ll

18 lines

10 lines

10 lines

270 lines

16 lines

4 lines

12 lines

X86/

fp-denormals.ll

53 lines

Diff 254198

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 12,575 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitFSUB(SDNode *N) {

if (N0 == N1) {		if (N0 == N1) {
// (fsub x, x) -> 0.0		// (fsub x, x) -> 0.0
if (Options.NoNaNsFPMath \|\| Flags.hasNoNaNs())		if (Options.NoNaNsFPMath \|\| Flags.hasNoNaNs())
return DAG.getConstantFP(0.0f, DL, VT);		return DAG.getConstantFP(0.0f, DL, VT);
}		}

// (fsub -0.0, N1) -> -N1		// (fsub -0.0, N1) -> -N1
// NOTE: It is safe to transform an FSUB(-0.0,X) into an FNEG(X), since the
// FSUB does not specify the sign bit of a NaN. Also note that for
// the same reason, the inverse transform is not safe, unless fast math
// flags are in play.
if (N0CFP && N0CFP->isZero()) {		if (N0CFP && N0CFP->isZero()) {
if (N0CFP->isNegative() \|\|		if (N0CFP->isNegative() \|\|
(Options.NoSignedZerosFPMath \|\| Flags.hasNoSignedZeros())) {		(Options.NoSignedZerosFPMath \|\| Flags.hasNoSignedZeros())) {
		// We cannot replace an FSUB(+-0.0,X) with FNEG(X) when denormals are
		// flushed to zero.
		DenormalMode DenormMode = DAG.getDenormalMode(VT);
		if (DenormMode == DenormalMode::getIEEE()) {
		arsenmUnsubmitted Done Reply Inline Actions Shouldn't be considering invalid anymore arsenm: Shouldn't be considering invalid anymore
if (TLI.getNegatibleCost(N1, DAG, LegalOperations, ForCodeSize) !=		if (TLI.getNegatibleCost(N1, DAG, LegalOperations, ForCodeSize) !=
		arsenmUnsubmitted Done Reply Inline Actions This will need updating for the splitting the input and output patch I just committed arsenm: This will need updating for the splitting the input and output patch I just committed
		cameron.mcinallyAuthorUnsubmitted Done Reply Inline Actions Ok, thanks. Will wait for the builds to go green and then update. cameron.mcinally: Ok, thanks. Will wait for the builds to go green and then update.
TargetLowering::NegatibleCost::Expensive)		TargetLowering::NegatibleCost::Expensive)
return TLI.getNegatedExpression(N1, DAG, LegalOperations, ForCodeSize);		return TLI.getNegatedExpression(N1, DAG, LegalOperations, ForCodeSize);
if (!LegalOperations \|\| TLI.isOperationLegal(ISD::FNEG, VT))		if (!LegalOperations \|\| TLI.isOperationLegal(ISD::FNEG, VT))
return DAG.getNode(ISD::FNEG, DL, VT, N1, Flags);		return DAG.getNode(ISD::FNEG, DL, VT, N1, Flags);
}		}
}		}
		}

if (((Options.UnsafeFPMath && Options.NoSignedZerosFPMath) \|\|		if (((Options.UnsafeFPMath && Options.NoSignedZerosFPMath) \|\|
(Flags.hasAllowReassociation() && Flags.hasNoSignedZeros())) &&		(Flags.hasAllowReassociation() && Flags.hasNoSignedZeros())) &&
N1.getOpcode() == ISD::FADD) {		N1.getOpcode() == ISD::FADD) {
// X - (X + Y) -> -Y		// X - (X + Y) -> -Y
if (N0 == N1->getOperand(0))		if (N0 == N1->getOperand(0))
return DAG.getNode(ISD::FNEG, DL, VT, N1->getOperand(1), Flags);		return DAG.getNode(ISD::FNEG, DL, VT, N1->getOperand(1), Flags);
// X - (Y + X) -> -Y		// X - (Y + X) -> -Y
▲ Show 20 Lines • Show All 9,087 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.h

Show First 20 Lines • Show All 688 Lines • ▼ Show 20 Lines	private:
void visitUnary(const User &I, unsigned Opcode);		void visitUnary(const User &I, unsigned Opcode);
void visitFNeg(const User &I) { visitUnary(I, ISD::FNEG); }		void visitFNeg(const User &I) { visitUnary(I, ISD::FNEG); }

void visitBinary(const User &I, unsigned Opcode);		void visitBinary(const User &I, unsigned Opcode);
void visitShift(const User &I, unsigned Opcode);		void visitShift(const User &I, unsigned Opcode);
void visitAdd(const User &I) { visitBinary(I, ISD::ADD); }		void visitAdd(const User &I) { visitBinary(I, ISD::ADD); }
void visitFAdd(const User &I) { visitBinary(I, ISD::FADD); }		void visitFAdd(const User &I) { visitBinary(I, ISD::FADD); }
void visitSub(const User &I) { visitBinary(I, ISD::SUB); }		void visitSub(const User &I) { visitBinary(I, ISD::SUB); }
void visitFSub(const User &I);		void visitFSub(const User &I) { visitBinary(I, ISD::FSUB); }
void visitMul(const User &I) { visitBinary(I, ISD::MUL); }		void visitMul(const User &I) { visitBinary(I, ISD::MUL); }
void visitFMul(const User &I) { visitBinary(I, ISD::FMUL); }		void visitFMul(const User &I) { visitBinary(I, ISD::FMUL); }
void visitURem(const User &I) { visitBinary(I, ISD::UREM); }		void visitURem(const User &I) { visitBinary(I, ISD::UREM); }
void visitSRem(const User &I) { visitBinary(I, ISD::SREM); }		void visitSRem(const User &I) { visitBinary(I, ISD::SREM); }
void visitFRem(const User &I) { visitBinary(I, ISD::FREM); }		void visitFRem(const User &I) { visitBinary(I, ISD::FREM); }
void visitUDiv(const User &I) { visitBinary(I, ISD::UDIV); }		void visitUDiv(const User &I) { visitBinary(I, ISD::UDIV); }
void visitSDiv(const User &I);		void visitSDiv(const User &I);
void visitFDiv(const User &I) { visitBinary(I, ISD::FDIV); }		void visitFDiv(const User &I) { visitBinary(I, ISD::FDIV); }
▲ Show 20 Lines • Show All 208 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 2,977 Lines • ▼ Show 20 Lines	if (&I != &BB.front()) {
if (Call->doesNotReturn())		if (Call->doesNotReturn())
return;		return;
}		}
}		}
}		}

DAG.setRoot(DAG.getNode(ISD::TRAP, getCurSDLoc(), MVT::Other, DAG.getRoot()));		DAG.setRoot(DAG.getNode(ISD::TRAP, getCurSDLoc(), MVT::Other, DAG.getRoot()));
}		}

void SelectionDAGBuilder::visitFSub(const User &I) {
// -0.0 - X --> fneg
Type *Ty = I.getType();
if (isa<Constant>(I.getOperand(0)) &&
I.getOperand(0) == ConstantFP::getZeroValueForNegation(Ty)) {
SDValue Op2 = getValue(I.getOperand(1));
setValue(&I, DAG.getNode(ISD::FNEG, getCurSDLoc(),
Op2.getValueType(), Op2));
return;
}

visitBinary(I, ISD::FSUB);
}

void SelectionDAGBuilder::visitUnary(const User &I, unsigned Opcode) {		void SelectionDAGBuilder::visitUnary(const User &I, unsigned Opcode) {
		arsenmUnsubmitted Not Done Reply Inline Actions Why does SelectionDAGBuilder bother doing this fold at all? It should just directly translate the fsub? arsenm: Why does SelectionDAGBuilder bother doing this fold at all? It should just directly translate…
		arsenmUnsubmitted Not Done Reply Inline Actions I think this should be just ripped out in a separate patch. The same problem seems to have been copied to IRTranslator, which should also be removed arsenm: I think this should be just ripped out in a separate patch. The same problem seems to have been…
		cameron.mcinallyAuthorUnsubmitted Done Reply Inline Actions @sanjay, what do you think? Seems reasonable to me. I think it made sense to do this when FNEG(X) was the canonical form of FSUB(-0.0, X). Wouldn't want two forms floating around for even a small amount of time. But now that there are cases where the operations are distinct through llc, it seems ok to wait until DAGCombine. cameron.mcinally: @sanjay, what do you think? Seems reasonable to me. I think it made sense to do this when…
		spatelUnsubmitted Not Done Reply Inline Actions Yes, now that we can use DenormMode to distinguish target behavior, it seems better to do it later in DAGCombiner if that would make sense for the target. spatel: Yes, now that we can use DenormMode to distinguish target behavior, it seems better to do it…
		cameron.mcinallyAuthorUnsubmitted Not Done Reply Inline Actions I'll have to put a pin in this for now. Removing this block is causing regressions in about 15 tests. The regressions appear to be subtle lowering differences, so I suspect it will take some time to straighten them out. cameron.mcinally: I'll have to put a pin in this for now. Removing this block is causing regressions in about 15…
		cameron.mcinallyAuthorUnsubmitted Not Done Reply Inline Actions I looked into removing this and there are warts underneath. Some are surmountable (different lowerings), but one is worrisome. I.e. the case where the FNeg operand is undef: FNEG(undef) -> undef FSUB(-0.0, undef) -> NaN That is, removing this transform propagates NaNs where we previously had undef values. Any thoughts on how to proceed? Do we want to minimize code differences by keeping this transform in place? Or are we okay moving forward with the undef->NaN change? cameron.mcinally: I looked into removing this and there are warts underneath. Some are surmountable (different…
		spatelUnsubmitted Not Done Reply Inline Actions Did that difference show up as real regressions or something benign? We could add a special-case fold for this here or getNode() if it helps: fsub C, undef --> undef (as long as C is not NaN or Inf?) spatel: Did that difference show up as real regressions or something benign? We could add a special…
		cameron.mcinallyAuthorUnsubmitted Not Done Reply Inline Actions Benign llc regression tests. The NaN and undef propagate differently, so the asm differences appear worse than they are. We could add a special-case fold for this here or getNode() if it helps: fsub C, undef --> undef (as long as C is not NaN or Inf?) That's a good idea. I don't feel strongly about it, but the current transform might be more obvious than adding a special case fold though. cameron.mcinally: Benign llc regression tests. The NaN and undef propagate differently, so the asm differences…
		spatelUnsubmitted Not Done Reply Inline Actions I tried to generalize this over in D74713, but there doesn't appear to be support for bending the theoretical definition of undef to the practical constraints of real-life floating-point. So our options are: Add a constant fold for this exact case: fsub -0.0, undef --> undef Ignore the diffs caused by removing this transform. I'd lean toward #1 (I can limit D74713 to that case as the start of that effort). spatel: I tried to generalize this over in D74713, but there doesn't appear to be support for bending…
		arsenmUnsubmitted Not Done Reply Inline Actions This sounds more correct to me. I don't see why this would be special cased arsenm: This sounds more correct to me. I don't see why this would be special cased
		spatelUnsubmitted Not Done Reply Inline Actions It's a special-case in the sense that folding to NaN is correct in general. Just dealing with this particular pattern is also a special-case because we could do something similar for all FP ops, not just fsub with constant operand 0. But we'll need to work out if/how the corner cases differ per opcode. spatel: It's a special-case in the sense that folding to NaN is correct in general. Just dealing with…
SDNodeFlags Flags;		SDNodeFlags Flags;

SDValue Op = getValue(I.getOperand(0));		SDValue Op = getValue(I.getOperand(0));
SDValue UnNodeValue = DAG.getNode(Opcode, getCurSDLoc(), Op.getValueType(),		SDValue UnNodeValue = DAG.getNode(Opcode, getCurSDLoc(), Op.getValueType(),
Op, Flags);		Op, Flags);
setValue(&I, UnNodeValue);		setValue(&I, UnNodeValue);
}		}

▲ Show 20 Lines • Show All 7,560 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

	Show First 20 Lines • Show All 305 Lines • ▼ Show 20 Lines

	; GCN-LABEL: test_no_fold_canonicalize_fneg_value_f32:			; GCN-LABEL: test_no_fold_canonicalize_fneg_value_f32:
	; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, -1.0, v{{[0-9]+}}			; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, -1.0, v{{[0-9]+}}
	; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}			; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
	define amdgpu_kernel void @test_no_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {			define amdgpu_kernel void @test_no_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {
	%id = tail call i32 @llvm.amdgcn.workitem.id.x()			%id = tail call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id			%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
	%load = load float, float addrspace(1)* %gep, align 4			%load = load float, float addrspace(1)* %gep, align 4
	%v = fsub float -0.0, %load			%v = fneg float %load
	%canonicalized = tail call float @llvm.canonicalize.f32(float %v)			%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
	store float %canonicalized, float addrspace(1)* %gep, align 4			store float %canonicalized, float addrspace(1)* %gep, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: test_fold_canonicalize_fneg_value_f32:			; GCN-LABEL: test_fold_canonicalize_fneg_value_f32:
	; GCN: v_xor_b32_e32 [[V:v[0-9]+]], 0x80000000, v{{[0-9]+}}			; GCN: v_xor_b32_e32 [[V:v[0-9]+]], 0x80000000, v{{[0-9]+}}
	; GCN-NOT: v_mul			; GCN-NOT: v_mul
	; GCN-NOT: v_max			; GCN-NOT: v_max
	; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]			; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]
	define amdgpu_kernel void @test_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {			define amdgpu_kernel void @test_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {
	%id = tail call i32 @llvm.amdgcn.workitem.id.x()			%id = tail call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id			%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
	%load = load float, float addrspace(1)* %gep, align 4			%load = load float, float addrspace(1)* %gep, align 4
	%v0 = fadd float %load, 0.0			%v0 = fadd float %load, 0.0
	%v = fsub float -0.0, %v0			%v = fneg float %v0
	%canonicalized = tail call float @llvm.canonicalize.f32(float %v)			%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
	store float %canonicalized, float addrspace(1)* %gep, align 4			store float %canonicalized, float addrspace(1)* %gep, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: test_no_fold_canonicalize_fabs_value_f32:			; GCN-LABEL: test_no_fold_canonicalize_fabs_value_f32:
	; GCN-FLUSH: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|			; GCN-FLUSH: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|
	; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|			; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|
	▲ Show 20 Lines • Show All 572 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll

	Show First 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
	; GFX89: v_max_f16_e64 [[REG:v[0-9]+]], -\|{{v[0-9]+}}\|, -\|{{v[0-9]+}}\|			; GFX89: v_max_f16_e64 [[REG:v[0-9]+]], -\|{{v[0-9]+}}\|, -\|{{v[0-9]+}}\|
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]

	; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|			; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|
	; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}			; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #1 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fabs = call half @llvm.fabs.f16(half %val)			%val.fabs = call half @llvm.fabs.f16(half %val)
	%val.fabs.fneg = fsub half -0.0, %val.fabs			%val.fabs.fneg = fneg half %val.fabs
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs.fneg)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs.fneg)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f16:
	; GFX89: v_max_f16_e64 [[REG:v[0-9]+]], -{{v[0-9]+}}, -{{v[0-9]+}}			; GFX89: v_max_f16_e64 [[REG:v[0-9]+]], -{{v[0-9]+}}, -{{v[0-9]+}}
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]

	; CI: v_cvt_f32_f16_e64 {{v[0-9]+}}, -{{v[0-9]+}}			; CI: v_cvt_f32_f16_e64 {{v[0-9]+}}, -{{v[0-9]+}}
	; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}			; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_f16(half addrspace(1)* %out) #1 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fneg = fsub half -0.0, %val			%val.fneg = fneg half %val
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_var_f16:			; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_var_f16:
	; GFX89: v_mul_f16_e32 [[REG:v[0-9]+]], -1.0, v{{[0-9]+}}			; GFX89: v_mul_f16_e32 [[REG:v[0-9]+]], -1.0, v{{[0-9]+}}
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
	define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_var_f16(half addrspace(1)* %out) #2 {			define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_var_f16(half addrspace(1)* %out) #2 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fneg = fsub half -0.0, %val			%val.fneg = fneg half %val
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_fabs_var_f16:			; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_fabs_var_f16:
	; GFX89: v_mul_f16_e64 [[REG:v[0-9]+]], -1.0, \|v{{[0-9]+}}\|			; GFX89: v_mul_f16_e64 [[REG:v[0-9]+]], -1.0, \|v{{[0-9]+}}\|
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]

	; CI: v_cvt_f32_f16_e64 {{v[0-9]+}}, -\|{{v[0-9]+}}\|			; CI: v_cvt_f32_f16_e64 {{v[0-9]+}}, -\|{{v[0-9]+}}\|
	; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}			; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
	define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #2 {			define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #2 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fabs = call half @llvm.fabs.f16(half %val)			%val.fabs = call half @llvm.fabs.f16(half %val)
	%val.fabs.fneg = fsub half -0.0, %val.fabs			%val.fabs.fneg = fneg half %val.fabs
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs.fneg)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs.fneg)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f16:			; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f16:
	; GFX89: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}			; GFX89: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}
	; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]			; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
	▲ Show 20 Lines • Show All 186 Lines • ▼ Show 20 Lines
	; CI: v_cvt_f32_f16			; CI: v_cvt_f32_f16
	; CI: v_mul_f32_e32 v{{[0-9]+}}, 1.0			; CI: v_mul_f32_e32 v{{[0-9]+}}, 1.0
	; CI: v_mul_f32_e32 v{{[0-9]+}}, 1.0			; CI: v_mul_f32_e32 v{{[0-9]+}}, 1.0
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid			%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid
	%val = load <2 x half>, <2 x half> addrspace(1)* %gep			%val = load <2 x half>, <2 x half> addrspace(1)* %gep
	%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)			%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)
	%val.fabs.fneg = fsub <2 x half> <half -0.0, half -0.0>, %val.fabs			%val.fabs.fneg = fneg <2 x half> %val.fabs
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs.fneg)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs.fneg)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_v2f16:
	; VI-DAG: v_max_f16_sdwa [[REG1:v[0-9]+]], -v{{[0-9]+}}, -v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_max_f16_sdwa [[REG1:v[0-9]+]], -v{{[0-9]+}}, -v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-DAG: v_max_f16_e64 [[REG0:v[0-9]+]], -v{{[0-9]+}}, -v{{[0-9]+}}			; VI-DAG: v_max_f16_e64 [[REG0:v[0-9]+]], -v{{[0-9]+}}, -v{{[0-9]+}}
	; VI-NOT: 0xffff			; VI-NOT: 0xffff

	; GFX9: v_pk_max_f16 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}} neg_lo:[1,1] neg_hi:[1,1]{{$}}			; GFX9: v_pk_max_f16 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}} neg_lo:[1,1] neg_hi:[1,1]{{$}}
	; GFX9: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]			; GFX9: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid			%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid
	%val = load <2 x half>, <2 x half> addrspace(1)* %gep			%val = load <2 x half>, <2 x half> addrspace(1)* %gep
	%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val			%fneg.val = fneg <2 x half> %val
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_test_canonicalize_var_v2f16:			; GCN-LABEL: {{^}}s_test_canonicalize_var_v2f16:
	; VI-DAG: v_max_f16_sdwa [[REG0:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_max_f16_sdwa [[REG0:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-DAG: v_max_f16_e64 [[REG1:v[0-9]+]], {{s[0-9]+}}, {{s[0-9]+}}			; VI-DAG: v_max_f16_e64 [[REG1:v[0-9]+]], {{s[0-9]+}}, {{s[0-9]+}}
	▲ Show 20 Lines • Show All 396 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize.ll

	Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f32:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f32:
	; GCN: v_mul_f32_e64 [[REG:v[0-9]+]], -1.0, \|{{v[0-9]+}}\|			; GCN: v_mul_f32_e64 [[REG:v[0-9]+]], -1.0, \|{{v[0-9]+}}\|
	; GCN: buffer_store_dword [[REG]]			; GCN: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f32(float addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f32(float addrspace(1)* %out) #1 {
	%val = load float, float addrspace(1)* %out			%val = load float, float addrspace(1)* %out
	%val.fabs = call float @llvm.fabs.f32(float %val)			%val.fabs = call float @llvm.fabs.f32(float %val)
	%val.fabs.fneg = fsub float -0.0, %val.fabs			%val.fabs.fneg = fneg float %val.fabs
	%canonicalized = call float @llvm.canonicalize.f32(float %val.fabs.fneg)			%canonicalized = call float @llvm.canonicalize.f32(float %val.fabs.fneg)
	store float %canonicalized, float addrspace(1)* %out			store float %canonicalized, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f32:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f32:
	; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], -1.0, {{v[0-9]+}}			; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], -1.0, {{v[0-9]+}}
	; GCN: buffer_store_dword [[REG]]			; GCN: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_f32(float addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_f32(float addrspace(1)* %out) #1 {
	%val = load float, float addrspace(1)* %out			%val = load float, float addrspace(1)* %out
	%val.fneg = fsub float -0.0, %val			%val.fneg = fneg float %val
	%canonicalized = call float @llvm.canonicalize.f32(float %val.fneg)			%canonicalized = call float @llvm.canonicalize.f32(float %val.fneg)
	store float %canonicalized, float addrspace(1)* %out			store float %canonicalized, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fold_canonicalize_undef_f32:			; GCN-LABEL: {{^}}test_fold_canonicalize_undef_f32:
	; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}			; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
	; GCN: buffer_store_dword [[REG]]			; GCN: buffer_store_dword [[REG]]
	▲ Show 20 Lines • Show All 178 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f64:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f64:
	; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]\]]], -\|{{v\[[0-9]+:[0-9]+\]}}\|, -\|{{v\[[0-9]+:[0-9]+\]}}\|			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]\]]], -\|{{v\[[0-9]+:[0-9]+\]}}\|, -\|{{v\[[0-9]+:[0-9]+\]}}\|
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f64(double addrspace(1)* %out) #1 {
	%val = load double, double addrspace(1)* %out			%val = load double, double addrspace(1)* %out
	%val.fabs = call double @llvm.fabs.f64(double %val)			%val.fabs = call double @llvm.fabs.f64(double %val)
	%val.fabs.fneg = fsub double -0.0, %val.fabs			%val.fabs.fneg = fneg double %val.fabs
	%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs.fneg)			%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs.fneg)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f64:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f64:
	; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], -{{v\[[0-9]+:[0-9]+\]}}, -{{v\[[0-9]+:[0-9]+\]}}			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], -{{v\[[0-9]+:[0-9]+\]}}, -{{v\[[0-9]+:[0-9]+\]}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_f64(double addrspace(1)* %out) #1 {
	%val = load double, double addrspace(1)* %out			%val = load double, double addrspace(1)* %out
	%val.fneg = fsub double -0.0, %val			%val.fneg = fneg double %val
	%canonicalized = call double @llvm.canonicalize.f64(double %val.fneg)			%canonicalized = call double @llvm.canonicalize.f64(double %val.fneg)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f64:			; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f64:
	; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}			; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}
	▲ Show 20 Lines • Show All 354 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fdiv32-to-rcp-folding.ll

	Show First 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GCN-DENORM: v_rcp_f32_e32 [[RCP:v[0-9]+]], [[PRESCALED]]			; GCN-DENORM: v_rcp_f32_e32 [[RCP:v[0-9]+]], [[PRESCALED]]
	; GCN-DENORM: v_mul_f32_e32 [[OUT:v[0-9]+]], [[SCALE]], [[RCP]]			; GCN-DENORM: v_mul_f32_e32 [[OUT:v[0-9]+]], [[SCALE]], [[RCP]]

	; GCN-FLUSH: v_rcp_f32_e64 [[OUT:v[0-9]+]], -[[VAL]]			; GCN-FLUSH: v_rcp_f32_e64 [[OUT:v[0-9]+]], -[[VAL]]

	; GCN: global_store_dword v[{{[0-9:]+}}], [[OUT]], off			; GCN: global_store_dword v[{{[0-9:]+}}], [[OUT]], off
	define amdgpu_kernel void @div_1_by_minus_x_25ulp(float addrspace(1)* %arg) {			define amdgpu_kernel void @div_1_by_minus_x_25ulp(float addrspace(1)* %arg) {
	%load = load float, float addrspace(1)* %arg, align 4			%load = load float, float addrspace(1)* %arg, align 4
	%neg = fsub float -0.000000e+00, %load			%neg = fneg float %load
	%div = fdiv float 1.000000e+00, %neg, !fpmath !0			%div = fdiv float 1.000000e+00, %neg, !fpmath !0
	store float %div, float addrspace(1)* %arg, align 4			store float %div, float addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_minus_1_by_minus_x_25ulp:			; GCN-LABEL: {{^}}div_minus_1_by_minus_x_25ulp:
	; GCN-DENORM-DAG: v_mov_b32_e32 [[L:v[0-9]+]], 0x6f800000			; GCN-DENORM-DAG: v_mov_b32_e32 [[L:v[0-9]+]], 0x6f800000
	; GCN-DENORM-DAG: v_mov_b32_e32 [[S:v[0-9]+]], 0x2f800000			; GCN-DENORM-DAG: v_mov_b32_e32 [[S:v[0-9]+]], 0x2f800000
	; GCN-DAG: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9:]+}}], 0x0{{$}}			; GCN-DAG: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9:]+}}], 0x0{{$}}
	; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|[[VAL]]\|, [[L]]			; GCN-DENORM-DAG: v_cmp_gt_f32_e64 vcc, \|[[VAL]]\|, [[L]]
	; GCN-DENORM-DAG: v_cndmask_b32_e32 [[SCALE:v[0-9]+]], 1.0, [[S]], vcc			; GCN-DENORM-DAG: v_cndmask_b32_e32 [[SCALE:v[0-9]+]], 1.0, [[S]], vcc
	; GCN-DENORM: v_mul_f32_e32 [[PRESCALED:v[0-9]+]], [[VAL]], [[SCALE]]			; GCN-DENORM: v_mul_f32_e32 [[PRESCALED:v[0-9]+]], [[VAL]], [[SCALE]]
	; GCN-DENORM: v_rcp_f32_e32 [[RCP:v[0-9]+]], [[PRESCALED]]			; GCN-DENORM: v_rcp_f32_e32 [[RCP:v[0-9]+]], [[PRESCALED]]
	; GCN-DENORM: v_mul_f32_e32 [[OUT:v[0-9]+]], [[SCALE]], [[RCP]]			; GCN-DENORM: v_mul_f32_e32 [[OUT:v[0-9]+]], [[SCALE]], [[RCP]]

	; GCN-FLUSH: v_rcp_f32_e32 [[OUT:v[0-9]+]], [[VAL]]			; GCN-FLUSH: v_rcp_f32_e32 [[OUT:v[0-9]+]], [[VAL]]

	; GCN: global_store_dword v[{{[0-9:]+}}], [[OUT]], off			; GCN: global_store_dword v[{{[0-9:]+}}], [[OUT]], off
	define amdgpu_kernel void @div_minus_1_by_minus_x_25ulp(float addrspace(1)* %arg) {			define amdgpu_kernel void @div_minus_1_by_minus_x_25ulp(float addrspace(1)* %arg) {
	%load = load float, float addrspace(1)* %arg, align 4			%load = load float, float addrspace(1)* %arg, align 4
	%neg = fsub float -0.000000e+00, %load			%neg = fneg float %load
	%div = fdiv float -1.000000e+00, %neg, !fpmath !0			%div = fdiv float -1.000000e+00, %neg, !fpmath !0
	store float %div, float addrspace(1)* %arg, align 4			store float %div, float addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_v4_1_by_x_25ulp:			; GCN-LABEL: {{^}}div_v4_1_by_x_25ulp:
	; GCN-DAG: s_load_dwordx4 s{{\[}}[[VAL0:[0-9]+]]:[[VAL3:[0-9]+]]], s[{{[0-9:]+}}], 0x0{{$}}			; GCN-DAG: s_load_dwordx4 s{{\[}}[[VAL0:[0-9]+]]:[[VAL3:[0-9]+]]], s[{{[0-9:]+}}], 0x0{{$}}
	; GCN-DENORM-DAG: v_mov_b32_e32 [[L:v[0-9]+]], 0x6f800000			; GCN-DENORM-DAG: v_mov_b32_e32 [[L:v[0-9]+]], 0x6f800000
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines

	; GCN-FLUSH: v_rcp_f32_e64 v[[OUT0:[0-9]+]], -s[[VAL0]]			; GCN-FLUSH: v_rcp_f32_e64 v[[OUT0:[0-9]+]], -s[[VAL0]]
	; GCN-FLUSH: v_rcp_f32_e64			; GCN-FLUSH: v_rcp_f32_e64
	; GCN-FLUSH: v_rcp_f32_e64			; GCN-FLUSH: v_rcp_f32_e64
	; GCN-FLUSH: v_rcp_f32_e64 v[[OUT3:[0-9]+]], -s[[VAL3]]			; GCN-FLUSH: v_rcp_f32_e64 v[[OUT3:[0-9]+]], -s[[VAL3]]
	; GCN-FLUSH: global_store_dwordx4 v[{{[0-9:]+}}], v{{\[}}[[OUT0]]:[[OUT3]]], off			; GCN-FLUSH: global_store_dwordx4 v[{{[0-9:]+}}], v{{\[}}[[OUT0]]:[[OUT3]]], off
	define amdgpu_kernel void @div_v4_1_by_minus_x_25ulp(<4 x float> addrspace(1)* %arg) {			define amdgpu_kernel void @div_v4_1_by_minus_x_25ulp(<4 x float> addrspace(1)* %arg) {
	%load = load <4 x float>, <4 x float> addrspace(1)* %arg, align 16			%load = load <4 x float>, <4 x float> addrspace(1)* %arg, align 16
	%neg = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %load			%neg = fneg <4 x float> %load
	%div = fdiv <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, %neg, !fpmath !0			%div = fdiv <4 x float> <float 1.000000e+00, float 1.000000e+00, float 1.000000e+00, float 1.000000e+00>, %neg, !fpmath !0
	store <4 x float> %div, <4 x float> addrspace(1)* %arg, align 16			store <4 x float> %div, <4 x float> addrspace(1)* %arg, align 16
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_v4_minus_1_by_minus_x_25ulp:			; GCN-LABEL: {{^}}div_v4_minus_1_by_minus_x_25ulp:
	; GCN-DAG: s_load_dwordx4 s{{\[}}[[VAL0:[0-9]+]]:[[VAL3:[0-9]+]]], s[{{[0-9:]+}}], 0x0{{$}}			; GCN-DAG: s_load_dwordx4 s{{\[}}[[VAL0:[0-9]+]]:[[VAL3:[0-9]+]]], s[{{[0-9:]+}}], 0x0{{$}}
	; GCN-DENORM-DAG: v_mov_b32_e32 [[L:v[0-9]+]], 0x6f800000			; GCN-DENORM-DAG: v_mov_b32_e32 [[L:v[0-9]+]], 0x6f800000
	Show All 21 Lines

	; GCN-FLUSH: v_rcp_f32_e32 v[[OUT0:[0-9]+]], s[[VAL0]]			; GCN-FLUSH: v_rcp_f32_e32 v[[OUT0:[0-9]+]], s[[VAL0]]
	; GCN-FLUSH: v_rcp_f32_e32			; GCN-FLUSH: v_rcp_f32_e32
	; GCN-FLUSH: v_rcp_f32_e32			; GCN-FLUSH: v_rcp_f32_e32
	; GCN-FLUSH: v_rcp_f32_e32 v[[OUT3:[0-9]+]], s[[VAL3]]			; GCN-FLUSH: v_rcp_f32_e32 v[[OUT3:[0-9]+]], s[[VAL3]]
	; GCN-FLUSH: global_store_dwordx4 v[{{[0-9:]+}}], v{{\[}}[[OUT0]]:[[OUT3]]], off			; GCN-FLUSH: global_store_dwordx4 v[{{[0-9:]+}}], v{{\[}}[[OUT0]]:[[OUT3]]], off
	define amdgpu_kernel void @div_v4_minus_1_by_minus_x_25ulp(<4 x float> addrspace(1)* %arg) {			define amdgpu_kernel void @div_v4_minus_1_by_minus_x_25ulp(<4 x float> addrspace(1)* %arg) {
	%load = load <4 x float>, <4 x float> addrspace(1)* %arg, align 16			%load = load <4 x float>, <4 x float> addrspace(1)* %arg, align 16
	%neg = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %load			%neg = fneg <4 x float> %load
	%div = fdiv <4 x float> <float -1.000000e+00, float -1.000000e+00, float -1.000000e+00, float -1.000000e+00>, %neg, !fpmath !0			%div = fdiv <4 x float> <float -1.000000e+00, float -1.000000e+00, float -1.000000e+00, float -1.000000e+00>, %neg, !fpmath !0
	store <4 x float> %div, <4 x float> addrspace(1)* %arg, align 16			store <4 x float> %div, <4 x float> addrspace(1)* %arg, align 16
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_v4_c_by_x_25ulp:			; GCN-LABEL: {{^}}div_v4_c_by_x_25ulp:
	; GCN-DENORM-DAG: v_div_scale_f32 {{.*}}, 2.0{{$}}			; GCN-DENORM-DAG: v_div_scale_f32 {{.*}}, 2.0{{$}}
	; GCN-DENORM-DAG: v_div_scale_f32 {{.*}}, 2.0{{$}}			; GCN-DENORM-DAG: v_div_scale_f32 {{.*}}, 2.0{{$}}
	▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines

	; GCN-NOT: v_cmp_gt_f32_e64			; GCN-NOT: v_cmp_gt_f32_e64
	; GCN-NOT: v_cndmask_b32_e32			; GCN-NOT: v_cndmask_b32_e32
	; GCN-FLUSH-NOT: v_div			; GCN-FLUSH-NOT: v_div

	; GCN: global_store_dwordx4			; GCN: global_store_dwordx4
	define amdgpu_kernel void @div_v4_c_by_minus_x_25ulp(<4 x float> addrspace(1)* %arg) {			define amdgpu_kernel void @div_v4_c_by_minus_x_25ulp(<4 x float> addrspace(1)* %arg) {
	%load = load <4 x float>, <4 x float> addrspace(1)* %arg, align 16			%load = load <4 x float>, <4 x float> addrspace(1)* %arg, align 16
	%neg = fsub <4 x float> <float -0.000000e+00, float -0.000000e+00, float -0.000000e+00, float -0.000000e+00>, %load			%neg = fneg <4 x float> %load
	%div = fdiv <4 x float> <float 2.000000e+00, float 1.000000e+00, float -1.000000e+00, float -2.000000e+00>, %neg, !fpmath !0			%div = fdiv <4 x float> <float 2.000000e+00, float 1.000000e+00, float -1.000000e+00, float -2.000000e+00>, %neg, !fpmath !0
	store <4 x float> %div, <4 x float> addrspace(1)* %arg, align 16			store <4 x float> %div, <4 x float> addrspace(1)* %arg, align 16
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_v_by_x_25ulp:			; GCN-LABEL: {{^}}div_v_by_x_25ulp:
	; GCN-DAG: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9:]+}}], 0x0{{$}}			; GCN-DAG: s_load_dword [[VAL:s[0-9]+]], s[{{[0-9:]+}}], 0x0{{$}}

	▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}div_1_by_minus_x_fast:			; GCN-LABEL: {{^}}div_1_by_minus_x_fast:
	; GCN: s_load_dword [[VAL:s[0-9]+]], s[0:1], 0x0			; GCN: s_load_dword [[VAL:s[0-9]+]], s[0:1], 0x0
	; GCN: v_rcp_f32_e64 [[RCP:v[0-9]+]], -[[VAL]]			; GCN: v_rcp_f32_e64 [[RCP:v[0-9]+]], -[[VAL]]
	; GCN: global_store_dword v[{{[0-9:]+}}], [[RCP]], off			; GCN: global_store_dword v[{{[0-9:]+}}], [[RCP]], off
	define amdgpu_kernel void @div_1_by_minus_x_fast(float addrspace(1)* %arg) {			define amdgpu_kernel void @div_1_by_minus_x_fast(float addrspace(1)* %arg) {
	%load = load float, float addrspace(1)* %arg, align 4			%load = load float, float addrspace(1)* %arg, align 4
	%neg = fsub float -0.000000e+00, %load, !fpmath !0			%neg = fneg float %load, !fpmath !0
	%div = fdiv fast float 1.000000e+00, %neg			%div = fdiv fast float 1.000000e+00, %neg
	store float %div, float addrspace(1)* %arg, align 4			store float %div, float addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_minus_1_by_minus_x_fast:			; GCN-LABEL: {{^}}div_minus_1_by_minus_x_fast:
	; GCN: s_load_dword [[VAL:s[0-9]+]], s[0:1], 0x0			; GCN: s_load_dword [[VAL:s[0-9]+]], s[0:1], 0x0
	; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], [[VAL]]			; GCN: v_rcp_f32_e32 [[RCP:v[0-9]+]], [[VAL]]
	; GCN: global_store_dword v[{{[0-9:]+}}], [[RCP]], off			; GCN: global_store_dword v[{{[0-9:]+}}], [[RCP]], off
	define amdgpu_kernel void @div_minus_1_by_minus_x_fast(float addrspace(1)* %arg) {			define amdgpu_kernel void @div_minus_1_by_minus_x_fast(float addrspace(1)* %arg) {
	%load = load float, float addrspace(1)* %arg, align 4			%load = load float, float addrspace(1)* %arg, align 4
	%neg = fsub float -0.000000e+00, %load, !fpmath !0			%neg = fneg float %load, !fpmath !0
	%div = fdiv fast float -1.000000e+00, %neg			%div = fdiv fast float -1.000000e+00, %neg
	store float %div, float addrspace(1)* %arg, align 4			store float %div, float addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_1_by_x_correctly_rounded:			; GCN-LABEL: {{^}}div_1_by_x_correctly_rounded:
	; GCN-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32
	; GCN-DAG: v_rcp_f32_e32			; GCN-DAG: v_rcp_f32_e32
	Show All 23 Lines
	; GCN-LABEL: {{^}}div_1_by_minus_x_correctly_rounded:			; GCN-LABEL: {{^}}div_1_by_minus_x_correctly_rounded:
	; GCN-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32
	; GCN-DAG: v_rcp_f32_e32			; GCN-DAG: v_rcp_f32_e32
	; GCN-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32
	; GCN: v_div_fmas_f32			; GCN: v_div_fmas_f32
	; GCN: v_div_fixup_f32			; GCN: v_div_fixup_f32
	define amdgpu_kernel void @div_1_by_minus_x_correctly_rounded(float addrspace(1)* %arg) {			define amdgpu_kernel void @div_1_by_minus_x_correctly_rounded(float addrspace(1)* %arg) {
	%load = load float, float addrspace(1)* %arg, align 4			%load = load float, float addrspace(1)* %arg, align 4
	%neg = fsub float -0.000000e+00, %load			%neg = fneg float %load
	%div = fdiv float 1.000000e+00, %neg			%div = fdiv float 1.000000e+00, %neg
	store float %div, float addrspace(1)* %arg, align 4			store float %div, float addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}div_minus_1_by_minus_x_correctly_rounded:			; GCN-LABEL: {{^}}div_minus_1_by_minus_x_correctly_rounded:
	; GCN-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32
	; GCN-DAG: v_rcp_f32_e32			; GCN-DAG: v_rcp_f32_e32
	; GCN-DAG: v_div_scale_f32			; GCN-DAG: v_div_scale_f32
	; GCN: v_div_fmas_f32			; GCN: v_div_fmas_f32
	; GCN: v_div_fixup_f32			; GCN: v_div_fixup_f32
	define amdgpu_kernel void @div_minus_1_by_minus_x_correctly_rounded(float addrspace(1)* %arg) {			define amdgpu_kernel void @div_minus_1_by_minus_x_correctly_rounded(float addrspace(1)* %arg) {
	%load = load float, float addrspace(1)* %arg, align 4			%load = load float, float addrspace(1)* %arg, align 4
	%neg = fsub float -0.000000e+00, %load			%neg = fneg float %load
	%div = fdiv float -1.000000e+00, %neg			%div = fdiv float -1.000000e+00, %neg
	store float %div, float addrspace(1)* %arg, align 4			store float %div, float addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	!0 = !{float 2.500000e+00}			!0 = !{float 2.500000e+00}

llvm/test/CodeGen/AMDGPU/fmuladd.f16.ll

Show First 20 Lines • Show All 210 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fmuladd_neg_2.0_neg_a_b_f16(half addrspace(1)* %out, half addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.0 = getelementptr half, half addrspace(1)* %out, i32 %tid		%gep.0 = getelementptr half, half addrspace(1)* %out, i32 %tid
%gep.1 = getelementptr half, half addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr half, half addrspace(1)* %gep.0, i32 1
%gep.out = getelementptr half, half addrspace(1)* %out, i32 %tid		%gep.out = getelementptr half, half addrspace(1)* %out, i32 %tid

%r1 = load volatile half, half addrspace(1)* %gep.0		%r1 = load volatile half, half addrspace(1)* %gep.0
%r2 = load volatile half, half addrspace(1)* %gep.1		%r2 = load volatile half, half addrspace(1)* %gep.1

%r1.fneg = fsub half -0.000000e+00, %r1		%r1.fneg = fneg half %r1

%r3 = tail call half @llvm.fmuladd.f16(half -2.0, half %r1.fneg, half %r2)		%r3 = tail call half @llvm.fmuladd.f16(half -2.0, half %r1.fneg, half %r2)
store half %r3, half addrspace(1)* %gep.out		store half %r3, half addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmuladd_2.0_neg_a_b_f16		; GCN-LABEL: {{^}}fmuladd_2.0_neg_a_b_f16
; GCN: {{buffer\|flat\|global}}_load_ushort [[R1:v[0-9]+]],		; GCN: {{buffer\|flat\|global}}_load_ushort [[R1:v[0-9]+]],
Show All 14 Lines	define amdgpu_kernel void @fmuladd_2.0_neg_a_b_f16(half addrspace(1)* %out, half addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.0 = getelementptr half, half addrspace(1)* %out, i32 %tid		%gep.0 = getelementptr half, half addrspace(1)* %out, i32 %tid
%gep.1 = getelementptr half, half addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr half, half addrspace(1)* %gep.0, i32 1
%gep.out = getelementptr half, half addrspace(1)* %out, i32 %tid		%gep.out = getelementptr half, half addrspace(1)* %out, i32 %tid

%r1 = load volatile half, half addrspace(1)* %gep.0		%r1 = load volatile half, half addrspace(1)* %gep.0
%r2 = load volatile half, half addrspace(1)* %gep.1		%r2 = load volatile half, half addrspace(1)* %gep.1

%r1.fneg = fsub half -0.000000e+00, %r1		%r1.fneg = fneg half %r1

%r3 = tail call half @llvm.fmuladd.f16(half 2.0, half %r1.fneg, half %r2)		%r3 = tail call half @llvm.fmuladd.f16(half 2.0, half %r1.fneg, half %r2)
store half %r3, half addrspace(1)* %gep.out		store half %r3, half addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmuladd_2.0_a_neg_b_f16		; GCN-LABEL: {{^}}fmuladd_2.0_a_neg_b_f16
; GCN: {{buffer\|flat\|global}}_load_ushort [[R1:v[0-9]+]],		; GCN: {{buffer\|flat\|global}}_load_ushort [[R1:v[0-9]+]],
; GCN: {{buffer\|flat\|global}}_load_ushort [[R2:v[0-9]+]],		; GCN: {{buffer\|flat\|global}}_load_ushort [[R2:v[0-9]+]],
; VI-FLUSH: v_mad_f16 [[RESULT:v[0-9]+]], [[R1]], 2.0, -[[R2]]		; VI-FLUSH: v_mad_f16 [[RESULT:v[0-9]+]], [[R1]], 2.0, -[[R2]]
; GCN-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], [[R1]], 2.0, -[[R2]]		; GCN-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], [[R1]], 2.0, -[[R2]]
; VI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; VI: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GFX10-FLUSH: v_add_f16_e32 [[MUL2:v[0-9]+]], [[R1]], [[R1]]		; GFX10-FLUSH: v_add_f16_e32 [[MUL2:v[0-9]+]], [[R1]], [[R1]]
; GFX10-FLUSH: v_sub_f16_e32 [[RESULT:v[0-9]+]], [[MUL2]], [[R2]]		; GFX10-FLUSH: v_sub_f16_e32 [[RESULT:v[0-9]+]], [[MUL2]], [[R2]]
; GFX10: global_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GFX10: global_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @fmuladd_2.0_a_neg_b_f16(half addrspace(1)* %out, half addrspace(1)* %in) #0 {		define amdgpu_kernel void @fmuladd_2.0_a_neg_b_f16(half addrspace(1)* %out, half addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.0 = getelementptr half, half addrspace(1)* %out, i32 %tid		%gep.0 = getelementptr half, half addrspace(1)* %out, i32 %tid
%gep.1 = getelementptr half, half addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr half, half addrspace(1)* %gep.0, i32 1
%gep.out = getelementptr half, half addrspace(1)* %out, i32 %tid		%gep.out = getelementptr half, half addrspace(1)* %out, i32 %tid

%r1 = load volatile half, half addrspace(1)* %gep.0		%r1 = load volatile half, half addrspace(1)* %gep.0
%r2 = load volatile half, half addrspace(1)* %gep.1		%r2 = load volatile half, half addrspace(1)* %gep.1

%r2.fneg = fsub half -0.000000e+00, %r2		%r2.fneg = fneg half %r2

%r3 = tail call half @llvm.fmuladd.f16(half 2.0, half %r1, half %r2.fneg)		%r3 = tail call half @llvm.fmuladd.f16(half 2.0, half %r1, half %r2.fneg)
store half %r3, half addrspace(1)* %gep.out		store half %r3, half addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}mad_sub_f16:		; GCN-LABEL: {{^}}mad_sub_f16:
; GCN: {{buffer\|flat\|global}}_load_ushort [[REGA:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_ushort [[REGA:v[0-9]+]]
▲ Show 20 Lines • Show All 165 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @neg_neg_mad_f16(half addrspace(1)* noalias nocapture %out, half addrspace(1)* noalias nocapture readonly %ptr) #1 {
%add1 = add i64 %tid.ext, 1		%add1 = add i64 %tid.ext, 1
%gep1 = getelementptr half, half addrspace(1)* %ptr, i64 %add1		%gep1 = getelementptr half, half addrspace(1)* %ptr, i64 %add1
%add2 = add i64 %tid.ext, 2		%add2 = add i64 %tid.ext, 2
%gep2 = getelementptr half, half addrspace(1)* %ptr, i64 %add2		%gep2 = getelementptr half, half addrspace(1)* %ptr, i64 %add2
%outgep = getelementptr half, half addrspace(1)* %out, i64 %tid.ext		%outgep = getelementptr half, half addrspace(1)* %out, i64 %tid.ext
%a = load volatile half, half addrspace(1)* %gep0, align 2		%a = load volatile half, half addrspace(1)* %gep0, align 2
%b = load volatile half, half addrspace(1)* %gep1, align 2		%b = load volatile half, half addrspace(1)* %gep1, align 2
%c = load volatile half, half addrspace(1)* %gep2, align 2		%c = load volatile half, half addrspace(1)* %gep2, align 2
%nega = fsub half -0.000000e+00, %a		%nega = fneg half %a
%negb = fsub half -0.000000e+00, %b		%negb = fneg half %b
%mul = fmul half %nega, %negb		%mul = fmul half %nega, %negb
%sub = fadd half %mul, %c		%sub = fadd half %mul, %c
store half %sub, half addrspace(1)* %outgep, align 2		store half %sub, half addrspace(1)* %outgep, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}mad_fabs_sub_f16:		; GCN-LABEL: {{^}}mad_fabs_sub_f16:
; GCN: {{buffer\|flat\|global}}_load_ushort [[REGA:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_ushort [[REGA:v[0-9]+]]
▲ Show 20 Lines • Show All 103 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fmuladd.f32.ll

Show First 20 Lines • Show All 248 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fmuladd_neg_2.0_neg_a_b_f32(float addrspace(1)* %out, float addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid		%gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid		%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid

%r1 = load volatile float, float addrspace(1)* %gep.0		%r1 = load volatile float, float addrspace(1)* %gep.0
%r2 = load volatile float, float addrspace(1)* %gep.1		%r2 = load volatile float, float addrspace(1)* %gep.1

%r1.fneg = fsub float -0.000000e+00, %r1		%r1.fneg = fneg float %r1

%r3 = tail call float @llvm.fmuladd.f32(float -2.0, float %r1.fneg, float %r2)		%r3 = tail call float @llvm.fmuladd.f32(float -2.0, float %r1.fneg, float %r2)
store float %r3, float addrspace(1)* %gep.out		store float %r3, float addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmuladd_2.0_neg_a_b_f32:		; GCN-LABEL: {{^}}fmuladd_2.0_neg_a_b_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[R1:v[0-9]+]],		; GCN: {{buffer\|flat\|global}}_load_dword [[R1:v[0-9]+]],
Show All 16 Lines	define amdgpu_kernel void @fmuladd_2.0_neg_a_b_f32(float addrspace(1)* %out, float addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid		%gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid		%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid

%r1 = load volatile float, float addrspace(1)* %gep.0		%r1 = load volatile float, float addrspace(1)* %gep.0
%r2 = load volatile float, float addrspace(1)* %gep.1		%r2 = load volatile float, float addrspace(1)* %gep.1

%r1.fneg = fsub float -0.000000e+00, %r1		%r1.fneg = fneg float %r1

%r3 = tail call float @llvm.fmuladd.f32(float 2.0, float %r1.fneg, float %r2)		%r3 = tail call float @llvm.fmuladd.f32(float 2.0, float %r1.fneg, float %r2)
store float %r3, float addrspace(1)* %gep.out		store float %r3, float addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmuladd_2.0_a_neg_b_f32:		; GCN-LABEL: {{^}}fmuladd_2.0_a_neg_b_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[R1:v[0-9]+]],		; GCN: {{buffer\|flat\|global}}_load_dword [[R1:v[0-9]+]],
Show All 15 Lines	define amdgpu_kernel void @fmuladd_2.0_a_neg_b_f32(float addrspace(1)* %out, float addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid		%gep.0 = getelementptr float, float addrspace(1)* %out, i32 %tid
%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid		%gep.out = getelementptr float, float addrspace(1)* %out, i32 %tid

%r1 = load volatile float, float addrspace(1)* %gep.0		%r1 = load volatile float, float addrspace(1)* %gep.0
%r2 = load volatile float, float addrspace(1)* %gep.1		%r2 = load volatile float, float addrspace(1)* %gep.1

%r2.fneg = fsub float -0.000000e+00, %r2		%r2.fneg = fneg float %r2

%r3 = tail call float @llvm.fmuladd.f32(float 2.0, float %r1, float %r2.fneg)		%r3 = tail call float @llvm.fmuladd.f32(float 2.0, float %r1, float %r2.fneg)
store float %r3, float addrspace(1)* %gep.out		store float %r3, float addrspace(1)* %gep.out
ret void		ret void
}		}

; GCN-LABEL: {{^}}mad_sub_f32:		; GCN-LABEL: {{^}}mad_sub_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[REGA:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[REGA:v[0-9]+]]
▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @neg_neg_mad_f32(float addrspace(1)* noalias nocapture %out, float addrspace(1)* noalias nocapture readonly %ptr) #0 {
%add1 = add i64 %tid.ext, 1		%add1 = add i64 %tid.ext, 1
%gep1 = getelementptr float, float addrspace(1)* %ptr, i64 %add1		%gep1 = getelementptr float, float addrspace(1)* %ptr, i64 %add1
%add2 = add i64 %tid.ext, 2		%add2 = add i64 %tid.ext, 2
%gep2 = getelementptr float, float addrspace(1)* %ptr, i64 %add2		%gep2 = getelementptr float, float addrspace(1)* %ptr, i64 %add2
%outgep = getelementptr float, float addrspace(1)* %out, i64 %tid.ext		%outgep = getelementptr float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %gep0, align 4		%a = load volatile float, float addrspace(1)* %gep0, align 4
%b = load volatile float, float addrspace(1)* %gep1, align 4		%b = load volatile float, float addrspace(1)* %gep1, align 4
%c = load volatile float, float addrspace(1)* %gep2, align 4		%c = load volatile float, float addrspace(1)* %gep2, align 4
%nega = fsub float -0.000000e+00, %a		%nega = fneg float %a
%negb = fsub float -0.000000e+00, %b		%negb = fneg float %b
%mul = fmul float %nega, %negb		%mul = fmul float %nega, %negb
%sub = fadd float %mul, %c		%sub = fadd float %mul, %c
store float %sub, float addrspace(1)* %outgep, align 4		store float %sub, float addrspace(1)* %outgep, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}mad_fabs_sub_f32:		; GCN-LABEL: {{^}}mad_fabs_sub_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[REGA:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[REGA:v[0-9]+]]
▲ Show 20 Lines • Show All 99 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

; RUN: llc -march=amdgcn -mcpu=hawaii -start-after=sink -mattr=+flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-SAFE -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=hawaii -start-after=sink -mattr=+flat-for-global -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-SAFE -check-prefix=SI -check-prefix=FUNC %s
; RUN: llc -enable-no-signed-zeros-fp-math -march=amdgcn -mcpu=hawaii -mattr=+flat-for-global -start-after=sink -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-NSZ -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -enable-no-signed-zeros-fp-math -march=amdgcn -mcpu=hawaii -mattr=+flat-for-global -start-after=sink -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-NSZ -check-prefix=SI -check-prefix=FUNC %s

; RUN: llc -march=amdgcn -mcpu=fiji -start-after=sink --verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-SAFE -check-prefix=VI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=fiji -start-after=sink --verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-SAFE -check-prefix=VI -check-prefix=FUNC %s
; RUN: llc -enable-no-signed-zeros-fp-math -march=amdgcn -mcpu=fiji -start-after=sink -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-NSZ -check-prefix=VI -check-prefix=FUNC %s		; RUN: llc -enable-no-signed-zeros-fp-math -march=amdgcn -mcpu=fiji -start-after=sink -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefix=GCN -check-prefix=GCN-NSZ -check-prefix=VI -check-prefix=FUNC %s

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fadd tests		; fadd tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_add_f32:		; GCN-LABEL: {{^}}v_fneg_add_f32:
		arsenmUnsubmitted Not Done Reply Inline Actions Correct, this most of these are for source modifier folding purposes only arsenm: Correct, this most of these are for source modifier folding purposes only
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]

; GCN-SAFE: v_add_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-SAFE: v_add_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN-SAFE: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, [[ADD]]		; GCN-SAFE: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, [[ADD]]

; GCN-NSZ: v_sub_f32_e64 [[RESULT:v[0-9]+]], -[[A]], [[B]]		; GCN-NSZ: v_sub_f32_e64 [[RESULT:v[0-9]+]], -[[A]], [[B]]
; GCN-NSZ-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN-NSZ-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_add_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%add = fadd float %a, %b		%add = fadd float %a, %b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_store_use_add_f32:		; GCN-LABEL: {{^}}v_fneg_add_store_use_add_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_add_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_add_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN-DAG: v_xor_b32_e32 [[NEG_ADD:v[0-9]+]], 0x80000000, [[ADD]]		; GCN-DAG: v_xor_b32_e32 [[NEG_ADD:v[0-9]+]], 0x80000000, [[ADD]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_ADD]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_ADD]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_add_store_use_add_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_store_use_add_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%add = fadd float %a, %b		%add = fadd float %a, %b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %add, float addrspace(1)* %out		store volatile float %add, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_multi_use_add_f32:		; GCN-LABEL: {{^}}v_fneg_add_multi_use_add_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 11 Lines	define amdgpu_kernel void @v_fneg_add_multi_use_add_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%add = fadd float %a, %b		%add = fadd float %a, %b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
%use1 = fmul float %add, 4.0		%use1 = fmul float %add, 4.0
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_add_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]

; GCN-SAFE: v_sub_f32_e32		; GCN-SAFE: v_sub_f32_e32
; GCN-SAFE: v_xor_b32_e32 [[ADD:v[0-9]+]], 0x80000000,		; GCN-SAFE: v_xor_b32_e32 [[ADD:v[0-9]+]], 0x80000000,

; GCN-NSZ: v_sub_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-NSZ: v_sub_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_add_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%add = fadd float %fneg.a, %b		%add = fadd float %fneg.a, %b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_x_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_add_x_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]

; GCN-SAFE: v_sub_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-SAFE: v_sub_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN-SAFE: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, [[ADD]]		; GCN-SAFE: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, [[ADD]]

; GCN-NSZ: v_sub_f32_e32 [[ADD:v[0-9]+]], [[B]], [[A]]		; GCN-NSZ: v_sub_f32_e32 [[ADD:v[0-9]+]], [[B]], [[A]]
; GCN-NSZ: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN-NSZ: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_add_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%add = fadd float %a, %fneg.b		%add = fadd float %a, %fneg.b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_fneg_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_add_fneg_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]

; GCN-SAFE: v_sub_f32_e64 [[ADD:v[0-9]+]], -[[A]], [[B]]		; GCN-SAFE: v_sub_f32_e64 [[ADD:v[0-9]+]], -[[A]], [[B]]
; GCN-SAFE: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, [[ADD]]		; GCN-SAFE: v_xor_b32_e32 v{{[0-9]+}}, 0x80000000, [[ADD]]

; GCN-NSZ: v_add_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-NSZ: v_add_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN-NSZ: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN-NSZ: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_add_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%add = fadd float %fneg.a, %fneg.b		%add = fadd float %fneg.a, %fneg.b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_store_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_add_store_use_fneg_x_f32:
; GCN-SAFE-DAG: s_brev_b32 [[SIGNBIT:s[0-9]+]], 1{{$}}		; GCN-SAFE-DAG: s_brev_b32 [[SIGNBIT:s[0-9]+]], 1{{$}}
; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 9 Lines
define amdgpu_kernel void @v_fneg_add_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_add_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%add = fadd float %fneg.a, %b		%add = fadd float %fneg.a, %b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %fneg.a, float addrspace(1)* %out		store volatile float %fneg.a, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_add_multi_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_add_multi_use_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 9 Lines
define amdgpu_kernel void @v_fneg_add_multi_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float %c) #0 {		define amdgpu_kernel void @v_fneg_add_multi_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float %c) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%add = fadd float %fneg.a, %b		%add = fadd float %fneg.a, %b
%fneg = fsub float -0.000000e+00, %add		%fneg = fneg float %add
%use1 = fmul float %fneg.a, %c		%use1 = fmul float %fneg.a, %c
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; This one asserted with -enable-no-signed-zeros-fp-math		; This one asserted with -enable-no-signed-zeros-fp-math
; GCN-LABEL: {{^}}fneg_fadd_0:		; GCN-LABEL: {{^}}fneg_fadd_0:
; GCN-SAFE-DAG: v_mad_f32 [[A:v[0-9]+]],		; GCN-SAFE-DAG: v_mad_f32 [[A:v[0-9]+]],
; GCN-SAFE-DAG: v_cmp_ngt_f32_e32 {{.*}}, [[A]]		; GCN-SAFE-DAG: v_cmp_ngt_f32_e32 {{.*}}, [[A]]
; GCN-SAFE-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, -[[A]]		; GCN-SAFE-DAG: v_cndmask_b32_e64 v{{[0-9]+}}, -[[A]]
define amdgpu_ps float @fneg_fadd_0(float inreg %tmp2, float inreg %tmp6, <4 x i32> %arg) local_unnamed_addr #0 {		define amdgpu_ps float @fneg_fadd_0(float inreg %tmp2, float inreg %tmp6, <4 x i32> %arg) local_unnamed_addr #0 {
.entry:		.entry:
%tmp7 = fdiv float 1.000000e+00, %tmp6		%tmp7 = fdiv float 1.000000e+00, %tmp6
%tmp8 = fmul float 0.000000e+00, %tmp7		%tmp8 = fmul float 0.000000e+00, %tmp7
%tmp9 = fmul reassoc nnan arcp contract float 0.000000e+00, %tmp8		%tmp9 = fmul reassoc nnan arcp contract float 0.000000e+00, %tmp8
%.i188 = fadd float %tmp9, 0.000000e+00		%.i188 = fadd float %tmp9, 0.000000e+00
%tmp10 = fcmp uge float %.i188, %tmp2		%tmp10 = fcmp uge float %.i188, %tmp2
%tmp11 = fsub float -0.000000e+00, %.i188		%tmp11 = fneg float %.i188
%.i092 = select i1 %tmp10, float %tmp2, float %tmp11		%.i092 = select i1 %tmp10, float %tmp2, float %tmp11
%tmp12 = fcmp ule float %.i092, 0.000000e+00		%tmp12 = fcmp ule float %.i092, 0.000000e+00
%.i198 = select i1 %tmp12, float 0.000000e+00, float 0x7FF8000000000000		%.i198 = select i1 %tmp12, float 0.000000e+00, float 0x7FF8000000000000
ret float %.i198		ret float %.i198
}		}

; This is a workaround because -enable-no-signed-zeros-fp-math does not set up		; This is a workaround because -enable-no-signed-zeros-fp-math does not set up
; function attribute unsafe-fp-math automatically. Combine with the previous test		; function attribute unsafe-fp-math automatically. Combine with the previous test
; when that is done.		; when that is done.
; GCN-LABEL: {{^}}fneg_fadd_0_nsz:		; GCN-LABEL: {{^}}fneg_fadd_0_nsz:
; GCN-NSZ-DAG: v_rcp_f32_e32 [[A:v[0-9]+]],		; GCN-NSZ-DAG: v_rcp_f32_e32 [[A:v[0-9]+]],
; GCN-NSZ-DAG: v_mov_b32_e32 [[B:v[0-9]+]],		; GCN-NSZ-DAG: v_mov_b32_e32 [[B:v[0-9]+]],
; GCN-NSZ-DAG: v_mov_b32_e32 [[C:v[0-9]+]],		; GCN-NSZ-DAG: v_mov_b32_e32 [[C:v[0-9]+]],
; GCN-NSZ-DAG: v_mul_f32_e32 [[D:v[0-9]+]],		; GCN-NSZ-DAG: v_mul_f32_e32 [[D:v[0-9]+]],
; GCN-NSZ-DAG: v_cmp_nlt_f32_e64 {{.*}}, -[[D]]		; GCN-NSZ-DAG: v_cmp_nlt_f32_e64 {{.*}}, -[[D]]
define amdgpu_ps float @fneg_fadd_0_nsz(float inreg %tmp2, float inreg %tmp6, <4 x i32> %arg) local_unnamed_addr #2 {		define amdgpu_ps float @fneg_fadd_0_nsz(float inreg %tmp2, float inreg %tmp6, <4 x i32> %arg) local_unnamed_addr #2 {
.entry:		.entry:
%tmp7 = fdiv float 1.000000e+00, %tmp6		%tmp7 = fdiv float 1.000000e+00, %tmp6
%tmp8 = fmul float 0.000000e+00, %tmp7		%tmp8 = fmul float 0.000000e+00, %tmp7
%tmp9 = fmul reassoc nnan arcp contract float 0.000000e+00, %tmp8		%tmp9 = fmul reassoc nnan arcp contract float 0.000000e+00, %tmp8
%.i188 = fadd float %tmp9, 0.000000e+00		%.i188 = fadd float %tmp9, 0.000000e+00
%tmp10 = fcmp uge float %.i188, %tmp2		%tmp10 = fcmp uge float %.i188, %tmp2
%tmp11 = fsub float -0.000000e+00, %.i188		%tmp11 = fneg float %.i188
%.i092 = select i1 %tmp10, float %tmp2, float %tmp11		%.i092 = select i1 %tmp10, float %tmp2, float %tmp11
%tmp12 = fcmp ule float %.i092, 0.000000e+00		%tmp12 = fcmp ule float %.i092, 0.000000e+00
%.i198 = select i1 %tmp12, float 0.000000e+00, float 0x7FF8000000000000		%.i198 = select i1 %tmp12, float 0.000000e+00, float 0x7FF8000000000000
ret float %.i198		ret float %.i198
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fmul tests		; fmul tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_mul_f32:		; GCN-LABEL: {{^}}v_fneg_mul_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], [[A]], -[[B]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_mul_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_store_use_mul_f32:		; GCN-LABEL: {{^}}v_fneg_mul_store_use_mul_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_mul_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_mul_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN-DAG: v_xor_b32_e32 [[NEG_MUL:v[0-9]+]], 0x80000000, [[ADD]]		; GCN-DAG: v_xor_b32_e32 [[NEG_MUL:v[0-9]+]], 0x80000000, [[ADD]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_store_use_mul_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_store_use_mul_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %mul, float addrspace(1)* %out		store volatile float %mul, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_multi_use_mul_f32:		; GCN-LABEL: {{^}}v_fneg_mul_multi_use_mul_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e64 [[MUL0:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_f32_e64 [[MUL0:v[0-9]+]], [[A]], -[[B]]
; GCN-NEXT: v_mul_f32_e32 [[MUL1:v[0-9]+]], -4.0, [[MUL0]]		; GCN-NEXT: v_mul_f32_e32 [[MUL1:v[0-9]+]], -4.0, [[MUL0]]

; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL0]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL0]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]
define amdgpu_kernel void @v_fneg_mul_multi_use_mul_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_multi_use_mul_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
%use1 = fmul float %mul, 4.0		%use1 = fmul float %mul, 4.0
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_mul_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN: v_mul_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%mul = fmul float %fneg.a, %b		%mul = fmul float %fneg.a, %b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_x_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_mul_x_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN: v_mul_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%mul = fmul float %a, %fneg.b		%mul = fmul float %a, %fneg.b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_fneg_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_mul_fneg_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e64 [[ADD:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_f32_e64 [[ADD:v[0-9]+]], [[A]], -[[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%mul = fmul float %fneg.a, %fneg.b		%mul = fmul float %fneg.a, %fneg.b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_store_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_mul_store_use_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]		; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN-DAG: v_mul_f32_e32 [[NEG_MUL:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_mul_f32_e32 [[NEG_MUL:v[0-9]+]], [[A]], [[B]]

; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]
define amdgpu_kernel void @v_fneg_mul_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%mul = fmul float %fneg.a, %b		%mul = fmul float %fneg.a, %b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %fneg.a, float addrspace(1)* %out		store volatile float %fneg.a, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_multi_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_mul_multi_use_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_mul_f32_e32 [[NEG_MUL:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_mul_f32_e32 [[NEG_MUL:v[0-9]+]], [[A]], [[B]]
; GCN-DAG: v_mul_f32_e64 [[MUL:v[0-9]+]], -[[A]], s{{[0-9]+}}		; GCN-DAG: v_mul_f32_e64 [[MUL:v[0-9]+]], -[[A]], s{{[0-9]+}}
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]
define amdgpu_kernel void @v_fneg_mul_multi_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float %c) #0 {		define amdgpu_kernel void @v_fneg_mul_multi_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float %c) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%mul = fmul float %fneg.a, %b		%mul = fmul float %fneg.a, %b
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
%use1 = fmul float %fneg.a, %c		%use1 = fmul float %fneg.a, %c
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fminnum tests		; fminnum tests
Show All 10 Lines	define amdgpu_kernel void @v_fneg_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%min = call float @llvm.minnum.f32(float %a, float %b)		%min = call float @llvm.minnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_minnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_minnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN-NOT: v1		; GCN-NOT: v1
; GCN: v_max_f32_e64 v0, -v0, -v1		; GCN: v_max_f32_e64 v0, -v0, -v1
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_minnum_f32_no_ieee(float %a, float %b) #0 {		define amdgpu_ps float @v_fneg_minnum_f32_no_ieee(float %a, float %b) #0 {
%min = call float @llvm.minnum.f32(float %a, float %b)		%min = call float @llvm.minnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_self_minnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_self_minnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]		; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_A]]		; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_self_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_self_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float %a, float %a)		%min = call float @llvm.minnum.f32(float %a, float %a)
%min.fneg = fsub float -0.0, %min		%min.fneg = fneg float %min
store float %min.fneg, float addrspace(1)* %out.gep		store float %min.fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_self_minnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_self_minnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_max_f32_e64 v0, -v0, -v0		; GCN: v_max_f32_e64 v0, -v0, -v0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_self_minnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_self_minnum_f32_no_ieee(float %a) #0 {
%min = call float @llvm.minnum.f32(float %a, float %a)		%min = call float @llvm.minnum.f32(float %a, float %a)
%min.fneg = fsub float -0.0, %min		%min.fneg = fneg float %min
ret float %min.fneg		ret float %min.fneg
}		}

; GCN-LABEL: {{^}}v_fneg_posk_minnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_posk_minnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], -4.0, [[QUIET_NEG_A]]		; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], -4.0, [[QUIET_NEG_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_posk_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_posk_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float 4.0, float %a)		%min = call float @llvm.minnum.f32(float 4.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_posk_minnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_posk_minnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_max_f32_e64 v0, -v0, -4.0		; GCN: v_max_f32_e64 v0, -v0, -4.0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_posk_minnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_posk_minnum_f32_no_ieee(float %a) #0 {
%min = call float @llvm.minnum.f32(float 4.0, float %a)		%min = call float @llvm.minnum.f32(float 4.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_negk_minnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_negk_minnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], 4.0, [[QUIET_NEG_A]]		; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], 4.0, [[QUIET_NEG_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_negk_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_negk_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float -4.0, float %a)		%min = call float @llvm.minnum.f32(float -4.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_negk_minnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_negk_minnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_max_f32_e64 v0, -v0, 4.0		; GCN: v_max_f32_e64 v0, -v0, 4.0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_negk_minnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_negk_minnum_f32_no_ieee(float %a) #0 {
%min = call float @llvm.minnum.f32(float -4.0, float %a)		%min = call float @llvm.minnum.f32(float -4.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_0_minnum_f32:		; GCN-LABEL: {{^}}v_fneg_0_minnum_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[A]]		; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_0_minnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_0_minnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float 0.0, float %a)		%min = call float @llvm.minnum.f32(float 0.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_neg0_minnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_neg0_minnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET_NEG_A]]		; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET_NEG_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_neg0_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_neg0_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float -0.0, float %a)		%min = call float @llvm.minnum.f32(float -0.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_inv2pi_minnum_f32:		; GCN-LABEL: {{^}}v_fneg_inv2pi_minnum_f32:
; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]

; SI-DAG: v_mul_f32_e32 [[QUIET_NEG:v[0-9]+]], -1.0, [[A]]		; SI-DAG: v_mul_f32_e32 [[QUIET_NEG:v[0-9]+]], -1.0, [[A]]
; SI: v_max_f32_e32 [[RESULT:v[0-9]+]], 0xbe22f983, [[QUIET_NEG]]		; SI: v_max_f32_e32 [[RESULT:v[0-9]+]], 0xbe22f983, [[QUIET_NEG]]

; VI: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[A]]		; VI: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[A]]
; VI: v_min_f32_e32 [[MAX:v[0-9]+]], 0.15915494, [[QUIET]]		; VI: v_min_f32_e32 [[MAX:v[0-9]+]], 0.15915494, [[QUIET]]
; VI: v_xor_b32_e32 [[RESULT:v[0-9]+]], 0x80000000, [[MAX]]		; VI: v_xor_b32_e32 [[RESULT:v[0-9]+]], 0x80000000, [[MAX]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_inv2pi_minnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_inv2pi_minnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float 0x3FC45F3060000000, float %a)		%min = call float @llvm.minnum.f32(float 0x3FC45F3060000000, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_neg_inv2pi_minnum_f32:		; GCN-LABEL: {{^}}v_fneg_neg_inv2pi_minnum_f32:
; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]

; SI: v_mul_f32_e32 [[NEG_QUIET:v[0-9]+]], -1.0, [[A]]		; SI: v_mul_f32_e32 [[NEG_QUIET:v[0-9]+]], -1.0, [[A]]
; SI: v_max_f32_e32 [[RESULT:v[0-9]+]], 0x3e22f983, [[NEG_QUIET]]		; SI: v_max_f32_e32 [[RESULT:v[0-9]+]], 0x3e22f983, [[NEG_QUIET]]

; VI: v_mul_f32_e32 [[NEG_QUIET:v[0-9]+]], -1.0, [[A]]		; VI: v_mul_f32_e32 [[NEG_QUIET:v[0-9]+]], -1.0, [[A]]
; VI: v_max_f32_e32 [[RESULT:v[0-9]+]], 0.15915494, [[NEG_QUIET]]		; VI: v_max_f32_e32 [[RESULT:v[0-9]+]], 0.15915494, [[NEG_QUIET]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_neg_inv2pi_minnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_neg_inv2pi_minnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%min = call float @llvm.minnum.f32(float 0xBFC45F3060000000, float %a)		%min = call float @llvm.minnum.f32(float 0xBFC45F3060000000, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_inv2pi_minnum_f16:		; GCN-LABEL: {{^}}v_fneg_inv2pi_minnum_f16:
; GCN-DAG: {{buffer\|flat}}_load_ushort [[A:v[0-9]+]]		; GCN-DAG: {{buffer\|flat}}_load_ushort [[A:v[0-9]+]]

; SI: v_cvt_f32_f16_e64 [[CVT:v[0-9]+]], -[[A]]		; SI: v_cvt_f32_f16_e64 [[CVT:v[0-9]+]], -[[A]]
▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines
}		}

; GCN-LABEL: {{^}}v_fneg_neg0_minnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_neg0_minnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_max_f32_e64 v0, -v0, 0{{$}}		; GCN: v_max_f32_e64 v0, -v0, 0{{$}}
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_neg0_minnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_neg0_minnum_f32_no_ieee(float %a) #0 {
%min = call float @llvm.minnum.f32(float -0.0, float %a)		%min = call float @llvm.minnum.f32(float -0.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_0_minnum_foldable_use_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_0_minnum_foldable_use_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], 0, [[QUIET_A]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], 0, [[QUIET_A]]
; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MIN]], [[B]]		; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MIN]], [[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_0_minnum_foldable_use_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_0_minnum_foldable_use_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%min = call float @llvm.minnum.f32(float 0.0, float %a)		%min = call float @llvm.minnum.f32(float 0.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
%mul = fmul float %fneg, %b		%mul = fmul float %fneg, %b
store float %mul, float addrspace(1)* %out.gep		store float %mul, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_inv2pi_minnum_foldable_use_f32:		; GCN-LABEL: {{^}}v_fneg_inv2pi_minnum_foldable_use_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 12 Lines	define amdgpu_kernel void @v_fneg_inv2pi_minnum_foldable_use_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%min = call float @llvm.minnum.f32(float 0x3FC45F3060000000, float %a)		%min = call float @llvm.minnum.f32(float 0x3FC45F3060000000, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
%mul = fmul float %fneg, %b		%mul = fmul float %fneg, %b
store float %mul, float addrspace(1)* %out.gep		store float %mul, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_0_minnum_foldable_use_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_0_minnum_foldable_use_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN-NOT: v1		; GCN-NOT: v1
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], 0, v0		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], 0, v0
; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MIN]], v1		; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MIN]], v1
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_0_minnum_foldable_use_f32_no_ieee(float %a, float %b) #0 {		define amdgpu_ps float @v_fneg_0_minnum_foldable_use_f32_no_ieee(float %a, float %b) #0 {
%min = call float @llvm.minnum.f32(float 0.0, float %a)		%min = call float @llvm.minnum.f32(float 0.0, float %a)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
%mul = fmul float %fneg, %b		%mul = fmul float %fneg, %b
ret float %mul		ret float %mul
}		}

; GCN-LABEL: {{^}}v_fneg_minnum_multi_use_minnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_minnum_multi_use_minnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]		; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]
; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_B:v[0-9]+]], -1.0, [[B]]		; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_B:v[0-9]+]], -1.0, [[B]]
; GCN: v_max_f32_e32 [[MAX0:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_B]]		; GCN: v_max_f32_e32 [[MAX0:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_B]]
; GCN-NEXT: v_mul_f32_e32 [[MUL1:v[0-9]+]], -4.0, [[MAX0]]		; GCN-NEXT: v_mul_f32_e32 [[MUL1:v[0-9]+]], -4.0, [[MAX0]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MAX0]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MAX0]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]
define amdgpu_kernel void @v_fneg_minnum_multi_use_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_minnum_multi_use_minnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%min = call float @llvm.minnum.f32(float %a, float %b)		%min = call float @llvm.minnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
%use1 = fmul float %min, 4.0		%use1 = fmul float %min, 4.0
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_minnum_multi_use_minnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_minnum_multi_use_minnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN-NOT: v1		; GCN-NOT: v1
; GCN: v_max_f32_e64 v0, -v0, -v1		; GCN: v_max_f32_e64 v0, -v0, -v1
; GCN-NEXT: v_mul_f32_e32 v1, -4.0, v0		; GCN-NEXT: v_mul_f32_e32 v1, -4.0, v0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps <2 x float> @v_fneg_minnum_multi_use_minnum_f32_no_ieee(float %a, float %b) #0 {		define amdgpu_ps <2 x float> @v_fneg_minnum_multi_use_minnum_f32_no_ieee(float %a, float %b) #0 {
%min = call float @llvm.minnum.f32(float %a, float %b)		%min = call float @llvm.minnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %min		%fneg = fneg float %min
%use1 = fmul float %min, 4.0		%use1 = fmul float %min, 4.0
%ins0 = insertelement <2 x float> undef, float %fneg, i32 0		%ins0 = insertelement <2 x float> undef, float %fneg, i32 0
%ins1 = insertelement <2 x float> %ins0, float %use1, i32 1		%ins1 = insertelement <2 x float> %ins0, float %use1, i32 1
ret <2 x float> %ins1		ret <2 x float> %ins1
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fmaxnum tests		; fmaxnum tests
Show All 11 Lines	define amdgpu_kernel void @v_fneg_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%max = call float @llvm.maxnum.f32(float %a, float %b)		%max = call float @llvm.maxnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_maxnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_maxnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN-NOT: v1		; GCN-NOT: v1
; GCN: v_min_f32_e64 v0, -v0, -v1		; GCN: v_min_f32_e64 v0, -v0, -v1
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_maxnum_f32_no_ieee(float %a, float %b) #0 {		define amdgpu_ps float @v_fneg_maxnum_f32_no_ieee(float %a, float %b) #0 {
%max = call float @llvm.maxnum.f32(float %a, float %b)		%max = call float @llvm.maxnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_self_maxnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_self_maxnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]		; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_A]]		; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_self_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_self_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%max = call float @llvm.maxnum.f32(float %a, float %a)		%max = call float @llvm.maxnum.f32(float %a, float %a)
%max.fneg = fsub float -0.0, %max		%max.fneg = fneg float %max
store float %max.fneg, float addrspace(1)* %out.gep		store float %max.fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_self_maxnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_self_maxnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_min_f32_e64 v0, -v0, -v0		; GCN: v_min_f32_e64 v0, -v0, -v0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_self_maxnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_self_maxnum_f32_no_ieee(float %a) #0 {
%max = call float @llvm.maxnum.f32(float %a, float %a)		%max = call float @llvm.maxnum.f32(float %a, float %a)
%max.fneg = fsub float -0.0, %max		%max.fneg = fneg float %max
ret float %max.fneg		ret float %max.fneg
}		}

; GCN-LABEL: {{^}}v_fneg_posk_maxnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_posk_maxnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], -4.0, [[QUIET_NEG_A]]		; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], -4.0, [[QUIET_NEG_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_posk_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_posk_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%max = call float @llvm.maxnum.f32(float 4.0, float %a)		%max = call float @llvm.maxnum.f32(float 4.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_posk_maxnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_posk_maxnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_min_f32_e64 v0, -v0, -4.0		; GCN: v_min_f32_e64 v0, -v0, -4.0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_posk_maxnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_posk_maxnum_f32_no_ieee(float %a) #0 {
%max = call float @llvm.maxnum.f32(float 4.0, float %a)		%max = call float @llvm.maxnum.f32(float 4.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_negk_maxnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_negk_maxnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], 4.0, [[QUIET_NEG_A]]		; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], 4.0, [[QUIET_NEG_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_negk_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_negk_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%max = call float @llvm.maxnum.f32(float -4.0, float %a)		%max = call float @llvm.maxnum.f32(float -4.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_negk_maxnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_negk_maxnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_min_f32_e64 v0, -v0, 4.0		; GCN: v_min_f32_e64 v0, -v0, 4.0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_negk_maxnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_negk_maxnum_f32_no_ieee(float %a) #0 {
%max = call float @llvm.maxnum.f32(float -4.0, float %a)		%max = call float @llvm.maxnum.f32(float -4.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_0_maxnum_f32:		; GCN-LABEL: {{^}}v_fneg_0_maxnum_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], 0, [[A]]		; GCN: v_max_f32_e32 [[RESULT:v[0-9]+]], 0, [[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_0_maxnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_0_maxnum_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%max = call float @llvm.maxnum.f32(float 0.0, float %a)		%max = call float @llvm.maxnum.f32(float 0.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_neg0_maxnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_neg0_maxnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_NEG_A:v[0-9]+]], -1.0, [[A]]
; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET_NEG_A]]		; GCN: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET_NEG_A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_neg0_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_neg0_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%max = call float @llvm.maxnum.f32(float -0.0, float %a)		%max = call float @llvm.maxnum.f32(float -0.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_neg0_maxnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_neg0_maxnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN: v_min_f32_e64 v0, -v0, 0{{$}}		; GCN: v_min_f32_e64 v0, -v0, 0{{$}}
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_neg0_maxnum_f32_no_ieee(float %a) #0 {		define amdgpu_ps float @v_fneg_neg0_maxnum_f32_no_ieee(float %a) #0 {
%max = call float @llvm.maxnum.f32(float -0.0, float %a)		%max = call float @llvm.maxnum.f32(float -0.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
ret float %fneg		ret float %fneg
}		}

; GCN-LABEL: {{^}}v_fneg_0_maxnum_foldable_use_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_0_maxnum_foldable_use_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]		; GCN: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]
; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0, [[QUIET_A]]		; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0, [[QUIET_A]]
; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MAX]], [[B]]		; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MAX]], [[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_0_maxnum_foldable_use_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_0_maxnum_foldable_use_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%max = call float @llvm.maxnum.f32(float 0.0, float %a)		%max = call float @llvm.maxnum.f32(float 0.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
%mul = fmul float %fneg, %b		%mul = fmul float %fneg, %b
store float %mul, float addrspace(1)* %out.gep		store float %mul, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_0_maxnum_foldable_use_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_0_maxnum_foldable_use_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN-NOT: v1		; GCN-NOT: v1
; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0, v0		; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0, v0
; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MAX]], v1		; GCN: v_mul_f32_e64 [[RESULT:v[0-9]+]], -[[MAX]], v1
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps float @v_fneg_0_maxnum_foldable_use_f32_no_ieee(float %a, float %b) #0 {		define amdgpu_ps float @v_fneg_0_maxnum_foldable_use_f32_no_ieee(float %a, float %b) #0 {
%max = call float @llvm.maxnum.f32(float 0.0, float %a)		%max = call float @llvm.maxnum.f32(float 0.0, float %a)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
%mul = fmul float %fneg, %b		%mul = fmul float %fneg, %b
ret float %mul		ret float %mul
}		}

; GCN-LABEL: {{^}}v_fneg_maxnum_multi_use_maxnum_f32_ieee:		; GCN-LABEL: {{^}}v_fneg_maxnum_multi_use_maxnum_f32_ieee:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]		; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_A:v[0-9]+]], -1.0, [[A]]
; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_B:v[0-9]+]], -1.0, [[B]]		; GCN-DAG: v_mul_f32_e32 [[NEG_QUIET_B:v[0-9]+]], -1.0, [[B]]
; GCN: v_min_f32_e32 [[MAX0:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_B]]		; GCN: v_min_f32_e32 [[MAX0:v[0-9]+]], [[NEG_QUIET_A]], [[NEG_QUIET_B]]
; GCN-NEXT: v_mul_f32_e32 [[MUL1:v[0-9]+]], -4.0, [[MAX0]]		; GCN-NEXT: v_mul_f32_e32 [[MUL1:v[0-9]+]], -4.0, [[MAX0]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MAX0]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MAX0]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL1]]
define amdgpu_kernel void @v_fneg_maxnum_multi_use_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_maxnum_multi_use_maxnum_f32_ieee(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%max = call float @llvm.maxnum.f32(float %a, float %b)		%max = call float @llvm.maxnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
%use1 = fmul float %max, 4.0		%use1 = fmul float %max, 4.0
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_maxnum_multi_use_maxnum_f32_no_ieee:		; GCN-LABEL: {{^}}v_fneg_maxnum_multi_use_maxnum_f32_no_ieee:
; GCN-NOT: v0		; GCN-NOT: v0
; GCN-NOT: v1		; GCN-NOT: v1
; GCN: v_min_f32_e64 v0, -v0, -v1		; GCN: v_min_f32_e64 v0, -v0, -v1
; GCN-NEXT: v_mul_f32_e32 v1, -4.0, v0		; GCN-NEXT: v_mul_f32_e32 v1, -4.0, v0
; GCN-NEXT: ; return		; GCN-NEXT: ; return
define amdgpu_ps <2 x float> @v_fneg_maxnum_multi_use_maxnum_f32_no_ieee(float %a, float %b) #0 {		define amdgpu_ps <2 x float> @v_fneg_maxnum_multi_use_maxnum_f32_no_ieee(float %a, float %b) #0 {
%max = call float @llvm.maxnum.f32(float %a, float %b)		%max = call float @llvm.maxnum.f32(float %a, float %b)
%fneg = fsub float -0.000000e+00, %max		%fneg = fneg float %max
%use1 = fmul float %max, 4.0		%use1 = fmul float %max, 4.0
%ins0 = insertelement <2 x float> undef, float %fneg, i32 0		%ins0 = insertelement <2 x float> undef, float %fneg, i32 0
%ins1 = insertelement <2 x float> %ins0, float %use1, i32 1		%ins1 = insertelement <2 x float> %ins0, float %use1, i32 1
ret <2 x float> %ins1		ret <2 x float> %ins1
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fma tests		; fma tests
Show All 15 Lines	define amdgpu_kernel void @v_fneg_fma_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fma = call float @llvm.fma.f32(float %a, float %b, float %c)		%fma = call float @llvm.fma.f32(float %a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_store_use_fma_f32:		; GCN-LABEL: {{^}}v_fneg_fma_store_use_fma_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]
; GCN-DAG: v_fma_f32 [[FMA:v[0-9]+]], [[A]], [[B]], [[C]]		; GCN-DAG: v_fma_f32 [[FMA:v[0-9]+]], [[A]], [[B]], [[C]]
; GCN-DAG: v_xor_b32_e32 [[NEG_FMA:v[0-9]+]], 0x80000000, [[FMA]]		; GCN-DAG: v_xor_b32_e32 [[NEG_FMA:v[0-9]+]], 0x80000000, [[FMA]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_FMA]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_FMA]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[FMA]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[FMA]]
define amdgpu_kernel void @v_fneg_fma_store_use_fma_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {		define amdgpu_kernel void @v_fneg_fma_store_use_fma_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fma = call float @llvm.fma.f32(float %a, float %b, float %c)		%fma = call float @llvm.fma.f32(float %a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %fma, float addrspace(1)* %out		store volatile float %fma, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_multi_use_fma_f32:		; GCN-LABEL: {{^}}v_fneg_fma_multi_use_fma_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 14 Lines	define amdgpu_kernel void @v_fneg_fma_multi_use_fma_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fma = call float @llvm.fma.f32(float %a, float %b, float %c)		%fma = call float @llvm.fma.f32(float %a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
%use1 = fmul float %fma, 4.0		%use1 = fmul float %fma, 4.0
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_fneg_x_y_f32:		; GCN-LABEL: {{^}}v_fneg_fma_fneg_x_y_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
Show All 11 Lines	define amdgpu_kernel void @v_fneg_fma_fneg_x_y_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)		%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_x_fneg_y_f32:		; GCN-LABEL: {{^}}v_fneg_fma_x_fneg_y_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]
Show All 9 Lines	define amdgpu_kernel void @v_fneg_fma_x_fneg_y_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%fma = call float @llvm.fma.f32(float %a, float %fneg.b, float %c)		%fma = call float @llvm.fma.f32(float %a, float %fneg.b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_fneg_fneg_y_f32:		; GCN-LABEL: {{^}}v_fneg_fma_fneg_fneg_y_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]
Show All 9 Lines	define amdgpu_kernel void @v_fneg_fma_fneg_fneg_y_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%fma = call float @llvm.fma.f32(float %fneg.a, float %fneg.b, float %c)		%fma = call float @llvm.fma.f32(float %fneg.a, float %fneg.b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_fneg_x_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_fma_fneg_x_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]
Show All 9 Lines	define amdgpu_kernel void @v_fneg_fma_fneg_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fneg.c = fsub float -0.000000e+00, %c		%fneg.c = fneg float %c
%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %fneg.c)		%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %fneg.c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_x_y_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_fma_x_y_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]
Show All 9 Lines	define amdgpu_kernel void @v_fneg_fma_x_y_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.c = fsub float -0.000000e+00, %c		%fneg.c = fneg float %c
%fma = call float @llvm.fma.f32(float %a, float %b, float %fneg.c)		%fma = call float @llvm.fma.f32(float %a, float %b, float %fneg.c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_store_use_fneg_x_y_f32:		; GCN-LABEL: {{^}}v_fneg_fma_store_use_fneg_x_y_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[C:v[0-9]+]]
Show All 15 Lines	define amdgpu_kernel void @v_fneg_fma_store_use_fneg_x_y_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)		%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %fneg.a, float addrspace(1)* %out		store volatile float %fneg.a, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fma_multi_use_fneg_x_y_f32:		; GCN-LABEL: {{^}}v_fneg_fma_multi_use_fneg_x_y_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 11 Lines	define amdgpu_kernel void @v_fneg_fma_multi_use_fneg_x_y_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, float %d) #0 {
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)		%fma = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
%use1 = fmul float %fneg.a, %d		%use1 = fmul float %fneg.a, %d
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fmad tests		; fmad tests
Show All 15 Lines	define amdgpu_kernel void @v_fneg_fmad_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fma = call float @llvm.fmuladd.f32(float %a, float %b, float %c)		%fma = call float @llvm.fmuladd.f32(float %a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fmad_v4f32:		; GCN-LABEL: {{^}}v_fneg_fmad_v4f32:

; GCN-NSZ: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}		; GCN-NSZ: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
; GCN-NSZ: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}		; GCN-NSZ: v_mad_f32 v{{[0-9]+}}, v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
Show All 35 Lines	define amdgpu_kernel void @v_fneg_fmad_multi_use_fmad_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%fma = call float @llvm.fmuladd.f32(float %a, float %b, float %c)		%fma = call float @llvm.fmuladd.f32(float %a, float %b, float %c)
%fneg = fsub float -0.000000e+00, %fma		%fneg = fneg float %fma
%use1 = fmul float %fma, 4.0		%use1 = fmul float %fma, 4.0
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fp_extend tests		; fp_extend tests
Show All 20 Lines
; GCN: v_cvt_f64_f32_e32 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[A]]		; GCN: v_cvt_f64_f32_e32 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[A]]
; GCN: {{buffer\|flat}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: {{buffer\|flat}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_fp_extend_fneg_f32_to_f64(double addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_extend_fneg_f32_to_f64(double addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds double, double addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds double, double addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fpext = fpext float %fneg.a to double		%fpext = fpext float %fneg.a to double
%fneg = fsub double -0.000000e+00, %fpext		%fneg = fsub double -0.000000e+00, %fpext
store double %fneg, double addrspace(1)* %out.gep		store double %fneg, double addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_extend_store_use_fneg_f32_to_f64:		; GCN-LABEL: {{^}}v_fneg_fp_extend_store_use_fneg_f32_to_f64:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_cvt_f64_f32_e32 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[A]]		; GCN-DAG: v_cvt_f64_f32_e32 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[A]]
; GCN-DAG: v_xor_b32_e32 [[FNEG_A:v[0-9]+]], 0x80000000, [[A]]		; GCN-DAG: v_xor_b32_e32 [[FNEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[FNEG_A]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[FNEG_A]]
define amdgpu_kernel void @v_fneg_fp_extend_store_use_fneg_f32_to_f64(double addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_extend_store_use_fneg_f32_to_f64(double addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds double, double addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds double, double addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fpext = fpext float %fneg.a to double		%fpext = fpext float %fneg.a to double
%fneg = fsub double -0.000000e+00, %fpext		%fneg = fsub double -0.000000e+00, %fpext
store volatile double %fneg, double addrspace(1)* %out.gep		store volatile double %fneg, double addrspace(1)* %out.gep
store volatile float %fneg.a, float addrspace(1)* undef		store volatile float %fneg.a, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_multi_use_fp_extend_fneg_f32_to_f64:		; GCN-LABEL: {{^}}v_fneg_multi_use_fp_extend_fneg_f32_to_f64:
Show All 40 Lines
; GCN-LABEL: {{^}}v_fneg_multi_use_fp_extend_fneg_f16_to_f32:		; GCN-LABEL: {{^}}v_fneg_multi_use_fp_extend_fneg_f16_to_f32:
define amdgpu_kernel void @v_fneg_multi_use_fp_extend_fneg_f16_to_f32(float addrspace(1)* %out, half addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_multi_use_fp_extend_fneg_f16_to_f32(float addrspace(1)* %out, half addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds half, half addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds half, half addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile half, half addrspace(1)* %a.gep		%a = load volatile half, half addrspace(1)* %a.gep
%fpext = fpext half %a to float		%fpext = fpext half %a to float
%fneg = fsub float -0.000000e+00, %fpext		%fneg = fneg float %fpext
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile float %fpext, float addrspace(1)* %out.gep		store volatile float %fpext, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_multi_foldable_use_fp_extend_fneg_f16_to_f32:		; GCN-LABEL: {{^}}v_fneg_multi_foldable_use_fp_extend_fneg_f16_to_f32:
define amdgpu_kernel void @v_fneg_multi_foldable_use_fp_extend_fneg_f16_to_f32(float addrspace(1)* %out, half addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_multi_foldable_use_fp_extend_fneg_f16_to_f32(float addrspace(1)* %out, half addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds half, half addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds half, half addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile half, half addrspace(1)* %a.gep		%a = load volatile half, half addrspace(1)* %a.gep
%fpext = fpext half %a to float		%fpext = fpext half %a to float
%fneg = fsub float -0.000000e+00, %fpext		%fneg = fneg float %fpext
%mul = fmul float %fpext, 4.0		%mul = fmul float %fpext, 4.0
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile float %mul, float addrspace(1)* %out.gep		store volatile float %mul, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fp_round tests		; fp_round tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_fp_round_f64_to_f32:		; GCN-LABEL: {{^}}v_fneg_fp_round_f64_to_f32:
; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]		; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]
; GCN: v_cvt_f32_f64_e64 [[RESULT:v[0-9]+]], -[[A]]		; GCN: v_cvt_f32_f64_e64 [[RESULT:v[0-9]+]], -[[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_fp_round_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_round_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile double, double addrspace(1)* %a.gep		%a = load volatile double, double addrspace(1)* %a.gep
%fpround = fptrunc double %a to float		%fpround = fptrunc double %a to float
%fneg = fsub float -0.000000e+00, %fpround		%fneg = fneg float %fpround
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_round_fneg_f64_to_f32:		; GCN-LABEL: {{^}}v_fneg_fp_round_fneg_f64_to_f32:
; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]		; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]
; GCN: v_cvt_f32_f64_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN: v_cvt_f32_f64_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_fp_round_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_round_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile double, double addrspace(1)* %a.gep		%a = load volatile double, double addrspace(1)* %a.gep
%fneg.a = fsub double -0.000000e+00, %a		%fneg.a = fsub double -0.000000e+00, %a
%fpround = fptrunc double %fneg.a to float		%fpround = fptrunc double %fneg.a to float
%fneg = fsub float -0.000000e+00, %fpround		%fneg = fneg float %fpround
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_round_store_use_fneg_f64_to_f32:		; GCN-LABEL: {{^}}v_fneg_fp_round_store_use_fneg_f64_to_f32:
; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}		; GCN: {{buffer\|flat}}_load_dwordx2 v{{\[}}[[A_LO:[0-9]+]]:[[A_HI:[0-9]+]]{{\]}}
; GCN-DAG: v_cvt_f32_f64_e32 [[RESULT:v[0-9]+]], v{{\[}}[[A_LO]]:[[A_HI]]{{\]}}		; GCN-DAG: v_cvt_f32_f64_e32 [[RESULT:v[0-9]+]], v{{\[}}[[A_LO]]:[[A_HI]]{{\]}}
; GCN-DAG: v_xor_b32_e32 v[[NEG_A_HI:[0-9]+]], 0x80000000, v[[A_HI]]		; GCN-DAG: v_xor_b32_e32 v[[NEG_A_HI:[0-9]+]], 0x80000000, v[[A_HI]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[A_LO]]:[[NEG_A_HI]]{{\]}}		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[A_LO]]:[[NEG_A_HI]]{{\]}}
define amdgpu_kernel void @v_fneg_fp_round_store_use_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_round_store_use_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile double, double addrspace(1)* %a.gep		%a = load volatile double, double addrspace(1)* %a.gep
%fneg.a = fsub double -0.000000e+00, %a		%fneg.a = fsub double -0.000000e+00, %a
%fpround = fptrunc double %fneg.a to float		%fpround = fptrunc double %fneg.a to float
%fneg = fsub float -0.000000e+00, %fpround		%fneg = fneg float %fpround
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile double %fneg.a, double addrspace(1)* undef		store volatile double %fneg.a, double addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_round_multi_use_fneg_f64_to_f32:		; GCN-LABEL: {{^}}v_fneg_fp_round_multi_use_fneg_f64_to_f32:
; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]		; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]
; GCN-DAG: v_cvt_f32_f64_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN-DAG: v_cvt_f32_f64_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN-DAG: v_mul_f64 [[USE1:v\[[0-9]+:[0-9]+\]]], -[[A]], s{{\[}}		; GCN-DAG: v_mul_f64 [[USE1:v\[[0-9]+:[0-9]+\]]], -[[A]], s{{\[}}

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[USE1]]		; GCN: flat_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[USE1]]
define amdgpu_kernel void @v_fneg_fp_round_multi_use_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr, double %c) #0 {		define amdgpu_kernel void @v_fneg_fp_round_multi_use_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr, double %c) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile double, double addrspace(1)* %a.gep		%a = load volatile double, double addrspace(1)* %a.gep
%fneg.a = fsub double -0.000000e+00, %a		%fneg.a = fsub double -0.000000e+00, %a
%fpround = fptrunc double %fneg.a to float		%fpround = fptrunc double %fneg.a to float
%fneg = fsub float -0.000000e+00, %fpround		%fneg = fneg float %fpround
%use1 = fmul double %fneg.a, %c		%use1 = fmul double %fneg.a, %c
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile double %use1, double addrspace(1)* undef		store volatile double %use1, double addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_round_f32_to_f16:		; GCN-LABEL: {{^}}v_fneg_fp_round_f32_to_f16:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
Show All 16 Lines
; GCN: v_cvt_f16_f32_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN: v_cvt_f16_f32_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_fp_round_fneg_f32_to_f16(half addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_round_fneg_f32_to_f16(half addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds half, half addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds half, half addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fpround = fptrunc float %fneg.a to half		%fpround = fptrunc float %fneg.a to half
%fneg = fsub half -0.000000e+00, %fpround		%fneg = fsub half -0.000000e+00, %fpround
store half %fneg, half addrspace(1)* %out.gep		store half %fneg, half addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_multi_use_fp_round_fneg_f64_to_f32:		; GCN-LABEL: {{^}}v_fneg_multi_use_fp_round_fneg_f64_to_f32:
; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]		; GCN: {{buffer\|flat}}_load_dwordx2 [[A:v\[[0-9]+:[0-9]+\]]]
; GCN-DAG: v_cvt_f32_f64_e32 [[CVT:v[0-9]+]], [[A]]		; GCN-DAG: v_cvt_f32_f64_e32 [[CVT:v[0-9]+]], [[A]]
; GCN-DAG: v_xor_b32_e32 [[NEG:v[0-9]+]], 0x80000000, [[CVT]]		; GCN-DAG: v_xor_b32_e32 [[NEG:v[0-9]+]], 0x80000000, [[CVT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[CVT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[CVT]]
define amdgpu_kernel void @v_fneg_multi_use_fp_round_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_multi_use_fp_round_fneg_f64_to_f32(float addrspace(1)* %out, double addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds double, double addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile double, double addrspace(1)* %a.gep		%a = load volatile double, double addrspace(1)* %a.gep
%fpround = fptrunc double %a to float		%fpround = fptrunc double %a to float
%fneg = fsub float -0.000000e+00, %fpround		%fneg = fneg float %fpround
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile float %fpround, float addrspace(1)* %out.gep		store volatile float %fpround, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_round_store_use_fneg_f32_to_f16:		; GCN-LABEL: {{^}}v_fneg_fp_round_store_use_fneg_f32_to_f16:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_cvt_f16_f32_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN-DAG: v_cvt_f16_f32_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]		; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]
define amdgpu_kernel void @v_fneg_fp_round_store_use_fneg_f32_to_f16(half addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_fp_round_store_use_fneg_f32_to_f16(half addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds half, half addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds half, half addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fpround = fptrunc float %fneg.a to half		%fpround = fptrunc float %fneg.a to half
%fneg = fsub half -0.000000e+00, %fpround		%fneg = fsub half -0.000000e+00, %fpround
store volatile half %fneg, half addrspace(1)* %out.gep		store volatile half %fneg, half addrspace(1)* %out.gep
store volatile float %fneg.a, float addrspace(1)* undef		store volatile float %fneg.a, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_fp_round_multi_use_fneg_f32_to_f16:		; GCN-LABEL: {{^}}v_fneg_fp_round_multi_use_fneg_f32_to_f16:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_cvt_f16_f32_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN-DAG: v_cvt_f16_f32_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN-DAG: v_mul_f32_e64 [[USE1:v[0-9]+]], -[[A]], s		; GCN-DAG: v_mul_f32_e64 [[USE1:v[0-9]+]], -[[A]], s
; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_short v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[USE1]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[USE1]]
define amdgpu_kernel void @v_fneg_fp_round_multi_use_fneg_f32_to_f16(half addrspace(1)* %out, float addrspace(1)* %a.ptr, float %c) #0 {		define amdgpu_kernel void @v_fneg_fp_round_multi_use_fneg_f32_to_f16(half addrspace(1)* %out, float addrspace(1)* %a.ptr, float %c) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds half, half addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds half, half addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fpround = fptrunc float %fneg.a to half		%fpround = fptrunc float %fneg.a to half
%fneg = fsub half -0.000000e+00, %fpround		%fneg = fsub half -0.000000e+00, %fpround
%use1 = fmul float %fneg.a, %c		%use1 = fmul float %fneg.a, %c
store volatile half %fneg, half addrspace(1)* %out.gep		store volatile half %fneg, half addrspace(1)* %out.gep
store volatile float %use1, float addrspace(1)* undef		store volatile float %use1, float addrspace(1)* undef
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; rcp tests		; rcp tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_rcp_f32:		; GCN-LABEL: {{^}}v_fneg_rcp_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_rcp_f32_e64 [[RESULT:v[0-9]+]], -[[A]]		; GCN: v_rcp_f32_e64 [[RESULT:v[0-9]+]], -[[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_rcp_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_rcp_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%rcp = call float @llvm.amdgcn.rcp.f32(float %a)		%rcp = call float @llvm.amdgcn.rcp.f32(float %a)
%fneg = fsub float -0.000000e+00, %rcp		%fneg = fneg float %rcp
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_rcp_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_rcp_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_rcp_f32_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN: v_rcp_f32_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_rcp_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_rcp_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%rcp = call float @llvm.amdgcn.rcp.f32(float %fneg.a)		%rcp = call float @llvm.amdgcn.rcp.f32(float %fneg.a)
%fneg = fsub float -0.000000e+00, %rcp		%fneg = fneg float %rcp
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_rcp_store_use_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_rcp_store_use_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_rcp_f32_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN-DAG: v_rcp_f32_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]		; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]
define amdgpu_kernel void @v_fneg_rcp_store_use_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_rcp_store_use_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%rcp = call float @llvm.amdgcn.rcp.f32(float %fneg.a)		%rcp = call float @llvm.amdgcn.rcp.f32(float %fneg.a)
%fneg = fsub float -0.000000e+00, %rcp		%fneg = fneg float %rcp
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile float %fneg.a, float addrspace(1)* undef		store volatile float %fneg.a, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_rcp_multi_use_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_rcp_multi_use_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN-DAG: v_rcp_f32_e32 [[RESULT:v[0-9]+]], [[A]]		; GCN-DAG: v_rcp_f32_e32 [[RESULT:v[0-9]+]], [[A]]
; GCN-DAG: v_mul_f32_e64 [[MUL:v[0-9]+]], -[[A]], s{{[0-9]+}}		; GCN-DAG: v_mul_f32_e64 [[MUL:v[0-9]+]], -[[A]], s{{[0-9]+}}
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]
define amdgpu_kernel void @v_fneg_rcp_multi_use_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float %c) #0 {		define amdgpu_kernel void @v_fneg_rcp_multi_use_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float %c) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%rcp = call float @llvm.amdgcn.rcp.f32(float %fneg.a)		%rcp = call float @llvm.amdgcn.rcp.f32(float %fneg.a)
%fneg = fsub float -0.000000e+00, %rcp		%fneg = fneg float %rcp
%use1 = fmul float %fneg.a, %c		%use1 = fmul float %fneg.a, %c
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
store volatile float %use1, float addrspace(1)* undef		store volatile float %use1, float addrspace(1)* undef
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fmul_legacy tests		; fmul_legacy tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_mul_legacy_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_legacy_f32_e64 [[RESULT:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_legacy_f32_e64 [[RESULT:v[0-9]+]], [[A]], -[[B]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_mul_legacy_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_store_use_mul_legacy_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_store_use_mul_legacy_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_mul_legacy_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_mul_legacy_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN-DAG: v_xor_b32_e32 [[NEG_MUL_LEGACY:v[0-9]+]], 0x80000000, [[ADD]]		; GCN-DAG: v_xor_b32_e32 [[NEG_MUL_LEGACY:v[0-9]+]], 0x80000000, [[ADD]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL_LEGACY]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL_LEGACY]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_legacy_store_use_mul_legacy_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_store_use_mul_legacy_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %mul, float addrspace(1)* %out		store volatile float %mul, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_multi_use_mul_legacy_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_multi_use_mul_legacy_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_legacy_f32_e64 [[ADD:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_legacy_f32_e64 [[ADD:v[0-9]+]], [[A]], -[[B]]
; GCN-NEXT: v_mul_legacy_f32_e64 [[MUL:v[0-9]+]], -[[ADD]], 4.0		; GCN-NEXT: v_mul_legacy_f32_e64 [[MUL:v[0-9]+]], -[[ADD]], 4.0
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]
define amdgpu_kernel void @v_fneg_mul_legacy_multi_use_mul_legacy_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_multi_use_mul_legacy_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
%use1 = call float @llvm.amdgcn.fmul.legacy(float %mul, float 4.0)		%use1 = call float @llvm.amdgcn.fmul.legacy(float %mul, float 4.0)
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_legacy_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN: v_mul_legacy_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_legacy_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_x_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_x_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_legacy_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]		; GCN: v_mul_legacy_f32_e32 [[ADD:v[0-9]+]], [[A]], [[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_legacy_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_x_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %fneg.b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %a, float %fneg.b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_fneg_fneg_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_fneg_fneg_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_legacy_f32_e64 [[ADD:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_legacy_f32_e64 [[ADD:v[0-9]+]], [[A]], -[[B]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[ADD]]
define amdgpu_kernel void @v_fneg_mul_legacy_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_fneg_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%fneg.b = fsub float -0.000000e+00, %b		%fneg.b = fneg float %b
%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %fneg.b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %fneg.b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_store_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_store_use_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]		; GCN-DAG: v_xor_b32_e32 [[NEG_A:v[0-9]+]], 0x80000000, [[A]]
; GCN-DAG: v_mul_legacy_f32_e32 [[NEG_MUL_LEGACY:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_mul_legacy_f32_e32 [[NEG_MUL_LEGACY:v[0-9]+]], [[A]], [[B]]
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL_LEGACY]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL_LEGACY]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_A]]
define amdgpu_kernel void @v_fneg_mul_legacy_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_store_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %fneg.a, float addrspace(1)* %out		store volatile float %fneg.a, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_mul_legacy_multi_use_fneg_x_f32:		; GCN-LABEL: {{^}}v_fneg_mul_legacy_multi_use_fneg_x_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN-DAG: v_mul_legacy_f32_e32 [[NEG_MUL_LEGACY:v[0-9]+]], [[A]], [[B]]		; GCN-DAG: v_mul_legacy_f32_e32 [[NEG_MUL_LEGACY:v[0-9]+]], [[A]], [[B]]
; GCN-DAG: v_mul_legacy_f32_e64 [[MUL:v[0-9]+]], -[[A]], s{{[0-9]+}}		; GCN-DAG: v_mul_legacy_f32_e64 [[MUL:v[0-9]+]], -[[A]], s{{[0-9]+}}
; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL_LEGACY]]		; GCN-NEXT: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[NEG_MUL_LEGACY]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[MUL]]
define amdgpu_kernel void @v_fneg_mul_legacy_multi_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float %c) #0 {		define amdgpu_kernel void @v_fneg_mul_legacy_multi_use_fneg_x_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float %c) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%fneg.a = fsub float -0.000000e+00, %a		%fneg.a = fneg float %a
%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %b)		%mul = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %b)
%fneg = fsub float -0.000000e+00, %mul		%fneg = fneg float %mul
%use1 = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %c)		%use1 = call float @llvm.amdgcn.fmul.legacy(float %fneg.a, float %c)
store volatile float %fneg, float addrspace(1)* %out		store volatile float %fneg, float addrspace(1)* %out
store volatile float %use1, float addrspace(1)* %out		store volatile float %use1, float addrspace(1)* %out
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; sin tests		; sin tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_sin_f32:		; GCN-LABEL: {{^}}v_fneg_sin_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[MUL:v[0-9]+]], 0xbe22f983, [[A]]		; GCN: v_mul_f32_e32 [[MUL:v[0-9]+]], 0xbe22f983, [[A]]
; GCN: v_fract_f32_e32 [[FRACT:v[0-9]+]], [[MUL]]		; GCN: v_fract_f32_e32 [[FRACT:v[0-9]+]], [[MUL]]
; GCN: v_sin_f32_e32 [[RESULT:v[0-9]+]], [[FRACT]]		; GCN: v_sin_f32_e32 [[RESULT:v[0-9]+]], [[FRACT]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_sin_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_sin_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%sin = call float @llvm.sin.f32(float %a)		%sin = call float @llvm.sin.f32(float %a)
%fneg = fsub float -0.000000e+00, %sin		%fneg = fneg float %sin
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_amdgcn_sin_f32:		; GCN-LABEL: {{^}}v_fneg_amdgcn_sin_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_sin_f32_e64 [[RESULT:v[0-9]+]], -[[A]]		; GCN: v_sin_f32_e64 [[RESULT:v[0-9]+]], -[[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_amdgcn_sin_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_amdgcn_sin_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%sin = call float @llvm.amdgcn.sin.f32(float %a)		%sin = call float @llvm.amdgcn.sin.f32(float %a)
%fneg = fsub float -0.0, %sin		%fneg = fneg float %sin
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; ftrunc tests		; ftrunc tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_trunc_f32:		; GCN-LABEL: {{^}}v_fneg_trunc_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_trunc_f32_e64 [[RESULT:v[0-9]+]], -[[A]]		; GCN: v_trunc_f32_e64 [[RESULT:v[0-9]+]], -[[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_trunc_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_trunc_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%trunc = call float @llvm.trunc.f32(float %a)		%trunc = call float @llvm.trunc.f32(float %a)
%fneg = fsub float -0.0, %trunc		%fneg = fneg float %trunc
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fround tests		; fround tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

Show All 10 Lines
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_round_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_round_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%round = call float @llvm.round.f32(float %a)		%round = call float @llvm.round.f32(float %a)
%fneg = fsub float -0.0, %round		%fneg = fneg float %round
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; rint tests		; rint tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_rint_f32:		; GCN-LABEL: {{^}}v_fneg_rint_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_rndne_f32_e64 [[RESULT:v[0-9]+]], -[[A]]		; GCN: v_rndne_f32_e64 [[RESULT:v[0-9]+]], -[[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_rint_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_rint_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%rint = call float @llvm.rint.f32(float %a)		%rint = call float @llvm.rint.f32(float %a)
%fneg = fsub float -0.0, %rint		%fneg = fneg float %rint
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; nearbyint tests		; nearbyint tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_nearbyint_f32:		; GCN-LABEL: {{^}}v_fneg_nearbyint_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_rndne_f32_e64 [[RESULT:v[0-9]+]], -[[A]]		; GCN: v_rndne_f32_e64 [[RESULT:v[0-9]+]], -[[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_nearbyint_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_nearbyint_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%nearbyint = call float @llvm.nearbyint.f32(float %a)		%nearbyint = call float @llvm.nearbyint.f32(float %a)
%fneg = fsub float -0.0, %nearbyint		%fneg = fneg float %nearbyint
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; fcanonicalize tests		; fcanonicalize tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_canonicalize_f32:		; GCN-LABEL: {{^}}v_fneg_canonicalize_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], -1.0, [[A]]		; GCN: v_mul_f32_e32 [[RESULT:v[0-9]+]], -1.0, [[A]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_fneg_canonicalize_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {		define amdgpu_kernel void @v_fneg_canonicalize_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%trunc = call float @llvm.canonicalize.f32(float %a)		%trunc = call float @llvm.canonicalize.f32(float %a)
%fneg = fsub float -0.0, %trunc		%fneg = fneg float %trunc
store float %fneg, float addrspace(1)* %out.gep		store float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; vintrp tests		; vintrp tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------

; GCN-LABEL: {{^}}v_fneg_interp_p1_f32:		; GCN-LABEL: {{^}}v_fneg_interp_p1_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e64 [[MUL:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_f32_e64 [[MUL:v[0-9]+]], [[A]], -[[B]]
; GCN: v_interp_p1_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]		; GCN: v_interp_p1_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]
; GCN: v_interp_p1_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]		; GCN: v_interp_p1_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]
define amdgpu_kernel void @v_fneg_interp_p1_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_interp_p1_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.0, %mul		%fneg = fneg float %mul
%intrp0 = call float @llvm.amdgcn.interp.p1(float %fneg, i32 0, i32 0, i32 0)		%intrp0 = call float @llvm.amdgcn.interp.p1(float %fneg, i32 0, i32 0, i32 0)
%intrp1 = call float @llvm.amdgcn.interp.p1(float %fneg, i32 1, i32 0, i32 0)		%intrp1 = call float @llvm.amdgcn.interp.p1(float %fneg, i32 1, i32 0, i32 0)
store volatile float %intrp0, float addrspace(1)* %out.gep		store volatile float %intrp0, float addrspace(1)* %out.gep
store volatile float %intrp1, float addrspace(1)* %out.gep		store volatile float %intrp1, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_fneg_interp_p2_f32:		; GCN-LABEL: {{^}}v_fneg_interp_p2_f32:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
; GCN: v_mul_f32_e64 [[MUL:v[0-9]+]], [[A]], -[[B]]		; GCN: v_mul_f32_e64 [[MUL:v[0-9]+]], [[A]], -[[B]]
; GCN: v_interp_p2_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]		; GCN: v_interp_p2_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]
; GCN: v_interp_p2_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]		; GCN: v_interp_p2_f32{{(_e32)?}} v{{[0-9]+}}, [[MUL]]
define amdgpu_kernel void @v_fneg_interp_p2_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {		define amdgpu_kernel void @v_fneg_interp_p2_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.0, %mul		%fneg = fneg float %mul
%intrp0 = call float @llvm.amdgcn.interp.p2(float 4.0, float %fneg, i32 0, i32 0, i32 0)		%intrp0 = call float @llvm.amdgcn.interp.p2(float 4.0, float %fneg, i32 0, i32 0, i32 0)
%intrp1 = call float @llvm.amdgcn.interp.p2(float 4.0, float %fneg, i32 1, i32 0, i32 0)		%intrp1 = call float @llvm.amdgcn.interp.p2(float 4.0, float %fneg, i32 1, i32 0, i32 0)
store volatile float %intrp0, float addrspace(1)* %out.gep		store volatile float %intrp0, float addrspace(1)* %out.gep
store volatile float %intrp1, float addrspace(1)* %out.gep		store volatile float %intrp1, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
Show All 20 Lines	define amdgpu_kernel void @v_fneg_copytoreg_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, i32 %d) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.0, %mul		%fneg = fneg float %mul
%cmp0 = icmp eq i32 %d, 0		%cmp0 = icmp eq i32 %d, 0
br i1 %cmp0, label %if, label %endif		br i1 %cmp0, label %if, label %endif

if:		if:
%mul1 = fmul float %fneg, %c		%mul1 = fmul float %fneg, %c
store volatile float %mul1, float addrspace(1)* %out.gep		store volatile float %mul1, float addrspace(1)* %out.gep
br label %endif		br label %endif

Show All 19 Lines	define amdgpu_kernel void @v_fneg_inlineasm_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, i32 %d) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.0, %mul		%fneg = fneg float %mul
call void asm sideeffect "; use $0", "v"(float %fneg) #0		call void asm sideeffect "; use $0", "v"(float %fneg) #0
store volatile float %fneg, float addrspace(1)* %out.gep		store volatile float %fneg, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; inlineasm tests		; inlineasm tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
Show All 12 Lines	define amdgpu_kernel void @v_fneg_inlineasm_multi_use_src_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, i32 %d) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%mul = fmul float %a, %b		%mul = fmul float %a, %b
%fneg = fsub float -0.0, %mul		%fneg = fneg float %mul
call void asm sideeffect "; use $0", "v"(float %fneg) #0		call void asm sideeffect "; use $0", "v"(float %fneg) #0
store volatile float %mul, float addrspace(1)* %out.gep		store volatile float %mul, float addrspace(1)* %out.gep
ret void		ret void
}		}

; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
; code size regression tests		; code size regression tests
; --------------------------------------------------------------------------------		; --------------------------------------------------------------------------------
Show All 16 Lines	define amdgpu_kernel void @multiuse_fneg_2_vop3_users_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep

%fneg.a = fsub float -0.0, %a		%fneg.a = fneg float %a
%fma0 = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)		%fma0 = call float @llvm.fma.f32(float %fneg.a, float %b, float %c)
%fma1 = call float @llvm.fma.f32(float %fneg.a, float %c, float 2.0)		%fma1 = call float @llvm.fma.f32(float %fneg.a, float %c, float 2.0)

store volatile float %fma0, float addrspace(1)* %out		store volatile float %fma0, float addrspace(1)* %out
store volatile float %fma1, float addrspace(1)* %out		store volatile float %fma1, float addrspace(1)* %out
ret void		ret void
}		}

Show All 15 Lines	define amdgpu_kernel void @multiuse_fneg_2_vop2_users_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep

%fneg.a = fsub float -0.0, %a		%fneg.a = fneg float %a
%mul0 = fmul float %fneg.a, %b		%mul0 = fmul float %fneg.a, %b
%mul1 = fmul float %fneg.a, %c		%mul1 = fmul float %fneg.a, %c

store volatile float %mul0, float addrspace(1)* %out		store volatile float %mul0, float addrspace(1)* %out
store volatile float %mul1, float addrspace(1)* %out		store volatile float %mul1, float addrspace(1)* %out
ret void		ret void
}		}

Show All 14 Lines	define amdgpu_kernel void @multiuse_fneg_vop2_vop3_users_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr) #0 {
%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext		%a.gep = getelementptr inbounds float, float addrspace(1)* %a.ptr, i64 %tid.ext
%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext		%b.gep = getelementptr inbounds float, float addrspace(1)* %b.ptr, i64 %tid.ext
%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext		%c.gep = getelementptr inbounds float, float addrspace(1)* %c.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep

%fneg.a = fsub float -0.0, %a		%fneg.a = fneg float %a
%fma0 = call float @llvm.fma.f32(float %fneg.a, float %b, float 2.0)		%fma0 = call float @llvm.fma.f32(float %fneg.a, float %b, float 2.0)
%mul1 = fmul float %fneg.a, %c		%mul1 = fmul float %fneg.a, %c

store volatile float %fma0, float addrspace(1)* %out		store volatile float %fma0, float addrspace(1)* %out
store volatile float %mul1, float addrspace(1)* %out		store volatile float %mul1, float addrspace(1)* %out
ret void		ret void
}		}

Show All 25 Lines	define amdgpu_kernel void @free_fold_src_code_size_cost_use_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, float addrspace(1)* %d.ptr) #0 {
%d.gep = getelementptr inbounds float, float addrspace(1)* %d.ptr, i64 %tid.ext		%d.gep = getelementptr inbounds float, float addrspace(1)* %d.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%d = load volatile float, float addrspace(1)* %d.gep		%d = load volatile float, float addrspace(1)* %d.gep

%fma0 = call float @llvm.fma.f32(float %a, float %b, float 2.0)		%fma0 = call float @llvm.fma.f32(float %a, float %b, float 2.0)
%fneg.fma0 = fsub float -0.0, %fma0		%fneg.fma0 = fneg float %fma0
%mul1 = fmul float %fneg.fma0, %c		%mul1 = fmul float %fneg.fma0, %c
%mul2 = fmul float %fneg.fma0, %d		%mul2 = fmul float %fneg.fma0, %d

store volatile float %mul1, float addrspace(1)* %out		store volatile float %mul1, float addrspace(1)* %out
store volatile float %mul2, float addrspace(1)* %out		store volatile float %mul2, float addrspace(1)* %out
ret void		ret void
}		}

▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @one_use_cost_to_fold_into_src_f32(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, float addrspace(1)* %d.ptr) #0 {
%d.gep = getelementptr inbounds float, float addrspace(1)* %d.ptr, i64 %tid.ext		%d.gep = getelementptr inbounds float, float addrspace(1)* %d.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%d = load volatile float, float addrspace(1)* %d.gep		%d = load volatile float, float addrspace(1)* %d.gep

%trunc.a = call float @llvm.trunc.f32(float %a)		%trunc.a = call float @llvm.trunc.f32(float %a)
%trunc.fneg.a = fsub float -0.0, %trunc.a		%trunc.fneg.a = fneg float %trunc.a
%fma0 = call float @llvm.fma.f32(float %trunc.fneg.a, float %b, float %c)		%fma0 = call float @llvm.fma.f32(float %trunc.fneg.a, float %b, float %c)
store volatile float %fma0, float addrspace(1)* %out		store volatile float %fma0, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}multi_use_cost_to_fold_into_src:		; GCN-LABEL: {{^}}multi_use_cost_to_fold_into_src:
; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[A:v[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword [[B:v[0-9]+]]
Show All 13 Lines	define amdgpu_kernel void @multi_use_cost_to_fold_into_src(float addrspace(1)* %out, float addrspace(1)* %a.ptr, float addrspace(1)* %b.ptr, float addrspace(1)* %c.ptr, float addrspace(1)* %d.ptr) #0 {
%d.gep = getelementptr inbounds float, float addrspace(1)* %d.ptr, i64 %tid.ext		%d.gep = getelementptr inbounds float, float addrspace(1)* %d.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds float, float addrspace(1)* %out, i64 %tid.ext
%a = load volatile float, float addrspace(1)* %a.gep		%a = load volatile float, float addrspace(1)* %a.gep
%b = load volatile float, float addrspace(1)* %b.gep		%b = load volatile float, float addrspace(1)* %b.gep
%c = load volatile float, float addrspace(1)* %c.gep		%c = load volatile float, float addrspace(1)* %c.gep
%d = load volatile float, float addrspace(1)* %d.gep		%d = load volatile float, float addrspace(1)* %d.gep

%trunc.a = call float @llvm.trunc.f32(float %a)		%trunc.a = call float @llvm.trunc.f32(float %a)
%trunc.fneg.a = fsub float -0.0, %trunc.a		%trunc.fneg.a = fneg float %trunc.a
%fma0 = call float @llvm.fma.f32(float %trunc.fneg.a, float %b, float %c)		%fma0 = call float @llvm.fma.f32(float %trunc.fneg.a, float %b, float %c)
%mul1 = fmul float %trunc.a, %d		%mul1 = fmul float %trunc.a, %d
store volatile float %fma0, float addrspace(1)* %out		store volatile float %fma0, float addrspace(1)* %out
store volatile float %mul1, float addrspace(1)* %out		store volatile float %mul1, float addrspace(1)* %out
ret void		ret void
}		}

declare i32 @llvm.amdgcn.workitem.id.x() #1		declare i32 @llvm.amdgcn.workitem.id.x() #1
Show All 25 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.fmed3.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; GCN-LABEL: {{^}}test_fmed3:			; GCN-LABEL: {{^}}test_fmed3:
	; GCN: v_med3_f32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN: v_med3_f32 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	define amdgpu_kernel void @test_fmed3(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {			define amdgpu_kernel void @test_fmed3(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)
	store float %med3, float addrspace(1)* %out			store float %med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fmed3_srcmods:			; GCN-LABEL: {{^}}test_fmed3_srcmods:
	; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, \|v{{[0-9]+}}\|, -\|v{{[0-9]+}}\|			; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, \|v{{[0-9]+}}\|, -\|v{{[0-9]+}}\|
	define amdgpu_kernel void @test_fmed3_srcmods(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {			define amdgpu_kernel void @test_fmed3_srcmods(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {
	%src0.fneg = fsub float -0.0, %src0			%src0.fneg = fneg float %src0
	%src1.fabs = call float @llvm.fabs.f32(float %src1)			%src1.fabs = call float @llvm.fabs.f32(float %src1)
	%src2.fabs = call float @llvm.fabs.f32(float %src2)			%src2.fabs = call float @llvm.fabs.f32(float %src2)
	%src2.fneg.fabs = fsub float -0.0, %src2.fabs			%src2.fneg.fabs = fneg float %src2.fabs
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0.fneg, float %src1.fabs, float %src2.fneg.fabs)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0.fneg, float %src1.fabs, float %src2.fneg.fabs)
	store float %med3, float addrspace(1)* %out			store float %med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fneg_fmed3:			; GCN-LABEL: {{^}}test_fneg_fmed3:
	; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}			; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
	define amdgpu_kernel void @test_fneg_fmed3(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {			define amdgpu_kernel void @test_fneg_fmed3(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)
	%neg.med3 = fsub float -0.0, %med3			%neg.med3 = fneg float %med3
	store float %neg.med3, float addrspace(1)* %out			store float %neg.med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fneg_fmed3_multi_use:			; GCN-LABEL: {{^}}test_fneg_fmed3_multi_use:
	; GCN: v_med3_f32 [[MED3:v[0-9]+]], -s{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}			; GCN: v_med3_f32 [[MED3:v[0-9]+]], -s{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, -4.0, [[MED3]]			; GCN: v_mul_f32_e32 v{{[0-9]+}}, -4.0, [[MED3]]
	define amdgpu_kernel void @test_fneg_fmed3_multi_use(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {			define amdgpu_kernel void @test_fneg_fmed3_multi_use(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)
	%neg.med3 = fsub float -0.0, %med3			%neg.med3 = fneg float %med3
	%med3.user = fmul float %med3, 4.0			%med3.user = fmul float %med3, 4.0
	store volatile float %med3.user, float addrspace(1)* %out			store volatile float %med3.user, float addrspace(1)* %out
	store volatile float %neg.med3, float addrspace(1)* %out			store volatile float %neg.med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fabs_fmed3:			; GCN-LABEL: {{^}}test_fabs_fmed3:
	; GCN: v_med3_f32 [[MED3:v[0-9]+]], s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; GCN: v_med3_f32 [[MED3:v[0-9]+]], s{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; GCN: v_and_b32_e32 v{{[0-9]+}}, 0x7fffffff, [[MED3]]			; GCN: v_and_b32_e32 v{{[0-9]+}}, 0x7fffffff, [[MED3]]
	define amdgpu_kernel void @test_fabs_fmed3(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {			define amdgpu_kernel void @test_fabs_fmed3(float addrspace(1)* %out, float %src0, float %src1, float %src2) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float %src2)
	%fabs.med3 = call float @llvm.fabs.f32(float %med3)			%fabs.med3 = call float @llvm.fabs.f32(float %med3)
	store float %fabs.med3, float addrspace(1)* %out			store float %fabs.med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fneg_fmed3_rr_0:			; GCN-LABEL: {{^}}test_fneg_fmed3_rr_0:
	; GCN: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1			; GCN: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1
	; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, -v{{[0-9]+}}, [[NEG0]]			; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, -v{{[0-9]+}}, [[NEG0]]
	define amdgpu_kernel void @test_fneg_fmed3_rr_0(float addrspace(1)* %out, float %src0, float %src1) #1 {			define amdgpu_kernel void @test_fneg_fmed3_rr_0(float addrspace(1)* %out, float %src0, float %src1) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float 0.0)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float 0.0)
	%neg.med3 = fsub float -0.0, %med3			%neg.med3 = fneg float %med3
	store float %neg.med3, float addrspace(1)* %out			store float %neg.med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Worse off from folding this			; FIXME: Worse off from folding this
	; GCN-LABEL: {{^}}test_fneg_fmed3_rr_0_foldable_user:			; GCN-LABEL: {{^}}test_fneg_fmed3_rr_0_foldable_user:
	; GCN: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1			; GCN: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1
	; GCN: v_med3_f32 [[MED3:v[0-9]+]], -s{{[0-9]+}}, -v{{[0-9]+}}, [[NEG0]]			; GCN: v_med3_f32 [[MED3:v[0-9]+]], -s{{[0-9]+}}, -v{{[0-9]+}}, [[NEG0]]
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, s{{[0-9]+}}, [[MED3]]			; GCN: v_mul_f32_e32 v{{[0-9]+}}, s{{[0-9]+}}, [[MED3]]
	define amdgpu_kernel void @test_fneg_fmed3_rr_0_foldable_user(float addrspace(1)* %out, float %src0, float %src1, float %mul.arg) #1 {			define amdgpu_kernel void @test_fneg_fmed3_rr_0_foldable_user(float addrspace(1)* %out, float %src0, float %src1, float %mul.arg) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float 0.0)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float %src1, float 0.0)
	%neg.med3 = fsub float -0.0, %med3			%neg.med3 = fneg float %med3
	%mul = fmul float %neg.med3, %mul.arg			%mul = fmul float %neg.med3, %mul.arg
	store float %mul, float addrspace(1)* %out			store float %mul, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fneg_fmed3_r_inv2pi_0:			; GCN-LABEL: {{^}}test_fneg_fmed3_r_inv2pi_0:
	; GCN-DAG: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1			; GCN-DAG: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1
	; GCN-DAG: v_mov_b32_e32 [[NEG_INV:v[0-9]+]], 0xbe22f983			; GCN-DAG: v_mov_b32_e32 [[NEG_INV:v[0-9]+]], 0xbe22f983
	; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, [[NEG_INV]], [[NEG0]]			; GCN: v_med3_f32 v{{[0-9]+}}, -s{{[0-9]+}}, [[NEG_INV]], [[NEG0]]
	define amdgpu_kernel void @test_fneg_fmed3_r_inv2pi_0(float addrspace(1)* %out, float %src0) #1 {			define amdgpu_kernel void @test_fneg_fmed3_r_inv2pi_0(float addrspace(1)* %out, float %src0) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float 0x3FC45F3060000000, float 0.0)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float 0x3FC45F3060000000, float 0.0)
	%neg.med3 = fsub float -0.0, %med3			%neg.med3 = fneg float %med3
	store float %neg.med3, float addrspace(1)* %out			store float %neg.med3, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_fneg_fmed3_r_inv2pi_0_foldable_user:			; GCN-LABEL: {{^}}test_fneg_fmed3_r_inv2pi_0_foldable_user:
	; GCN-DAG: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1			; GCN-DAG: v_bfrev_b32_e32 [[NEG0:v[0-9]+]], 1
	; GCN-DAG: v_mov_b32_e32 [[NEG_INV:v[0-9]+]], 0xbe22f983			; GCN-DAG: v_mov_b32_e32 [[NEG_INV:v[0-9]+]], 0xbe22f983
	; GCN: v_med3_f32 [[MED3:v[0-9]+]], -s{{[0-9]+}}, [[NEG_INV]], [[NEG0]]			; GCN: v_med3_f32 [[MED3:v[0-9]+]], -s{{[0-9]+}}, [[NEG_INV]], [[NEG0]]
	; GCN: v_mul_f32_e32 v{{[0-9]+}}, s{{[0-9]+}}, [[MED3]]			; GCN: v_mul_f32_e32 v{{[0-9]+}}, s{{[0-9]+}}, [[MED3]]
	define amdgpu_kernel void @test_fneg_fmed3_r_inv2pi_0_foldable_user(float addrspace(1)* %out, float %src0, float %mul.arg) #1 {			define amdgpu_kernel void @test_fneg_fmed3_r_inv2pi_0_foldable_user(float addrspace(1)* %out, float %src0, float %mul.arg) #1 {
	%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float 0x3FC45F3060000000, float 0.0)			%med3 = call float @llvm.amdgcn.fmed3.f32(float %src0, float 0x3FC45F3060000000, float 0.0)
	%neg.med3 = fsub float -0.0, %med3			%neg.med3 = fneg float %med3
	%mul = fmul float %neg.med3, %mul.arg			%mul = fmul float %neg.med3, %mul.arg
	store float %mul, float addrspace(1)* %out			store float %mul, float addrspace(1)* %out
	ret void			ret void
	}			}

	declare float @llvm.amdgcn.fmed3.f32(float, float, float) #0			declare float @llvm.amdgcn.fmed3.f32(float, float, float) #0
	declare float @llvm.fabs.f32(float) #0			declare float @llvm.fabs.f32(float) #0

	attributes #0 = { nounwind readnone }			attributes #0 = { nounwind readnone }
	attributes #1 = { nounwind }			attributes #1 = { nounwind }

llvm/test/CodeGen/AMDGPU/selectcc-opt.ll

	; RUN: llc -march=amdgcn < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=EG -check-prefix=FUNC %s


	; FUNC-LABEL: {{^}}test_a:			; FUNC-LABEL: {{^}}test_a:
	; EG-NOT: CND			; EG-NOT: CND
	; EG: SET{{[NEQGTL]+}}_DX10			; EG: SET{{[NEQGTL]+}}_DX10

	define amdgpu_kernel void @test_a(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @test_a(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp olt float %in, 0.000000e+00			%0 = fcmp olt float %in, 0.000000e+00
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	%4 = bitcast i32 %3 to float			%4 = bitcast i32 %3 to float
	%5 = bitcast float %4 to i32			%5 = bitcast float %4 to i32
	%6 = icmp ne i32 %5, 0			%6 = icmp ne i32 %5, 0
	br i1 %6, label %IF, label %ENDIF			br i1 %6, label %IF, label %ENDIF

	IF:			IF:
	%7 = getelementptr i32, i32 addrspace(1)* %out, i32 1			%7 = getelementptr i32, i32 addrspace(1)* %out, i32 1
	Show All 11 Lines
	; EG-LABEL: {{^}}test_b:			; EG-LABEL: {{^}}test_b:
	; EG: SET{{[GTEQN]+}}_DX10			; EG: SET{{[GTEQN]+}}_DX10
	; EG-NEXT: PRED_			; EG-NEXT: PRED_
	; EG-NEXT: ALU clause starting			; EG-NEXT: ALU clause starting
	define amdgpu_kernel void @test_b(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @test_b(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp olt float %in, 0.0			%0 = fcmp olt float %in, 0.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	%4 = bitcast i32 %3 to float			%4 = bitcast i32 %3 to float
	%5 = bitcast float %4 to i32			%5 = bitcast float %4 to i32
	%6 = icmp ne i32 %5, 0			%6 = icmp ne i32 %5, 0
	br i1 %6, label %ENDIF, label %IF			br i1 %6, label %ENDIF, label %IF

	IF:			IF:
	%7 = getelementptr i32, i32 addrspace(1)* %out, i32 1			%7 = getelementptr i32, i32 addrspace(1)* %out, i32 1
	Show All 30 Lines

llvm/test/CodeGen/AMDGPU/set-dx10.ll

	; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s			; RUN: llc < %s -march=r600 -mcpu=redwood \| FileCheck %s

	; These tests check that floating point comparisons which are used by select			; These tests check that floating point comparisons which are used by select
	; to store integer true (-1) and false (0) values are lowered to one of the			; to store integer true (-1) and false (0) values are lowered to one of the
	; SET*DX10 instructions.			; SET*DX10 instructions.

	; CHECK: {{^}}fcmp_une_select_fptosi:			; CHECK: {{^}}fcmp_une_select_fptosi:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETNE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETNE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_une_select_fptosi(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_une_select_fptosi(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp une float %in, 5.0			%0 = fcmp une float %in, 5.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK: {{^}}fcmp_une_select_i32:			; CHECK: {{^}}fcmp_une_select_i32:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETNE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETNE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	Show All 9 Lines
	; CHECK: {{^}}fcmp_oeq_select_fptosi:			; CHECK: {{^}}fcmp_oeq_select_fptosi:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_oeq_select_fptosi(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_oeq_select_fptosi(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp oeq float %in, 5.0			%0 = fcmp oeq float %in, 5.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK: {{^}}fcmp_oeq_select_i32:			; CHECK: {{^}}fcmp_oeq_select_i32:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	Show All 9 Lines
	; CHECK: {{^}}fcmp_ogt_select_fptosi:			; CHECK: {{^}}fcmp_ogt_select_fptosi:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_ogt_select_fptosi(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_ogt_select_fptosi(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp ogt float %in, 5.0			%0 = fcmp ogt float %in, 5.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK: {{^}}fcmp_ogt_select_i32:			; CHECK: {{^}}fcmp_ogt_select_i32:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	Show All 9 Lines
	; CHECK: {{^}}fcmp_oge_select_fptosi:			; CHECK: {{^}}fcmp_oge_select_fptosi:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_oge_select_fptosi(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_oge_select_fptosi(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp oge float %in, 5.0			%0 = fcmp oge float %in, 5.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK: {{^}}fcmp_oge_select_i32:			; CHECK: {{^}}fcmp_oge_select_i32:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,			; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, KC0[2].Z, literal.y,
	Show All 9 Lines
	; CHECK: {{^}}fcmp_ole_select_fptosi:			; CHECK: {{^}}fcmp_ole_select_fptosi:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,			; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_ole_select_fptosi(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_ole_select_fptosi(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp ole float %in, 5.0			%0 = fcmp ole float %in, 5.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK: {{^}}fcmp_ole_select_i32:			; CHECK: {{^}}fcmp_ole_select_i32:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,			; CHECK-NEXT: SETGE_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,
	Show All 9 Lines
	; CHECK: {{^}}fcmp_olt_select_fptosi:			; CHECK: {{^}}fcmp_olt_select_fptosi:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,			; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_olt_select_fptosi(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_olt_select_fptosi(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp olt float %in, 5.0			%0 = fcmp olt float %in, 5.0
	%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00			%1 = select i1 %0, float 1.000000e+00, float 0.000000e+00
	%2 = fsub float -0.000000e+00, %1			%2 = fneg float %1
	%3 = fptosi float %2 to i32			%3 = fptosi float %2 to i32
	store i32 %3, i32 addrspace(1)* %out			store i32 %3, i32 addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK: {{^}}fcmp_olt_select_i32:			; CHECK: {{^}}fcmp_olt_select_i32:
	; CHECK: LSHR			; CHECK: LSHR
	; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,			; CHECK-NEXT: SETGT_DX10 * {{\** *}}T{{[0-9]+\.[XYZW]}}, literal.y, KC0[2].Z,
	; CHECK-NEXT: 1084227584(5.000000e+00)			; CHECK-NEXT: 1084227584(5.000000e+00)
	define amdgpu_kernel void @fcmp_olt_select_i32(i32 addrspace(1)* %out, float %in) {			define amdgpu_kernel void @fcmp_olt_select_i32(i32 addrspace(1)* %out, float %in) {
	entry:			entry:
	%0 = fcmp olt float %in, 5.0			%0 = fcmp olt float %in, 5.0
	%1 = select i1 %0, i32 -1, i32 0			%1 = select i1 %0, i32 -1, i32 0
	store i32 %1, i32 addrspace(1)* %out			store i32 %1, i32 addrspace(1)* %out
	ret void			ret void
	}			}

llvm/test/CodeGen/X86/fp-denormals.ll

This file was added.

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
				; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s

				;
				; FSUB(+-0.0, X) -> FNEG(X)
				;

				define float @fsub_fneg_default(float %a) #0 {
				; CHECK-LABEL: fsub_fneg_default:
				; CHECK: # %bb.0:
				; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; CHECK-NEXT: subss %xmm0, %xmm1
				; CHECK-NEXT: movaps %xmm1, %xmm0
				; CHECK-NEXT: retq
				%1 = fsub float -0.0, %a
				ret float %1
				}

				define float @fsub_fneg_ieee(float %a) #1 {
				; CHECK-LABEL: fsub_fneg_ieee:
				; CHECK: # %bb.0:
				; CHECK-NEXT: xorps {{.*}}(%rip), %xmm0
				; CHECK-NEXT: retq
				%1 = fsub float -0.0, %a
				ret float %1
				}

				define float @fsub_fneg_preserve_sign(float %a) #2 {
				; CHECK-LABEL: fsub_fneg_preserve_sign:
				; CHECK: # %bb.0:
				; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; CHECK-NEXT: subss %xmm0, %xmm1
				; CHECK-NEXT: movaps %xmm1, %xmm0
				; CHECK-NEXT: retq
				%1 = fsub float -0.0, %a
				ret float %1
				}

				define float @fsub_fneg_positive_zero(float %a) #3 {
				; CHECK-LABEL: fsub_fneg_positive_zero:
				; CHECK: # %bb.0:
				; CHECK-NEXT: movss {{.*#+}} xmm1 = mem[0],zero,zero,zero
				; CHECK-NEXT: subss %xmm0, %xmm1
				; CHECK-NEXT: movaps %xmm1, %xmm0
				; CHECK-NEXT: retq
				%1 = fsub float -0.0, %a
				ret float %1
				}

				attributes #0 = { "denormal-fp-math"="invalid" }
				attributes #1 = { "denormal-fp-math"="ieee" }
				attributes #2 = { "denormal-fp-math"="preserve-sign" }
				attributes #3 = { "denormal-fp-math"="positive-zero" }

This is an archive of the discontinued LLVM Phabricator instance.

[WIP][FPEnv] Don't transform FSUB(-0.0,X)->FNEG(X) when flushing denormalsAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 254198

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.h

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

llvm/test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll

llvm/test/CodeGen/AMDGPU/fcanonicalize.ll

llvm/test/CodeGen/AMDGPU/fdiv32-to-rcp-folding.ll

llvm/test/CodeGen/AMDGPU/fmuladd.f16.ll

llvm/test/CodeGen/AMDGPU/fmuladd.f32.ll

llvm/test/CodeGen/AMDGPU/fneg-combines.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.fmed3.ll

llvm/test/CodeGen/AMDGPU/selectcc-opt.ll

llvm/test/CodeGen/AMDGPU/set-dx10.ll

llvm/test/CodeGen/X86/fp-denormals.ll

[WIP][FPEnv] Don't transform FSUB(-0.0,X)->FNEG(X) when flushing denormals
AbandonedPublic