This is an archive of the discontinued LLVM Phabricator instance.

AMDGPU: Fix non-flushing, pre-gfx9 implementation of fcanonicalize
ClosedPublic

Authored by arsenm on Apr 23 2020, 10:54 AM.

Download Raw Diff

Details

Reviewers

Summary

This fixes conformance failures when the library implementation of
fmin/fmax were accidentally not inlined, forcing the assumption of no
flushing on targets where denormals are not enabled by default.

If f32 denormals were enabled pre-gfx9, we would still try to
implement this with v_max_f32. Pre-gfx9, these instructions ignored
the denormal mode and did not flush. Switch to the multiply form,
which should always work in this case.

Now this will always use max to implement canonicalize on
gfx9+. Pre-gfx9, it will depend on the denormal mode and only use max
if flushing isn't enabled. We probably should only use max for f64 though.

For f32/f16 it's a neutral choice (and worse in terms of code size in
1 case for f16), but possibly worse for the compiler since it does add
an extra register use operand. Leave this change for later.

Diff Detail

Event Timeline

arsenm created this revision.Apr 23 2020, 10:54 AM

Herald added subscribers: kerbowa, hiraditya, t-tye and 7 others. · View Herald TranscriptApr 23 2020, 10:54 AM

Just realized I broke this again

msearles added a subscriber: msearles.Apr 23 2020, 11:24 AM

Apply workaround which was the original goal

rampitec accepted this revision.Apr 23 2020, 12:00 PM

This revision is now accepted and ready to land.Apr 23 2020, 12:00 PM

89c8c80bd52a62bede621d075eeb16f03a058b0e

Revision Contents

Path

Size

llvm/

lib/

Target/

AMDGPU/

AMDGPU.td

3 lines

AMDGPUInstructions.td

3 lines

SIInstructions.td

90 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

inst-select-fcanonicalize.mir

50 lines

amdgcn-ieee.ll

30 lines

clamp.ll

13 lines

fcanonicalize-elimination.ll

49 lines

fcanonicalize.f16.ll

7 lines

fcanonicalize.ll

235 lines

fminnum.f64.ll

123 lines

Diff 259657

llvm/lib/Target/AMDGPU/AMDGPU.td

	Show First 20 Lines • Show All 1,057 Lines • ▼ Show 20 Lines

	def NotHasAddNoCarryInsts : Predicate<"!Subtarget->hasAddNoCarry()">;			def NotHasAddNoCarryInsts : Predicate<"!Subtarget->hasAddNoCarry()">;

	def Has16BitInsts : Predicate<"Subtarget->has16BitInsts()">,			def Has16BitInsts : Predicate<"Subtarget->has16BitInsts()">,
	AssemblerPredicate<(all_of Feature16BitInsts)>;			AssemblerPredicate<(all_of Feature16BitInsts)>;
	def HasVOP3PInsts : Predicate<"Subtarget->hasVOP3PInsts()">,			def HasVOP3PInsts : Predicate<"Subtarget->hasVOP3PInsts()">,
	AssemblerPredicate<(all_of FeatureVOP3P)>;			AssemblerPredicate<(all_of FeatureVOP3P)>;

				def HasMinMaxDenormModes : Predicate<"Subtarget->supportsMinMaxDenormModes()">;
				def NotHasMinMaxDenormModes : Predicate<"!Subtarget->supportsMinMaxDenormModes()">;

	def HasSDWA : Predicate<"Subtarget->hasSDWA()">,			def HasSDWA : Predicate<"Subtarget->hasSDWA()">,
	AssemblerPredicate<(all_of FeatureSDWA, FeatureVolcanicIslands)>;			AssemblerPredicate<(all_of FeatureSDWA, FeatureVolcanicIslands)>;

	def HasSDWA9 :			def HasSDWA9 :
	Predicate<"Subtarget->hasSDWA()">,			Predicate<"Subtarget->hasSDWA()">,
	AssemblerPredicate<(all_of FeatureGCN3Encoding, FeatureGFX9Insts,FeatureSDWA)>;			AssemblerPredicate<(all_of FeatureGCN3Encoding, FeatureGFX9Insts,FeatureSDWA)>;

	def HasSDWA10 :			def HasSDWA10 :
	▲ Show 20 Lines • Show All 92 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/AMDGPUInstructions.td

Show First 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	: Instruction {
let mayLoad = 0;		let mayLoad = 0;
let mayStore = 0;		let mayStore = 0;
let hasSideEffects = 0;		let hasSideEffects = 0;
let isCodeGenOnly = 1;		let isCodeGenOnly = 1;
}		}

def TruePredicate : Predicate<"">;		def TruePredicate : Predicate<"">;

		// FIXME: Tablegen should specially supports this
		def FalsePredicate : Predicate<"false">;

// Add a predicate to the list if does not already exist to deduplicate it.		// Add a predicate to the list if does not already exist to deduplicate it.
class PredConcat<list<Predicate> lst, Predicate pred> {		class PredConcat<list<Predicate> lst, Predicate pred> {
list<Predicate> ret =		list<Predicate> ret =
!foldl([pred], lst, acc, cur,		!foldl([pred], lst, acc, cur,
!listconcat(acc, !if(!eq(!cast<string>(cur),!cast<string>(pred)),		!listconcat(acc, !if(!eq(!cast<string>(cur),!cast<string>(pred)),
[], [cur])));		[], [cur])));
}		}

▲ Show 20 Lines • Show All 727 Lines • Show Last 20 Lines

llvm/lib/Target/AMDGPU/SIInstructions.td

	Show First 20 Lines • Show All 1,872 Lines • ▼ Show 20 Lines
	// Magic number: 1 \| (0 << 8) \| (3 << 16) \| (2 << 24)			// Magic number: 1 \| (0 << 8) \| (3 << 16) \| (2 << 24)
	def : GCNPat <			def : GCNPat <
	(v2i16 (bswap v2i16:$a)),			(v2i16 (bswap v2i16:$a)),
	(V_PERM_B32 (i32 0), VSrc_b32:$a, (S_MOV_B32 (i32 0x02030001)))			(V_PERM_B32 (i32 0), VSrc_b32:$a, (S_MOV_B32 (i32 0x02030001)))
	>;			>;

	}			}

	let OtherPredicates = [NoFP16Denormals] in {
				// Prefer selecting to max when legal, but using mul is always valid.
				let AddedComplexity = -5 in {
	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),			(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),
	(V_MUL_F16_e64 0, (i32 CONST.FP16_ONE), $src_mods, $src)			(V_MUL_F16_e64 0, (i32 CONST.FP16_ONE), $src_mods, $src)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f16 (fneg (VOP3Mods f16:$src, i32:$src_mods)))),			(fcanonicalize (f16 (fneg (VOP3Mods f16:$src, i32:$src_mods)))),
	(V_MUL_F16_e64 0, (i32 CONST.FP16_NEG_ONE), $src_mods, $src)			(V_MUL_F16_e64 0, (i32 CONST.FP16_NEG_ONE), $src_mods, $src)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(fcanonicalize (v2f16 (VOP3PMods v2f16:$src, i32:$src_mods))),			(fcanonicalize (v2f16 (VOP3PMods v2f16:$src, i32:$src_mods))),
	(V_PK_MUL_F16 0, (i32 CONST.FP16_ONE), $src_mods, $src, DSTCLAMP.NONE)			(V_PK_MUL_F16 0, (i32 CONST.FP16_ONE), $src_mods, $src, DSTCLAMP.NONE)
	>;			>;
	}

	let OtherPredicates = [FP16Denormals] in {
	def : GCNPat<
	(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),
	(V_MAX_F16_e64 $src_mods, $src, $src_mods, $src, 0, 0)
	>;

	let SubtargetPredicate = HasVOP3PInsts in {
	def : GCNPat<
	(fcanonicalize (v2f16 (VOP3PMods v2f16:$src, i32:$src_mods))),
	(V_PK_MAX_F16 $src_mods, $src, $src_mods, $src, DSTCLAMP.NONE)
	>;
	}
	}

	let OtherPredicates = [NoFP32Denormals] in {
	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),			(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),
	(V_MUL_F32_e64 0, (i32 CONST.FP32_ONE), $src_mods, $src)			(V_MUL_F32_e64 0, (i32 CONST.FP32_ONE), $src_mods, $src)
	>;			>;

	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f32 (fneg (VOP3Mods f32:$src, i32:$src_mods)))),			(fcanonicalize (f32 (fneg (VOP3Mods f32:$src, i32:$src_mods)))),
	(V_MUL_F32_e64 0, (i32 CONST.FP32_NEG_ONE), $src_mods, $src)			(V_MUL_F32_e64 0, (i32 CONST.FP32_NEG_ONE), $src_mods, $src)
	>;			>;
	}

	let OtherPredicates = [FP32Denormals] in {			// TODO: Handle fneg like other types.
	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),			(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),
	(V_MAX_F32_e64 $src_mods, $src, $src_mods, $src)			(V_MUL_F64 0, CONST.FP64_ONE, $src_mods, $src)
	>;			>;
				} // End AddedComplexity = -5

				multiclass SelectCanonicalizeAsMax<
				list<Predicate> f32_preds = [],
				list<Predicate> f64_preds = [],
				list<Predicate> f16_preds = []> {
				def : GCNPat<
				(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),
				(V_MAX_F32_e64 $src_mods, $src, $src_mods, $src)> {
				let OtherPredicates = f32_preds;
	}			}

	let OtherPredicates = [NoFP64Denormals] in {
	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),			(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),
	(V_MUL_F64 0, CONST.FP64_ONE, $src_mods, $src)			(V_MAX_F64 $src_mods, $src, $src_mods, $src)> {
	>;			let OtherPredicates = f64_preds;
	}			}

	let OtherPredicates = [FP64Denormals] in {
	def : GCNPat<			def : GCNPat<
	(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),			(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),
	(V_MAX_F64 $src_mods, $src, $src_mods, $src)			(V_MAX_F16_e64 $src_mods, $src, $src_mods, $src, 0, 0)> {
	>;			// FIXME: Should have 16-bit inst subtarget predicate
				let OtherPredicates = f16_preds;
	}			}

				def : GCNPat<
				(fcanonicalize (v2f16 (VOP3PMods v2f16:$src, i32:$src_mods))),
				(V_PK_MAX_F16 $src_mods, $src, $src_mods, $src, DSTCLAMP.NONE)> {
				// FIXME: Should have VOP3P subtarget predicate
				let OtherPredicates = f16_preds;
				}
				}

				// On pre-gfx9 targets, v_max_/v_min_ did not respect the denormal
				// mode, and would never flush. For f64, it's faster to do implement
				// this with a max. For f16/f32 it's a wash, but prefer max when
				// valid.
				//
				// FIXME: Lowering f32/f16 with max is worse since we can use a
				// smaller encoding if the input is fneg'd. It also adds an extra
				// register use.
				let SubtargetPredicate = HasMinMaxDenormModes in {
				defm : SelectCanonicalizeAsMax<[], [], []>;
				} // End SubtargetPredicate = HasMinMaxDenormModes

				let SubtargetPredicate = NotHasMinMaxDenormModes in {
				// Use the max lowering if we don't need to flush.

				// FIXME: We don't do use this for f32 as a workaround for the
				// library being compiled with the default ieee mode, but
				// potentially being called from flushing kernels. Really we should
				// not be mixing code expecting different default FP modes, but mul
				// works in any FP environment.
				defm : SelectCanonicalizeAsMax<[FalsePredicate], [FP64Denormals], [FP16Denormals]>;
				} // End SubtargetPredicate = NotHasMinMaxDenormModes


	let OtherPredicates = [HasDLInsts] in {			let OtherPredicates = [HasDLInsts] in {
	def : GCNPat <			def : GCNPat <
	(fma (f32 (VOP3Mods f32:$src0, i32:$src0_modifiers)),			(fma (f32 (VOP3Mods f32:$src0, i32:$src0_modifiers)),
	(f32 (VOP3Mods f32:$src1, i32:$src1_modifiers)),			(f32 (VOP3Mods f32:$src1, i32:$src1_modifiers)),
	(f32 (VOP3NoMods f32:$src2))),			(f32 (VOP3NoMods f32:$src2))),
	(V_FMAC_F32_e64 $src0_modifiers, $src0, $src1_modifiers, $src1,			(V_FMAC_F32_e64 $src0_modifiers, $src0, $src1_modifiers, $src1,
	SRCMODS.NONE, $src2)			SRCMODS.NONE, $src2)
	>;			>;
	▲ Show 20 Lines • Show All 446 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-fcanonicalize.mir

Show First 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0
; GFX8-LABEL: name: fcanonicalize_f16_flush		; GFX8-LABEL: name: fcanonicalize_f16_flush
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MUL_F16_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F16_e64 0, 15360, 0, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F16_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F16_e64 0, 15360, 0, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MUL_F16_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F16_e64_]]
; GFX9-LABEL: name: fcanonicalize_f16_flush		; GFX9-LABEL: name: fcanonicalize_f16_flush
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MUL_F16_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F16_e64 0, 15360, 0, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F16_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F16_e64 0, [[COPY]], 0, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MUL_F16_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F16_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s16) = G_TRUNC %0		%1:vgpr(s16) = G_TRUNC %0
%2:vgpr(s16) = G_FCANONICALIZE %1		%2:vgpr(s16) = G_FCANONICALIZE %1
S_ENDPGM 0, implicit %2		S_ENDPGM 0, implicit %2
...		...

---		---

name: fcanonicalize_f32_denorm		name: fcanonicalize_f32_denorm
legalized: true		legalized: true
regBankSelected: true		regBankSelected: true
machineFunctionInfo:		machineFunctionInfo:
mode:		mode:
fp32-input-denormals: true		fp32-input-denormals: true
fp32-output-denormals: true		fp32-output-denormals: true

body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0

; GFX8-LABEL: name: fcanonicalize_f32_denorm		; GFX8-LABEL: name: fcanonicalize_f32_denorm
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 0, [[COPY]], 0, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 0, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_f32_denorm		; GFX9-LABEL: name: fcanonicalize_f32_denorm
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 0, [[COPY]], 0, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 0, [[COPY]], 0, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FCANONICALIZE %0		%1:vgpr(s32) = G_FCANONICALIZE %0
S_ENDPGM 0, implicit %1		S_ENDPGM 0, implicit %1
...		...
Show All 13 Lines	bb.0:
liveins: $vgpr0		liveins: $vgpr0

; GFX8-LABEL: name: fcanonicalize_f32_flush		; GFX8-LABEL: name: fcanonicalize_f32_flush
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 0, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 0, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_f32_flush		; GFX9-LABEL: name: fcanonicalize_f32_flush
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 0, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 0, [[COPY]], 0, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FCANONICALIZE %0		%1:vgpr(s32) = G_FCANONICALIZE %0
S_ENDPGM 0, implicit %1		S_ENDPGM 0, implicit %1
...		...

---		---

name: fcanonicalize_v2f16_denorm		name: fcanonicalize_v2f16_denorm
legalized: true		legalized: true
regBankSelected: true		regBankSelected: true
machineFunctionInfo:		machineFunctionInfo:
mode:		mode:
fp64-fp16-input-denormals: true		fp64-fp16-input-denormals: true
fp64-fp16-output-denormals: true		fp64-fp16-output-denormals: true

body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0

; GFX8-LABEL: name: fcanonicalize_v2f16_denorm		; GFX8-LABEL: name: fcanonicalize_v2f16_denorm
; GFX8: [[COPY:%[0-9]+]]:vgpr(<2 x s16>) = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[FCANONICALIZE:%[0-9]+]]:vgpr(<2 x s16>) = G_FCANONICALIZE [[COPY]]		; GFX8: [[V_PK_MAX_F16_:%[0-9]+]]:vgpr_32 = V_PK_MAX_F16 8, [[COPY]], 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[FCANONICALIZE]](<2 x s16>)		; GFX8: S_ENDPGM 0, implicit [[V_PK_MAX_F16_]]
; GFX9-LABEL: name: fcanonicalize_v2f16_denorm		; GFX9-LABEL: name: fcanonicalize_v2f16_denorm
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_PK_MAX_F16_:%[0-9]+]]:vgpr_32 = V_PK_MAX_F16 8, [[COPY]], 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec		; GFX9: [[V_PK_MAX_F16_:%[0-9]+]]:vgpr_32 = V_PK_MAX_F16 8, [[COPY]], 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_PK_MAX_F16_]]		; GFX9: S_ENDPGM 0, implicit [[V_PK_MAX_F16_]]
%0:vgpr(<2 x s16>) = COPY $vgpr0		%0:vgpr(<2 x s16>) = COPY $vgpr0
%1:vgpr(<2 x s16>) = G_FCANONICALIZE %0		%1:vgpr(<2 x s16>) = G_FCANONICALIZE %0
S_ENDPGM 0, implicit %1		S_ENDPGM 0, implicit %1
...		...
Show All 13 Lines	bb.0:
liveins: $vgpr0		liveins: $vgpr0

; GFX8-LABEL: name: fcanonicalize_v2f16_flush		; GFX8-LABEL: name: fcanonicalize_v2f16_flush
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_PK_MUL_F16_:%[0-9]+]]:vgpr_32 = V_PK_MUL_F16 0, 15360, 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec		; GFX8: [[V_PK_MUL_F16_:%[0-9]+]]:vgpr_32 = V_PK_MUL_F16 0, 15360, 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_PK_MUL_F16_]]		; GFX8: S_ENDPGM 0, implicit [[V_PK_MUL_F16_]]
; GFX9-LABEL: name: fcanonicalize_v2f16_flush		; GFX9-LABEL: name: fcanonicalize_v2f16_flush
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_PK_MUL_F16_:%[0-9]+]]:vgpr_32 = V_PK_MUL_F16 0, 15360, 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec		; GFX9: [[V_PK_MAX_F16_:%[0-9]+]]:vgpr_32 = V_PK_MAX_F16 8, [[COPY]], 8, [[COPY]], 0, 0, 0, 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_PK_MUL_F16_]]		; GFX9: S_ENDPGM 0, implicit [[V_PK_MAX_F16_]]
%0:vgpr(<2 x s16>) = COPY $vgpr0		%0:vgpr(<2 x s16>) = COPY $vgpr0
%1:vgpr(<2 x s16>) = G_FCANONICALIZE %0		%1:vgpr(<2 x s16>) = G_FCANONICALIZE %0
S_ENDPGM 0, implicit %1		S_ENDPGM 0, implicit %1
...		...

---		---

name: fcanonicalize_f64_denorm		name: fcanonicalize_f64_denorm
Show All 36 Lines	bb.0:
liveins: $vgpr0_vgpr1		liveins: $vgpr0_vgpr1

; GFX8-LABEL: name: fcanonicalize_f64_flush		; GFX8-LABEL: name: fcanonicalize_f64_flush
; GFX8: [[COPY:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1		; GFX8: [[COPY:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
; GFX8: [[V_MUL_F64_:%[0-9]+]]:vreg_64 = V_MUL_F64 0, 4607182418800017408, 0, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F64_:%[0-9]+]]:vreg_64 = V_MUL_F64 0, 4607182418800017408, 0, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MUL_F64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F64_]]
; GFX9-LABEL: name: fcanonicalize_f64_flush		; GFX9-LABEL: name: fcanonicalize_f64_flush
; GFX9: [[COPY:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1		; GFX9: [[COPY:%[0-9]+]]:vreg_64 = COPY $vgpr0_vgpr1
; GFX9: [[V_MUL_F64_:%[0-9]+]]:vreg_64 = V_MUL_F64 0, 4607182418800017408, 0, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F64_:%[0-9]+]]:vreg_64 = V_MAX_F64 0, [[COPY]], 0, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MUL_F64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F64_]]
%0:vgpr(s64) = COPY $vgpr0_vgpr1		%0:vgpr(s64) = COPY $vgpr0_vgpr1
%1:vgpr(s64) = G_FCANONICALIZE %0		%1:vgpr(s64) = G_FCANONICALIZE %0
S_ENDPGM 0, implicit %1		S_ENDPGM 0, implicit %1
...		...

---		---

name: fcanonicalize_fabs_f32_denorm		name: fcanonicalize_fabs_f32_denorm
legalized: true		legalized: true
regBankSelected: true		regBankSelected: true
machineFunctionInfo:		machineFunctionInfo:
mode:		mode:
fp32-input-denormals: true		fp32-input-denormals: true
fp32-output-denormals: true		fp32-output-denormals: true

body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0
; GFX8-LABEL: name: fcanonicalize_fabs_f32_denorm		; GFX8-LABEL: name: fcanonicalize_fabs_f32_denorm
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[COPY]], 2, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_fabs_f32_denorm		; GFX9-LABEL: name: fcanonicalize_fabs_f32_denorm
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[COPY]], 2, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[COPY]], 2, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FABS %0		%1:vgpr(s32) = G_FABS %0
%2:vgpr(s32) = G_FCANONICALIZE %1		%2:vgpr(s32) = G_FCANONICALIZE %1
S_ENDPGM 0, implicit %2		S_ENDPGM 0, implicit %2
Show All 14 Lines	body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0
; GFX8-LABEL: name: fcanonicalize_fabs_f32_flush		; GFX8-LABEL: name: fcanonicalize_fabs_f32_flush
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_fabs_f32_flush		; GFX9-LABEL: name: fcanonicalize_fabs_f32_flush
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[COPY]], 2, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FABS %0		%1:vgpr(s32) = G_FABS %0
%2:vgpr(s32) = G_FCANONICALIZE %1		%2:vgpr(s32) = G_FCANONICALIZE %1
S_ENDPGM 0, implicit %2		S_ENDPGM 0, implicit %2
...		...

---		---

name: fcanonicalize_fneg_f32_denorm		name: fcanonicalize_fneg_f32_denorm
legalized: true		legalized: true
regBankSelected: true		regBankSelected: true
machineFunctionInfo:		machineFunctionInfo:
mode:		mode:
fp32-input-denormals: true		fp32-input-denormals: true
fp32-output-denormals: true		fp32-output-denormals: true

body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0
; GFX8-LABEL: name: fcanonicalize_fneg_f32_denorm		; GFX8-LABEL: name: fcanonicalize_fneg_f32_denorm
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 1, [[COPY]], 1, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 3212836864, 0, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_fneg_f32_denorm		; GFX9-LABEL: name: fcanonicalize_fneg_f32_denorm
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 1, [[COPY]], 1, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 1, [[COPY]], 1, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FNEG %0		%1:vgpr(s32) = G_FNEG %0
%2:vgpr(s32) = G_FCANONICALIZE %1		%2:vgpr(s32) = G_FCANONICALIZE %1
S_ENDPGM 0, implicit %2		S_ENDPGM 0, implicit %2
Show All 13 Lines	body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0
; GFX8-LABEL: name: fcanonicalize_fneg_f32_flush		; GFX8-LABEL: name: fcanonicalize_fneg_f32_flush
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 3212836864, 0, [[COPY]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 3212836864, 0, [[COPY]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_fneg_f32_flush		; GFX9-LABEL: name: fcanonicalize_fneg_f32_flush
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 3212836864, 0, [[COPY]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 1, [[COPY]], 1, [[COPY]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FNEG %0		%1:vgpr(s32) = G_FNEG %0
%2:vgpr(s32) = G_FCANONICALIZE %1		%2:vgpr(s32) = G_FCANONICALIZE %1
S_ENDPGM 0, implicit %2		S_ENDPGM 0, implicit %2
...		...

---		---

name: fcanonicalize_fneg_fabs_f32_denorm		name: fcanonicalize_fneg_fabs_f32_denorm
legalized: true		legalized: true
regBankSelected: true		regBankSelected: true
machineFunctionInfo:		machineFunctionInfo:
mode:		mode:
fp32-input-denormals: true		fp32-input-denormals: true
fp32-output-denormals: true		fp32-output-denormals: true

body: \|		body: \|
bb.0:		bb.0:
liveins: $vgpr0		liveins: $vgpr0
; GFX8-LABEL: name: fcanonicalize_fneg_fabs_f32_denorm		; GFX8-LABEL: name: fcanonicalize_fneg_fabs_f32_denorm
; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX8: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX8: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648		; GFX8: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648
; GFX8: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec		; GFX8: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec
; GFX8: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[V_XOR_B32_e32_]], 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_fneg_fabs_f32_denorm		; GFX9-LABEL: name: fcanonicalize_fneg_fabs_f32_denorm
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648		; GFX9: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648
; GFX9: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec		; GFX9: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec
; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[V_XOR_B32_e32_]], 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[V_XOR_B32_e32_]], 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FNEG %0		%1:vgpr(s32) = G_FNEG %0
Show All 20 Lines	bb.0:
; GFX8: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648		; GFX8: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648
; GFX8: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec		; GFX8: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec
; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec		; GFX8: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec
; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX8: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]
; GFX9-LABEL: name: fcanonicalize_fneg_fabs_f32_flush		; GFX9-LABEL: name: fcanonicalize_fneg_fabs_f32_flush
; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0		; GFX9: [[COPY:%[0-9]+]]:vgpr_32 = COPY $vgpr0
; GFX9: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648		; GFX9: [[S_MOV_B32_:%[0-9]+]]:sreg_32 = S_MOV_B32 2147483648
; GFX9: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec		; GFX9: [[V_XOR_B32_e32_:%[0-9]+]]:vgpr_32 = V_XOR_B32_e32 [[S_MOV_B32_]], [[COPY]], implicit $exec
; GFX9: [[V_MUL_F32_e64_:%[0-9]+]]:vgpr_32 = V_MUL_F32_e64 0, 1065353216, 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec		; GFX9: [[V_MAX_F32_e64_:%[0-9]+]]:vgpr_32 = V_MAX_F32_e64 2, [[V_XOR_B32_e32_]], 2, [[V_XOR_B32_e32_]], 0, 0, implicit $exec
; GFX9: S_ENDPGM 0, implicit [[V_MUL_F32_e64_]]		; GFX9: S_ENDPGM 0, implicit [[V_MAX_F32_e64_]]
%0:vgpr(s32) = COPY $vgpr0		%0:vgpr(s32) = COPY $vgpr0
%1:vgpr(s32) = G_FNEG %0		%1:vgpr(s32) = G_FNEG %0
%2:vgpr(s32) = G_FABS %1		%2:vgpr(s32) = G_FABS %1
%3:vgpr(s32) = G_FCANONICALIZE %2		%3:vgpr(s32) = G_FCANONICALIZE %2
S_ENDPGM 0, implicit %3		S_ENDPGM 0, implicit %3
...		...

llvm/test/CodeGen/AMDGPU/amdgcn-ieee.ll

; RUN: llc -mtriple=amdgcn-mesa-mesa3d -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -mtriple=amdgcn-mesa-mesa3d -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

; GCN-LABEL: {{^}}kernel_ieee_mode_default:		; GCN-LABEL: {{^}}kernel_ieee_mode_default:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define amdgpu_kernel void @kernel_ieee_mode_default() #0 {		define amdgpu_kernel void @kernel_ieee_mode_default() #0 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}kernel_ieee_mode_on:		; GCN-LABEL: {{^}}kernel_ieee_mode_on:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define amdgpu_kernel void @kernel_ieee_mode_on() #1 {		define amdgpu_kernel void @kernel_ieee_mode_on() #1 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
Show All 12 Lines	define amdgpu_kernel void @kernel_ieee_mode_off() #2 {
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}func_ieee_mode_default:		; GCN-LABEL: {{^}}func_ieee_mode_default:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define void @func_ieee_mode_default() #0 {		define void @func_ieee_mode_default() #0 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}func_ieee_mode_on:		; GCN-LABEL: {{^}}func_ieee_mode_on:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define void @func_ieee_mode_on() #1 {		define void @func_ieee_mode_on() #1 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
Show All 12 Lines	define void @func_ieee_mode_off() #2 {
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}cs_ieee_mode_default:		; GCN-LABEL: {{^}}cs_ieee_mode_default:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define amdgpu_cs void @cs_ieee_mode_default() #0 {		define amdgpu_cs void @cs_ieee_mode_default() #0 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}cs_ieee_mode_on:		; GCN-LABEL: {{^}}cs_ieee_mode_on:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define amdgpu_cs void @cs_ieee_mode_on() #1 {		define amdgpu_cs void @cs_ieee_mode_on() #1 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
Show All 27 Lines	define amdgpu_ps void @ps_ieee_mode_default() #0 {
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}ps_ieee_mode_on:		; GCN-LABEL: {{^}}ps_ieee_mode_on:
; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]		; GCN: {{buffer\|global\|flat}}_load_dword [[VAL0:v[0-9]+]]
; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]		; GCN-NEXT: {{buffer\|global\|flat}}_load_dword [[VAL1:v[0-9]+]]
; GCN-DAG: v_max_f32_e32 [[QUIET0:v[0-9]+]], [[VAL0]], [[VAL0]]		; GCN-DAG: v_mul_f32_e32 [[QUIET0:v[0-9]+]], 1.0, [[VAL0]]
; GCN-DAG: v_max_f32_e32 [[QUIET1:v[0-9]+]], [[VAL1]], [[VAL1]]		; GCN-DAG: v_mul_f32_e32 [[QUIET1:v[0-9]+]], 1.0, [[VAL1]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], [[QUIET0]], [[QUIET1]]
; GCN-NOT: v_mul_f32		; GCN-NOT: v_mul_f32
define amdgpu_ps void @ps_ieee_mode_on() #1 {		define amdgpu_ps void @ps_ieee_mode_on() #1 {
%val0 = load volatile float, float addrspace(1)* undef		%val0 = load volatile float, float addrspace(1)* undef
%val1 = load volatile float, float addrspace(1)* undef		%val1 = load volatile float, float addrspace(1)* undef
%min = call float @llvm.minnum.f32(float %val0, float %val1)		%min = call float @llvm.minnum.f32(float %val0, float %val1)
store volatile float %min, float addrspace(1)* undef		store volatile float %min, float addrspace(1)* undef
ret void		ret void
Show All 23 Lines

llvm/test/CodeGen/AMDGPU/clamp.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI %s		; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,SI,GFX678 %s
; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX89,VI %s		; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX89,VI,GFX678 %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX89,GFX9 %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX89,GFX9 %s

; GCN-LABEL: {{^}}v_clamp_f32:		; GCN-LABEL: {{^}}v_clamp_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]
; GCN: v_max_f32_e64 v{{[0-9]+}}, [[A]], [[A]] clamp{{$}}		; GCN: v_max_f32_e64 v{{[0-9]+}}, [[A]], [[A]] clamp{{$}}
define amdgpu_kernel void @v_clamp_f32(float addrspace(1)* %out, float addrspace(1)* %aptr) #0 {		define amdgpu_kernel void @v_clamp_f32(float addrspace(1)* %out, float addrspace(1)* %aptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid		%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_clamp_negzero_f32(float addrspace(1)* %out, float addrspace(1)* %aptr) #0 {
ret void		ret void
}		}

; FIXME: Weird inconsistency in how -0.0 is treated. Accepted if clamp		; FIXME: Weird inconsistency in how -0.0 is treated. Accepted if clamp
; matched through med3, not if directly. Is this correct?		; matched through med3, not if directly. Is this correct?

; GCN-LABEL: {{^}}v_clamp_negzero_maybe_snan_f32:		; GCN-LABEL: {{^}}v_clamp_negzero_maybe_snan_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[A]]		; GFX678: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[A]]
		; GFX9: v_max_f32_e32 [[QUIET:v[0-9]+]], [[A]], [[A]]
; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0x80000000, [[QUIET]]		; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0x80000000, [[QUIET]]
; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], 1.0, [[MAX]]		; GCN: v_min_f32_e32 [[MIN:v[0-9]+]], 1.0, [[MAX]]
define amdgpu_kernel void @v_clamp_negzero_maybe_snan_f32(float addrspace(1)* %out, float addrspace(1)* %aptr) #0 {		define amdgpu_kernel void @v_clamp_negzero_maybe_snan_f32(float addrspace(1)* %out, float addrspace(1)* %aptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid		%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid
%a = load float, float addrspace(1)* %gep0		%a = load float, float addrspace(1)* %gep0
%max = call float @llvm.maxnum.f32(float %a, float -0.0)		%max = call float @llvm.maxnum.f32(float %a, float -0.0)
%med = call float @llvm.minnum.f32(float %max, float 1.0)		%med = call float @llvm.minnum.f32(float %max, float 1.0)

store float %med, float addrspace(1)* %out.gep		store float %med, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_clamp_multi_use_max_f32:		; GCN-LABEL: {{^}}v_clamp_multi_use_max_f32:
; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]		; GFX678: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]
		; GFX9: v_max_f32_e32 [[QUIET_A:v[0-9]+]], [[A]], [[A]]
; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0, [[QUIET_A]]		; GCN: v_max_f32_e32 [[MAX:v[0-9]+]], 0, [[QUIET_A]]
; GCN: v_min_f32_e32 [[MED:v[0-9]+]], 1.0, [[QUIET_A]]		; GCN: v_min_f32_e32 [[MED:v[0-9]+]], 1.0, [[QUIET_A]]
; GCN-NOT: [[MAX]]		; GCN-NOT: [[MAX]]
; GCN-NOT: [[MED]]		; GCN-NOT: [[MED]]

; SI: buffer_store_dword [[MED]]		; SI: buffer_store_dword [[MED]]
; SI: buffer_store_dword [[MAX]]		; SI: buffer_store_dword [[MAX]]

▲ Show 20 Lines • Show All 308 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_clamp_f32_snan_dx10clamp(float addrspace(1)* %out, float addrspace(1)* %aptr) #3 {
%med = call float @llvm.minnum.f32(float %max, float 1.0)		%med = call float @llvm.minnum.f32(float %max, float 1.0)

store float %med, float addrspace(1)* %out.gep		store float %med, float addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_clamp_f32_snan_no_dx10clamp:		; GCN-LABEL: {{^}}v_clamp_f32_snan_no_dx10clamp:
; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]		; GCN: {{buffer\|flat\|global}}_load_dword [[A:v[0-9]+]]
; GCN: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]		; GFX678: v_mul_f32_e32 [[QUIET_A:v[0-9]+]], 1.0, [[A]]
		; GFX9: v_max_f32_e32 [[QUIET_A:v[0-9]+]], [[A]], [[A]]
; GCN: v_med3_f32 {{v[0-9]+}}, [[QUIET_A]], 0, 1.0		; GCN: v_med3_f32 {{v[0-9]+}}, [[QUIET_A]], 0, 1.0
define amdgpu_kernel void @v_clamp_f32_snan_no_dx10clamp(float addrspace(1)* %out, float addrspace(1)* %aptr) #4 {		define amdgpu_kernel void @v_clamp_f32_snan_no_dx10clamp(float addrspace(1)* %out, float addrspace(1)* %aptr) #4 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid		%gep0 = getelementptr float, float addrspace(1)* %aptr, i32 %tid
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid
%a = load float, float addrspace(1)* %gep0		%a = load float, float addrspace(1)* %gep0
%max = call float @llvm.maxnum.f32(float %a, float 0.0)		%max = call float @llvm.maxnum.f32(float %a, float 0.0)
%med = call float @llvm.minnum.f32(float %max, float 1.0)		%med = call float @llvm.minnum.f32(float %max, float 1.0)
▲ Show 20 Lines • Show All 347 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

; RUN: llc -march=amdgcn -mcpu=gfx801 -verify-machineinstrs -denormal-fp-math-f32=preserve-sign < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,VI-FLUSH,GCN-FLUSH,GCN-NOEXCEPT %s		; RUN: llc -march=amdgcn -mcpu=gfx801 -verify-machineinstrs -denormal-fp-math-f32=preserve-sign < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,VI-FLUSH,GCN-FLUSH,GCN-NOEXCEPT %s
; RUN: llc -march=amdgcn -mcpu=gfx801 -verify-machineinstrs -mattr=+fp-exceptions -denormal-fp-math-f32=preserve-sign < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GCN-EXCEPT,VI,VI-FLUSH,GCN-FLUSH %s		; RUN: llc -march=amdgcn -mcpu=gfx801 -verify-machineinstrs -mattr=+fp-exceptions -denormal-fp-math-f32=preserve-sign < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GCN-EXCEPT,VI,VI-FLUSH,GCN-FLUSH %s
; RUN: llc -march=amdgcn -mcpu=gfx801 -verify-machineinstrs -denormal-fp-math-f32=ieee < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,VI-DENORM,GCN-DENORM,GCN-NOEXCEPT %s		; RUN: llc -march=amdgcn -mcpu=gfx801 -verify-machineinstrs -denormal-fp-math-f32=ieee < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,VI,VI-DENORM,GCN-DENORM,GCN-NOEXCEPT %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -denormal-fp-math-f32=ieee < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX9-DENORM,GCN-DENORM,GCN-NOEXCEPT %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -denormal-fp-math-f32=ieee < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX9-DENORM,GCN-DENORM,GCN-NOEXCEPT %s
; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -denormal-fp-math-f32=preserve-sign < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX9-FLUSH,GCN-FLUSH,GCN-NOEXCEPT %s		; RUN: llc -march=amdgcn -mcpu=gfx900 -verify-machineinstrs -denormal-fp-math-f32=preserve-sign < %s \| FileCheck -enable-var-scope -check-prefixes=GCN,GFX9,GFX9-FLUSH,GCN-FLUSH,GCN-NOEXCEPT %s

; GCN-LABEL: {{^}}test_no_fold_canonicalize_loaded_value_f32:		; GCN-LABEL: {{^}}test_no_fold_canonicalize_loaded_value_f32:
; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}		; VI: v_mul_f32_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}
; GFX9-DENORM: v_max_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GFX9: v_max_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @test_no_fold_canonicalize_loaded_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_no_fold_canonicalize_loaded_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%v = load float, float addrspace(1)* %gep, align 4		%v = load float, float addrspace(1)* %gep, align 4
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}
▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_fmuladd_value_f32(float addrspace(1)* %arg) {
%v = call float @llvm.fmuladd.f32(float %load, float 15.0, float 15.0)		%v = call float @llvm.fmuladd.f32(float %load, float 15.0, float 15.0)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_canonicalize_value_f32:		; GCN-LABEL: test_fold_canonicalize_canonicalize_value_f32:
; GCN: {{flat\|global}}_load_dword [[LOAD:v[0-9]+]],		; GCN: {{flat\|global}}_load_dword [[LOAD:v[0-9]+]],
; GCN-FLUSH: v_mul_f32_e32 [[V:v[0-9]+]], 1.0, [[LOAD]]		; VI: v_mul_f32_e32 [[V:v[0-9]+]], 1.0, [[LOAD]]
; GCN-DENORM: v_max_f32_e32 [[V:v[0-9]+]], [[LOAD]], [[LOAD]]		; GFX9: v_max_f32_e32 [[V:v[0-9]+]], [[LOAD]], [[LOAD]]

; GCN-NOT: v_mul		; GCN-NOT: v_mul
; GCN-NOT: v_max		; GCN-NOT: v_max
; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]		; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]
define amdgpu_kernel void @test_fold_canonicalize_canonicalize_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_canonicalize_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = call float @llvm.canonicalize.f32(float %load)		%v = call float @llvm.canonicalize.f32(float %load)
▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_fpround_value_v2f16_v2f32(<2 x float> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) {
%v = fptrunc <2 x float> %load to <2 x half>		%v = fptrunc <2 x float> %load to <2 x half>
%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)		%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)
%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 4		store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 4
ret void		ret void
}		}

; GCN-LABEL: test_no_fold_canonicalize_fneg_value_f32:		; GCN-LABEL: test_no_fold_canonicalize_fneg_value_f32:
; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, -1.0, v{{[0-9]+}}		; VI: v_mul_f32_e32 v{{[0-9]+}}, -1.0, v{{[0-9]+}}
; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}		; GFX9: v_max_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
define amdgpu_kernel void @test_no_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_no_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = fsub float -0.0, %load		%v = fsub float -0.0, %load
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
Show All 11 Lines	define amdgpu_kernel void @test_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {
%v0 = fadd float %load, 0.0		%v0 = fadd float %load, 0.0
%v = fsub float -0.0, %v0		%v = fsub float -0.0, %v0
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_no_fold_canonicalize_fabs_value_f32:		; GCN-LABEL: test_no_fold_canonicalize_fabs_value_f32:
; GCN-FLUSH: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|		; VI: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|
; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|		; GFX9: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|
define amdgpu_kernel void @test_no_fold_canonicalize_fabs_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_no_fold_canonicalize_fabs_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = tail call float @llvm.fabs.f32(float %load)		%v = tail call float @llvm.fabs.f32(float %load)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_no_fold_canonicalize_fcopysign_value_f32:		; GCN-LABEL: test_no_fold_canonicalize_fcopysign_value_f32:
; GCN-FLUSH: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|		; VI: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|
; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|		; GFX9: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|

; GCN-NOT: v_mul_		; GCN-NOT: v_mul_
; GCN-NOT: v_max_		; GCN-NOT: v_max_
define amdgpu_kernel void @test_no_fold_canonicalize_fcopysign_value_f32(float addrspace(1)* %arg, float %sign) {		define amdgpu_kernel void @test_no_fold_canonicalize_fcopysign_value_f32(float addrspace(1)* %arg, float %sign) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%canon.load = tail call float @llvm.canonicalize.f32(float %load)		%canon.load = tail call float @llvm.canonicalize.f32(float %load)
%copysign = call float @llvm.copysign.f32(float %canon.load, float %sign)		%copysign = call float @llvm.copysign.f32(float %canon.load, float %sign)
▲ Show 20 Lines • Show All 89 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_qNaN_value_f32(float addrspace(1)* %arg) {
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%canonicalized = tail call float @llvm.canonicalize.f32(float 0x7FF8000000000000)		%canonicalized = tail call float @llvm.canonicalize.f32(float 0x7FF8000000000000)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_minnum_value_from_load_f32_ieee_mode:		; GCN-LABEL: test_fold_canonicalize_minnum_value_from_load_f32_ieee_mode:
; GCN: {{flat\|global}}_load_dword [[VAL:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[VAL:v[0-9]+]]
; GCN-FLUSH: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[VAL]]		; VI: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[VAL]]
; GCN-DENORM: v_max_f32_e32 [[QUIET:v[0-9]+]], [[VAL]], [[VAL]]		; GFX9: v_max_f32_e32 [[QUIET:v[0-9]+]], [[VAL]], [[VAL]]
; GCN: v_min_f32_e32 [[V:v[0-9]+]], 0, [[QUIET]]

		; GCN: v_min_f32_e32 [[V:v[0-9]+]], 0, [[QUIET]]
; GCN-NOT: v_max		; GCN-NOT: v_max
; GCN-NOT: v_mul		; GCN-NOT: v_mul

; GFX9: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]		; GFX9: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]
define amdgpu_kernel void @test_fold_canonicalize_minnum_value_from_load_f32_ieee_mode(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_minnum_value_from_load_f32_ieee_mode(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
Show All 38 Lines	define amdgpu_kernel void @test_fold_canonicalize_minnum_value_f32(float addrspace(1)* %arg) {
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; FIXME: Should there be more checks here? minnum with NaN operand is simplified away.		; FIXME: Should there be more checks here? minnum with NaN operand is simplified away.

; GCN-LABEL: test_fold_canonicalize_sNaN_value_f32:		; GCN-LABEL: test_fold_canonicalize_sNaN_value_f32:
; GCN: {{flat\|global}}_load_dword [[LOAD:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[LOAD:v[0-9]+]]
; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, 1.0, [[LOAD]]		; VI: v_mul_f32_e32 v{{[0-9]+}}, 1.0, [[LOAD]]
; GCN-DENORM: v_max_f32_e32 v{{[0-9]+}}, [[LOAD]], [[LOAD]]		; GFX9: v_max_f32_e32 v{{[0-9]+}}, [[LOAD]], [[LOAD]]
define amdgpu_kernel void @test_fold_canonicalize_sNaN_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_sNaN_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = tail call float @llvm.minnum.f32(float %load, float bitcast (i32 2139095041 to float))		%v = tail call float @llvm.minnum.f32(float %load, float bitcast (i32 2139095041 to float))
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_denorm_value_f32:		; GCN-LABEL: test_fold_canonicalize_denorm_value_f32:
; GCN: {{flat\|global}}_load_dword [[VAL:v[0-9]+]]		; GCN: {{flat\|global}}_load_dword [[VAL:v[0-9]+]]

; GFX9-DENORM: v_max_f32_e32 [[QUIET:v[0-9]+]], [[VAL]], [[VAL]]		; GFX9-DENORM: v_max_f32_e32 [[QUIET:v[0-9]+]], [[VAL]], [[VAL]]
; GFX9-DENORM: v_min_f32_e32 [[RESULT:v[0-9]+]], 0x7fffff, [[QUIET]]		; GFX9-DENORM: v_min_f32_e32 [[RESULT:v[0-9]+]], 0x7fffff, [[QUIET]]

; GFX9-FLUSH: v_mul_f32_e32 [[QUIET:v[0-9]+]], 1.0, [[VAL]]		; GFX9-FLUSH: v_max_f32_e32 [[QUIET:v[0-9]+]], [[VAL]], [[VAL]]
; GFX9-FLUSH: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET]]		; GFX9-FLUSH: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET]]


; VI-FLUSH: v_mul_f32_e32 [[QUIET_V0:v[0-9]+]], 1.0, [[VAL]]		; VI-FLUSH: v_mul_f32_e32 [[QUIET_V0:v[0-9]+]], 1.0, [[VAL]]
; VI-FLUSH: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET_V0]]		; VI-FLUSH: v_min_f32_e32 [[RESULT:v[0-9]+]], 0, [[QUIET_V0]]

; VI-DENORM: v_min_f32_e32 [[RESULT:v[0-9]+]], 0x7fffff, [[VAL]]		; VI-DENORM: v_min_f32_e32 [[RESULT:v[0-9]+]], 0x7fffff, [[VAL]]

; GCN-NOT: v_mul		; GCN-NOT: v_mul
; GCN-NOT: v_max		; GCN-NOT: v_max
; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[RESULT]]		; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[RESULT]]
▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines	entry:
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
ret float %canonicalized		ret float %canonicalized
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_load_nnan_value_f32		; GCN-LABEL: {{^}}test_fold_canonicalize_load_nnan_value_f32
; GFX9-DENORM: global_load_dword [[V:v[0-9]+]],		; GFX9-DENORM: global_load_dword [[V:v[0-9]+]],
; GFX9-DENORM: global_store_dword v[{{[0-9:]+}}], [[V]]		; GFX9-DENORM: global_store_dword v[{{[0-9:]+}}], [[V]]
; GFX9-DENORM-NOT: 1.0		; GFX9-DENORM-NOT: 1.0
; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}		; GFX9-DENORM-NOT: v_max
		; VI-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}
		; GFX9-FLUSH: v_max_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @test_fold_canonicalize_load_nnan_value_f32(float addrspace(1)* %arg, float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_load_nnan_value_f32(float addrspace(1)* %arg, float addrspace(1)* %out) #1 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%v = load float, float addrspace(1)* %gep, align 4		%v = load float, float addrspace(1)* %gep, align 4
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id
store float %canonicalized, float addrspace(1)* %gep2, align 4		store float %canonicalized, float addrspace(1)* %gep2, align 4
ret void		ret void
▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines	define amdgpu_ps float @test_fold_canonicalize_minnum_value_no_ieee_mode(float %arg0, float %arg1) {
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
ret float %canonicalized		ret float %canonicalized
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_minnum_value_ieee_mode:		; GCN-LABEL: {{^}}test_fold_canonicalize_minnum_value_ieee_mode:
; GFX9: v_min_f32_e32 v0, v0, v1		; GFX9: v_min_f32_e32 v0, v0, v1
; GFX9-NEXT: s_setpc_b64		; GFX9-NEXT: s_setpc_b64

; VI-FLUSH-DAG: v_mul_f32_e32 v0, 1.0, v0		; VI-DAG: v_mul_f32_e32 v0, 1.0, v0
; VI-FLUSH-DAG: v_mul_f32_e32 v1, 1.0, v1		; VI-DAG: v_mul_f32_e32 v1, 1.0, v1
; VI-FLUSH: v_min_f32_e32 v0, v0, v1		; VI: v_min_f32_e32 v0, v0, v1

; VI-DENORM-DAG: v_max_f32_e32 v0, v0, v0
; VI-DENORM-DAG: v_max_f32_e32 v1, v1, v1
; VI-DENORM: v_min_f32_e32 v0, v0, v1

; VI-NEXT: s_setpc_b64		; VI-NEXT: s_setpc_b64
define float @test_fold_canonicalize_minnum_value_ieee_mode(float %arg0, float %arg1) {		define float @test_fold_canonicalize_minnum_value_ieee_mode(float %arg0, float %arg1) {
%v = tail call float @llvm.minnum.f32(float %arg0, float %arg1)		%v = tail call float @llvm.minnum.f32(float %arg0, float %arg1)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
ret float %canonicalized		ret float %canonicalized
}		}

▲ Show 20 Lines • Show All 157 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize.f16.ll

Show First 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_test_canonicalize_fneg_var_f16(half addrspace(1)* %out) #1 {
%val = load half, half addrspace(1)* %out		%val = load half, half addrspace(1)* %out
%val.fneg = fsub half -0.0, %val		%val.fneg = fsub half -0.0, %val
%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)		%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)
store half %canonicalized, half addrspace(1)* %out		store half %canonicalized, half addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_var_f16:		; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_var_f16:
; GFX89: v_mul_f16_e32 [[REG:v[0-9]+]], -1.0, v{{[0-9]+}}		; VI: v_mul_f16_e32 [[REG:v[0-9]+]], -1.0, v{{[0-9]+}}
		; GFX9: v_max_f16_e64 [[REG:v[0-9]+]], -v{{[0-9]+}}, -v{{[0-9]+}}
; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]		; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_var_f16(half addrspace(1)* %out) #2 {		define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_var_f16(half addrspace(1)* %out) #2 {
%val = load half, half addrspace(1)* %out		%val = load half, half addrspace(1)* %out
%val.fneg = fsub half -0.0, %val		%val.fneg = fsub half -0.0, %val
%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)		%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)
store half %canonicalized, half addrspace(1)* %out		store half %canonicalized, half addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_fabs_var_f16:		; GCN-LABEL: {{^}}v_test_no_denormals_canonicalize_fneg_fabs_var_f16:
; GFX89: v_mul_f16_e64 [[REG:v[0-9]+]], -1.0, \|v{{[0-9]+}}\|		; VI: v_mul_f16_e64 [[REG:v[0-9]+]], -1.0, \|v{{[0-9]+}}\|
		; GFX9: v_max_f16_e64 [[REG:v[0-9]+]], -\|v{{[0-9]+}}\|, -\|v{{[0-9]+}}\|

; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]		; GFX89: {{flat\|global}}_store_short v{{\[[0-9]+:[0-9]+\]}}, [[REG]]

; CI: v_cvt_f32_f16_e64 {{v[0-9]+}}, -\|{{v[0-9]+}}\|		; CI: v_cvt_f32_f16_e64 {{v[0-9]+}}, -\|{{v[0-9]+}}\|
; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}		; CI: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #2 {		define amdgpu_kernel void @v_test_no_denormals_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #2 {
%val = load half, half addrspace(1)* %out		%val = load half, half addrspace(1)* %out
%val.fabs = call half @llvm.fabs.f16(half %val)		%val.fabs = call half @llvm.fabs.f16(half %val)
%val.fabs.fneg = fsub half -0.0, %val.fabs		%val.fabs.fneg = fsub half -0.0, %val.fabs
▲ Show 20 Lines • Show All 624 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/fcanonicalize.ll

; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s		; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=hawaii -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX6,GFX678 %s
		; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX8,GFX678 %s
		; RUN: llc -amdgpu-scalarize-global-loads=false -mtriple=amdgcn-amd-amdhsa -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GCN,GFX9 %s

declare float @llvm.fabs.f32(float) #0		declare float @llvm.fabs.f32(float) #0
declare float @llvm.canonicalize.f32(float) #0		declare float @llvm.canonicalize.f32(float) #0
declare <2 x float> @llvm.canonicalize.v2f32(<2 x float>) #0		declare <2 x float> @llvm.canonicalize.v2f32(<2 x float>) #0
declare <3 x float> @llvm.canonicalize.v3f32(<3 x float>) #0		declare <3 x float> @llvm.canonicalize.v3f32(<3 x float>) #0
declare <4 x float> @llvm.canonicalize.v4f32(<4 x float>) #0		declare <4 x float> @llvm.canonicalize.v4f32(<4 x float>) #0
declare <8 x float> @llvm.canonicalize.v8f32(<8 x float>) #0		declare <8 x float> @llvm.canonicalize.v8f32(<8 x float>) #0
declare double @llvm.fabs.f64(double) #0		declare double @llvm.fabs.f64(double) #0
declare double @llvm.canonicalize.f64(double) #0		declare double @llvm.canonicalize.f64(double) #0
declare <2 x double> @llvm.canonicalize.v2f64(<2 x double>) #0		declare <2 x double> @llvm.canonicalize.v2f64(<2 x double>) #0
declare <3 x double> @llvm.canonicalize.v3f64(<3 x double>) #0		declare <3 x double> @llvm.canonicalize.v3f64(<3 x double>) #0
declare <4 x double> @llvm.canonicalize.v4f64(<4 x double>) #0		declare <4 x double> @llvm.canonicalize.v4f64(<4 x double>) #0
declare half @llvm.canonicalize.f16(half) #0		declare half @llvm.canonicalize.f16(half) #0
declare <2 x half> @llvm.canonicalize.v2f16(<2 x half>) #0		declare <2 x half> @llvm.canonicalize.v2f16(<2 x half>) #0
declare i32 @llvm.amdgcn.workitem.id.x() #0		declare i32 @llvm.amdgcn.workitem.id.x() #0

; GCN-LABEL: {{^}}v_test_canonicalize_var_f32:		; GCN-LABEL: {{^}}v_test_canonicalize_var_f32:
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX678: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: buffer_store_dword [[REG]]		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_var_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_var_f32(float addrspace(1)* %out) #1 {
%val = load float, float addrspace(1)* %out		%val = load float, float addrspace(1)* %out
%canonicalized = call float @llvm.canonicalize.f32(float %val)		%canonicalized = call float @llvm.canonicalize.f32(float %val)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_canonicalize_var_f32:		; GCN-LABEL: {{^}}s_test_canonicalize_var_f32:
; GCN: v_mul_f32_e64 [[REG:v[0-9]+]], 1.0, {{s[0-9]+}}		; GFX678: v_mul_f32_e64 [[REG:v[0-9]+]], 1.0, {{s[0-9]+}}
; GCN: buffer_store_dword [[REG]]		; GFX9: v_max_f32_e64 [[REG:v[0-9]+]], {{s[0-9]+}}, {{s[0-9]+}}
		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @s_test_canonicalize_var_f32(float addrspace(1)* %out, float %val) #1 {		define amdgpu_kernel void @s_test_canonicalize_var_f32(float addrspace(1)* %out, float %val) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float %val)		%canonicalized = call float @llvm.canonicalize.f32(float %val)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f32:		; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f32:
; GCN: v_mul_f32_e64 [[REG:v[0-9]+]], 1.0, \|{{v[0-9]+}}\|		; GFX678: v_mul_f32_e64 [[REG:v[0-9]+]], 1.0, \|{{v[0-9]+}}\|
; GCN: buffer_store_dword [[REG]]		; GFX9: v_max_f32_e64 [[REG:v[0-9]+]], \|{{v[0-9]+}}\|, \|{{v[0-9]+}}\|
		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_fabs_var_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_fabs_var_f32(float addrspace(1)* %out) #1 {
%val = load float, float addrspace(1)* %out		%val = load float, float addrspace(1)* %out
%val.fabs = call float @llvm.fabs.f32(float %val)		%val.fabs = call float @llvm.fabs.f32(float %val)
%canonicalized = call float @llvm.canonicalize.f32(float %val.fabs)		%canonicalized = call float @llvm.canonicalize.f32(float %val.fabs)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f32:		; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f32:
; GCN: v_mul_f32_e64 [[REG:v[0-9]+]], -1.0, \|{{v[0-9]+}}\|		; GFX678: v_mul_f32_e64 [[REG:v[0-9]+]], -1.0, \|{{v[0-9]+}}\|
; GCN: buffer_store_dword [[REG]]		; GFX9: v_max_f32_e64 [[REG:v[0-9]+]], -\|{{v[0-9]+}}\|, -\|{{v[0-9]+}}\|
		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f32(float addrspace(1)* %out) #1 {
%val = load float, float addrspace(1)* %out		%val = load float, float addrspace(1)* %out
%val.fabs = call float @llvm.fabs.f32(float %val)		%val.fabs = call float @llvm.fabs.f32(float %val)
%val.fabs.fneg = fsub float -0.0, %val.fabs		%val.fabs.fneg = fsub float -0.0, %val.fabs
%canonicalized = call float @llvm.canonicalize.f32(float %val.fabs.fneg)		%canonicalized = call float @llvm.canonicalize.f32(float %val.fabs.fneg)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f32:		; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f32:
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], -1.0, {{v[0-9]+}}		; GFX678: v_mul_f32_e32 [[REG:v[0-9]+]], -1.0, {{v[0-9]+}}
; GCN: buffer_store_dword [[REG]]		; GFX9: v_max_f32_e64 [[REG:v[0-9]+]], -{{v[0-9]+}}, -{{v[0-9]+}}
		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_fneg_var_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_fneg_var_f32(float addrspace(1)* %out) #1 {
%val = load float, float addrspace(1)* %out		%val = load float, float addrspace(1)* %out
%val.fneg = fsub float -0.0, %val		%val.fneg = fsub float -0.0, %val
%canonicalized = call float @llvm.canonicalize.f32(float %val.fneg)		%canonicalized = call float @llvm.canonicalize.f32(float %val.fneg)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_undef_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_undef_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_undef_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_undef_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float undef)		%canonicalized = call float @llvm.canonicalize.f32(float undef)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_p0_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_p0_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float 0.0)		%canonicalized = call float @llvm.canonicalize.f32(float 0.0)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_n0_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_n0_f32:
; GCN: v_bfrev_b32_e32 [[REG:v[0-9]+]], 1{{$}}		; GCN: v_bfrev_b32_e32 [[REG:v[0-9]+]], 1{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_n0_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_n0_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float -0.0)		%canonicalized = call float @llvm.canonicalize.f32(float -0.0)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_p1_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_p1_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 1.0{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 1.0{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_p1_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_p1_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float 1.0)		%canonicalized = call float @llvm.canonicalize.f32(float 1.0)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_n1_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_n1_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], -1.0{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], -1.0{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_n1_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_n1_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float -1.0)		%canonicalized = call float @llvm.canonicalize.f32(float -1.0)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_literal_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_literal_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x41800000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x41800000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_literal_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_literal_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float 16.0)		%canonicalized = call float @llvm.canonicalize.f32(float 16.0)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal0_f32:		; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal0_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal0_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal0_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 8388607 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 8388607 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal0_f32:		; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal0_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fffff{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fffff{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal0_f32(float addrspace(1)* %out) #3 {		define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal0_f32(float addrspace(1)* %out) #3 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 8388607 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 8388607 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal1_f32:		; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal1_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal1_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal1_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2155872255 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2155872255 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal1_f32:		; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal1_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x807fffff{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x807fffff{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal1_f32(float addrspace(1)* %out) #3 {		define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal1_f32(float addrspace(1)* %out) #3 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2155872255 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2155872255 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_qnan_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_qnan_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float 0x7FF8000000000000)		%canonicalized = call float @llvm.canonicalize.f32(float 0x7FF8000000000000)
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg1_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg1_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg1_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg1_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 -1 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 -1 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg2_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg2_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg2_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg2_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 -2 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 -2 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan0_value_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan0_value_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_snan0_value_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan0_value_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2139095041 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2139095041 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan1_value_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan1_value_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_snan1_value_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan1_value_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2143289343 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 2143289343 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan2_value_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan2_value_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_snan2_value_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan2_value_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 4286578689 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 4286578689 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan3_value_f32:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan3_value_f32:
; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}		; GCN: v_mov_b32_e32 [[REG:v[0-9]+]], 0x7fc00000{{$}}
; GCN: buffer_store_dword [[REG]]		; GCN: {{flat\|global}}_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f32(float addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f32(float addrspace(1)* %out) #1 {
%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 4290772991 to float))		%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 4290772991 to float))
store float %canonicalized, float addrspace(1)* %out		store float %canonicalized, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_var_f64:		; GCN-LABEL: {{^}}v_test_canonicalize_var_f64:
; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}		; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}
; GCN: buffer_store_dwordx2 [[REG]]		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_var_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_var_f64(double addrspace(1)* %out) #1 {
%val = load double, double addrspace(1)* %out		%val = load double, double addrspace(1)* %out
%canonicalized = call double @llvm.canonicalize.f64(double %val)		%canonicalized = call double @llvm.canonicalize.f64(double %val)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_canonicalize_var_f64:		; GCN-LABEL: {{^}}s_test_canonicalize_var_f64:
; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}		; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}
; GCN: buffer_store_dwordx2 [[REG]]		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @s_test_canonicalize_var_f64(double addrspace(1)* %out, double %val) #1 {		define amdgpu_kernel void @s_test_canonicalize_var_f64(double addrspace(1)* %out, double %val) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double %val)		%canonicalized = call double @llvm.canonicalize.f64(double %val)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f64:		; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f64:
; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], \|{{v\[[0-9]+:[0-9]+\]}}\|, \|{{v\[[0-9]+:[0-9]+\]}}\|		; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], \|{{v\[[0-9]+:[0-9]+\]}}\|, \|{{v\[[0-9]+:[0-9]+\]}}\|
; GCN: buffer_store_dwordx2 [[REG]]		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_fabs_var_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_fabs_var_f64(double addrspace(1)* %out) #1 {
%val = load double, double addrspace(1)* %out		%val = load double, double addrspace(1)* %out
%val.fabs = call double @llvm.fabs.f64(double %val)		%val.fabs = call double @llvm.fabs.f64(double %val)
%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs)		%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f64:		; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f64:
; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]\]]], -\|{{v\[[0-9]+:[0-9]+\]}}\|, -\|{{v\[[0-9]+:[0-9]+\]}}\|		; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]\]]], -\|{{v\[[0-9]+:[0-9]+\]}}\|, -\|{{v\[[0-9]+:[0-9]+\]}}\|
; GCN: buffer_store_dwordx2 [[REG]]		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f64(double addrspace(1)* %out) #1 {
%val = load double, double addrspace(1)* %out		%val = load double, double addrspace(1)* %out
%val.fabs = call double @llvm.fabs.f64(double %val)		%val.fabs = call double @llvm.fabs.f64(double %val)
%val.fabs.fneg = fsub double -0.0, %val.fabs		%val.fabs.fneg = fsub double -0.0, %val.fabs
%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs.fneg)		%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs.fneg)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f64:		; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f64:
; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], -{{v\[[0-9]+:[0-9]+\]}}, -{{v\[[0-9]+:[0-9]+\]}}		; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], -{{v\[[0-9]+:[0-9]+\]}}, -{{v\[[0-9]+:[0-9]+\]}}
; GCN: buffer_store_dwordx2 [[REG]]		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, [[REG]]
define amdgpu_kernel void @v_test_canonicalize_fneg_var_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_fneg_var_f64(double addrspace(1)* %out) #1 {
%val = load double, double addrspace(1)* %out		%val = load double, double addrspace(1)* %out
%val.fneg = fsub double -0.0, %val		%val.fneg = fsub double -0.0, %val
%canonicalized = call double @llvm.canonicalize.f64(double %val.fneg)		%canonicalized = call double @llvm.canonicalize.f64(double %val.fneg)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_p0_f64:
; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}		; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_p0_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_p0_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double 0.0)		%canonicalized = call double @llvm.canonicalize.f64(double 0.0)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_n0_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_n0_f64:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN-DAG: v_bfrev_b32_e32 v[[HI:[0-9]+]], 1{{$}}		; GCN-DAG: v_bfrev_b32_e32 v[[HI:[0-9]+]], 1{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_n0_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_n0_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double -0.0)		%canonicalized = call double @llvm.canonicalize.f64(double -0.0)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_p1_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_p1_f64:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x3ff00000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x3ff00000{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_p1_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_p1_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double 1.0)		%canonicalized = call double @llvm.canonicalize.f64(double 1.0)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_n1_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_n1_f64:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0xbff00000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0xbff00000{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_n1_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_n1_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double -1.0)		%canonicalized = call double @llvm.canonicalize.f64(double -1.0)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_literal_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_literal_f64:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x40300000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x40300000{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_literal_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_literal_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double 16.0)		%canonicalized = call double @llvm.canonicalize.f64(double 16.0)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal0_f64:		; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal0_f64:
; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}		; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal0_f64(double addrspace(1)* %out) #2 {		define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal0_f64(double addrspace(1)* %out) #2 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 4503599627370495 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 4503599627370495 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal0_f64:		; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal0_f64:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], -1{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], -1{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0xfffff{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0xfffff{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal0_f64(double addrspace(1)* %out) #3 {		define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal0_f64(double addrspace(1)* %out) #3 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 4503599627370495 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 4503599627370495 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal1_f64:		; GCN-LABEL: {{^}}test_no_denormals_fold_canonicalize_denormal1_f64:
; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}		; GCN: v_mov_b32_e32 v[[HI:[0-9]+]], v[[LO]]{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal1_f64(double addrspace(1)* %out) #2 {		define amdgpu_kernel void @test_no_denormals_fold_canonicalize_denormal1_f64(double addrspace(1)* %out) #2 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9227875636482146303 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9227875636482146303 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal1_f64:		; GCN-LABEL: {{^}}test_denormals_fold_canonicalize_denormal1_f64:
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], -1{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], -1{{$}}
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x800fffff{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x800fffff{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal1_f64(double addrspace(1)* %out) #3 {		define amdgpu_kernel void @test_denormals_fold_canonicalize_denormal1_f64(double addrspace(1)* %out) #3 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9227875636482146303 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9227875636482146303 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_qnan_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_qnan_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double 0x7FF8000000000000)		%canonicalized = call double @llvm.canonicalize.f64(double 0x7FF8000000000000)
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg1_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg1_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg1_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg1_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 -1 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 -1 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg2_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_qnan_value_neg2_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg2_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_qnan_value_neg2_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 -2 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 -2 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan0_value_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan0_value_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_snan0_value_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan0_value_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9218868437227405313 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9218868437227405313 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan1_value_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan1_value_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_snan1_value_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan1_value_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9223372036854775807 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 9223372036854775807 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan2_value_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan2_value_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_snan2_value_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan2_value_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 18442240474082181121 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 18442240474082181121 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_fold_canonicalize_snan3_value_f64:		; GCN-LABEL: {{^}}test_fold_canonicalize_snan3_value_f64:
; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}		; GCN-DAG: v_mov_b32_e32 v[[HI:[0-9]+]], 0x7ff80000{{$}}
; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}		; GCN: {{flat\|global}}_store_dwordx2 v{{\[[0-9]+:[0-9]+\]}}, v{{\[}}[[LO]]:[[HI]]{{\]}}
define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f64(double addrspace(1)* %out) #1 {		define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f64(double addrspace(1)* %out) #1 {
%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 18446744073709551615 to double))		%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 18446744073709551615 to double))
store double %canonicalized, double addrspace(1)* %out		store double %canonicalized, double addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_f64_flush:		; GCN-LABEL: {{^}}test_canonicalize_value_f64_flush:
; GCN: v_mul_f64 v[{{[0-9:]+}}], 1.0, v[{{[0-9:]+}}]		; GFX678: v_mul_f64 v[{{[0-9:]+}}], 1.0, v[{{[0-9:]+}}]
		; GCN9: v_max_f64 v[{{[0-9:]+}}], v[{{[0-9:]+}}], v[{{[0-9:]+}}]
define amdgpu_kernel void @test_canonicalize_value_f64_flush(double addrspace(1)* %arg, double addrspace(1)* %out) #4 {		define amdgpu_kernel void @test_canonicalize_value_f64_flush(double addrspace(1)* %arg, double addrspace(1)* %out) #4 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds double, double addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds double, double addrspace(1)* %arg, i32 %id
%v = load double, double addrspace(1)* %gep, align 8		%v = load double, double addrspace(1)* %gep, align 8
%canonicalized = tail call double @llvm.canonicalize.f64(double %v)		%canonicalized = tail call double @llvm.canonicalize.f64(double %v)
%gep2 = getelementptr inbounds double, double addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds double, double addrspace(1)* %out, i32 %id
store double %canonicalized, double addrspace(1)* %gep2, align 8		store double %canonicalized, double addrspace(1)* %gep2, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_f32_flush:		; GCN-LABEL: {{^}}test_canonicalize_value_f32_flush:
; GCN: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
define amdgpu_kernel void @test_canonicalize_value_f32_flush(float addrspace(1)* %arg, float addrspace(1)* %out) #4 {		define amdgpu_kernel void @test_canonicalize_value_f32_flush(float addrspace(1)* %arg, float addrspace(1)* %out) #4 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%v = load float, float addrspace(1)* %gep, align 4		%v = load float, float addrspace(1)* %gep, align 4
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id
store float %canonicalized, float addrspace(1)* %gep2, align 4		store float %canonicalized, float addrspace(1)* %gep2, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_f16_flush:		; GCN-LABEL: {{^}}test_canonicalize_value_f16_flush:
; GCN: v_mul_f16_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}		; GFX8: v_mul_f16_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
		; GFX9: v_max_f16_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
define amdgpu_kernel void @test_canonicalize_value_f16_flush(half addrspace(1)* %arg, half addrspace(1)* %out) #4 {		define amdgpu_kernel void @test_canonicalize_value_f16_flush(half addrspace(1)* %arg, half addrspace(1)* %out) #4 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds half, half addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds half, half addrspace(1)* %arg, i32 %id
%v = load half, half addrspace(1)* %gep, align 2		%v = load half, half addrspace(1)* %gep, align 2
%canonicalized = tail call half @llvm.canonicalize.f16(half %v)		%canonicalized = tail call half @llvm.canonicalize.f16(half %v)
%gep2 = getelementptr inbounds half, half addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds half, half addrspace(1)* %out, i32 %id
store half %canonicalized, half addrspace(1)* %gep2, align 2		store half %canonicalized, half addrspace(1)* %gep2, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_v2f16_flush_gfx8:		; GCN-LABEL: {{^}}test_canonicalize_value_v2f16_flush:
; GCN: v_mov_b32_e32 [[ONE:v[0-9]+]], 0x3c00		; GFX8: v_mov_b32_e32 [[ONE:v[0-9]+]], 0x3c00
; GCN-DAG: v_mul_f16_sdwa v{{[0-9]+}}, [[ONE]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; GFX8-DAG: v_mul_f16_sdwa v{{[0-9]+}}, [[ONE]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; GCN-DAG: v_mul_f16_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}		; GFX8-DAG: v_mul_f16_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}
define amdgpu_kernel void @test_canonicalize_value_v2f16_flush_gfx8(<2 x half> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) #4 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %arg, i32 %id
%v = load <2 x half>, <2 x half> addrspace(1)* %gep, align 4
%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)
%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 2
ret void
}

; GCN-LABEL: {{^}}test_canonicalize_value_v2f16_flush_gfx9:		; GFX9: v_pk_max_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}{{$}}
; GCN-DAG: v_pk_mul_f16 v{{[0-9]+}}, 1.0, v{{[0-9]+}} op_sel_hi:[0,1]{{$}}		define amdgpu_kernel void @test_canonicalize_value_v2f16_flush(<2 x half> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) #4 {
define amdgpu_kernel void @test_canonicalize_value_v2f16_flush_gfx9(<2 x half> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) #6 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %arg, i32 %id
%v = load <2 x half>, <2 x half> addrspace(1)* %gep, align 4		%v = load <2 x half>, <2 x half> addrspace(1)* %gep, align 4
%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)		%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)
%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 2		store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_f64_denorm:		; GCN-LABEL: {{^}}test_canonicalize_value_f64_denorm:
; GCN: v_max_f64 v[{{[0-9:]+}}], v[{{[0-9:]+}}], v[{{[0-9:]+}}]		; GCN: v_max_f64 v[{{[0-9:]+}}], v[{{[0-9:]+}}], v[{{[0-9:]+}}]
define amdgpu_kernel void @test_canonicalize_value_f64_denorm(double addrspace(1)* %arg, double addrspace(1)* %out) #5 {		define amdgpu_kernel void @test_canonicalize_value_f64_denorm(double addrspace(1)* %arg, double addrspace(1)* %out) #3 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds double, double addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds double, double addrspace(1)* %arg, i32 %id
%v = load double, double addrspace(1)* %gep, align 8		%v = load double, double addrspace(1)* %gep, align 8
%canonicalized = tail call double @llvm.canonicalize.f64(double %v)		%canonicalized = tail call double @llvm.canonicalize.f64(double %v)
%gep2 = getelementptr inbounds double, double addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds double, double addrspace(1)* %out, i32 %id
store double %canonicalized, double addrspace(1)* %gep2, align 8		store double %canonicalized, double addrspace(1)* %gep2, align 8
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_f32_denorm:		; GCN-LABEL: {{^}}test_canonicalize_value_f32_denorm:
; GCN: v_max_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}		; GFX678: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
define amdgpu_kernel void @test_canonicalize_value_f32_denorm(float addrspace(1)* %arg, float addrspace(1)* %out) #5 {		; GFX9: v_max_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
		define amdgpu_kernel void @test_canonicalize_value_f32_denorm(float addrspace(1)* %arg, float addrspace(1)* %out) #3 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%v = load float, float addrspace(1)* %gep, align 4		%v = load float, float addrspace(1)* %gep, align 4
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id
store float %canonicalized, float addrspace(1)* %gep2, align 4		store float %canonicalized, float addrspace(1)* %gep2, align 4
ret void		ret void
}		}

		; FIXME: Conversion to float should count as the canonicalize pre-gfx8
; GCN-LABEL: {{^}}test_canonicalize_value_f16_denorm:		; GCN-LABEL: {{^}}test_canonicalize_value_f16_denorm:
; GCN: v_max_f16_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
define amdgpu_kernel void @test_canonicalize_value_f16_denorm(half addrspace(1)* %arg, half addrspace(1)* %out) #5 {		; GFX8: v_max_f16_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f16_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
		define amdgpu_kernel void @test_canonicalize_value_f16_denorm(half addrspace(1)* %arg, half addrspace(1)* %out) #3 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds half, half addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds half, half addrspace(1)* %arg, i32 %id
%v = load half, half addrspace(1)* %gep, align 2		%v = load half, half addrspace(1)* %gep, align 2
%canonicalized = tail call half @llvm.canonicalize.f16(half %v)		%canonicalized = tail call half @llvm.canonicalize.f16(half %v)
%gep2 = getelementptr inbounds half, half addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds half, half addrspace(1)* %out, i32 %id
store half %canonicalized, half addrspace(1)* %gep2, align 2		store half %canonicalized, half addrspace(1)* %gep2, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}test_canonicalize_value_v2f16_denorm:		; GCN-LABEL: {{^}}test_canonicalize_value_v2f16_denorm:
; GCN: v_pk_max_f16 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
define amdgpu_kernel void @test_canonicalize_value_v2f16_denorm(<2 x half> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) #5 {		; GFX6: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}

		; GFX8: v_max_f16_sdwa
		; GFX8: v_max_f16_e32

		; GFX9: v_pk_max_f16 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
		define amdgpu_kernel void @test_canonicalize_value_v2f16_denorm(<2 x half> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) #3 {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %arg, i32 %id
%v = load <2 x half>, <2 x half> addrspace(1)* %gep, align 4		%v = load <2 x half>, <2 x half> addrspace(1)* %gep, align 4
%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)		%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)
%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 2		store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 2
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_var_v2f64:		; GCN-LABEL: {{^}}v_test_canonicalize_var_v2f64:
; GCN: v_max_f64		; GCN: v_max_f64
; GCN: v_max_f64		; GCN: v_max_f64
define amdgpu_kernel void @v_test_canonicalize_var_v2f64(<2 x double> addrspace(1)* %out) #1 {		define amdgpu_kernel void @v_test_canonicalize_var_v2f64(<2 x double> addrspace(1)* %out) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr <2 x double>, <2 x double> addrspace(1)* %out, i32 %tid		%gep = getelementptr <2 x double>, <2 x double> addrspace(1)* %out, i32 %tid
%val = load <2 x double>, <2 x double> addrspace(1)* %gep		%val = load <2 x double>, <2 x double> addrspace(1)* %gep
%canonicalized = call <2 x double> @llvm.canonicalize.v2f64(<2 x double> %val)		%canonicalized = call <2 x double> @llvm.canonicalize.v2f64(<2 x double> %val)
store <2 x double> %canonicalized, <2 x double> addrspace(1)* %out		store <2 x double> %canonicalized, <2 x double> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_v2f32:		; GCN-LABEL: {{^}}v_test_canonicalize_v2f32_flush:
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
define <2 x float> @v_test_canonicalize_v2f32(<2 x float> %arg) #1 {
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		define <2 x float> @v_test_canonicalize_v2f32_flush(<2 x float> %arg) #1 {
%canon = call <2 x float> @llvm.canonicalize.v2f32(<2 x float> %arg)		%canon = call <2 x float> @llvm.canonicalize.v2f32(<2 x float> %arg)
ret <2 x float> %canon		ret <2 x float> %canon
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_v3f32:		; GCN-LABEL: {{^}}v_test_canonicalize_v3f32_flush:
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
define <3 x float> @v_test_canonicalize_v3f32(<3 x float> %arg) #1 {
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		define <3 x float> @v_test_canonicalize_v3f32_flush(<3 x float> %arg) #1 {
%canon = call <3 x float> @llvm.canonicalize.v3f32(<3 x float> %arg)		%canon = call <3 x float> @llvm.canonicalize.v3f32(<3 x float> %arg)
ret <3 x float> %canon		ret <3 x float> %canon
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_v4f32:		; GCN-LABEL: {{^}}v_test_canonicalize_v4f32_flush:
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
define <4 x float> @v_test_canonicalize_v4f32(<4 x float> %arg) #1 {
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		define <4 x float> @v_test_canonicalize_v4f32_flush(<4 x float> %arg) #1 {
%canon = call <4 x float> @llvm.canonicalize.v4f32(<4 x float> %arg)		%canon = call <4 x float> @llvm.canonicalize.v4f32(<4 x float> %arg)
ret <4 x float> %canon		ret <4 x float> %canon
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_v8f32:		; GCN-LABEL: {{^}}v_test_canonicalize_v8f32_flush:
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}		; GFX6: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
define <8 x float> @v_test_canonicalize_v8f32(<8 x float> %arg) #1 {
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		; GFX9: v_max_f32_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
		define <8 x float> @v_test_canonicalize_v8f32_flush(<8 x float> %arg) #1 {
%canon = call <8 x float> @llvm.canonicalize.v8f32(<8 x float> %arg)		%canon = call <8 x float> @llvm.canonicalize.v8f32(<8 x float> %arg)
ret <8 x float> %canon		ret <8 x float> %canon
}		}

; GCN-LABEL: {{^}}v_test_canonicalize_v2f64:		; GCN-LABEL: {{^}}v_test_canonicalize_v2f64:
; GCN: v_max_f64		; GCN: v_max_f64
; GCN: v_max_f64		; GCN: v_max_f64
define <2 x double> @v_test_canonicalize_v2f64(<2 x double> %arg) #1 {		define <2 x double> @v_test_canonicalize_v2f64(<2 x double> %arg) #1 {
Show All 19 Lines	define <4 x double> @v_test_canonicalize_v4f64(<4 x double> %arg) #1 {
%canon = call <4 x double> @llvm.canonicalize.v4f64(<4 x double> %arg)		%canon = call <4 x double> @llvm.canonicalize.v4f64(<4 x double> %arg)
ret <4 x double> %canon		ret <4 x double> %canon
}		}

attributes #0 = { nounwind readnone }		attributes #0 = { nounwind readnone }
attributes #1 = { nounwind "denormal-fp-math-f32"="preserve-sign,preserve-sign" }		attributes #1 = { nounwind "denormal-fp-math-f32"="preserve-sign,preserve-sign" }
attributes #2 = { nounwind "denormal-fp-math"="preserve-sign,preserve-sign" }		attributes #2 = { nounwind "denormal-fp-math"="preserve-sign,preserve-sign" }
attributes #3 = { nounwind "denormal-fp-math"="ieee,ieee" }		attributes #3 = { nounwind "denormal-fp-math"="ieee,ieee" }
attributes #4 = { nounwind "denormal-fp-math"="preserve-sign,preserve-sign" "target-cpu"="tonga" }		attributes #4 = { nounwind "denormal-fp-math"="preserve-sign,preserve-sign" }
attributes #5 = { nounwind "denormal-fp-math"="ieee,ieee" "target-cpu"="gfx900" }
attributes #6 = { nounwind "denormal-fp-math"="preserve-sign,preserve-sign" "target-cpu"="gfx900" }

llvm/test/CodeGen/AMDGPU/fminnum.f64.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefixes=GCN,GFX678,SI %s
	; RUN: llc -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga < %s \| FileCheck -check-prefixes=GCN,GFX678,VI %s
				; RUN: llc -march=amdgcn -mcpu=gfx900 < %s \| FileCheck -check-prefixes=GCN,GFX9 %s

	declare double @llvm.minnum.f64(double, double) #0			declare double @llvm.minnum.f64(double, double) #0
	declare <2 x double> @llvm.minnum.v2f64(<2 x double>, <2 x double>) #0			declare <2 x double> @llvm.minnum.v2f64(<2 x double>, <2 x double>) #0
	declare <4 x double> @llvm.minnum.v4f64(<4 x double>, <4 x double>) #0			declare <4 x double> @llvm.minnum.v4f64(<4 x double>, <4 x double>) #0
	declare <8 x double> @llvm.minnum.v8f64(<8 x double>, <8 x double>) #0			declare <8 x double> @llvm.minnum.v8f64(<8 x double>, <8 x double>) #0
	declare <16 x double> @llvm.minnum.v16f64(<16 x double>, <16 x double>) #0			declare <16 x double> @llvm.minnum.v16f64(<16 x double>, <16 x double>) #0

	; FUNC-LABEL: {{^}}test_fmin_f64_ieee:			; GCN-LABEL: {{^}}test_fmin_f64_ieee_noflush:
	; SI: s_load_dwordx2 [[A:s\[[0-9]+:[0-9]+\]]]			; GCN: s_load_dwordx2 [[A:s\[[0-9]+:[0-9]+\]]]
	; SI: s_load_dwordx2 [[B:s\[[0-9]+:[0-9]+\]]]			; GCN: s_load_dwordx2 [[B:s\[[0-9]+:[0-9]+\]]]
	; SI-DAG: v_max_f64 [[QUIETA:v\[[0-9]+:[0-9]+\]]], [[A]], [[A]]
	; SI-DAG: v_max_f64 [[QUIETB:v\[[0-9]+:[0-9]+\]]], [[B]], [[B]]			; GCN-DAG: v_max_f64 [[QUIETA:v\[[0-9]+:[0-9]+\]]], [[A]], [[A]]
	; SI: v_min_f64 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[QUIETA]], [[QUIETB]]			; GCN-DAG: v_max_f64 [[QUIETB:v\[[0-9]+:[0-9]+\]]], [[B]], [[B]]
	define amdgpu_kernel void @test_fmin_f64_ieee([8 x i32], double %a, [8 x i32], double %b) nounwind {
				; GCN: v_min_f64 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[QUIETA]], [[QUIETB]]
				define amdgpu_kernel void @test_fmin_f64_ieee_noflush([8 x i32], double %a, [8 x i32], double %b) #1 {
				%val = call double @llvm.minnum.f64(double %a, double %b) #0
				store double %val, double addrspace(1)* undef, align 8
				ret void
				}

				; GCN-LABEL: {{^}}test_fmin_f64_ieee_flush:
				; GCN: s_load_dwordx2 [[A:s\[[0-9]+:[0-9]+\]]]
				; GCN: s_load_dwordx2 [[B:s\[[0-9]+:[0-9]+\]]]
				; GFX678-DAG: v_mul_f64 [[QUIETA:v\[[0-9]+:[0-9]+\]]], 1.0, [[A]]
				; GFX678-DAG: v_mul_f64 [[QUIETB:v\[[0-9]+:[0-9]+\]]], 1.0, [[B]]

				; GFX9-DAG: v_max_f64 [[QUIETA:v\[[0-9]+:[0-9]+\]]], [[A]], [[A]]
				; GFX9-DAG: v_max_f64 [[QUIETB:v\[[0-9]+:[0-9]+\]]], [[B]], [[B]]

				; GCN: v_min_f64 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[QUIETA]], [[QUIETB]]
				define amdgpu_kernel void @test_fmin_f64_ieee_flush([8 x i32], double %a, [8 x i32], double %b) #2 {
	%val = call double @llvm.minnum.f64(double %a, double %b) #0			%val = call double @llvm.minnum.f64(double %a, double %b) #0
	store double %val, double addrspace(1)* undef, align 8			store double %val, double addrspace(1)* undef, align 8
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_fmin_f64_no_ieee:			; GCN-LABEL: {{^}}test_fmin_f64_no_ieee:
	; SI: ds_read_b64 [[VAL0:v\[[0-9]+:[0-9]+\]]]			; GCN: ds_read_b64 [[VAL0:v\[[0-9]+:[0-9]+\]]]
	; SI: ds_read_b64 [[VAL1:v\[[0-9]+:[0-9]+\]]]			; GCN: ds_read_b64 [[VAL1:v\[[0-9]+:[0-9]+\]]]
	; SI-NOT: [[VAL0]]			; GCN-NOT: [[VAL0]]
	; SI-NOT: [[VAL1]]			; GCN-NOT: [[VAL1]]
	; SI: v_min_f64 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[VAL0]], [[VAL1]]			; GCN: v_min_f64 [[RESULT:v\[[0-9]+:[0-9]+\]]], [[VAL0]], [[VAL1]]
	; SI-NOT: [[RESULT]]			; GCN-NOT: [[RESULT]]
	; SI: ds_write_b64 v{{[0-9]+}}, [[RESULT]]			; GCN: ds_write_b64 v{{[0-9]+}}, [[RESULT]]
	define amdgpu_ps void @test_fmin_f64_no_ieee() nounwind {			define amdgpu_ps void @test_fmin_f64_no_ieee() nounwind {
	%a = load volatile double, double addrspace(3)* undef			%a = load volatile double, double addrspace(3)* undef
	%b = load volatile double, double addrspace(3)* undef			%b = load volatile double, double addrspace(3)* undef
	%val = call double @llvm.minnum.f64(double %a, double %b) #0			%val = call double @llvm.minnum.f64(double %a, double %b) #0
	store volatile double %val, double addrspace(3)* undef			store volatile double %val, double addrspace(3)* undef
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_fmin_v2f64:			; GCN-LABEL: {{^}}test_fmin_v2f64:
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	define amdgpu_kernel void @test_fmin_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, <2 x double> %b) nounwind {			define amdgpu_kernel void @test_fmin_v2f64(<2 x double> addrspace(1)* %out, <2 x double> %a, <2 x double> %b) nounwind {
	%val = call <2 x double> @llvm.minnum.v2f64(<2 x double> %a, <2 x double> %b) #0			%val = call <2 x double> @llvm.minnum.v2f64(<2 x double> %a, <2 x double> %b) #0
	store <2 x double> %val, <2 x double> addrspace(1)* %out, align 16			store <2 x double> %val, <2 x double> addrspace(1)* %out, align 16
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_fmin_v4f64:			; GCN-LABEL: {{^}}test_fmin_v4f64:
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	define amdgpu_kernel void @test_fmin_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, <4 x double> %b) nounwind {			define amdgpu_kernel void @test_fmin_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %a, <4 x double> %b) nounwind {
	%val = call <4 x double> @llvm.minnum.v4f64(<4 x double> %a, <4 x double> %b) #0			%val = call <4 x double> @llvm.minnum.v4f64(<4 x double> %a, <4 x double> %b) #0
	store <4 x double> %val, <4 x double> addrspace(1)* %out, align 32			store <4 x double> %val, <4 x double> addrspace(1)* %out, align 32
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_fmin_v8f64:			; GCN-LABEL: {{^}}test_fmin_v8f64:
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	define amdgpu_kernel void @test_fmin_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, <8 x double> %b) nounwind {			define amdgpu_kernel void @test_fmin_v8f64(<8 x double> addrspace(1)* %out, <8 x double> %a, <8 x double> %b) nounwind {
	%val = call <8 x double> @llvm.minnum.v8f64(<8 x double> %a, <8 x double> %b) #0			%val = call <8 x double> @llvm.minnum.v8f64(<8 x double> %a, <8 x double> %b) #0
	store <8 x double> %val, <8 x double> addrspace(1)* %out, align 64			store <8 x double> %val, <8 x double> addrspace(1)* %out, align 64
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}test_fmin_v16f64:			; GCN-LABEL: {{^}}test_fmin_v16f64:
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	; SI: v_min_f64			; GCN: v_min_f64
	define amdgpu_kernel void @test_fmin_v16f64(<16 x double> addrspace(1)* %out, <16 x double> %a, <16 x double> %b) nounwind {			define amdgpu_kernel void @test_fmin_v16f64(<16 x double> addrspace(1)* %out, <16 x double> %a, <16 x double> %b) nounwind {
	%val = call <16 x double> @llvm.minnum.v16f64(<16 x double> %a, <16 x double> %b) #0			%val = call <16 x double> @llvm.minnum.v16f64(<16 x double> %a, <16 x double> %b) #0
	store <16 x double> %val, <16 x double> addrspace(1)* %out, align 128			store <16 x double> %val, <16 x double> addrspace(1)* %out, align 128
	ret void			ret void
	}			}

	attributes #0 = { nounwind readnone }			attributes #0 = { nounwind readnone }
				attributes #1 = { nounwind "denormal-fp-math"="ieee,ieee" }
				attributes #2 = { nounwind "denormal-fp-math"="preserve-sign,preserve-sign" }