This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Use v_max_f* for fcanonicalize
ClosedPublic

Authored by rampitec on Aug 17 2017, 6:01 PM.

Download Raw Diff

Details

Reviewers

arsenm
b-sumner
msearles

Commits

rG06cab79e5000: [AMDGPU] Use v_max_f* for fcanonicalize
rL312095: [AMDGPU] Use v_max_f* for fcanonicalize

Summary

If denorms are not flushed we can use max instead of multiplication
by 1. For double that is simply faster, while for float and half
it is shorter, because mul uses constant bus and VOP3.

Diff Detail

Repository: rL LLVM

Event Timeline

rampitec created this revision.Aug 17 2017, 6:01 PM

Herald added subscribers: t-tye, tpr, dstuttard and 4 others. · View Herald TranscriptAug 17 2017, 6:01 PM

Ping

rampitec added a reviewer: msearles.Aug 23 2017, 10:44 PM

arsenm added inline comments.Aug 25 2017, 9:12 AM

lib/Target/AMDGPU/AMDGPUInstructions.td
45–47 ↗	(On Diff #111594)	How / why this change?
lib/Target/AMDGPU/SIInstructions.td
1280–1285 ↗	(On Diff #111594)	I think it would be clearer to have let Predicates = [NoFP16Denormals] rather than relying on AddedComplexity to prefer one pattern over the other
test/CodeGen/AMDGPU/fcanonicalize-denorms.ll
8 ↗	(On Diff #111594)	Can you merge this with fcanonicalize.ll? That one avoids multiple run lines by using the attributes on the different functions

rampitec added inline comments.Aug 25 2017, 10:09 AM

lib/Target/AMDGPU/AMDGPUInstructions.td
45–47 ↗	(On Diff #111594)	These predicates were previously unused, thus error went undetected.
test/CodeGen/AMDGPU/fcanonicalize-denorms.ll
8 ↗	(On Diff #111594)	fcnonicalize.ll defaults to SI, to it cannot lower f16 tests. I can change it to tonga.

Added predicates NoFP??Denormals.

Merged test into fcanonicalize.ll.

Ping

Looks fine to me; I suggested using max since it is faster in many cases.

LGTM

This revision is now accepted and ready to land.Aug 29 2017, 5:17 PM

Closed by commit rL312095: [AMDGPU] Use v_max_f* for fcanonicalize (authored by rampitec). · Explain WhyAug 29 2017, 8:05 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

trunk/

lib/

Target/

AMDGPU/

AMDGPUInstructions.td

9 lines

SIInstructions.td

27 lines

test/

CodeGen/

AMDGPU/

fcanonicalize-elimination.ll

15 lines

fcanonicalize.f16.ll

38 lines

fcanonicalize.ll

88 lines

Diff 113191

llvm/trunk/lib/Target/AMDGPU/AMDGPUInstructions.td

	Show All 36 Lines
	}			}

	class AMDGPUShaderInst <dag outs, dag ins, string asm = "",			class AMDGPUShaderInst <dag outs, dag ins, string asm = "",
	list<dag> pattern = []> : AMDGPUInst<outs, ins, asm, pattern> {			list<dag> pattern = []> : AMDGPUInst<outs, ins, asm, pattern> {

	field bits<32> Inst = 0xffffffff;			field bits<32> Inst = 0xffffffff;
	}			}

	def FP16Denormals : Predicate<"Subtarget.hasFP16Denormals()">;			def FP16Denormals : Predicate<"Subtarget->hasFP16Denormals()">;
	def FP32Denormals : Predicate<"Subtarget.hasFP32Denormals()">;			def FP32Denormals : Predicate<"Subtarget->hasFP32Denormals()">;
	def FP64Denormals : Predicate<"Subtarget.hasFP64Denormals()">;			def FP64Denormals : Predicate<"Subtarget->hasFP64Denormals()">;
				def NoFP16Denormals : Predicate<"!Subtarget->hasFP16Denormals()">;
				def NoFP32Denormals : Predicate<"!Subtarget->hasFP32Denormals()">;
				def NoFP64Denormals : Predicate<"!Subtarget->hasFP64Denormals()">;
	def UnsafeFPMath : Predicate<"TM.Options.UnsafeFPMath">;			def UnsafeFPMath : Predicate<"TM.Options.UnsafeFPMath">;

	def InstFlag : OperandWithDefaultOps <i32, (ops (i32 0))>;			def InstFlag : OperandWithDefaultOps <i32, (ops (i32 0))>;
	def ADDRIndirect : ComplexPattern<iPTR, 2, "SelectADDRIndirect", [], []>;			def ADDRIndirect : ComplexPattern<iPTR, 2, "SelectADDRIndirect", [], []>;

	def u16ImmTarget : AsmOperandClass {			def u16ImmTarget : AsmOperandClass {
	let Name = "U16Imm";			let Name = "U16Imm";
	let RenderMethod = "addImmOperands";			let RenderMethod = "addImmOperands";
	▲ Show 20 Lines • Show All 678 Lines • Show Last 20 Lines

llvm/trunk/lib/Target/AMDGPU/SIInstructions.td

Show First 20 Lines • Show All 1,272 Lines • ▼ Show 20 Lines	def : Pat <
(BFM $a, (MOV (i32 0)))		(BFM $a, (MOV (i32 0)))
>;		>;
}		}

defm : BFMPatterns <i32, S_BFM_B32, S_MOV_B32>;		defm : BFMPatterns <i32, S_BFM_B32, S_MOV_B32>;
// FIXME: defm : BFMPatterns <i64, S_BFM_B64, S_MOV_B64>;		// FIXME: defm : BFMPatterns <i64, S_BFM_B64, S_MOV_B64>;
defm : BFEPattern <V_BFE_U32, V_BFE_I32, S_MOV_B32>;		defm : BFEPattern <V_BFE_U32, V_BFE_I32, S_MOV_B32>;

		let Predicates = [NoFP16Denormals] in {
def : Pat<		def : Pat<
(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),		(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),
(V_MUL_F16_e64 0, (i32 CONST.FP16_ONE), $src_mods, $src, 0, 0)		(V_MUL_F16_e64 0, (i32 CONST.FP16_ONE), $src_mods, $src, 0, 0)
>;		>;
		}

		let Predicates = [FP16Denormals] in {
		def : Pat<
		(fcanonicalize (f16 (VOP3Mods f16:$src, i32:$src_mods))),
		(V_MAX_F16_e64 $src_mods, $src, $src_mods, $src, 0, 0)
		>;
		}

		let Predicates = [NoFP32Denormals] in {
def : Pat<		def : Pat<
(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),		(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),
(V_MUL_F32_e64 0, (i32 CONST.FP32_ONE), $src_mods, $src, 0, 0)		(V_MUL_F32_e64 0, (i32 CONST.FP32_ONE), $src_mods, $src, 0, 0)
>;		>;
		}

		let Predicates = [FP32Denormals] in {
		def : Pat<
		(fcanonicalize (f32 (VOP3Mods f32:$src, i32:$src_mods))),
		(V_MAX_F32_e64 $src_mods, $src, $src_mods, $src, 0, 0)
		>;
		}

		let Predicates = [NoFP64Denormals] in {
def : Pat<		def : Pat<
(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),		(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),
(V_MUL_F64 0, CONST.FP64_ONE, $src_mods, $src, 0, 0)		(V_MUL_F64 0, CONST.FP64_ONE, $src_mods, $src, 0, 0)
>;		>;
		}

		let Predicates = [FP64Denormals] in {
		def : Pat<
		(fcanonicalize (f64 (VOP3Mods f64:$src, i32:$src_mods))),
		(V_MAX_F64 $src_mods, $src, $src_mods, $src, 0, 0)
		>;
		}

def : Pat<		def : Pat<
(fcanonicalize (v2f16 (VOP3PMods v2f16:$src, i32:$src_mods))),		(fcanonicalize (v2f16 (VOP3PMods v2f16:$src, i32:$src_mods))),
(V_PK_MUL_F16 SRCMODS.OP_SEL_1, (i32 CONST.V2FP16_ONE), $src_mods, $src, DSTCLAMP.NONE)		(V_PK_MUL_F16 SRCMODS.OP_SEL_1, (i32 CONST.V2FP16_ONE), $src_mods, $src, DSTCLAMP.NONE)
>;		>;


// Allow integer inputs		// Allow integer inputs
▲ Show 20 Lines • Show All 176 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/fcanonicalize-elimination.ll

; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs -mattr=-fp32-denormals < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=GCN-FLUSH %s		; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs -mattr=-fp32-denormals < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=GCN-FLUSH %s
; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs -mattr=-fp32-denormals,+fp-exceptions < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-EXCEPT -check-prefix=VI -check-prefix=GCN-FLUSH %s		; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs -mattr=-fp32-denormals,+fp-exceptions < %s \| FileCheck -check-prefix=GCN -check-prefix=GCN-EXCEPT -check-prefix=VI -check-prefix=GCN-FLUSH %s
; RUN: llc -march=amdgcn -mcpu=gfx901 -verify-machineinstrs -mattr=+fp32-denormals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GFX9-DENORM %s		; RUN: llc -march=amdgcn -mcpu=gfx901 -verify-machineinstrs -mattr=+fp32-denormals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GFX9-DENORM %s
; RUN: llc -march=amdgcn -mcpu=gfx901 -verify-machineinstrs -mattr=-fp32-denormals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GCN-FLUSH %s		; RUN: llc -march=amdgcn -mcpu=gfx901 -verify-machineinstrs -mattr=-fp32-denormals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 -check-prefix=GCN-FLUSH %s

; GCN-LABEL: {{^}}test_no_fold_canonicalize_loaded_value_f32:		; GCN-LABEL: {{^}}test_no_fold_canonicalize_loaded_value_f32:
; GCN: v_mul_f32_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}		; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, 1.0, v{{[0-9]+}}
		; GFX9-DENORM: v_max_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @test_no_fold_canonicalize_loaded_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_no_fold_canonicalize_loaded_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%v = load float, float addrspace(1)* %gep, align 4		%v = load float, float addrspace(1)* %gep, align 4
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}
▲ Show 20 Lines • Show All 108 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_fmuladd_value_f32(float addrspace(1)* %arg) {
%v = call float @llvm.fmuladd.f32(float %load, float 15.0, float 15.0)		%v = call float @llvm.fmuladd.f32(float %load, float 15.0, float 15.0)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_canonicalize_value_f32:		; GCN-LABEL: test_fold_canonicalize_canonicalize_value_f32:
; GCN: {{flat\|global}}_load_dword [[LOAD:v[0-9]+]],		; GCN: {{flat\|global}}_load_dword [[LOAD:v[0-9]+]],
; GCN: v_mul_f32_e32 [[V:v[0-9]+]], 1.0, [[LOAD]]		; GCN-FLUSH: v_mul_f32_e32 [[V:v[0-9]+]], 1.0, [[LOAD]]
		; GCN-DENORM: v_max_f32_e32 [[V:v[0-9]+]], [[LOAD]], [[LOAD]]
; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]		; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]
; GCN-NOT: 1.0		; GCN-NOT: 1.0
define amdgpu_kernel void @test_fold_canonicalize_canonicalize_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_canonicalize_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = call float @llvm.canonicalize.f32(float %load)		%v = call float @llvm.canonicalize.f32(float %load)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_fpround_value_v2f16_v2f32(<2 x float> addrspace(1)* %arg, <2 x half> addrspace(1)* %out) {
%v = fptrunc <2 x float> %load to <2 x half>		%v = fptrunc <2 x float> %load to <2 x half>
%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)		%canonicalized = tail call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %v)
%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id		%gep2 = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i32 %id
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 4		store <2 x half> %canonicalized, <2 x half> addrspace(1)* %gep2, align 4
ret void		ret void
}		}

; GCN-LABEL: test_no_fold_canonicalize_fneg_value_f32:		; GCN-LABEL: test_no_fold_canonicalize_fneg_value_f32:
; GCN: v_mul_f32_e64 v{{[0-9]+}}, 1.0, -v{{[0-9]+}}		; GCN-FLUSH: v_mul_f32_e64 v{{[0-9]+}}, 1.0, -v{{[0-9]+}}
		; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, -v{{[0-9]+}}, -v{{[0-9]+}}
define amdgpu_kernel void @test_no_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_no_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = fsub float -0.0, %load		%v = fsub float -0.0, %load
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
Show All 10 Lines	define amdgpu_kernel void @test_fold_canonicalize_fneg_value_f32(float addrspace(1)* %arg) {
%v0 = fadd float %load, 0.0		%v0 = fadd float %load, 0.0
%v = fsub float -0.0, %v0		%v = fsub float -0.0, %v0
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_no_fold_canonicalize_fabs_value_f32:		; GCN-LABEL: test_no_fold_canonicalize_fabs_value_f32:
; GCN: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|		; GCN-FLUSH: v_mul_f32_e64 v{{[0-9]+}}, 1.0, \|v{{[0-9]+}}\|
		; GCN-DENORM: v_max_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|v{{[0-9]+}}\|
define amdgpu_kernel void @test_no_fold_canonicalize_fabs_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_no_fold_canonicalize_fabs_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = tail call float @llvm.fabs.f32(float %load)		%v = tail call float @llvm.fabs.f32(float %load)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
▲ Show 20 Lines • Show All 110 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @test_fold_canonicalize_minnum_value_f32(float addrspace(1)* %arg) {
%v = tail call float @llvm.minnum.f32(float %v0, float 0.0)		%v = tail call float @llvm.minnum.f32(float %v0, float 0.0)
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
ret void		ret void
}		}

; GCN-LABEL: test_fold_canonicalize_sNaN_value_f32:		; GCN-LABEL: test_fold_canonicalize_sNaN_value_f32:
; GCN: v_min_f32_e32 [[V0:v[0-9]+]], 0x7f800001, v{{[0-9]+}}		; GCN: v_min_f32_e32 [[V0:v[0-9]+]], 0x7f800001, v{{[0-9]+}}
; GCN: v_mul_f32_e32 v{{[0-9]+}}, 1.0, [[V0]]		; GCN-FLUSH: v_mul_f32_e32 v{{[0-9]+}}, 1.0, [[V0]]
		; GCN-DENORM: v_max_f32_e32 v{{[0-9]+}}, [[V0]], [[V0]]
; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]		; GCN: {{flat\|global}}_store_dword v[{{[0-9:]+}}], [[V]]
define amdgpu_kernel void @test_fold_canonicalize_sNaN_value_f32(float addrspace(1)* %arg) {		define amdgpu_kernel void @test_fold_canonicalize_sNaN_value_f32(float addrspace(1)* %arg) {
%id = tail call i32 @llvm.amdgcn.workitem.id.x()		%id = tail call i32 @llvm.amdgcn.workitem.id.x()
%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id		%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
%load = load float, float addrspace(1)* %gep, align 4		%load = load float, float addrspace(1)* %gep, align 4
%v = tail call float @llvm.minnum.f32(float %load, float bitcast (i32 2139095041 to float))		%v = tail call float @llvm.minnum.f32(float %load, float bitcast (i32 2139095041 to float))
%canonicalized = tail call float @llvm.canonicalize.f32(float %v)		%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
store float %canonicalized, float addrspace(1)* %gep, align 4		store float %canonicalized, float addrspace(1)* %gep, align 4
▲ Show 20 Lines • Show All 149 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/fcanonicalize.f16.ll

	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI %s
	; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s

	declare half @llvm.fabs.f16(half) #0			declare half @llvm.fabs.f16(half) #0
	declare half @llvm.canonicalize.f16(half) #0			declare half @llvm.canonicalize.f16(half) #0
	declare <2 x half> @llvm.fabs.v2f16(<2 x half>) #0			declare <2 x half> @llvm.fabs.v2f16(<2 x half>) #0
	declare <2 x half> @llvm.canonicalize.v2f16(<2 x half>) #0			declare <2 x half> @llvm.canonicalize.v2f16(<2 x half>) #0
	declare i32 @llvm.amdgcn.workitem.id.x() #0			declare i32 @llvm.amdgcn.workitem.id.x() #0


	; GCN-LABEL: {{^}}v_test_canonicalize_var_f16:			; GCN-LABEL: {{^}}v_test_canonicalize_var_f16:
	; GCN: v_mul_f16_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}			; GCN: v_max_f16_e32 [[REG:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_var_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_var_f16(half addrspace(1)* %out) #1 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%canonicalized = call half @llvm.canonicalize.f16(half %val)			%canonicalized = call half @llvm.canonicalize.f16(half %val)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_test_canonicalize_var_f16:			; GCN-LABEL: {{^}}s_test_canonicalize_var_f16:
	; GCN: v_mul_f16_e64 [[REG:v[0-9]+]], 1.0, {{s[0-9]+}}			; GCN: v_max_f16_e64 [[REG:v[0-9]+]], {{s[0-9]+}}, {{s[0-9]+}}
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @s_test_canonicalize_var_f16(half addrspace(1)* %out, i16 zeroext %val.arg) #1 {			define amdgpu_kernel void @s_test_canonicalize_var_f16(half addrspace(1)* %out, i16 zeroext %val.arg) #1 {
	%val = bitcast i16 %val.arg to half			%val = bitcast i16 %val.arg to half
	%canonicalized = call half @llvm.canonicalize.f16(half %val)			%canonicalized = call half @llvm.canonicalize.f16(half %val)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f16:
	; GCN: v_mul_f16_e64 [[REG:v[0-9]+]], 1.0, \|{{v[0-9]+}}\|			; GCN: v_max_f16_e64 [[REG:v[0-9]+]], \|{{v[0-9]+}}\|, \|{{v[0-9]+}}\|
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fabs_var_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fabs_var_f16(half addrspace(1)* %out) #1 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fabs = call half @llvm.fabs.f16(half %val)			%val.fabs = call half @llvm.fabs.f16(half %val)
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f16:
	; GCN: v_mul_f16_e64 [[REG:v[0-9]+]], 1.0, -\|{{v[0-9]+}}\|			; GCN: v_max_f16_e64 [[REG:v[0-9]+]], -\|{{v[0-9]+}}\|, -\|{{v[0-9]+}}\|
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f16(half addrspace(1)* %out) #1 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fabs = call half @llvm.fabs.f16(half %val)			%val.fabs = call half @llvm.fabs.f16(half %val)
	%val.fabs.fneg = fsub half -0.0, %val.fabs			%val.fabs.fneg = fsub half -0.0, %val.fabs
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs.fneg)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fabs.fneg)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f16:
	; GCN: v_mul_f16_e64 [[REG:v[0-9]+]], 1.0, -{{v[0-9]+}}			; GCN: v_max_f16_e64 [[REG:v[0-9]+]], -{{v[0-9]+}}, -{{v[0-9]+}}
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_f16(half addrspace(1)* %out) #1 {
	%val = load half, half addrspace(1)* %out			%val = load half, half addrspace(1)* %out
	%val.fneg = fsub half -0.0, %val			%val.fneg = fsub half -0.0, %val
	%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)			%canonicalized = call half @llvm.canonicalize.f16(half %val.fneg)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 138 Lines • ▼ Show 20 Lines
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f16(half addrspace(1)* %out) #1 {
	%canonicalized = call half @llvm.canonicalize.f16(half 0xHFC01)			%canonicalized = call half @llvm.canonicalize.f16(half 0xHFC01)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_var_v2f16:
	; VI: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00			; VI-DAG: v_max_f16_sdwa [[REG0:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_mul_f16_sdwa [[REG0:v[0-9]+]], v[[CONST1]], {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_max_f16_e32 [[REG1:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}}
	; VI-DAG: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, {{v[0-9]+}}
	; VI-NOT: v_and_b32			; VI-NOT: v_and_b32

	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid			%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid
	%val = load <2 x half>, <2 x half> addrspace(1)* %gep			%val = load <2 x half>, <2 x half> addrspace(1)* %gep
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Fold modifier			; FIXME: Fold modifier
	; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_v2f16:
	; VI-DAG: v_bfe_u32			; VI-DAG: v_bfe_u32
	; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0x7fff7fff, v{{[0-9]+}}			; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0x7fff7fff, v{{[0-9]+}}
	; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00			; VI: v_max_f16_sdwa [[REG0:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_mul_f16_sdwa [[REG0:v[0-9]+]], v[[CONST1]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_max_f16_e32 [[REG1:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}}
	; VI: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, v{{[0-9]+}}
	; VI-NOT: 0xffff			; VI-NOT: 0xffff
	; VI: v_or_b32			; VI: v_or_b32

	; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}			; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}
	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]]{{$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]]{{$}}
	; GCN: buffer_store_dword			; GCN: buffer_store_dword
	define amdgpu_kernel void @v_test_canonicalize_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid			%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid
	%val = load <2 x half>, <2 x half> addrspace(1)* %gep			%val = load <2 x half>, <2 x half> addrspace(1)* %gep
	%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)			%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_v2f16:
	; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
	; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, 0x80008000, v{{[0-9]+}}			; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, 0x80008000, v{{[0-9]+}}
	; VI-DAG: v_mul_f16_sdwa [[REG0:v[0-9]+]], v[[CONST1]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_max_f16_sdwa [[REG0:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, v{{[0-9]+}}			; VI-DAG: v_max_f16_e32 [[REG1:v[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}}
	; VI: v_or_b32			; VI: v_or_b32

	; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}			; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}
	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]] neg_lo:[0,1] neg_hi:[0,1]{{$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]] neg_lo:[0,1] neg_hi:[0,1]{{$}}
	; GCN: buffer_store_dword			; GCN: buffer_store_dword
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid			%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid
	%val = load <2 x half>, <2 x half> addrspace(1)* %gep			%val = load <2 x half>, <2 x half> addrspace(1)* %gep
	%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)			%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)
	%val.fabs.fneg = fsub <2 x half> <half -0.0, half -0.0>, %val.fabs			%val.fabs.fneg = fsub <2 x half> <half -0.0, half -0.0>, %val.fabs
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs.fneg)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs.fneg)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Fold modifier			; FIXME: Fold modifier
	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_v2f16:
	; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00			; VI: v_xor_b32_e32 [[FNEG:v[0-9]+]], 0x80008000, v{{[0-9]+}}
	; VI-DAG: v_xor_b32_e32 [[FNEG:v[0-9]+]], 0x80008000, v{{[0-9]+}}			; VI: v_lshrrev_b32_e32 [[FNEGHI:v[0-9]+]], 16, [[FNEG]]
	; VI-DAG: v_mul_f16_sdwa [[REG1:v[0-9]+]], v[[CONST1]], [[FNEG]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_max_f16_sdwa [[REG1:v[0-9]+]], [[FNEG]], [[FNEGHI]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_mul_f16_e32 [[REG0:v[0-9]+]], 1.0, [[FNEG]]			; VI-DAG: v_max_f16_e32 [[REG0:v[0-9]+]], [[FNEG]], [[FNEG]]
	; VI-NOT: 0xffff			; VI-NOT: 0xffff

	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}} neg_lo:[0,1] neg_hi:[0,1]{{$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}} neg_lo:[0,1] neg_hi:[0,1]{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid			%gep = getelementptr <2 x half>, <2 x half> addrspace(1)* %out, i32 %tid
	%val = load <2 x half>, <2 x half> addrspace(1)* %gep			%val = load <2 x half>, <2 x half> addrspace(1)* %gep
	%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val			%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_test_canonicalize_var_v2f16:			; GCN-LABEL: {{^}}s_test_canonicalize_var_v2f16:
	; VI: v_mov_b32_e32 [[ONE:v[0-9]+]], 0x3c00			; VI: v_max_f16_sdwa [[REG0:v[0-9]+]], {{v[0-9]+}}, {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_mul_f16_sdwa [[REG0:v[0-9]+]], [[ONE]], {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_max_f16_e64 [[REG1:v[0-9]+]], {{s[0-9]+}}, {{s[0-9]+}}
	; VI: v_mul_f16_e64 [[REG1:v[0-9]+]], 1.0, {{s[0-9]+}}
	; VI-NOT: v_and_b32			; VI-NOT: v_and_b32

	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{s[0-9]+$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{s[0-9]+$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]
	define amdgpu_kernel void @s_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out, i32 zeroext %val.arg) #1 {			define amdgpu_kernel void @s_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out, i32 zeroext %val.arg) #1 {
	%val = bitcast i32 %val.arg to <2 x half>			%val = bitcast i32 %val.arg to <2 x half>
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/trunk/test/CodeGen/AMDGPU/fcanonicalize.ll

	; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -amdgpu-scalarize-global-loads=false -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	declare float @llvm.fabs.f32(float) #0			declare float @llvm.fabs.f32(float) #0
	declare float @llvm.canonicalize.f32(float) #0			declare float @llvm.canonicalize.f32(float) #0
	declare double @llvm.fabs.f64(double) #0			declare double @llvm.fabs.f64(double) #0
	declare double @llvm.canonicalize.f64(double) #0			declare double @llvm.canonicalize.f64(double) #0
				declare half @llvm.canonicalize.f16(half) #0
				declare i32 @llvm.amdgcn.workitem.id.x() #0

	; GCN-LABEL: {{^}}v_test_canonicalize_var_f32:			; GCN-LABEL: {{^}}v_test_canonicalize_var_f32:
	; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}			; GCN: v_mul_f32_e32 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}}
	; GCN: buffer_store_dword [[REG]]			; GCN: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_var_f32(float addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_var_f32(float addrspace(1)* %out) #1 {
	%val = load float, float addrspace(1)* %out			%val = load float, float addrspace(1)* %out
	%canonicalized = call float @llvm.canonicalize.f32(float %val)			%canonicalized = call float @llvm.canonicalize.f32(float %val)
	store float %canonicalized, float addrspace(1)* %out			store float %canonicalized, float addrspace(1)* %out
	▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
	; GCN: buffer_store_dword [[REG]]			; GCN: buffer_store_dword [[REG]]
	define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f32(float addrspace(1)* %out) #1 {			define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f32(float addrspace(1)* %out) #1 {
	%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 4290772991 to float))			%canonicalized = call float @llvm.canonicalize.f32(float bitcast (i32 4290772991 to float))
	store float %canonicalized, float addrspace(1)* %out			store float %canonicalized, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_var_f64:			; GCN-LABEL: {{^}}v_test_canonicalize_var_f64:
	; GCN: v_mul_f64 [[REG:v\[[0-9]+:[0-9]+\]]], 1.0, {{v\[[0-9]+:[0-9]+\]}}			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_var_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_var_f64(double addrspace(1)* %out) #1 {
	%val = load double, double addrspace(1)* %out			%val = load double, double addrspace(1)* %out
	%canonicalized = call double @llvm.canonicalize.f64(double %val)			%canonicalized = call double @llvm.canonicalize.f64(double %val)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_test_canonicalize_var_f64:			; GCN-LABEL: {{^}}s_test_canonicalize_var_f64:
	; GCN: v_mul_f64 [[REG:v\[[0-9]+:[0-9]+\]]], 1.0, {{s\[[0-9]+:[0-9]+\]}}			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @s_test_canonicalize_var_f64(double addrspace(1)* %out, double %val) #1 {			define amdgpu_kernel void @s_test_canonicalize_var_f64(double addrspace(1)* %out, double %val) #1 {
	%canonicalized = call double @llvm.canonicalize.f64(double %val)			%canonicalized = call double @llvm.canonicalize.f64(double %val)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f64:			; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_f64:
	; GCN: v_mul_f64 [[REG:v\[[0-9]+:[0-9]+\]]], 1.0, \|{{v\[[0-9]+:[0-9]+\]}}\|			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], \|{{v\[[0-9]+:[0-9]+\]}}\|, \|{{v\[[0-9]+:[0-9]+\]}}\|
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fabs_var_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fabs_var_f64(double addrspace(1)* %out) #1 {
	%val = load double, double addrspace(1)* %out			%val = load double, double addrspace(1)* %out
	%val.fabs = call double @llvm.fabs.f64(double %val)			%val.fabs = call double @llvm.fabs.f64(double %val)
	%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs)			%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f64:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_f64:
	; GCN: v_mul_f64 [[REG:v\[[0-9]+:[0-9]\]]], 1.0, -\|{{v\[[0-9]+:[0-9]+\]}}\|			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]\]]], -\|{{v\[[0-9]+:[0-9]+\]}}\|, -\|{{v\[[0-9]+:[0-9]+\]}}\|
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_f64(double addrspace(1)* %out) #1 {
	%val = load double, double addrspace(1)* %out			%val = load double, double addrspace(1)* %out
	%val.fabs = call double @llvm.fabs.f64(double %val)			%val.fabs = call double @llvm.fabs.f64(double %val)
	%val.fabs.fneg = fsub double -0.0, %val.fabs			%val.fabs.fneg = fsub double -0.0, %val.fabs
	%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs.fneg)			%canonicalized = call double @llvm.canonicalize.f64(double %val.fabs.fneg)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f64:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_f64:
	; GCN: v_mul_f64 [[REG:v\[[0-9]+:[0-9]+\]]], 1.0, -{{v\[[0-9]+:[0-9]+\]}}			; GCN: v_max_f64 [[REG:v\[[0-9]+:[0-9]+\]]], -{{v\[[0-9]+:[0-9]+\]}}, -{{v\[[0-9]+:[0-9]+\]}}
	; GCN: buffer_store_dwordx2 [[REG]]			; GCN: buffer_store_dwordx2 [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_f64(double addrspace(1)* %out) #1 {
	%val = load double, double addrspace(1)* %out			%val = load double, double addrspace(1)* %out
	%val.fneg = fsub double -0.0, %val			%val.fneg = fsub double -0.0, %val
	%canonicalized = call double @llvm.canonicalize.f64(double %val.fneg)			%canonicalized = call double @llvm.canonicalize.f64(double %val.fneg)
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 153 Lines • ▼ Show 20 Lines
	; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[LO:[0-9]+]], 0{{$}}
	; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}			; GCN: buffer_store_dwordx2 v{{\[}}[[LO]]:[[HI]]{{\]}}
	define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f64(double addrspace(1)* %out) #1 {			define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f64(double addrspace(1)* %out) #1 {
	%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 18446744073709551615 to double))			%canonicalized = call double @llvm.canonicalize.f64(double bitcast (i64 18446744073709551615 to double))
	store double %canonicalized, double addrspace(1)* %out			store double %canonicalized, double addrspace(1)* %out
	ret void			ret void
	}			}

				; GCN-LABEL: {{^}}test_canonicalize_value_f64_flush:
				; GCN: v_mul_f64 v[{{[0-9:]+}}], 1.0, v[{{[0-9:]+}}]
				define amdgpu_kernel void @test_canonicalize_value_f64_flush(double addrspace(1)* %arg, double addrspace(1)* %out) #4 {
				%id = tail call i32 @llvm.amdgcn.workitem.id.x()
				%gep = getelementptr inbounds double, double addrspace(1)* %arg, i32 %id
				%v = load double, double addrspace(1)* %gep, align 8
				%canonicalized = tail call double @llvm.canonicalize.f64(double %v)
				%gep2 = getelementptr inbounds double, double addrspace(1)* %out, i32 %id
				store double %canonicalized, double addrspace(1)* %gep2, align 8
				ret void
				}

				; GCN-LABEL: {{^}}test_canonicalize_value_f32_flush:
				; GCN: v_mul_f32_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
				define amdgpu_kernel void @test_canonicalize_value_f32_flush(float addrspace(1)* %arg, float addrspace(1)* %out) #4 {
				%id = tail call i32 @llvm.amdgcn.workitem.id.x()
				%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
				%v = load float, float addrspace(1)* %gep, align 4
				%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
				%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id
				store float %canonicalized, float addrspace(1)* %gep2, align 4
				ret void
				}

				; GCN-LABEL: {{^}}test_canonicalize_value_f16_flush:
				; GCN: v_mul_f16_e32 {{v[0-9]+}}, 1.0, {{v[0-9]+}}
				define amdgpu_kernel void @test_canonicalize_value_f16_flush(half addrspace(1)* %arg, half addrspace(1)* %out) #4 {
				%id = tail call i32 @llvm.amdgcn.workitem.id.x()
				%gep = getelementptr inbounds half, half addrspace(1)* %arg, i32 %id
				%v = load half, half addrspace(1)* %gep, align 2
				%canonicalized = tail call half @llvm.canonicalize.f16(half %v)
				%gep2 = getelementptr inbounds half, half addrspace(1)* %out, i32 %id
				store half %canonicalized, half addrspace(1)* %gep2, align 2
				ret void
				}

				; GCN-LABEL: {{^}}test_canonicalize_value_f64_denorm:
				; GCN: v_max_f64 v[{{[0-9:]+}}], v[{{[0-9:]+}}], v[{{[0-9:]+}}]
				define amdgpu_kernel void @test_canonicalize_value_f64_denorm(double addrspace(1)* %arg, double addrspace(1)* %out) #5 {
				%id = tail call i32 @llvm.amdgcn.workitem.id.x()
				%gep = getelementptr inbounds double, double addrspace(1)* %arg, i32 %id
				%v = load double, double addrspace(1)* %gep, align 8
				%canonicalized = tail call double @llvm.canonicalize.f64(double %v)
				%gep2 = getelementptr inbounds double, double addrspace(1)* %out, i32 %id
				store double %canonicalized, double addrspace(1)* %gep2, align 8
				ret void
				}

				; GCN-LABEL: {{^}}test_canonicalize_value_f32_denorm:
				; GCN: v_max_f32_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
				define amdgpu_kernel void @test_canonicalize_value_f32_denorm(float addrspace(1)* %arg, float addrspace(1)* %out) #5 {
				%id = tail call i32 @llvm.amdgcn.workitem.id.x()
				%gep = getelementptr inbounds float, float addrspace(1)* %arg, i32 %id
				%v = load float, float addrspace(1)* %gep, align 4
				%canonicalized = tail call float @llvm.canonicalize.f32(float %v)
				%gep2 = getelementptr inbounds float, float addrspace(1)* %out, i32 %id
				store float %canonicalized, float addrspace(1)* %gep2, align 4
				ret void
				}

				; GCN-LABEL: {{^}}test_canonicalize_value_f16_denorm:
				; GCN: v_max_f16_e32 {{v[0-9]+}}, {{v[0-9]+}}, {{v[0-9]+}}
				define amdgpu_kernel void @test_canonicalize_value_f16_denorm(half addrspace(1)* %arg, half addrspace(1)* %out) #5 {
				%id = tail call i32 @llvm.amdgcn.workitem.id.x()
				%gep = getelementptr inbounds half, half addrspace(1)* %arg, i32 %id
				%v = load half, half addrspace(1)* %gep, align 2
				%canonicalized = tail call half @llvm.canonicalize.f16(half %v)
				%gep2 = getelementptr inbounds half, half addrspace(1)* %out, i32 %id
				store half %canonicalized, half addrspace(1)* %gep2, align 2
				ret void
				}

	attributes #0 = { nounwind readnone }			attributes #0 = { nounwind readnone }
	attributes #1 = { nounwind }			attributes #1 = { nounwind }
	attributes #2 = { nounwind "target-features"="-fp32-denormals,-fp64-fp16-denormals" }			attributes #2 = { nounwind "target-features"="-fp32-denormals,-fp64-fp16-denormals" }
	attributes #3 = { nounwind "target-features"="+fp32-denormals,+fp64-fp16-denormals" }			attributes #3 = { nounwind "target-features"="+fp32-denormals,+fp64-fp16-denormals" }
				attributes #4 = { nounwind "target-features"="-fp32-denormals,-fp64-fp16-denormals" "target-cpu"="tonga" }
				attributes #5 = { nounwind "target-features"="+fp32-denormals,+fp64-fp16-denormals" "target-cpu"="gfx900" }