This is an archive of the discontinued LLVM Phabricator instance.

[ARM] Extra MVE VMLAV reduction patterns
ClosedPublic

Authored by dmgreen on May 25 2020, 9:15 AM.

Download Raw Diff

Details

Reviewers

efriedma
SjoerdMeijer
samparker
simon_tatham
ostannard

Commits

rG747c574b9459: [ARM] Extra MVE VMLAV reduction patterns

Summary

These patterns for i8 and i16 VMLA's were missing. They end up from legalized vector.reduce.add.v8i16 and vector.reduce.add.v16i8, and although the instruction works differently (the mul and add are performed in a higher precision), I believe it is OK because only an i8/i16 are demanded from them, and so the results will be the same. At least, they pass any testing I can think to run on them.

There are some tests that end up looking worse, but are quite artificial due to passing half vector types through a call boundary. I would not expect the vmull to realistically come up like that, and a vmlava is likely better a lot of the time.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.May 25 2020, 9:15 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 25 2020, 9:15 AM

Herald added subscribers: danielkiss, hiraditya, kristof.beyls. · View Herald Transcript

There are some tests that end up looking worse, but are quite artificial due to passing half vector types through a call boundary. I would not expect the vmull to realistically come up like that, and a vmlava is likely better a lot of the time.

Looking at the tests, I think the key distinction in the cases that get "worse" is that sign/zero-extend can be folded into the multiply. It's not really related to the calling convention. That said, not sure how likely that is to come up in practice... I guess if it's produced by a load, we can sign/zero-extend for free?

In D80524#2053955, @efriedma wrote:

There are some tests that end up looking worse, but are quite artificial due to passing half vector types through a call boundary. I would not expect the vmull to realistically come up like that, and a vmlava is likely better a lot of the time.

Looking at the tests, I think the key distinction in the cases that get "worse" is that sign/zero-extend can be folded into the multiply. It's not really related to the calling convention. That said, not sure how likely that is to come up in practice... I guess if it's produced by a load, we can sign/zero-extend for free?

Yes. Specifically it needs to be sign extended from something that already places the lanes in the correct places. MVE doesn't have a normal sign extent instructions like neon (from the bottom 8 lanes of a v16i8 to a v8i16, for example). It can only use top/bottom vmovl's which need the lanes to be in the correct place. A <8 x i8> through a call boundary is actually (apparently) a 128bit vector with widened lanes, hence my comment about the calling convention. Otherwise the extend wouldn't match and we wouldn't produce a vmull anyway. A vmovlb is really a

%s = shufflevector <16 x i8> %src, <16 x i8> undef, <8 x i32> <i32 0, i32 2, i32 4, i32 6, i32 8, i32 10, i32 12, i32 14>
%ext = sext <8 x i8> %s to <8 x i16>

Until we do lane interleaving (which is in the works but we don't do yet), I wouldn't expect this to come up in practice. Like you said a load/store will likely do the extend for free from most code.

We can always add more specific patterns if it matters, I guess.

LGTM

This revision is now accepted and ready to land.May 26 2020, 11:51 AM

Closed by commit rG747c574b9459: [ARM] Extra MVE VMLAV reduction patterns (authored by dmgreen). · Explain WhyMay 29 2020, 8:40 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

Target/

ARM/

ARMInstrMVE.td

18 lines

test/

CodeGen/

Thumb2/

mve-vecreduce-mla.ll

32 lines

Diff 267258

llvm/lib/Target/ARM/ARMInstrMVE.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 1,013 Lines • ▼ Show 20 Lines
	def ARMVMLALVs : SDNode<"ARMISD::VMLALVs", SDTVecReduce2L>;			def ARMVMLALVs : SDNode<"ARMISD::VMLALVs", SDTVecReduce2L>;
	def ARMVMLALVu : SDNode<"ARMISD::VMLALVu", SDTVecReduce2L>;			def ARMVMLALVu : SDNode<"ARMISD::VMLALVu", SDTVecReduce2L>;
	def ARMVMLALVAs : SDNode<"ARMISD::VMLALVAs", SDTVecReduce2LA>;			def ARMVMLALVAs : SDNode<"ARMISD::VMLALVAs", SDTVecReduce2LA>;
	def ARMVMLALVAu : SDNode<"ARMISD::VMLALVAu", SDTVecReduce2LA>;			def ARMVMLALVAu : SDNode<"ARMISD::VMLALVAu", SDTVecReduce2LA>;

	let Predicates = [HasMVEInt] in {			let Predicates = [HasMVEInt] in {
	def : Pat<(i32 (vecreduce_add (mul (v4i32 MQPR:$src1), (v4i32 MQPR:$src2)))),			def : Pat<(i32 (vecreduce_add (mul (v4i32 MQPR:$src1), (v4i32 MQPR:$src2)))),
	(i32 (MVE_VMLADAVu32 $src1, $src2))>;			(i32 (MVE_VMLADAVu32 $src1, $src2))>;
	def : Pat<(i32 (ARMVMLAVs (v16i8 MQPR:$val1), (v16i8 MQPR:$val2))),			def : Pat<(i32 (vecreduce_add (mul (v8i16 MQPR:$src1), (v8i16 MQPR:$src2)))),
	(i32 (MVE_VMLADAVs8 (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;			(i32 (MVE_VMLADAVu16 $src1, $src2))>;
	def : Pat<(i32 (ARMVMLAVu (v16i8 MQPR:$val1), (v16i8 MQPR:$val2))),
	(i32 (MVE_VMLADAVu8 (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;
	def : Pat<(i32 (ARMVMLAVs (v8i16 MQPR:$val1), (v8i16 MQPR:$val2))),			def : Pat<(i32 (ARMVMLAVs (v8i16 MQPR:$val1), (v8i16 MQPR:$val2))),
	(i32 (MVE_VMLADAVs16 (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;			(i32 (MVE_VMLADAVs16 (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;
	def : Pat<(i32 (ARMVMLAVu (v8i16 MQPR:$val1), (v8i16 MQPR:$val2))),			def : Pat<(i32 (ARMVMLAVu (v8i16 MQPR:$val1), (v8i16 MQPR:$val2))),
	(i32 (MVE_VMLADAVu16 (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;			(i32 (MVE_VMLADAVu16 (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;
				def : Pat<(i32 (vecreduce_add (mul (v16i8 MQPR:$src1), (v16i8 MQPR:$src2)))),
				(i32 (MVE_VMLADAVu8 $src1, $src2))>;
				def : Pat<(i32 (ARMVMLAVs (v16i8 MQPR:$val1), (v16i8 MQPR:$val2))),
				(i32 (MVE_VMLADAVs8 (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;
				def : Pat<(i32 (ARMVMLAVu (v16i8 MQPR:$val1), (v16i8 MQPR:$val2))),
				(i32 (MVE_VMLADAVu8 (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;

	def : Pat<(i32 (add (i32 (vecreduce_add (mul (v4i32 MQPR:$src1), (v4i32 MQPR:$src2)))),			def : Pat<(i32 (add (i32 (vecreduce_add (mul (v4i32 MQPR:$src1), (v4i32 MQPR:$src2)))),
	(i32 tGPREven:$src3))),			(i32 tGPREven:$src3))),
	(i32 (MVE_VMLADAVau32 $src3, $src1, $src2))>;			(i32 (MVE_VMLADAVau32 $src3, $src1, $src2))>;
				def : Pat<(i32 (add (i32 (vecreduce_add (mul (v8i16 MQPR:$src1), (v8i16 MQPR:$src2)))),
				(i32 tGPREven:$src3))),
				(i32 (MVE_VMLADAVau16 $src3, $src1, $src2))>;
	def : Pat<(i32 (add (ARMVMLAVs (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)), tGPREven:$Rd)),			def : Pat<(i32 (add (ARMVMLAVs (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)), tGPREven:$Rd)),
	(i32 (MVE_VMLADAVas16 tGPREven:$Rd, (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;			(i32 (MVE_VMLADAVas16 tGPREven:$Rd, (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;
	def : Pat<(i32 (add (ARMVMLAVu (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)), tGPREven:$Rd)),			def : Pat<(i32 (add (ARMVMLAVu (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)), tGPREven:$Rd)),
	(i32 (MVE_VMLADAVau16 tGPREven:$Rd, (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;			(i32 (MVE_VMLADAVau16 tGPREven:$Rd, (v8i16 MQPR:$val1), (v8i16 MQPR:$val2)))>;
				def : Pat<(i32 (add (i32 (vecreduce_add (mul (v16i8 MQPR:$src1), (v16i8 MQPR:$src2)))),
				(i32 tGPREven:$src3))),
				(i32 (MVE_VMLADAVau8 $src3, $src1, $src2))>;
	def : Pat<(i32 (add (ARMVMLAVs (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)), tGPREven:$Rd)),			def : Pat<(i32 (add (ARMVMLAVs (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)), tGPREven:$Rd)),
	(i32 (MVE_VMLADAVas8 tGPREven:$Rd, (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;			(i32 (MVE_VMLADAVas8 tGPREven:$Rd, (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;
	def : Pat<(i32 (add (ARMVMLAVu (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)), tGPREven:$Rd)),			def : Pat<(i32 (add (ARMVMLAVu (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)), tGPREven:$Rd)),
	(i32 (MVE_VMLADAVau8 tGPREven:$Rd, (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;			(i32 (MVE_VMLADAVau8 tGPREven:$Rd, (v16i8 MQPR:$val1), (v16i8 MQPR:$val2)))>;
	}			}

	// vmlav aliases vmladav			// vmlav aliases vmladav
	foreach acc = ["", "a"] in {			foreach acc = ["", "a"] in {
	▲ Show 20 Lines • Show All 6,158 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-vecreduce-mla.ll

Show First 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	entry:
%m = mul <4 x i32> %xx, %yy		%m = mul <4 x i32> %xx, %yy
%z = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %m)		%z = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %m)
ret i32 %z		ret i32 %z
}		}

define arm_aapcs_vfpcc zeroext i16 @add_v8i16_v8i16(<8 x i16> %x, <8 x i16> %y) {		define arm_aapcs_vfpcc zeroext i16 @add_v8i16_v8i16(<8 x i16> %x, <8 x i16> %y) {
; CHECK-LABEL: add_v8i16_v8i16:		; CHECK-LABEL: add_v8i16_v8i16:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmul.i16 q0, q0, q1		; CHECK-NEXT: vmlav.u16 r0, q0, q1
; CHECK-NEXT: vaddv.u16 r0, q0
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%m = mul <8 x i16> %x, %y		%m = mul <8 x i16> %x, %y
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
ret i16 %z		ret i16 %z
}		}

▲ Show 20 Lines • Show All 285 Lines • ▼ Show 20 Lines	entry:
%m = mul <16 x i16> %xx, %yy		%m = mul <16 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)
ret i16 %z		ret i16 %z
}		}

define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_zext(<8 x i8> %x, <8 x i8> %y) {		define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_zext(<8 x i8> %x, <8 x i8> %y) {
; CHECK-LABEL: add_v8i8_v8i16_zext:		; CHECK-LABEL: add_v8i8_v8i16_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmullb.u8 q0, q0, q1		; CHECK-NEXT: vmovlb.u8 q1, q1
; CHECK-NEXT: vaddv.u16 r0, q0		; CHECK-NEXT: vmovlb.u8 q0, q0
		; CHECK-NEXT: vmlav.u16 r0, q0, q1
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i8> %x to <8 x i16>		%xx = zext <8 x i8> %x to <8 x i16>
%yy = zext <8 x i8> %y to <8 x i16>		%yy = zext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
ret i16 %z		ret i16 %z
}		}

define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_sext(<8 x i8> %x, <8 x i8> %y) {		define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_sext(<8 x i8> %x, <8 x i8> %y) {
; CHECK-LABEL: add_v8i8_v8i16_sext:		; CHECK-LABEL: add_v8i8_v8i16_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmullb.s8 q0, q0, q1		; CHECK-NEXT: vmovlb.s8 q1, q1
; CHECK-NEXT: vaddv.u16 r0, q0		; CHECK-NEXT: vmovlb.s8 q0, q0
		; CHECK-NEXT: vmlav.u16 r0, q0, q1
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i8> %x to <8 x i16>		%xx = sext <8 x i8> %x to <8 x i16>
%yy = sext <8 x i8> %y to <8 x i16>		%yy = sext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
ret i16 %z		ret i16 %z
}		}

define arm_aapcs_vfpcc zeroext i8 @add_v16i8_v16i8(<16 x i8> %x, <16 x i8> %y) {		define arm_aapcs_vfpcc zeroext i8 @add_v16i8_v16i8(<16 x i8> %x, <16 x i8> %y) {
; CHECK-LABEL: add_v16i8_v16i8:		; CHECK-LABEL: add_v16i8_v16i8:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmul.i8 q0, q0, q1		; CHECK-NEXT: vmlav.u8 r0, q0, q1
; CHECK-NEXT: vaddv.u8 r0, q0
; CHECK-NEXT: uxtb r0, r0		; CHECK-NEXT: uxtb r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%m = mul <16 x i8> %x, %y		%m = mul <16 x i8> %x, %y
%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)		%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)
ret i8 %z		ret i8 %z
}		}

▲ Show 20 Lines • Show All 600 Lines • ▼ Show 20 Lines	entry:
%z = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %m)		%z = call i32 @llvm.experimental.vector.reduce.add.v4i32(<4 x i32> %m)
%r = add i32 %z, %a		%r = add i32 %z, %a
ret i32 %r		ret i32 %r
}		}

define arm_aapcs_vfpcc zeroext i16 @add_v8i16_v8i16_acc(<8 x i16> %x, <8 x i16> %y, i16 %a) {		define arm_aapcs_vfpcc zeroext i16 @add_v8i16_v8i16_acc(<8 x i16> %x, <8 x i16> %y, i16 %a) {
; CHECK-LABEL: add_v8i16_v8i16_acc:		; CHECK-LABEL: add_v8i16_v8i16_acc:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmul.i16 q0, q0, q1		; CHECK-NEXT: vmlava.u16 r0, q0, q1
; CHECK-NEXT: vaddva.u16 r0, q0
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%m = mul <8 x i16> %x, %y		%m = mul <8 x i16> %x, %y
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}
▲ Show 20 Lines • Show All 304 Lines • ▼ Show 20 Lines	entry:
%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v16i16(<16 x i16> %m)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}

define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_acc_zext(<8 x i8> %x, <8 x i8> %y, i16 %a) {		define arm_aapcs_vfpcc zeroext i16 @add_v8i8_v8i16_acc_zext(<8 x i8> %x, <8 x i8> %y, i16 %a) {
; CHECK-LABEL: add_v8i8_v8i16_acc_zext:		; CHECK-LABEL: add_v8i8_v8i16_acc_zext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmullb.u8 q0, q0, q1		; CHECK-NEXT: vmovlb.u8 q1, q1
; CHECK-NEXT: vaddva.u16 r0, q0		; CHECK-NEXT: vmovlb.u8 q0, q0
		; CHECK-NEXT: vmlava.u16 r0, q0, q1
; CHECK-NEXT: uxth r0, r0		; CHECK-NEXT: uxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = zext <8 x i8> %x to <8 x i16>		%xx = zext <8 x i8> %x to <8 x i16>
%yy = zext <8 x i8> %y to <8 x i16>		%yy = zext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}

define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_acc_sext(<8 x i8> %x, <8 x i8> %y, i16 %a) {		define arm_aapcs_vfpcc signext i16 @add_v8i8_v8i16_acc_sext(<8 x i8> %x, <8 x i8> %y, i16 %a) {
; CHECK-LABEL: add_v8i8_v8i16_acc_sext:		; CHECK-LABEL: add_v8i8_v8i16_acc_sext:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmullb.s8 q0, q0, q1		; CHECK-NEXT: vmovlb.s8 q1, q1
; CHECK-NEXT: vaddva.u16 r0, q0		; CHECK-NEXT: vmovlb.s8 q0, q0
		; CHECK-NEXT: vmlava.u16 r0, q0, q1
; CHECK-NEXT: sxth r0, r0		; CHECK-NEXT: sxth r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%xx = sext <8 x i8> %x to <8 x i16>		%xx = sext <8 x i8> %x to <8 x i16>
%yy = sext <8 x i8> %y to <8 x i16>		%yy = sext <8 x i8> %y to <8 x i16>
%m = mul <8 x i16> %xx, %yy		%m = mul <8 x i16> %xx, %yy
%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)		%z = call i16 @llvm.experimental.vector.reduce.add.v8i16(<8 x i16> %m)
%r = add i16 %z, %a		%r = add i16 %z, %a
ret i16 %r		ret i16 %r
}		}

define arm_aapcs_vfpcc zeroext i8 @add_v16i8_v16i8_acc(<16 x i8> %x, <16 x i8> %y, i8 %a) {		define arm_aapcs_vfpcc zeroext i8 @add_v16i8_v16i8_acc(<16 x i8> %x, <16 x i8> %y, i8 %a) {
; CHECK-LABEL: add_v16i8_v16i8_acc:		; CHECK-LABEL: add_v16i8_v16i8_acc:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vmul.i8 q0, q0, q1		; CHECK-NEXT: vmlava.u8 r0, q0, q1
; CHECK-NEXT: vaddva.u8 r0, q0
; CHECK-NEXT: uxtb r0, r0		; CHECK-NEXT: uxtb r0, r0
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%m = mul <16 x i8> %x, %y		%m = mul <16 x i8> %x, %y
%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)		%z = call i8 @llvm.experimental.vector.reduce.add.v16i8(<16 x i8> %m)
%r = add i8 %z, %a		%r = add i8 %z, %a
ret i8 %r		ret i8 %r
}		}
▲ Show 20 Lines • Show All 489 Lines • Show Last 20 Lines