This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/
-
llvm/
-
CodeGen/GlobalISel/
-
GlobalISel/
-
CombinerHelper.h
-
Target/GlobalISel/
-
GlobalISel/
-
Combine.td
-
lib/CodeGen/GlobalISel/
-
CodeGen/
-
GlobalISel/
-
CombinerHelper.cpp
-
test/CodeGen/AMDGPU/
-
CodeGen/
-
AMDGPU/
-
GlobalISel/
1/2
clamp-minmax-const-combine.ll
-
combine-build-vector-trunc-undef.mir
2/4
combine-fcanonicalize.mir
-
combine-fma-add-mul.ll
-
llvm.amdgcn.image.atomic.dim.a16.ll
-
llvm.amdgcn.image.gather4.a16.dim.ll
-
llvm.amdgcn.image.load.3d.a16.ll
-
llvm.amdgcn.image.sample.g16.ll
-
llvm.amdgcn.image.sample.ltolz.a16.ll
-
llvm.amdgcn.image.sample.g16.a16.dim.ll

Differential D112064

[GlobalISel] Combine (build_vector_trunc x, undef) -> (bitcast x)
AcceptedPublic

Authored by foad on Oct 19 2021, 4:34 AM.

Download Raw Diff

Details

Reviewers

Ravi
arsenm
aemerson
paquette
Pierre-vh

Summary

This mostly benefits AMDGPU where arguments to IMAGE instructions are
sometimes packed into the two 16-bit halves of a 32-bit register.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

foad created this revision.Oct 19 2021, 4:34 AM

Herald added subscribers: ormris, wenlei, kerbowa and 6 others. · View Herald TranscriptOct 19 2021, 4:34 AM

foad requested review of this revision.Oct 19 2021, 4:34 AM

Herald added a project: Restricted Project. · View Herald TranscriptOct 19 2021, 4:34 AM

Herald added subscribers: llvm-commits, wdng. · View Herald Transcript

foad mentioned this in D111754: AMDGPU: Fixes for 'LOD bias' operand in ISelDAG path and GobalISel path when A16-bit is 'ON'.Oct 19 2021, 4:35 AM

foad added inline comments.

llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-build-vector-trunc.v2s16.mir
157 ↗	(On Diff #380646)	I could just remove all these "undef" test cases, since there is no longer any code in AMDGPUInstructionSelector that handles IMPLICIT_DEF specially.

Harbormaster completed remote builds in B129519: Diff 380646.Oct 19 2021, 5:14 AM

Should add some MIR tests specifically for this in case we decide to stop using G_BUILD_VECTOR_TRUNC someday

llvm/lib/Target/AMDGPU/AMDGPUInstructionSelector.cpp
630–637 ↗	(On Diff #380646)	I think deleting this should be split into a separate patch
llvm/test/CodeGen/AMDGPU/GlobalISel/inst-select-build-vector-trunc.v2s16.mir
157 ↗	(On Diff #380646)	Yes

Good to see the unnecessary 'shifts' and 'movs' removed. LGTM.

Rebase. Add MIR tests.

Herald added subscribers: frasercrmck, luismarques, apazos and 19 others. · View Herald TranscriptNov 18 2021, 6:00 AM

foad mentioned this in D114158: [AMDGPU] Remove redundant optimization in selectG_BUILD_VECTOR_TRUNC.Nov 18 2021, 6:00 AM

foad added a child revision: D114158: [AMDGPU] Remove redundant optimization in selectG_BUILD_VECTOR_TRUNC.Nov 18 2021, 6:00 AM

Rebase.

Harbormaster completed remote builds in B134885: Diff 388174.Nov 18 2021, 7:17 AM

foad marked 2 inline comments as done.Nov 19 2021, 3:25 AM

Ping!

LGTM

This revision is now accepted and ready to land.Dec 13 2021, 3:30 AM

Rebase.

arsenm added inline comments.Dec 13 2021, 6:13 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/clamp-minmax-const-combine.ll
62–67	What happened here?

foad added inline comments.Dec 13 2021, 6:16 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/clamp-minmax-const-combine.ll
62	Regression here for the same reasons as in combine-fcanonicalize.mir.
llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir
256	Regression here because combining `G_BUILD_VECTOR_TRUNC %zero_s32(s32), %undef(s32)` into a G_BITCAST breaks detection of a constant splat with some elements undef. Any thoughts on how to fix this? Perhaps it was not a good idea to do this as a combine after all, despite the comment in AMDGPUInstructionSelector::selectG_BUILD_VECTOR_TRUNC?

Harbormaster completed remote builds in B138952: Diff 393866.Dec 13 2021, 6:47 AM

arsenm added inline comments.Dec 13 2021, 6:52 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir
256	I think the globalisel version of isCanonicalized needs to be implemented for G_BITCAST

arsenm added inline comments.Dec 13 2021, 6:54 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir
256	Or everything really. It's pretty thin right now

foad added inline comments.Dec 14 2021, 6:48 AM

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir
256	I'm not sure having isCanonicalized look through a bitcast from s32 to <2 x s16> is a great idea. And it wouldn't help with the regression in clamp-minmax-const-combine.ll which is to do with recognizing vector splat constants where some elements may be undef. I see the DAG version of isCanonicalized looks through ISD::BITCAST, but I don't see how that can be safe when it loses the information about whether you were looking at (say) an f32 or a vector of f16s.

arsenm added a reviewer: Pierre-vh.Sep 29 2022, 8:05 AM

Herald added a project: Restricted Project. · View Herald TranscriptSep 29 2022, 8:05 AM

Herald added a subscriber: kosarev. · View Herald Transcript

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

GlobalISel/

CombinerHelper.h

3 lines

Target/

GlobalISel/

Combine.td

11 lines

lib/

CodeGen/

GlobalISel/

CombinerHelper.cpp

31 lines

test/

CodeGen/

AMDGPU/

GlobalISel/

clamp-minmax-const-combine.ll

12 lines

combine-build-vector-trunc-undef.mir

77 lines

combine-fcanonicalize.mir

19 lines

combine-fma-add-mul.ll

132 lines

llvm.amdgcn.image.atomic.dim.a16.ll

216 lines

llvm.amdgcn.image.gather4.a16.dim.ll

284 lines

llvm.amdgcn.image.load.3d.a16.ll

177 lines

llvm.amdgcn.image.sample.g16.ll

45 lines

llvm.amdgcn.image.sample.ltolz.a16.ll

75 lines

llvm.amdgcn.image.sample.g16.a16.dim.ll

116 lines

Diff 393866

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

Show First 20 Lines • Show All 691 Lines • ▼ Show 20 Lines	public:

/// Transform (fsub (fpext (fneg (fmul x, y))), z)		/// Transform (fsub (fpext (fneg (fmul x, y))), z)
/// -> (fneg (fma (fpext x), (fpext y), z))		/// -> (fneg (fma (fpext x), (fpext y), z))
/// (fsub (fpext (fneg (fmul x, y))), z)		/// (fsub (fpext (fneg (fmul x, y))), z)
/// -> (fneg (fmad (fpext x), (fpext y), z))		/// -> (fneg (fmad (fpext x), (fpext y), z))
bool matchCombineFSubFpExtFNegFMulToFMadOrFMA(MachineInstr &MI,		bool matchCombineFSubFpExtFNegFMulToFMadOrFMA(MachineInstr &MI,
BuildFnTy &MatchInfo);		BuildFnTy &MatchInfo);

		/// Combine (build_vector_trunc x, undef) -> (bitcast x)
		bool matchBuildVectorTruncUndef(MachineInstr &MI, BuildFnTy &MatchInfo);

private:		private:
/// Given a non-indexed load or store instruction \p MI, find an offset that		/// Given a non-indexed load or store instruction \p MI, find an offset that
/// can be usefully and legally folded into it as a post-indexing operation.		/// can be usefully and legally folded into it as a post-indexing operation.
///		///
/// \returns true if a candidate is found.		/// \returns true if a candidate is found.
bool findPostIndexCandidate(MachineInstr &MI, Register &Addr, Register &Base,		bool findPostIndexCandidate(MachineInstr &MI, Register &Addr, Register &Base,
Register &Offset);		Register &Offset);

▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/include/llvm/Target/GlobalISel/Combine.td

	Show First 20 Lines • Show All 646 Lines • ▼ Show 20 Lines

	def funnel_shift_from_or_shift : GICombineRule<			def funnel_shift_from_or_shift : GICombineRule<
	(defs root:$root, build_fn_matchinfo:$info),			(defs root:$root, build_fn_matchinfo:$info),
	(match (wip_match_opcode G_OR):$root,			(match (wip_match_opcode G_OR):$root,
	[{ return Helper.matchOrShiftToFunnelShift(*${root}, ${info}); }]),			[{ return Helper.matchOrShiftToFunnelShift(*${root}, ${info}); }]),
	(apply [{ Helper.applyBuildFn(*${root}, ${info}); }])			(apply [{ Helper.applyBuildFn(*${root}, ${info}); }])
	>;			>;

				// Combine (build_vector_trunc x, undef) -> (bitcast x)
				def build_vector_trunc_undef : GICombineRule<
				(defs root:$root, build_fn_matchinfo:$info),
				(match (wip_match_opcode G_BUILD_VECTOR_TRUNC):$root,
				[{ return Helper.matchBuildVectorTruncUndef(*${root}, ${info}); }]),
				(apply [{ Helper.applyBuildFnNoErase(*${root}, ${info}); }])
				>;

	def funnel_shift_to_rotate : GICombineRule<			def funnel_shift_to_rotate : GICombineRule<
	(defs root:$root),			(defs root:$root),
	(match (wip_match_opcode G_FSHL, G_FSHR):$root,			(match (wip_match_opcode G_FSHL, G_FSHR):$root,
	[{ return Helper.matchFunnelShiftToRotate(*${root}); }]),			[{ return Helper.matchFunnelShiftToRotate(*${root}); }]),
	(apply [{ Helper.applyFunnelShiftToRotate(*${root}); }])			(apply [{ Helper.applyFunnelShiftToRotate(*${root}); }])
	>;			>;

	def rotate_out_of_range : GICombineRule<			def rotate_out_of_range : GICombineRule<
	▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines

	// FIXME: These should use the custom predicate feature once it lands.			// FIXME: These should use the custom predicate feature once it lands.
	def undef_combines : GICombineGroup<[undef_to_fp_zero, undef_to_int_zero,			def undef_combines : GICombineGroup<[undef_to_fp_zero, undef_to_int_zero,
	undef_to_negative_one,			undef_to_negative_one,
	binop_left_undef_to_zero,			binop_left_undef_to_zero,
	propagate_undef_any_op,			propagate_undef_any_op,
	propagate_undef_all_ops,			propagate_undef_all_ops,
	propagate_undef_shuffle_mask,			propagate_undef_shuffle_mask,
	erase_undef_store]>;			erase_undef_store,
				build_vector_trunc_undef]>;

	def identity_combines : GICombineGroup<[select_same_val, right_identity_zero,			def identity_combines : GICombineGroup<[select_same_val, right_identity_zero,
	binop_same_val, binop_left_to_zero,			binop_same_val, binop_left_to_zero,
	binop_right_to_zero, p2i_to_i2p,			binop_right_to_zero, p2i_to_i2p,
	i2p_to_p2i, anyext_trunc_fold,			i2p_to_p2i, anyext_trunc_fold,
	fneg_fneg_fold, right_identity_one]>;			fneg_fneg_fold, right_identity_one]>;

	def const_combines : GICombineGroup<[constant_fp_op, const_ptradd_to_i2p,			def const_combines : GICombineGroup<[constant_fp_op, const_ptradd_to_i2p,
	▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

Show First 20 Lines • Show All 5,337 Lines • ▼ Show 20 Lines	MatchInfo = [=, &MI](MachineIRBuilder &B) {
FMulMI->getOperand(2).getReg(), LHSReg, B);		FMulMI->getOperand(2).getReg(), LHSReg, B);
};		};
return true;		return true;
}		}

return false;		return false;
}		}

		// Combine (build_vector_trunc x, undef) -> (bitcast x)
		bool CombinerHelper::matchBuildVectorTruncUndef(MachineInstr &MI,
		BuildFnTy &MatchInfo) {
		assert(MI.getOpcode() == TargetOpcode::G_BUILD_VECTOR_TRUNC);

		// Only combine if the sizes match, so we can use just a bitcast with no
		// anyext or trunc.
		Register Dst = MI.getOperand(0).getReg();
		Register Src = MI.getOperand(1).getReg();
		LLT DstTy = MRI.getType(Dst);
		LLT SrcTy = MRI.getType(Src);
		if (DstTy.getSizeInBits() != SrcTy.getSizeInBits())
		return false;

		// Allow any number of sources as long as all but the first are undef.
		for (unsigned I = 2, E = MI.getNumOperands(); I < E; ++I) {
		if (!getOpcodeDef(TargetOpcode::G_IMPLICIT_DEF, MI.getOperand(I).getReg(),
		MRI))
		return false;
		}

		MatchInfo = [&](MachineIRBuilder &B) {
		Observer.changingInstr(MI);
		MI.setDesc(B.getTII().get(TargetOpcode::G_BITCAST));
		for (unsigned I = MI.getNumOperands(); --I >= 2;)
		MI.RemoveOperand(I);
		Observer.changedInstr(MI);
		};
		return true;
		}

bool CombinerHelper::tryCombine(MachineInstr &MI) {		bool CombinerHelper::tryCombine(MachineInstr &MI) {
if (tryCombineCopy(MI))		if (tryCombineCopy(MI))
return true;		return true;
if (tryCombineExtendingLoads(MI))		if (tryCombineExtendingLoads(MI))
return true;		return true;
if (tryCombineIndexedLoadStore(MI))		if (tryCombineIndexedLoadStore(MI))
return true;		return true;
return false;		return false;
}		}

llvm/test/CodeGen/AMDGPU/GlobalISel/clamp-minmax-const-combine.ll

Show First 20 Lines • Show All 53 Lines • ▼ Show 20 Lines	; GFX10-NEXT: s_setpc_b64 s[30:31]
ret <2 x half> %fmed		ret <2 x half> %fmed
}		}

define <2 x half> @test_min_max_splat_padded_with_undef(<2 x half> %a) #2 {		define <2 x half> @test_min_max_splat_padded_with_undef(<2 x half> %a) #2 {
; GFX10-LABEL: test_min_max_splat_padded_with_undef:		; GFX10-LABEL: test_min_max_splat_padded_with_undef:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_pk_mul_f16 v0, v0, 2.0 op_sel_hi:[1,0] clamp		; GFX10-NEXT: v_pk_mul_f16 v0, v0, 2.0 op_sel_hi:[1,0]
		foadAuthorUnsubmitted Done Reply Inline Actions Regression here for the same reasons as in combine-fcanonicalize.mir. foad: Regression here for the same reasons as in combine-fcanonicalize.mir.
		; GFX10-NEXT: v_pk_max_f16 v1, 0, 0
		; GFX10-NEXT: v_pk_max_f16 v0, v0, v0
		; GFX10-NEXT: v_pk_max_f16 v0, v1, v0
		; GFX10-NEXT: v_pk_max_f16 v1, 1.0, 1.0
		; GFX10-NEXT: v_pk_min_f16 v0, v1, v0
		arsenmUnsubmitted Not Done Reply Inline Actions What happened here? arsenm: What happened here?
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%fmul = fmul <2 x half> %a, <half 2.0, half 2.0>		%fmul = fmul <2 x half> %a, <half 2.0, half 2.0>
%maxnum = call <2 x half> @llvm.maxnum.v2f16(<2 x half> <half 0.0, half undef>, <2 x half> %fmul)		%maxnum = call <2 x half> @llvm.maxnum.v2f16(<2 x half> <half 0.0, half undef>, <2 x half> %fmul)
%fmed = call <2 x half> @llvm.minnum.v2f16(<2 x half> <half 1.0, half undef>, <2 x half> %maxnum)		%fmed = call <2 x half> @llvm.minnum.v2f16(<2 x half> <half 1.0, half undef>, <2 x half> %maxnum)
ret <2 x half> %fmed		ret <2 x half> %fmed
}		}

; max-mix patterns work only for known non-NaN inputs		; max-mix patterns work only for known non-NaN inputs
Show All 38 Lines
}		}

; treat undef as value that will result in a constant splat		; treat undef as value that will result in a constant splat
define <2 x half> @test_max_K0min_K1Val_v2f16(<2 x half> %a) #1 {		define <2 x half> @test_max_K0min_K1Val_v2f16(<2 x half> %a) #1 {
; GFX10-LABEL: test_max_K0min_K1Val_v2f16:		; GFX10-LABEL: test_max_K0min_K1Val_v2f16:
; GFX10: ; %bb.0:		; GFX10: ; %bb.0:
; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
; GFX10-NEXT: s_waitcnt_vscnt null, 0x0		; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
; GFX10-NEXT: v_pk_mul_f16 v0, v0, 2.0 op_sel_hi:[1,0] clamp		; GFX10-NEXT: v_pk_mul_f16 v0, v0, 2.0 op_sel_hi:[1,0]
		; GFX10-NEXT: s_pack_ll_b32_b16 s4, s4, 0
		; GFX10-NEXT: v_pk_min_f16 v0, 1.0, v0
		; GFX10-NEXT: v_pk_max_f16 v0, s4, v0
; GFX10-NEXT: s_setpc_b64 s[30:31]		; GFX10-NEXT: s_setpc_b64 s[30:31]
%fmul = fmul <2 x half> %a, <half 2.0, half 2.0>		%fmul = fmul <2 x half> %a, <half 2.0, half 2.0>
%minnum = call nnan <2 x half> @llvm.minnum.v2f16(<2 x half> <half 1.0, half undef>, <2 x half> %fmul)		%minnum = call nnan <2 x half> @llvm.minnum.v2f16(<2 x half> <half 1.0, half undef>, <2 x half> %fmul)
%fmed = call nnan <2 x half> @llvm.maxnum.v2f16(<2 x half> <half undef, half 0.0>, <2 x half> %minnum)		%fmed = call nnan <2 x half> @llvm.maxnum.v2f16(<2 x half> <half undef, half 0.0>, <2 x half> %minnum)
ret <2 x half> %fmed		ret <2 x half> %fmed
}		}

; global nnan function attribute always forces clamp combine		; global nnan function attribute always forces clamp combine
▲ Show 20 Lines • Show All 137 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-build-vector-trunc-undef.mir

This file was added.

				# NOTE: Assertions have been autogenerated by utils/update_mir_test_checks.py
				# RUN: llc -march=amdgcn -run-pass=amdgpu-prelegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s
				# RUN: llc -march=amdgcn -run-pass=amdgpu-postlegalizer-combiner -verify-machineinstrs %s -o - \| FileCheck %s

				---
				name: test_v2s16_s32
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0
				; CHECK-LABEL: name: test_v2s16_s32
				; CHECK: liveins: $vgpr0
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK-NEXT: [[BITCAST:%[0-9]+]]:_(<2 x s16>) = G_BITCAST [[COPY]](s32)
				; CHECK-NEXT: $vgpr0 = COPY [[BITCAST]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %0, %1
				$vgpr0 = COPY %2
				...

				---
				name: test_v2s16_s32_swap
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0
				; CHECK-LABEL: name: test_v2s16_s32_swap
				; CHECK: liveins: $vgpr0
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:_(s32) = G_IMPLICIT_DEF
				; CHECK-NEXT: [[BUILD_VECTOR_TRUNC:%[0-9]+]]:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC [[DEF]](s32), [[COPY]](s32)
				; CHECK-NEXT: $vgpr0 = COPY [[BUILD_VECTOR_TRUNC]](<2 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %1, %0
				$vgpr0 = COPY %2
				...

				---
				name: test_v4s16_s32
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0
				; CHECK-LABEL: name: test_v4s16_s32
				; CHECK: liveins: $vgpr0
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s32) = COPY $vgpr0
				; CHECK-NEXT: [[DEF:%[0-9]+]]:_(s32) = G_IMPLICIT_DEF
				; CHECK-NEXT: [[BUILD_VECTOR_TRUNC:%[0-9]+]]:_(<4 x s16>) = G_BUILD_VECTOR_TRUNC [[COPY]](s32), [[DEF]](s32), [[DEF]](s32), [[DEF]](s32)
				; CHECK-NEXT: $vgpr0_vgpr1 = COPY [[BUILD_VECTOR_TRUNC]](<4 x s16>)
				%0:_(s32) = COPY $vgpr0
				%1:_(s32) = G_IMPLICIT_DEF
				%2:_(<4 x s16>) = G_BUILD_VECTOR_TRUNC %0, %1, %1, %1
				$vgpr0_vgpr1 = COPY %2
				...

				---
				name: test_v4s16_s64
				tracksRegLiveness: true
				body: \|
				bb.0:
				liveins: $vgpr0_vgpr1
				; CHECK-LABEL: name: test_v4s16_s64
				; CHECK: liveins: $vgpr0_vgpr1
				; CHECK-NEXT: {{ $}}
				; CHECK-NEXT: [[COPY:%[0-9]+]]:_(s64) = COPY $vgpr0_vgpr1
				; CHECK-NEXT: [[BITCAST:%[0-9]+]]:_(<4 x s16>) = G_BITCAST [[COPY]](s64)
				; CHECK-NEXT: $vgpr0_vgpr1 = COPY [[BITCAST]](<4 x s16>)
				%0:_(s64) = COPY $vgpr0_vgpr1
				%1:_(s64) = G_IMPLICIT_DEF
				%2:_(<4 x s16>) = G_BUILD_VECTOR_TRUNC %0, %1, %1, %1
				$vgpr0_vgpr1 = COPY %2
				...

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

Show First 20 Lines • Show All 242 Lines • ▼ Show 20 Lines	bb.0 :
; CHECK: liveins: $vgpr0		; CHECK: liveins: $vgpr0
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0		; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000		; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000
; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)		; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)
; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)		; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)
; CHECK-NEXT: %zero:_(s16) = G_FCONSTANT half 0xH0000		; CHECK-NEXT: %zero:_(s16) = G_FCONSTANT half 0xH0000
; CHECK-NEXT: %zero_s32:_(s32) = G_ANYEXT %zero(s16)		; CHECK-NEXT: %zero_s32:_(s32) = G_ANYEXT %zero(s16)
; CHECK-NEXT: %undef:_(s32) = G_IMPLICIT_DEF		; CHECK-NEXT: %zero_undef:_(<2 x s16>) = G_BITCAST %zero_s32(s32)
; CHECK-NEXT: %zero_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %zero_s32(s32), %undef(s32)
; CHECK-NEXT: %one:_(s16) = G_FCONSTANT half 0xH3C00		; CHECK-NEXT: %one:_(s16) = G_FCONSTANT half 0xH3C00
; CHECK-NEXT: %one_s32:_(s32) = G_ANYEXT %one(s16)		; CHECK-NEXT: %one_s32:_(s32) = G_ANYEXT %one(s16)
; CHECK-NEXT: %one_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %one_s32(s32), %undef(s32)		; CHECK-NEXT: %one_undef:_(<2 x s16>) = G_BITCAST %one_s32(s32)
; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat		; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat
		; CHECK-NEXT: %zero_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %zero_undef
		foadAuthorUnsubmitted Done Reply Inline Actions Regression here because combining `G_BUILD_VECTOR_TRUNC %zero_s32(s32), %undef(s32)` into a G_BITCAST breaks detection of a constant splat with some elements undef. Any thoughts on how to fix this? Perhaps it was not a good idea to do this as a combine after all, despite the comment in AMDGPUInstructionSelector::selectG_BUILD_VECTOR_TRUNC? foad: Regression here because combining `G_BUILD_VECTOR_TRUNC %zero_s32(s32), %undef(s32)` into a…
		arsenmUnsubmitted Not Done Reply Inline Actions I think the globalisel version of isCanonicalized needs to be implemented for G_BITCAST arsenm: I think the globalisel version of isCanonicalized needs to be implemented for G_BITCAST
		arsenmUnsubmitted Not Done Reply Inline Actions Or everything really. It's pretty thin right now arsenm: Or everything really. It's pretty thin right now
		foadAuthorUnsubmitted Done Reply Inline Actions I'm not sure having isCanonicalized look through a bitcast from s32 to <2 x s16> is a great idea. And it wouldn't help with the regression in clamp-minmax-const-combine.ll which is to do with recognizing vector splat constants where some elements may be undef. I see the DAG version of isCanonicalized looks through ISD::BITCAST, but I don't see how that can be safe when it loses the information about whether you were looking at (say) an f32 or a vector of f16s. foad: I'm not sure having isCanonicalized look through a bitcast from s32 to <2 x s16> is a great…
; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]		; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]
; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %zero_undef, [[FCANONICALIZE]]		; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %zero_undef_fcan, [[FCANONICALIZE]]
; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %one_undef, [[FMAXNUM_IEEE]]		; CHECK-NEXT: %one_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %one_undef
		; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %one_undef_fcan, [[FMAXNUM_IEEE]]
; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)		; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)
%0:_(<2 x s16>) = COPY $vgpr0		%0:_(<2 x s16>) = COPY $vgpr0
%two:_(s16) = G_FCONSTANT half 0xH4000		%two:_(s16) = G_FCONSTANT half 0xH4000
%two_s32:_(s32) = G_ANYEXT %two(s16)		%two_s32:_(s32) = G_ANYEXT %two(s16)
%two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)		%two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)
%zero:_(s16) = G_FCONSTANT half 0xH0000		%zero:_(s16) = G_FCONSTANT half 0xH0000
%zero_s32:_(s32) = G_ANYEXT %zero(s16)		%zero_s32:_(s32) = G_ANYEXT %zero(s16)
%undef:_(s32) = G_IMPLICIT_DEF		%undef:_(s32) = G_IMPLICIT_DEF
Show All 26 Lines	bb.0 :
; CHECK: liveins: $vgpr0		; CHECK: liveins: $vgpr0
; CHECK-NEXT: {{ $}}		; CHECK-NEXT: {{ $}}
; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0		; CHECK-NEXT: [[COPY:%[0-9]+]]:_(<2 x s16>) = COPY $vgpr0
; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000		; CHECK-NEXT: %two:_(s16) = G_FCONSTANT half 0xH4000
; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)		; CHECK-NEXT: %two_s32:_(s32) = G_ANYEXT %two(s16)
; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)		; CHECK-NEXT: %two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)
; CHECK-NEXT: %snan:_(s16) = G_FCONSTANT half 0xH7C01		; CHECK-NEXT: %snan:_(s16) = G_FCONSTANT half 0xH7C01
; CHECK-NEXT: %snan_s32:_(s32) = G_ANYEXT %snan(s16)		; CHECK-NEXT: %snan_s32:_(s32) = G_ANYEXT %snan(s16)
; CHECK-NEXT: %undef:_(s32) = G_IMPLICIT_DEF		; CHECK-NEXT: %snan_undef:_(<2 x s16>) = G_BITCAST %snan_s32(s32)
; CHECK-NEXT: %snan_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %snan_s32(s32), %undef(s32)
; CHECK-NEXT: %qnan:_(s16) = G_FCONSTANT half 0xH7E01		; CHECK-NEXT: %qnan:_(s16) = G_FCONSTANT half 0xH7E01
; CHECK-NEXT: %qnan_s32:_(s32) = G_ANYEXT %qnan(s16)		; CHECK-NEXT: %qnan_s32:_(s32) = G_ANYEXT %qnan(s16)
; CHECK-NEXT: %qnan_undef:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %qnan_s32(s32), %undef(s32)		; CHECK-NEXT: %qnan_undef:_(<2 x s16>) = G_BITCAST %qnan_s32(s32)
; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat		; CHECK-NEXT: [[FMUL:%[0-9]+]]:_(<2 x s16>) = G_FMUL [[COPY]], %two_splat
; CHECK-NEXT: %snan_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %snan_undef		; CHECK-NEXT: %snan_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %snan_undef
; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]		; CHECK-NEXT: [[FCANONICALIZE:%[0-9]+]]:_(<2 x s16>) = G_FCANONICALIZE [[FMUL]]
; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %snan_undef_fcan, [[FCANONICALIZE]]		; CHECK-NEXT: [[FMAXNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMAXNUM_IEEE %snan_undef_fcan, [[FCANONICALIZE]]
; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %qnan_undef, [[FMAXNUM_IEEE]]		; CHECK-NEXT: %qnan_undef_fcan:_(<2 x s16>) = G_FCANONICALIZE %qnan_undef
		; CHECK-NEXT: [[FMINNUM_IEEE:%[0-9]+]]:_(<2 x s16>) = G_FMINNUM_IEEE %qnan_undef_fcan, [[FMAXNUM_IEEE]]
; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)		; CHECK-NEXT: $vgpr0 = COPY [[FMINNUM_IEEE]](<2 x s16>)
%0:_(<2 x s16>) = COPY $vgpr0		%0:_(<2 x s16>) = COPY $vgpr0
%two:_(s16) = G_FCONSTANT half 0xH4000		%two:_(s16) = G_FCONSTANT half 0xH4000
%two_s32:_(s32) = G_ANYEXT %two(s16)		%two_s32:_(s32) = G_ANYEXT %two(s16)
%two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)		%two_splat:_(<2 x s16>) = G_BUILD_VECTOR_TRUNC %two_s32(s32), %two_s32(s32)
%snan:_(s16) = G_FCONSTANT half 0xH7C01		%snan:_(s16) = G_FCONSTANT half 0xH7C01
%snan_s32:_(s32) = G_ANYEXT %snan(s16)		%snan_s32:_(s32) = G_ANYEXT %snan(s16)
%undef:_(s32) = G_IMPLICIT_DEF		%undef:_(s32) = G_IMPLICIT_DEF
Show All 13 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

	Show First 20 Lines • Show All 626 Lines • ▼ Show 20 Lines
	; GFX9: ; %bb.0: ; %.entry			; GFX9: ; %bb.0: ; %.entry
	; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX9-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v6			; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v6
	; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v7			; GFX9-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-NEXT: v_and_or_b32 v2, v2, v9, v6			; GFX9-NEXT: v_and_or_b32 v2, v2, v9, v6
	; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-NEXT: v_and_or_b32 v3, v3, v9, s4
	; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX9-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v8			; GFX9-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX9-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX9-NEXT: v_lshrrev_b32_e32 v3, 16, v0
				; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v8
				; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: v_and_or_b32 v2, v4, v9, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v9, v2
	; GFX9-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v3
	; GFX9-NEXT: v_and_or_b32 v3, v5, v9, s4			; GFX9-NEXT: v_pk_add_f16 v1, v5, v1
	; GFX9-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-NEXT: v_and_or_b32 v0, v0, v9, v4
	; GFX9-NEXT: v_pk_add_f16 v1, v3, v1
	; GFX9-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-NEXT: v_pk_add_f16 v0, v2, v0			; GFX9-NEXT: v_pk_add_f16 v0, v2, v0
	; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4			; GFX9-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-NEXT: s_setpc_b64 s[30:31]			; GFX9-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:			; GFX9-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:
	; GFX9-CONTRACT: ; %bb.0: ; %.entry			; GFX9-CONTRACT: ; %bb.0: ; %.entry
	; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX9-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX9-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; GFX9-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6			; GFX9-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6
	; GFX9-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v7			; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v6			; GFX9-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v6
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v3, v3, v9, s4
	; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v8			; GFX9-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v8
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v5, v5, v9, s4
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v6			; GFX9-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v6
	; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5			; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5
	; GFX9-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4			; GFX9-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4
	; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4			; GFX9-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]			; GFX9-CONTRACT-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-DENORM-LABEL: test_3xhalf_add_mul_rhs:			; GFX9-DENORM-LABEL: test_3xhalf_add_mul_rhs:
	; GFX9-DENORM: ; %bb.0: ; %.entry			; GFX9-DENORM: ; %bb.0: ; %.entry
	; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX9-DENORM-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX9-DENORM-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v6			; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v6
	; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v7			; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX9-DENORM-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-DENORM-NEXT: v_and_or_b32 v2, v2, v9, v6			; GFX9-DENORM-NEXT: v_and_or_b32 v2, v2, v9, v6
	; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-DENORM-NEXT: v_and_or_b32 v3, v3, v9, s4
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX9-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v8			; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3			; GFX9-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
				; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v3, 16, v0
				; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v8
				; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-DENORM-NEXT: v_and_or_b32 v2, v4, v9, v2			; GFX9-DENORM-NEXT: v_and_or_b32 v2, v4, v9, v2
	; GFX9-DENORM-NEXT: v_lshrrev_b32_e32 v4, 16, v0			; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v3
	; GFX9-DENORM-NEXT: v_and_or_b32 v3, v5, v9, s4			; GFX9-DENORM-NEXT: v_pk_add_f16 v1, v5, v1
	; GFX9-DENORM-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-DENORM-NEXT: v_and_or_b32 v0, v0, v9, v4
	; GFX9-DENORM-NEXT: v_pk_add_f16 v1, v3, v1
	; GFX9-DENORM-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-DENORM-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-DENORM-NEXT: v_pk_add_f16 v0, v2, v0			; GFX9-DENORM-NEXT: v_pk_add_f16 v0, v2, v0
	; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4			; GFX9-DENORM-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX9-DENORM-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX9-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:			; GFX9-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:
	; GFX9-UNSAFE: ; %bb.0: ; %.entry			; GFX9-UNSAFE: ; %bb.0: ; %.entry
	; GFX9-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX9-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX9-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX9-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4			; GFX9-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6			; GFX9-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6
	; GFX9-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v7			; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v6			; GFX9-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v6
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v3, v3, v9, s4
	; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v8			; GFX9-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v8
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v5, v5, v9, s4
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v6			; GFX9-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v6
	; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5			; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5
	; GFX9-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16			; GFX9-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
	; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4			; GFX9-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4
	; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4			; GFX9-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX9-UNSAFE-NEXT: s_setpc_b64 s[30:31]			; GFX9-UNSAFE-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-LABEL: test_3xhalf_add_mul_rhs:			; GFX10-LABEL: test_3xhalf_add_mul_rhs:
	; GFX10: ; %bb.0: ; %.entry			; GFX10: ; %bb.0: ; %.entry
	; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX10-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10-NEXT: v_mov_b32_e32 v8, 0xffff
				; GFX10-NEXT: v_pk_mul_f16 v1, v1, v3
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4			; GFX10-NEXT: v_pk_add_f16 v1, v5, v1
	; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6			; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6
	; GFX10-NEXT: v_and_or_b32 v2, v2, v8, v7			; GFX10-NEXT: v_and_or_b32 v2, v2, v8, v7
				; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4
	; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX10-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX10-NEXT: v_and_or_b32 v2, v3, v8, s4			; GFX10-NEXT: v_lshrrev_b32_e32 v2, 16, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v3, 16, v4
	; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX10-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-NEXT: v_pk_mul_f16 v1, v1, v2			; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-NEXT: v_and_or_b32 v2, v5, v8, s4			; GFX10-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10-NEXT: v_and_or_b32 v2, v4, v8, v2
	; GFX10-NEXT: v_lshlrev_b32_e32 v5, 16, v6			; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v6
	; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4			; GFX10-NEXT: v_pk_add_f16 v0, v2, v0
	; GFX10-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-NEXT: v_and_or_b32 v3, v4, v8, v3
	; GFX10-NEXT: v_and_or_b32 v0, v0, v8, v5
	; GFX10-NEXT: v_pk_add_f16 v1, v2, v1
	; GFX10-NEXT: v_pk_add_f16 v0, v3, v0
	; GFX10-NEXT: v_and_or_b32 v1, v1, v8, s4
	; GFX10-NEXT: s_setpc_b64 s[30:31]			; GFX10-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:			; GFX10-CONTRACT-LABEL: test_3xhalf_add_mul_rhs:
	; GFX10-CONTRACT: ; %bb.0: ; %.entry			; GFX10-CONTRACT: ; %bb.0: ; %.entry
	; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-CONTRACT-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-CONTRACT-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-CONTRACT-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX10-CONTRACT-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX10-CONTRACT-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX10-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5
	; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v7, s4			; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v8, 16, v8			; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v8, 16, v8
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v3, v3, v7, s4
	; GFX10-CONTRACT-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v5, v5, v7, s4
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v0, v0, v7, v6
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v2, v2, v7, v8
	; GFX10-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-CONTRACT-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v4, v4, v7, v9			; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v1, v1, v3, v5			; GFX10-CONTRACT-NEXT: v_and_or_b32 v0, v0, v9, v6
				; GFX10-CONTRACT-NEXT: v_and_or_b32 v2, v2, v9, v7
				; GFX10-CONTRACT-NEXT: v_and_or_b32 v4, v4, v9, v8
	; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4			; GFX10-CONTRACT-NEXT: v_pk_fma_f16 v0, v0, v2, v4
	; GFX10-CONTRACT-NEXT: v_and_or_b32 v1, v1, v7, s4
	; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]			; GFX10-CONTRACT-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-DENORM-LABEL: test_3xhalf_add_mul_rhs:			; GFX10-DENORM-LABEL: test_3xhalf_add_mul_rhs:
	; GFX10-DENORM: ; %bb.0: ; %.entry			; GFX10-DENORM: ; %bb.0: ; %.entry
	; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-DENORM-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-DENORM-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2			; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX10-DENORM-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10-DENORM-NEXT: v_mov_b32_e32 v8, 0xffff
				; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v3
	; GFX10-DENORM-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-DENORM-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4			; GFX10-DENORM-NEXT: v_pk_add_f16 v1, v5, v1
	; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6			; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6
	; GFX10-DENORM-NEXT: v_and_or_b32 v2, v2, v8, v7			; GFX10-DENORM-NEXT: v_and_or_b32 v2, v2, v8, v7
				; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2			; GFX10-DENORM-NEXT: v_pk_mul_f16 v0, v0, v2
	; GFX10-DENORM-NEXT: v_and_or_b32 v2, v3, v8, s4			; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v2, 16, v4
	; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v3, 16, v4
	; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX10-DENORM-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-DENORM-NEXT: v_pk_mul_f16 v1, v1, v2			; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10-DENORM-NEXT: v_and_or_b32 v2, v5, v8, s4			; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10-DENORM-NEXT: v_and_or_b32 v2, v4, v8, v2
	; GFX10-DENORM-NEXT: v_lshlrev_b32_e32 v5, 16, v6			; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v6
	; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4			; GFX10-DENORM-NEXT: v_pk_add_f16 v0, v2, v0
	; GFX10-DENORM-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-DENORM-NEXT: v_and_or_b32 v3, v4, v8, v3
	; GFX10-DENORM-NEXT: v_and_or_b32 v0, v0, v8, v5
	; GFX10-DENORM-NEXT: v_pk_add_f16 v1, v2, v1
	; GFX10-DENORM-NEXT: v_pk_add_f16 v0, v3, v0
	; GFX10-DENORM-NEXT: v_and_or_b32 v1, v1, v8, s4
	; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]			; GFX10-DENORM-NEXT: s_setpc_b64 s[30:31]
	;			;
	; GFX10-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:			; GFX10-UNSAFE-LABEL: test_3xhalf_add_mul_rhs:
	; GFX10-UNSAFE: ; %bb.0: ; %.entry			; GFX10-UNSAFE: ; %bb.0: ; %.entry
	; GFX10-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)			; GFX10-UNSAFE-NEXT: s_waitcnt vmcnt(0) expcnt(0) lgkmcnt(0)
	; GFX10-UNSAFE-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-UNSAFE-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0			; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v6, 16, v0
	; GFX10-UNSAFE-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v7, 16, v2
	; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v2			; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v8, 16, v4
	; GFX10-UNSAFE-NEXT: v_lshrrev_b32_e32 v9, 16, v4			; GFX10-UNSAFE-NEXT: v_mov_b32_e32 v9, 0xffff
	; GFX10-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5
	; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v6, 16, v6
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v7, s4			; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v7, 16, v7
	; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v8, 16, v8			; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v8, 16, v8
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v3, v3, v7, s4
	; GFX10-UNSAFE-NEXT: v_lshlrev_b32_e32 v9, 16, v9
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v5, v5, v7, s4
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v0, v0, v7, v6
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v2, v2, v7, v8
	; GFX10-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16			; GFX10-UNSAFE-NEXT: s_lshl_b32 s4, s4, 16
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v4, v4, v7, v9			; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v9, s4
	; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v1, v1, v3, v5			; GFX10-UNSAFE-NEXT: v_and_or_b32 v0, v0, v9, v6
				; GFX10-UNSAFE-NEXT: v_and_or_b32 v2, v2, v9, v7
				; GFX10-UNSAFE-NEXT: v_and_or_b32 v4, v4, v9, v8
	; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4			; GFX10-UNSAFE-NEXT: v_pk_fma_f16 v0, v0, v2, v4
	; GFX10-UNSAFE-NEXT: v_and_or_b32 v1, v1, v7, s4
	; GFX10-UNSAFE-NEXT: s_setpc_b64 s[30:31]			; GFX10-UNSAFE-NEXT: s_setpc_b64 s[30:31]
	.entry:			.entry:
	%a = fmul <3 x half> %x, %y			%a = fmul <3 x half> %x, %y
	%b = fadd <3 x half> %z, %a			%b = fadd <3 x half> %z, %a
	ret <3 x half> %b			ret <3 x half> %b
	}			}

	define <4 x double> @test_4xdouble_add_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {			define <4 x double> @test_4xdouble_add_mul(<4 x double> %x, <4 x double> %y, <4 x double> %z) {
	▲ Show 20 Lines • Show All 182 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

Show First 20 Lines • Show All 480 Lines • ▼ Show 20 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2d.i32.i16(i32 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps float @atomic_add_i32_3d(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i32_3d:		; GFX9-LABEL: atomic_add_i32_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_3d:		; GFX10-LABEL: atomic_add_i32_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.3d.i32.i16(i32 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps float @atomic_add_i32_cube(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i32_cube:		; GFX9-LABEL: atomic_add_i32_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_cube:		; GFX10-LABEL: atomic_add_i32_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.cube.i32.i16(i32 %data, i16 %s, i16 %t, i16 %face, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

Show All 34 Lines	main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.1darray.i32.i16(i32 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps float @atomic_add_i32_2darray(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i32_2darray:		; GFX9-LABEL: atomic_add_i32_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2darray:		; GFX10-LABEL: atomic_add_i32_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2darray.i32.i16(i32 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps float @atomic_add_i32_2dmsaa(<8 x i32> inreg %rsrc, i32 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i32_2dmsaa:		; GFX9-LABEL: atomic_add_i32_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2		; GFX9-NEXT: v_and_or_b32 v2, v1, v4, v2
; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s8		; GFX9-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i32_2dmsaa:		; GFX10-LABEL: atomic_add_i32_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2		; GFX10-NEXT: v_lshlrev_b32_e32 v2, 16, v2
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v1, v1, v4, v2
; GFX10-NEXT: v_and_or_b32 v2, v3, v4, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v1, v2
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v0, v[1:2], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v0, v[2:3], s[0:7] dmask:0x1 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i32 @llvm.amdgcn.image.atomic.add.2dmsaa.i32.i16(i32 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i32 %v to float		%out = bitcast i32 %v to float
ret float %out		ret float %out
}		}

▲ Show 20 Lines • Show All 554 Lines • ▼ Show 20 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2d.i64.i16(i64 %data, i16 %s, i16 %t, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {		define amdgpu_ps <2 x float> @atomic_add_i64_3d(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %r) {
; GFX9-LABEL: atomic_add_i64_3d:		; GFX9-LABEL: atomic_add_i64_3d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_3d:		; GFX10-LABEL: atomic_add_i64_3d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_3D unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.3d.i64.i16(i64 %data, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {		define amdgpu_ps <2 x float> @atomic_add_i64_cube(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %face) {
; GFX9-LABEL: atomic_add_i64_cube:		; GFX9-LABEL: atomic_add_i64_cube:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_cube:		; GFX10-LABEL: atomic_add_i64_cube:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_CUBE unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.cube.i64.i16(i64 %data, i16 %s, i16 %t, i16 %face , <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

Show All 34 Lines	main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.1darray.i64.i16(i64 %data, i16 %s, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {		define amdgpu_ps <2 x float> @atomic_add_i64_2darray(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %slice) {
; GFX9-LABEL: atomic_add_i64_2darray:		; GFX9-LABEL: atomic_add_i64_2darray:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16 da
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2darray:		; GFX10-LABEL: atomic_add_i64_2darray:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_ARRAY unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2darray.i64.i16(i64 %data, i16 %s, i16 %t, i16 %slice, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {		define amdgpu_ps <2 x float> @atomic_add_i64_2dmsaa(<8 x i32> inreg %rsrc, i64 %data, i16 %s, i16 %t, i16 %fragid) {
; GFX9-LABEL: atomic_add_i64_2dmsaa:		; GFX9-LABEL: atomic_add_i64_2dmsaa:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff		; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX9-NEXT: s_lshl_b32 s8, s0, 16		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3		; GFX9-NEXT: v_and_or_b32 v3, v2, v5, v3
; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s8		; GFX9-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 unorm glc a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: atomic_add_i64_2dmsaa:		; GFX10-LABEL: atomic_add_i64_2dmsaa:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3		; GFX10-NEXT: v_lshlrev_b32_e32 v3, 16, v3
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_lshl_b32 s8, s0, 16
; GFX10-NEXT: v_and_or_b32 v2, v2, v5, v3
; GFX10-NEXT: v_and_or_b32 v3, v4, v5, s8
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: v_and_or_b32 v3, 0xffff, v2, v3
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
; GFX10-NEXT: image_atomic_add v[0:1], v[2:3], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16		; GFX10-NEXT: image_atomic_add v[0:1], v[3:4], s[0:7] dmask:0x3 dim:SQ_RSRC_IMG_2D_MSAA unorm glc a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)		%v = call i64 @llvm.amdgcn.image.atomic.add.2dmsaa.i64.i16(i64 %data, i16 %s, i16 %t, i16 %fragid, <8 x i32> %rsrc, i32 0, i32 0)
%out = bitcast i64 %v to <2 x float>		%out = bitcast i64 %v to <2 x float>
ret <2 x float> %out		ret <2 x float> %out
}		}

▲ Show 20 Lines • Show All 121 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

	Show First 20 Lines • Show All 54 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {			define amdgpu_ps <4 x float> @gather4_cube(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %face) {
	; GFX9-LABEL: gather4_cube:			; GFX9-LABEL: gather4_cube:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cube:			; GFX10NSA-LABEL: gather4_cube:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_CUBE a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cube.v4f32.f16(i32 1, half %s, half %t, half %face, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {			define amdgpu_ps <4 x float> @gather4_2darray(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %slice) {
	; GFX9-LABEL: gather4_2darray:			; GFX9-LABEL: gather4_2darray:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16 da			; GFX9-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16 da
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_2darray:			; GFX10NSA-LABEL: gather4_2darray:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4 v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10NSA-NEXT: image_gather4 v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.2darray.v4f32.f16(i32 1, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_c_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t) {
	▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_cl_2d:			; GFX9-LABEL: gather4_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_cl_2d:			; GFX10NSA-LABEL: gather4_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_cl v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.cl.2d.v4f32.f16(i32 1, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_cl_2d:			; GFX9-LABEL: gather4_c_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_cl_2d:			; GFX10NSA-LABEL: gather4_c_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.cl.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %bias, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_b_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %bias, half %s, half %t) {
	▲ Show 20 Lines • Show All 101 Lines • ▼ Show 20 Lines
	}			}

	define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %bias, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %bias, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_b_cl_2d:			; GFX9-LABEL: gather4_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_b_cl v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_b_cl_2d:			; GFX10NSA-LABEL: gather4_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_b_cl v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f32.f16(i32 1, float %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.b.cl.2d.v4f32.f32.f16(i32 1, float %bias, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %bias, float %zcompare, half %s, half %t, half %clamp) {			define amdgpu_ps <4 x float> @gather4_c_b_cl_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %bias, float %zcompare, half %s, half %t, half %clamp) {
	; GFX9-LABEL: gather4_c_b_cl_2d:			; GFX9-LABEL: gather4_c_b_cl_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b64 s[14:15], exec			; GFX9-NEXT: s_mov_b64 s[14:15], exec
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_wqm_b64 exec, exec			; GFX9-NEXT: s_wqm_b64 exec, exec
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v5, v3
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v3, v4
	; GFX9-NEXT: s_mov_b32 s6, s8			; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: s_mov_b32 s8, s10			; GFX9-NEXT: v_lshlrev_b32_e32 v5, 16, v5
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v2, v2, v5, v3			; GFX9-NEXT: v_and_or_b32 v2, v2, v4, v5
	; GFX9-NEXT: v_and_or_b32 v3, v4, v5, s12
	; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]			; GFX9-NEXT: s_and_b64 exec, exec, s[14:15]
	; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16			; GFX9-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_b_cl_2d:			; GFX10NSA-LABEL: gather4_c_b_cl_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo			; GFX10NSA-NEXT: s_mov_b32 s14, exec_lo
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo			; GFX10NSA-NEXT: s_wqm_b32 exec_lo, exec_lo
	; GFX10NSA-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v3, 16, v3
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: v_and_or_b32 v2, v2, v5, v3			; GFX10NSA-NEXT: v_and_or_b32 v2, 0xffff, v2, v3
	; GFX10NSA-NEXT: v_and_or_b32 v3, v4, v5, s12
	; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14			; GFX10NSA-NEXT: s_and_b32 exec_lo, exec_lo, s14
	; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], v[0:3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_b_cl v[0:3], [v0, v1, v2, v4], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f32.f16(i32 1, float %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.b.cl.2d.v4f32.f32.f16(i32 1, float %bias, float %zcompare, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_l_2d:			; GFX9-LABEL: gather4_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s12			; GFX9-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: image_gather4_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_l_2d:			; GFX10NSA-LABEL: gather4_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10NSA-NEXT: v_and_or_b32 v1, v2, v3, s12
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_l v[0:3], v[0:1], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_l v[0:3], v[1:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.l.2d.v4f32.f16(i32 1, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {			define amdgpu_ps <4 x float> @gather4_c_l_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %t, half %lod) {
	; GFX9-LABEL: gather4_c_l_2d:			; GFX9-LABEL: gather4_c_l_2d:
	; GFX9: ; %bb.0: ; %main_body			; GFX9: ; %bb.0: ; %main_body
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v4, v1
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v1, v0
	; GFX9-NEXT: s_mov_b32 s4, s6			; GFX9-NEXT: v_mov_b32_e32 v0, 0xffff
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX9-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX9-NEXT: s_lshl_b32 s12, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
				; GFX9-NEXT: s_mov_b32 s8, s10
	; GFX9-NEXT: s_mov_b32 s9, s11			; GFX9-NEXT: s_mov_b32 s9, s11
				; GFX9-NEXT: s_mov_b32 s10, s12
	; GFX9-NEXT: s_mov_b32 s11, s13			; GFX9-NEXT: s_mov_b32 s11, s13
	; GFX9-NEXT: v_and_or_b32 v1, v1, v4, v2			; GFX9-NEXT: v_and_or_b32 v2, v4, v0, v2
	; GFX9-NEXT: v_and_or_b32 v2, v3, v4, s12			; GFX9-NEXT: image_gather4_c_l v[0:3], v[1:3], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: image_gather4_c_l v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10NSA-LABEL: gather4_c_l_2d:			; GFX10NSA-LABEL: gather4_c_l_2d:
	; GFX10NSA: ; %bb.0: ; %main_body			; GFX10NSA: ; %bb.0: ; %main_body
	; GFX10NSA-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2			; GFX10NSA-NEXT: v_lshlrev_b32_e32 v2, 16, v2
	; GFX10NSA-NEXT: s_mov_b32 s0, s2			; GFX10NSA-NEXT: s_mov_b32 s0, s2
	; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10NSA-NEXT: v_and_or_b32 v1, v1, v4, v2
	; GFX10NSA-NEXT: v_and_or_b32 v2, v3, v4, s12
	; GFX10NSA-NEXT: s_mov_b32 s1, s3			; GFX10NSA-NEXT: s_mov_b32 s1, s3
				; GFX10NSA-NEXT: s_mov_b32 s2, s4
	; GFX10NSA-NEXT: s_mov_b32 s3, s5			; GFX10NSA-NEXT: s_mov_b32 s3, s5
				; GFX10NSA-NEXT: v_and_or_b32 v1, 0xffff, v1, v2
				; GFX10NSA-NEXT: s_mov_b32 s4, s6
	; GFX10NSA-NEXT: s_mov_b32 s5, s7			; GFX10NSA-NEXT: s_mov_b32 s5, s7
				; GFX10NSA-NEXT: s_mov_b32 s6, s8
	; GFX10NSA-NEXT: s_mov_b32 s7, s9			; GFX10NSA-NEXT: s_mov_b32 s7, s9
				; GFX10NSA-NEXT: s_mov_b32 s8, s10
	; GFX10NSA-NEXT: s_mov_b32 s9, s11			; GFX10NSA-NEXT: s_mov_b32 s9, s11
				; GFX10NSA-NEXT: s_mov_b32 s10, s12
	; GFX10NSA-NEXT: s_mov_b32 s11, s13			; GFX10NSA-NEXT: s_mov_b32 s11, s13
	; GFX10NSA-NEXT: image_gather4_c_l v[0:3], v[0:2], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16			; GFX10NSA-NEXT: image_gather4_c_l v[0:3], [v0, v1, v3], s[0:7], s[8:11] dmask:0x1 dim:SQ_RSRC_IMG_2D a16
	; GFX10NSA-NEXT: s_waitcnt vmcnt(0)			; GFX10NSA-NEXT: s_waitcnt vmcnt(0)
	; GFX10NSA-NEXT: ; return to shader part epilog			; GFX10NSA-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.gather4.c.l.2d.v4f32.f16(i32 1, float %zcompare, half %s, half %t, half %lod, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {			define amdgpu_ps <4 x float> @gather4_lz_2d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %s, half %t) {
	▲ Show 20 Lines • Show All 107 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx900 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX9 %s
	; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX10 %s			; RUN: llc -global-isel -mtriple=amdgcn-mesa-mesa3d -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefix=GFX10 %s

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw(<8 x i32> inreg %rsrc, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw:			; GFX9-LABEL: load_3d_v4f32_xyzw:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff			; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_and_or_b32 v0, v0, v3, v1			; GFX9-NEXT: v_and_or_b32 v1, v0, v3, v1
	; GFX9-NEXT: v_and_or_b32 v1, v2, v3, s8			; GFX9-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf unorm a16
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw:			; GFX10-LABEL: load_3d_v4f32_xyzw:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v1, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: image_load v[0:3], v[0:1], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16			; GFX10-NEXT: image_load v[0:3], v[1:2], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_and_or_b32 v5, v0, v2, v1
	; GFX9-NEXT: v_and_or_b32 v10, v0, v3, v1			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_and_or_b32 v11, v2, v3, s8			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v6, v5			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v7, v5			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v8, v5			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v5			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, v5
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v6			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v7			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v8			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v5, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_mov_b32_e32 v6, v5
	; GFX10-NEXT: v_mov_b32_e32 v7, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v5
	; GFX10-NEXT: v_mov_b32_e32 v9, v5
	; GFX10-NEXT: v_and_or_b32 v10, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v11, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: v_mov_b32_e32 v8, v7
				; GFX10-NEXT: v_mov_b32_e32 v9, v7
				; GFX10-NEXT: v_mov_b32_e32 v10, v7
				; GFX10-NEXT: v_mov_b32_e32 v11, v7
				; GFX10-NEXT: v_and_or_b32 v5, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v5			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v6			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v7			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v8			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v9			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v5, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 1, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {			define amdgpu_ps <4 x float> @load_3d_v4f32_xyzw_tfe_lwe(<8 x i32> inreg %rsrc, i32 addrspace(1)* inreg %out, i16 %s, i16 %t, i16 %r) {
	; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX9-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX9: ; %bb.0:			; GFX9: ; %bb.0:
	; GFX9-NEXT: s_mov_b32 s0, s2			; GFX9-NEXT: v_mov_b32_e32 v6, v2
	; GFX9-NEXT: s_mov_b32 s2, s4			; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
	; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX9-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX9-NEXT: s_lshl_b32 s8, s0, 16			; GFX9-NEXT: v_mov_b32_e32 v7, 0
	; GFX9-NEXT: v_mov_b32_e32 v5, 0			; GFX9-NEXT: v_and_or_b32 v5, v0, v2, v1
	; GFX9-NEXT: v_and_or_b32 v10, v0, v3, v1			; GFX9-NEXT: v_mov_b32_e32 v8, v7
	; GFX9-NEXT: v_and_or_b32 v11, v2, v3, s8			; GFX9-NEXT: v_mov_b32_e32 v9, v7
	; GFX9-NEXT: v_mov_b32_e32 v6, v5			; GFX9-NEXT: v_mov_b32_e32 v10, v7
	; GFX9-NEXT: v_mov_b32_e32 v7, v5			; GFX9-NEXT: v_mov_b32_e32 v11, v7
	; GFX9-NEXT: v_mov_b32_e32 v8, v5			; GFX9-NEXT: v_mov_b32_e32 v0, v7
	; GFX9-NEXT: v_mov_b32_e32 v9, v5			; GFX9-NEXT: s_mov_b32 s0, s2
	; GFX9-NEXT: v_mov_b32_e32 v0, v5
	; GFX9-NEXT: s_mov_b32 s1, s3			; GFX9-NEXT: s_mov_b32 s1, s3
				; GFX9-NEXT: s_mov_b32 s2, s4
	; GFX9-NEXT: s_mov_b32 s3, s5			; GFX9-NEXT: s_mov_b32 s3, s5
				; GFX9-NEXT: s_mov_b32 s4, s6
	; GFX9-NEXT: s_mov_b32 s5, s7			; GFX9-NEXT: s_mov_b32 s5, s7
				; GFX9-NEXT: s_mov_b32 s6, s8
	; GFX9-NEXT: s_mov_b32 s7, s9			; GFX9-NEXT: s_mov_b32 s7, s9
	; GFX9-NEXT: v_mov_b32_e32 v1, v6			; GFX9-NEXT: v_mov_b32_e32 v1, v8
	; GFX9-NEXT: v_mov_b32_e32 v2, v7			; GFX9-NEXT: v_mov_b32_e32 v2, v9
	; GFX9-NEXT: v_mov_b32_e32 v3, v8			; GFX9-NEXT: v_mov_b32_e32 v3, v10
	; GFX9-NEXT: v_mov_b32_e32 v4, v9			; GFX9-NEXT: v_mov_b32_e32 v4, v11
	; GFX9-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf unorm a16 tfe lwe			; GFX9-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf unorm a16 tfe lwe
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: global_store_dword v5, v4, s[10:11]			; GFX9-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX9-NEXT: s_waitcnt vmcnt(0)			; GFX9-NEXT: s_waitcnt vmcnt(0)
	; GFX9-NEXT: ; return to shader part epilog			; GFX9-NEXT: ; return to shader part epilog
	;			;
	; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:			; GFX10-LABEL: load_3d_v4f32_xyzw_tfe_lwe:
	; GFX10: ; %bb.0:			; GFX10: ; %bb.0:
	; GFX10-NEXT: v_mov_b32_e32 v5, 0			; GFX10-NEXT: v_mov_b32_e32 v7, 0
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
				; GFX10-NEXT: v_mov_b32_e32 v6, v2
	; GFX10-NEXT: s_mov_b32 s0, s2			; GFX10-NEXT: s_mov_b32 s0, s2
	; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_lshl_b32 s8, s0, 16
	; GFX10-NEXT: v_mov_b32_e32 v6, v5
	; GFX10-NEXT: v_mov_b32_e32 v7, v5
	; GFX10-NEXT: v_mov_b32_e32 v8, v5
	; GFX10-NEXT: v_mov_b32_e32 v9, v5
	; GFX10-NEXT: v_and_or_b32 v10, v0, v3, v1
	; GFX10-NEXT: v_and_or_b32 v11, v2, v3, s8
	; GFX10-NEXT: s_mov_b32 s1, s3			; GFX10-NEXT: s_mov_b32 s1, s3
				; GFX10-NEXT: v_mov_b32_e32 v8, v7
				; GFX10-NEXT: v_mov_b32_e32 v9, v7
				; GFX10-NEXT: v_mov_b32_e32 v10, v7
				; GFX10-NEXT: v_mov_b32_e32 v11, v7
				; GFX10-NEXT: v_and_or_b32 v5, 0xffff, v0, v1
				; GFX10-NEXT: s_mov_b32 s2, s4
	; GFX10-NEXT: s_mov_b32 s3, s5			; GFX10-NEXT: s_mov_b32 s3, s5
				; GFX10-NEXT: s_mov_b32 s4, s6
	; GFX10-NEXT: s_mov_b32 s5, s7			; GFX10-NEXT: s_mov_b32 s5, s7
				; GFX10-NEXT: s_mov_b32 s6, s8
	; GFX10-NEXT: s_mov_b32 s7, s9			; GFX10-NEXT: s_mov_b32 s7, s9
	; GFX10-NEXT: v_mov_b32_e32 v0, v5			; GFX10-NEXT: v_mov_b32_e32 v0, v7
	; GFX10-NEXT: v_mov_b32_e32 v1, v6			; GFX10-NEXT: v_mov_b32_e32 v1, v8
	; GFX10-NEXT: v_mov_b32_e32 v2, v7			; GFX10-NEXT: v_mov_b32_e32 v2, v9
	; GFX10-NEXT: v_mov_b32_e32 v3, v8			; GFX10-NEXT: v_mov_b32_e32 v3, v10
	; GFX10-NEXT: v_mov_b32_e32 v4, v9			; GFX10-NEXT: v_mov_b32_e32 v4, v11
	; GFX10-NEXT: image_load v[0:4], v[10:11], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe			; GFX10-NEXT: image_load v[0:4], v[5:6], s[0:7] dmask:0xf dim:SQ_RSRC_IMG_3D unorm a16 tfe lwe
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: global_store_dword v5, v4, s[10:11]			; GFX10-NEXT: global_store_dword v7, v4, s[10:11]
	; GFX10-NEXT: s_waitcnt_vscnt null, 0x0			; GFX10-NEXT: s_waitcnt_vscnt null, 0x0
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 3, i32 0)			%v = call { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 15, i16 %s, i16 %t, i16 %r, <8 x i32> %rsrc, i32 3, i32 0)
	%v.vec = extractvalue { <4 x float>, i32 } %v, 0			%v.vec = extractvalue { <4 x float>, i32 } %v, 0
	%v.err = extractvalue { <4 x float>, i32 } %v, 1			%v.err = extractvalue { <4 x float>, i32 } %v, 1
	store i32 %v.err, i32 addrspace(1)* %out, align 4			store i32 %v.err, i32 addrspace(1)* %out, align 4
	ret <4 x float> %v.vec			ret <4 x float> %v.vec
	}			}

	declare <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0			declare <4 x float> @llvm.amdgcn.image.load.3d.v4f32.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0
	declare { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0			declare { <4 x float>, i32 } @llvm.amdgcn.image.load.3d.sl_v4f32i32s.i16(i32 immarg, i16, i16, i16, <8 x i32>, i32 immarg, i32 immarg) #0

	attributes #0 = { nounwind readonly }			attributes #0 = { nounwind readonly }

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -global-isel -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s

	define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_d_1d:			; GFX10-LABEL: sample_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {			define amdgpu_ps <4 x float> @sample_d_3d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r) {
	; GFX10-LABEL: sample_d_3d:			; GFX10-LABEL: sample_d_3d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v9, v2			; GFX10-NEXT: v_mov_b32_e32 v9, v3
	; GFX10-NEXT: v_mov_b32_e32 v10, v3			; GFX10-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10-NEXT: v_mov_b32_e32 v11, 0xffff
	; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16			; GFX10-NEXT: v_mov_b32_e32 v3, v2
	; GFX10-NEXT: v_and_or_b32 v3, v9, v11, s12			; GFX10-NEXT: v_and_or_b32 v2, v0, v10, v1
	; GFX10-NEXT: v_and_or_b32 v2, v0, v11, v1			; GFX10-NEXT: v_and_or_b32 v4, v9, v10, v4
	; GFX10-NEXT: v_and_or_b32 v4, v10, v11, v4
	; GFX10-NEXT: v_and_or_b32 v5, v5, v11, s12
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_d_cl_1d:			; GFX10-LABEL: sample_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_d_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_d_cl_1d:			; GFX10-LABEL: sample_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 14 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_cd_1d:			; GFX10-LABEL: sample_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_c_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.2d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_cd_cl_1d:			; GFX10-LABEL: sample_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 11 Lines
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %dsdv, half %dtdv, float %s, float %t, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {			define amdgpu_ps <4 x float> @sample_c_cd_cl_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp) {
	; GFX10-LABEL: sample_c_cd_cl_1d:			; GFX10-LABEL: sample_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.ltolz.a16.ll

Show First 20 Lines • Show All 87 Lines • ▼ Show 20 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.l.2d.v4f32.f16(i32 15, half %s, half %t, half -0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.l.2d.v4f32.f16(i32 15, half %s, half %t, half -0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %lod) {		define amdgpu_ps <4 x float> @sample_c_l_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %s, half %lod) {
; GFX9-LABEL: sample_c_l_1d:		; GFX9-LABEL: sample_c_l_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s8, s10
; GFX9-NEXT: s_mov_b32 s10, s12
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX9-NEXT: s_lshl_b32 s12, s0, 16
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
		; GFX9-NEXT: s_mov_b32 s8, s10
; GFX9-NEXT: s_mov_b32 s9, s11		; GFX9-NEXT: s_mov_b32 s9, s11
		; GFX9-NEXT: s_mov_b32 s10, s12
; GFX9-NEXT: s_mov_b32 s11, s13		; GFX9-NEXT: s_mov_b32 s11, s13
; GFX9-NEXT: v_and_or_b32 v1, v1, v2, s12
; GFX9-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_l_1d:		; GFX10-LABEL: sample_c_l_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s8, s10
; GFX10-NEXT: s_mov_b32 s10, s12
; GFX10-NEXT: s_lshl_b32 s12, s0, 16
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, s12		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
		; GFX10-NEXT: s_mov_b32 s8, s10
; GFX10-NEXT: s_mov_b32 s9, s11		; GFX10-NEXT: s_mov_b32 s9, s11
		; GFX10-NEXT: s_mov_b32 s10, s12
; GFX10-NEXT: s_mov_b32 s11, s13		; GFX10-NEXT: s_mov_b32 s11, s13
; GFX10-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_lz v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.1d.v4f32.f16(i32 15, float %zcompare, half %s, half -2.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.1d.v4f32.f16(i32 15, float %zcompare, half %s, half -2.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.2d.v4f32.f16(i32 15, float %zcompare, half %s, half %t, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_l_o_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, half %s, half %lod) {		define amdgpu_ps <4 x float> @sample_l_o_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, half %s, half %lod) {
; GFX9-LABEL: sample_l_o_1d:		; GFX9-LABEL: sample_l_o_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s8, s10
; GFX9-NEXT: s_mov_b32 s10, s12
; GFX9-NEXT: v_mov_b32_e32 v2, 0xffff
; GFX9-NEXT: s_lshl_b32 s12, s0, 16
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
		; GFX9-NEXT: s_mov_b32 s8, s10
; GFX9-NEXT: s_mov_b32 s9, s11		; GFX9-NEXT: s_mov_b32 s9, s11
		; GFX9-NEXT: s_mov_b32 s10, s12
; GFX9-NEXT: s_mov_b32 s11, s13		; GFX9-NEXT: s_mov_b32 s11, s13
; GFX9-NEXT: v_and_or_b32 v1, v1, v2, s12
; GFX9-NEXT: image_sample_lz_o v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_lz_o v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_l_o_1d:		; GFX10-LABEL: sample_l_o_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s8, s10
; GFX10-NEXT: s_mov_b32 s10, s12
; GFX10-NEXT: s_lshl_b32 s12, s0, 16
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: v_and_or_b32 v1, 0xffff, v1, s12		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
		; GFX10-NEXT: s_mov_b32 s8, s10
; GFX10-NEXT: s_mov_b32 s9, s11		; GFX10-NEXT: s_mov_b32 s9, s11
		; GFX10-NEXT: s_mov_b32 s10, s12
; GFX10-NEXT: s_mov_b32 s11, s13		; GFX10-NEXT: s_mov_b32 s11, s13
; GFX10-NEXT: image_sample_lz_o v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_lz_o v[0:3], v[0:1], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.l.o.1d.v4f32.f16(i32 15, i32 %offset, half %s, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.l.o.1d.v4f32.f16(i32 15, i32 %offset, half %s, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.l.o.2d.v4f32.f16(i32 15, i32 %offset, half %s, half %t, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.l.o.2d.v4f32.f16(i32 15, i32 %offset, half %s, half %t, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}

define amdgpu_ps <4 x float> @sample_c_l_o_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %s, half %lod) {		define amdgpu_ps <4 x float> @sample_c_l_o_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, i32 %offset, float %zcompare, half %s, half %lod) {
; GFX9-LABEL: sample_c_l_o_1d:		; GFX9-LABEL: sample_c_l_o_1d:
; GFX9: ; %bb.0: ; %main_body		; GFX9: ; %bb.0: ; %main_body
; GFX9-NEXT: s_mov_b32 s0, s2		; GFX9-NEXT: s_mov_b32 s0, s2
; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s8, s10
; GFX9-NEXT: s_mov_b32 s10, s12
; GFX9-NEXT: v_mov_b32_e32 v3, 0xffff
; GFX9-NEXT: s_lshl_b32 s12, s0, 16
; GFX9-NEXT: s_mov_b32 s1, s3		; GFX9-NEXT: s_mov_b32 s1, s3
		; GFX9-NEXT: s_mov_b32 s2, s4
; GFX9-NEXT: s_mov_b32 s3, s5		; GFX9-NEXT: s_mov_b32 s3, s5
		; GFX9-NEXT: s_mov_b32 s4, s6
; GFX9-NEXT: s_mov_b32 s5, s7		; GFX9-NEXT: s_mov_b32 s5, s7
		; GFX9-NEXT: s_mov_b32 s6, s8
; GFX9-NEXT: s_mov_b32 s7, s9		; GFX9-NEXT: s_mov_b32 s7, s9
		; GFX9-NEXT: s_mov_b32 s8, s10
; GFX9-NEXT: s_mov_b32 s9, s11		; GFX9-NEXT: s_mov_b32 s9, s11
		; GFX9-NEXT: s_mov_b32 s10, s12
; GFX9-NEXT: s_mov_b32 s11, s13		; GFX9-NEXT: s_mov_b32 s11, s13
; GFX9-NEXT: v_and_or_b32 v2, v2, v3, s12
; GFX9-NEXT: image_sample_c_lz_o v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16		; GFX9-NEXT: image_sample_c_lz_o v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf a16
; GFX9-NEXT: s_waitcnt vmcnt(0)		; GFX9-NEXT: s_waitcnt vmcnt(0)
; GFX9-NEXT: ; return to shader part epilog		; GFX9-NEXT: ; return to shader part epilog
;		;
; GFX10-LABEL: sample_c_l_o_1d:		; GFX10-LABEL: sample_c_l_o_1d:
; GFX10: ; %bb.0: ; %main_body		; GFX10: ; %bb.0: ; %main_body
; GFX10-NEXT: s_mov_b32 s0, s2		; GFX10-NEXT: s_mov_b32 s0, s2
; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s8, s10
; GFX10-NEXT: s_mov_b32 s10, s12
; GFX10-NEXT: s_lshl_b32 s12, s0, 16
; GFX10-NEXT: s_mov_b32 s1, s3		; GFX10-NEXT: s_mov_b32 s1, s3
; GFX10-NEXT: v_and_or_b32 v2, 0xffff, v2, s12		; GFX10-NEXT: s_mov_b32 s2, s4
; GFX10-NEXT: s_mov_b32 s3, s5		; GFX10-NEXT: s_mov_b32 s3, s5
		; GFX10-NEXT: s_mov_b32 s4, s6
; GFX10-NEXT: s_mov_b32 s5, s7		; GFX10-NEXT: s_mov_b32 s5, s7
		; GFX10-NEXT: s_mov_b32 s6, s8
; GFX10-NEXT: s_mov_b32 s7, s9		; GFX10-NEXT: s_mov_b32 s7, s9
		; GFX10-NEXT: s_mov_b32 s8, s10
; GFX10-NEXT: s_mov_b32 s9, s11		; GFX10-NEXT: s_mov_b32 s9, s11
		; GFX10-NEXT: s_mov_b32 s10, s12
; GFX10-NEXT: s_mov_b32 s11, s13		; GFX10-NEXT: s_mov_b32 s11, s13
; GFX10-NEXT: image_sample_c_lz_o v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16		; GFX10-NEXT: image_sample_c_lz_o v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
; GFX10-NEXT: s_waitcnt vmcnt(0)		; GFX10-NEXT: s_waitcnt vmcnt(0)
; GFX10-NEXT: ; return to shader part epilog		; GFX10-NEXT: ; return to shader part epilog
main_body:		main_body:
%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.o.1d.v4f32.f16(i32 15, i32 %offset, float %zcompare, half %s, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)		%v = call <4 x float> @llvm.amdgcn.image.sample.c.l.o.1d.v4f32.f16(i32 15, i32 %offset, float %zcompare, half %s, half 0.000000e+00, <8 x i32> %rsrc, <4 x i32> %samp, i1 false, i32 0, i32 0)
ret <4 x float> %v		ret <4 x float> %v
}		}
▲ Show 20 Lines • Show All 245 Lines • Show Last 20 Lines

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10 %s
	; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL %s			; RUN: llc -march=amdgcn -mcpu=gfx1010 -global-isel -verify-machineinstrs < %s \| FileCheck -check-prefixes=GFX10GISEL %s
	; TODO: global-isel produces more code - there will need to be some more combines in the postregbankselectcombine phase			; TODO: global-isel produces more code - there will need to be some more combines in the postregbankselectcombine phase
	; Depends on some other changes to pass this test - those are in review separately			; Depends on some other changes to pass this test - those are in review separately

	define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_d_1d:			; GFX10-LABEL: sample_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_1d:			; GFX10GISEL-LABEL: sample_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 31 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16			; GFX10-NEXT: image_sample_d v[0:3], v[8:15], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_3d:			; GFX10GISEL-LABEL: sample_d_3d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16			; GFX10GISEL-NEXT: image_sample_d v[0:3], v[0:7], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %drdh, float %dsdv, float %dtdv, float %drdv, half %s, half %t, half %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_c_d_1d:			; GFX10-LABEL: sample_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_1d:			; GFX10GISEL-LABEL: sample_c_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v3, 0xffff, v3, s12
	; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_c_d v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_mov_b32_e32 v7, v1			; GFX10-NEXT: v_mov_b32_e32 v7, v1
	; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0
	; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_d_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_d_cl_2d:			; GFX10GISEL-LABEL: sample_d_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v4, v7, v5			; GFX10GISEL-NEXT: v_and_or_b32 v4, 0xffff, v4, v6
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v6, v7, s12
	; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_d_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 30 Lines
	; GFX10-NEXT: v_mov_b32_e32 v8, v1			; GFX10-NEXT: v_mov_b32_e32 v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0
	; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_d_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_cl_2d:			; GFX10GISEL-LABEL: sample_c_d_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v8, v6			; GFX10GISEL-NEXT: v_and_or_b32 v5, 0xffff, v5, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v7, v8, s12
	; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_c_d_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {			define amdgpu_ps <4 x float> @sample_cd_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %dsdh, float %dsdv, half %s) {
	; GFX10-LABEL: sample_cd_1d:			; GFX10-LABEL: sample_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_cd_1d:			; GFX10GISEL-LABEL: sample_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v2, 0xffff, v2, s12
	; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_cd v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f32.f16(i32 15, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 22 Lines
	; GFX10-LABEL: sample_c_cd_1d:			; GFX10-LABEL: sample_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_cd_1d:			; GFX10GISEL-LABEL: sample_c_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v3, 0xffff, v3, s12
	; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16			; GFX10GISEL-NEXT: image_sample_c_cd v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dsdv, half %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; GFX10-NEXT: v_mov_b32_e32 v7, v1			; GFX10-NEXT: v_mov_b32_e32 v7, v1
	; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v10, v5, 16, v0
	; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_cd_cl v[0:3], v[6:11], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_cd_cl_2d:			; GFX10GISEL-LABEL: sample_cd_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v7, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v5
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v5, 16, v5			; GFX10GISEL-NEXT: v_mov_b32_e32 v5, v6
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v4, v7, v5			; GFX10GISEL-NEXT: v_and_or_b32 v4, 0xffff, v4, v6
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v6, v7, s12
	; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_cd_cl v[0:3], v[0:5], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.2d.v4f32.f32.f16(i32 15, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 30 Lines
	; GFX10-NEXT: v_mov_b32_e32 v8, v1			; GFX10-NEXT: v_mov_b32_e32 v8, v1
	; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v12, v6, 16, v0
	; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10-NEXT: image_sample_c_cd_cl v[0:3], v[7:13], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_cd_cl_2d:			; GFX10GISEL-LABEL: sample_c_cd_cl_2d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v8, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v8, v6
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v6, 16, v6			; GFX10GISEL-NEXT: v_mov_b32_e32 v6, v7
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v8, v6			; GFX10GISEL-NEXT: v_and_or_b32 v5, 0xffff, v5, v7
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v7, v8, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16			; GFX10GISEL-NEXT: image_sample_c_cd_cl v[0:3], v[0:6], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_2D a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.2d.v4f32.f32.f16(i32 15, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 10 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v0, v[8:15], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:			; GFX10GISEL-LABEL: sample_c_d_o_2darray_V1:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10GISEL-NEXT: image_sample_c_d_o v0, v[0:7], s[0:7], s[8:11] dmask:0x4 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call float @llvm.amdgcn.image.sample.c.d.o.2darray.f32.f32.f16(i32 4, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret float %v			ret float %v
	}			}

	Show All 10 Lines
	; GFX10-NEXT: v_mov_b32_e32 v9, v1			; GFX10-NEXT: v_mov_b32_e32 v9, v1
	; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v14, v7, 16, v0
	; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10-NEXT: image_sample_c_d_o v[0:1], v[8:15], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:			; GFX10GISEL-LABEL: sample_c_d_o_2darray_V2:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, 0xffff			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v7
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v7, 16, v7			; GFX10GISEL-NEXT: v_mov_b32_e32 v7, v8
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v8, 16, v9
	; GFX10GISEL-NEXT: v_and_or_b32 v6, v6, v9, v7			; GFX10GISEL-NEXT: v_and_or_b32 v6, 0xffff, v6, v8
	; GFX10GISEL-NEXT: v_and_or_b32 v7, v8, v9, s12
	; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16			; GFX10GISEL-NEXT: image_sample_c_d_o v[0:1], v[0:7], s[0:7], s[8:11] dmask:0x6 dim:SQ_RSRC_IMG_2D_ARRAY a16
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <2 x float> @llvm.amdgcn.image.sample.c.d.o.2darray.v2f32.f32.f16(i32 6, i32 %offset, float %zcompare, float %dsdh, float %dtdh, float %dsdv, float %dtdv, half %s, half %t, half %slice, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <2 x float> %v			ret <2 x float> %v
	}			}

	Show All 23 Lines
	; GFX10-LABEL: sample_g16_noa16_d_1d:			; GFX10-LABEL: sample_g16_noa16_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 35 Lines
	; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9			; GFX10-NEXT: v_lshl_or_b32 v4, v4, 16, v9
	; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0			; GFX10-NEXT: v_lshl_or_b32 v2, v1, 16, v0
	; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_3d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v2			; GFX10GISEL-NEXT: v_mov_b32_e32 v9, v3
	; GFX10GISEL-NEXT: v_mov_b32_e32 v10, v3			; GFX10GISEL-NEXT: v_mov_b32_e32 v10, 0xffff
	; GFX10GISEL-NEXT: v_mov_b32_e32 v11, 0xffff
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v1, 16, v1			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v1, 16, v1
	; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v4, 16, v4			; GFX10GISEL-NEXT: v_lshlrev_b32_e32 v4, 16, v4
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16			; GFX10GISEL-NEXT: v_mov_b32_e32 v3, v2
	; GFX10GISEL-NEXT: v_and_or_b32 v3, v9, v11, s12			; GFX10GISEL-NEXT: v_and_or_b32 v2, v0, v10, v1
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v0, v11, v1			; GFX10GISEL-NEXT: v_and_or_b32 v4, v9, v10, v4
	; GFX10GISEL-NEXT: v_and_or_b32 v4, v10, v11, v4
	; GFX10GISEL-NEXT: v_and_or_b32 v5, v5, v11, s12
	; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D			; GFX10GISEL-NEXT: image_sample_d_g16 v[0:3], v[2:8], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_3D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.3d.v4f32.f16.f32(i32 15, half %dsdh, half %dtdh, half %drdh, half %dsdv, half %dtdv, half %drdv, float %s, float %t, float %r, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {			define amdgpu_ps <4 x float> @sample_g16_noa16_c_d_1d(<8 x i32> inreg %rsrc, <4 x i32> inreg %samp, float %zcompare, half %dsdh, half %dsdv, float %s) {
	; GFX10-LABEL: sample_g16_noa16_c_d_1d:			; GFX10-LABEL: sample_g16_noa16_c_d_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_d_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_d_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_d_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_d_cl_1d:			; GFX10-LABEL: sample_g16_noa16_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_d_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_d_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.d.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_d_cl_1d:			; GFX10-LABEL: sample_g16_noa16_c_d_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_d_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_d_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.d.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 33 Lines
	; GFX10-LABEL: sample_g16_noa16_cd_1d:			; GFX10-LABEL: sample_g16_noa16_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_cd_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v3, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v3, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v3, s12
	; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_cd_g16 v[0:3], v[0:2], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_cd_1d:			; GFX10-LABEL: sample_g16_noa16_c_cd_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v4, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_cd_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_cd_cl_1d:			; GFX10-LABEL: sample_g16_noa16_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_cd_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v4, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v0, v0, v4, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v4, s12
	; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_cd_cl_g16 v[0:3], v[0:3], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.cd.cl.1d.v4f32.f16.f32(i32 15, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	Show All 28 Lines
	; GFX10-LABEL: sample_g16_noa16_c_cd_cl_1d:			; GFX10-LABEL: sample_g16_noa16_c_cd_cl_1d:
	; GFX10: ; %bb.0: ; %main_body			; GFX10: ; %bb.0: ; %main_body
	; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10-NEXT: s_waitcnt vmcnt(0)			; GFX10-NEXT: s_waitcnt vmcnt(0)
	; GFX10-NEXT: ; return to shader part epilog			; GFX10-NEXT: ; return to shader part epilog
	;			;
	; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_1d:			; GFX10GISEL-LABEL: sample_g16_noa16_c_cd_cl_1d:
	; GFX10GISEL: ; %bb.0: ; %main_body			; GFX10GISEL: ; %bb.0: ; %main_body
	; GFX10GISEL-NEXT: v_mov_b32_e32 v5, 0xffff
	; GFX10GISEL-NEXT: s_lshl_b32 s12, s0, 16
	; GFX10GISEL-NEXT: v_and_or_b32 v1, v1, v5, s12
	; GFX10GISEL-NEXT: v_and_or_b32 v2, v2, v5, s12
	; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D			; GFX10GISEL-NEXT: image_sample_c_cd_cl_g16 v[0:3], v[0:4], s[0:7], s[8:11] dmask:0xf dim:SQ_RSRC_IMG_1D
	; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)			; GFX10GISEL-NEXT: s_waitcnt vmcnt(0)
	; GFX10GISEL-NEXT: ; return to shader part epilog			; GFX10GISEL-NEXT: ; return to shader part epilog
	main_body:			main_body:
	%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)			%v = call <4 x float> @llvm.amdgcn.image.sample.c.cd.cl.1d.v4f32.f16.f32(i32 15, float %zcompare, half %dsdh, half %dsdv, float %s, float %clamp, <8 x i32> %rsrc, <4 x i32> %samp, i1 0, i32 0, i32 0)
	ret <4 x float> %v			ret <4 x float> %v
	}			}

	▲ Show 20 Lines • Show All 129 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[GlobalISel] Combine (build_vector_trunc x, undef) -> (bitcast x)AcceptedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 393866

llvm/include/llvm/CodeGen/GlobalISel/CombinerHelper.h

llvm/include/llvm/Target/GlobalISel/Combine.td

llvm/lib/CodeGen/GlobalISel/CombinerHelper.cpp

llvm/test/CodeGen/AMDGPU/GlobalISel/clamp-minmax-const-combine.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-build-vector-trunc-undef.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fcanonicalize.mir

llvm/test/CodeGen/AMDGPU/GlobalISel/combine-fma-add-mul.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.atomic.dim.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.gather4.a16.dim.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.load.3d.a16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.g16.ll

llvm/test/CodeGen/AMDGPU/GlobalISel/llvm.amdgcn.image.sample.ltolz.a16.ll

llvm/test/CodeGen/AMDGPU/llvm.amdgcn.image.sample.g16.a16.dim.ll

[GlobalISel] Combine (build_vector_trunc x, undef) -> (bitcast x)
AcceptedPublic