This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Allow SDWA in instructions with immediates and SGPRs
ClosedPublic

Authored by rampitec on May 25 2017, 8:53 PM.

Download Raw Diff

Details

Reviewers

SamWot
arsenm
kzhuravl

Commits

rG56ea488d8b8c: [AMDGPU] Allow SDWA in instructions with immediates and SGPRs
rL304219: [AMDGPU] Allow SDWA in instructions with immediates and SGPRs

Summary

An encoding does not allow to use SDWA in an instruction with
scalar operands, either literals or SGPRs. That is however possible
to copy these operands into a VGPR first.

Several copies of the value are produced if multiple SDWA conversions
were done. To cleanup MachineLICM (to hoist copies out of loops),
MachineCSE (to remove duplicate copies) and SIFoldOperands (to replace
SGPR to VGPR copy with immediate copy right to the VGPR) runs are added
after the SDWA pass.

Diff Detail

Repository: rL LLVM

Event Timeline

rampitec created this revision.May 25 2017, 8:53 PM

Herald added subscribers: t-tye, tpr, dstuttard and 3 others. · View Herald TranscriptMay 25 2017, 8:53 PM

SamWot added inline comments.May 25 2017, 10:16 PM

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
590	I think there should be some heuristic to check if this should be done. E.g. if we would fold only one SDWA operand in this instruction then creating this copy would only increase code size.
596–597	Why this check is needed? It seems redundant for me.
731	You should check for subregs

rampitec added inline comments.May 25 2017, 10:36 PM

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
590	Copy can be hoisted out of a loop. In this situation it is still profitable even if code has grown. I.e. there is a chance to improve, but if not it does not really hurt.
596–597	Is there any guarantee that all operands can be VGPRs?

Copied subreg along with the operand.

rampitec marked 2 inline comments as done.May 25 2017, 10:48 PM

rampitec added inline comments.

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
596–597	I have checked the list of supported instructions. I believe all of them accept VGPRs. I will remove the check shortly.
731	Thanks, nice catch.

Removed check for operands to support VGPRs. If MI has an SDWA opcode they all support VGPRs as corresponding source operands.

rampitec marked 2 inline comments as done.May 25 2017, 11:02 PM

rampitec added inline comments.

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
590	In fact the case which inspired this change has exactly this situation. Transformation by itself does not bring a big improvement, just below 1%. But with MachineLICM added which only hoists the immediate move out of the loop it yields 11% improvement. Of course the case is compute bound and the loop is small.

SamWot accepted this revision.May 30 2017, 1:43 AM

This revision is now accepted and ready to land.May 30 2017, 1:43 AM

Closed by commit rL304219: [AMDGPU] Allow SDWA in instructions with immediates and SGPRs (authored by rampitec). · Explain WhyMay 30 2017, 9:49 AM

This revision was automatically updated to reflect the committed changes.

rampitec marked an inline comment as done.

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUTargetMachine.cpp

3 lines

SIFoldOperands.cpp

7 lines

SIPeepholeSDWA.cpp

49 lines

test/

CodeGen/

AMDGPU/

30 lines

10 lines

2 lines

2 lines

2 lines

1 line

4 lines

4 lines

18 lines

2 lines

21 lines

18 lines

17 lines

4 lines

4 lines

8 lines

6 lines

18 lines

2 lines

57 lines

insert_vector_elt.v2i16.ll

32 lines

llvm.amdgcn.div.fixup.f16.ll

6 lines

llvm.amdgcn.div.fmas.ll

2 lines

llvm.amdgcn.fcmp.ll

4 lines

llvm.amdgcn.fmul.legacy.ll

2 lines

6 lines

4 lines

18 lines

17 lines

mad24-get-global-id.ll

2 lines

4 lines

4 lines

8 lines

6 lines

2 lines

5 lines

410 lines

12 lines

shift-and-i128-ubfe.ll

21 lines

shift-and-i64-ubfe.ll

43 lines

5 lines

2 lines

30 lines

6 lines

2 lines

use-sgpr-multiple-times.ll

12 lines

v_mac_f16.ll

11 lines

wqm.ll

2 lines

Diff 100362

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 730 Lines • ▼ Show 20 Lines	void GCNPassConfig::addMachineSSAOptimization() {
//		//
// XXX - Can we get away without running DeadMachineInstructionElim again?		// XXX - Can we get away without running DeadMachineInstructionElim again?
addPass(&SIFoldOperandsID);		addPass(&SIFoldOperandsID);
addPass(&DeadMachineInstructionElimID);		addPass(&DeadMachineInstructionElimID);
addPass(&SILoadStoreOptimizerID);		addPass(&SILoadStoreOptimizerID);
addPass(createSIShrinkInstructionsPass());		addPass(createSIShrinkInstructionsPass());
if (EnableSDWAPeephole) {		if (EnableSDWAPeephole) {
addPass(&SIPeepholeSDWAID);		addPass(&SIPeepholeSDWAID);
		addPass(&MachineLICMID);
		addPass(&MachineCSEID);
		addPass(&SIFoldOperandsID);
addPass(&DeadMachineInstructionElimID);		addPass(&DeadMachineInstructionElimID);
}		}
}		}

bool GCNPassConfig::addILPOpts() {		bool GCNPassConfig::addILPOpts() {
if (EnableEarlyIfConversion)		if (EnableEarlyIfConversion)
addPass(&EarlyIfConverterID);		addPass(&EarlyIfConverterID);

▲ Show 20 Lines • Show All 100 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIFoldOperands.cpp

Show First 20 Lines • Show All 241 Lines • ▼ Show 20 Lines	static bool tryAddToFoldList(SmallVectorImpl<FoldCandidate> &FoldList,
}		}

FoldList.push_back(FoldCandidate(MI, OpNo, OpToFold));		FoldList.push_back(FoldCandidate(MI, OpNo, OpToFold));
return true;		return true;
}		}

// If the use operand doesn't care about the value, this may be an operand only		// If the use operand doesn't care about the value, this may be an operand only
// used for register indexing, in which case it is unsafe to fold.		// used for register indexing, in which case it is unsafe to fold.
static bool isUseSafeToFold(const MachineInstr &MI,		static bool isUseSafeToFold(const SIInstrInfo *TII,
		const MachineInstr &MI,
const MachineOperand &UseMO) {		const MachineOperand &UseMO) {
return !UseMO.isUndef();		return !UseMO.isUndef() && !TII->isSDWA(MI);
//return !MI.hasRegisterImplicitUseOperand(UseMO.getReg());		//return !MI.hasRegisterImplicitUseOperand(UseMO.getReg());
}		}

void SIFoldOperands::foldOperand(		void SIFoldOperands::foldOperand(
MachineOperand &OpToFold,		MachineOperand &OpToFold,
MachineInstr *UseMI,		MachineInstr *UseMI,
unsigned UseOpIdx,		unsigned UseOpIdx,
SmallVectorImpl<FoldCandidate> &FoldList,		SmallVectorImpl<FoldCandidate> &FoldList,
SmallVectorImpl<MachineInstr *> &CopiesToReplace) const {		SmallVectorImpl<MachineInstr *> &CopiesToReplace) const {
const MachineOperand &UseOp = UseMI->getOperand(UseOpIdx);		const MachineOperand &UseOp = UseMI->getOperand(UseOpIdx);

if (!isUseSafeToFold(*UseMI, UseOp))		if (!isUseSafeToFold(TII, *UseMI, UseOp))
return;		return;

// FIXME: Fold operands with subregs.		// FIXME: Fold operands with subregs.
if (UseOp.isReg() && OpToFold.isReg()) {		if (UseOp.isReg() && OpToFold.isReg()) {
if (UseOp.isImplicit() \|\| UseOp.getSubReg() != AMDGPU::NoSubRegister)		if (UseOp.isImplicit() \|\| UseOp.getSubReg() != AMDGPU::NoSubRegister)
return;		return;

// Don't fold subregister extracts into tied operands, only if it is a full		// Don't fold subregister extracts into tied operands, only if it is a full
▲ Show 20 Lines • Show All 678 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIPeepholeSDWA.cpp

Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines

private:		private:
MachineRegisterInfo *MRI;		MachineRegisterInfo *MRI;
const SIRegisterInfo *TRI;		const SIRegisterInfo *TRI;
const SIInstrInfo *TII;		const SIInstrInfo *TII;

std::unordered_map<MachineInstr *, std::unique_ptr<SDWAOperand>> SDWAOperands;		std::unordered_map<MachineInstr *, std::unique_ptr<SDWAOperand>> SDWAOperands;
std::unordered_map<MachineInstr *, SDWAOperandsVector> PotentialMatches;		std::unordered_map<MachineInstr *, SDWAOperandsVector> PotentialMatches;
		SmallVector<MachineInstr *, 8> ConvertedInstructions;

Optional<int64_t> foldToImm(const MachineOperand &Op) const;		Optional<int64_t> foldToImm(const MachineOperand &Op) const;

public:		public:
static char ID;		static char ID;

SIPeepholeSDWA() : MachineFunctionPass(ID) {		SIPeepholeSDWA() : MachineFunctionPass(ID) {
initializeSIPeepholeSDWAPass(*PassRegistry::getPassRegistry());		initializeSIPeepholeSDWAPass(*PassRegistry::getPassRegistry());
}		}

bool runOnMachineFunction(MachineFunction &MF) override;		bool runOnMachineFunction(MachineFunction &MF) override;
void matchSDWAOperands(MachineFunction &MF);		void matchSDWAOperands(MachineFunction &MF);
bool isConvertibleToSDWA(const MachineInstr &MI) const;		bool isConvertibleToSDWA(const MachineInstr &MI) const;
bool convertToSDWA(MachineInstr &MI, const SDWAOperandsVector &SDWAOperands);		bool convertToSDWA(MachineInstr &MI, const SDWAOperandsVector &SDWAOperands);
		void legalizeScalarOperands(MachineInstr &MI) const;

StringRef getPassName() const override { return "SI Peephole SDWA"; }		StringRef getPassName() const override { return "SI Peephole SDWA"; }

void getAnalysisUsage(AnalysisUsage &AU) const override {		void getAnalysisUsage(AnalysisUsage &AU) const override {
AU.setPreservesCFG();		AU.setPreservesCFG();
MachineFunctionPass::getAnalysisUsage(AU);		MachineFunctionPass::getAnalysisUsage(AU);
}		}
};		};
▲ Show 20 Lines • Show All 204 Lines • ▼ Show 20 Lines
bool SDWASrcOperand::convertToSDWA(MachineInstr &MI, const SIInstrInfo *TII) {		bool SDWASrcOperand::convertToSDWA(MachineInstr &MI, const SIInstrInfo *TII) {
// Find operand in instruction that matches source operand and replace it with		// Find operand in instruction that matches source operand and replace it with
// target operand. Set corresponding src_sel		// target operand. Set corresponding src_sel

MachineOperand *Src = TII->getNamedOperand(MI, AMDGPU::OpName::src0);		MachineOperand *Src = TII->getNamedOperand(MI, AMDGPU::OpName::src0);
MachineOperand *SrcSel = TII->getNamedOperand(MI, AMDGPU::OpName::src0_sel);		MachineOperand *SrcSel = TII->getNamedOperand(MI, AMDGPU::OpName::src0_sel);
MachineOperand *SrcMods =		MachineOperand *SrcMods =
TII->getNamedOperand(MI, AMDGPU::OpName::src0_modifiers);		TII->getNamedOperand(MI, AMDGPU::OpName::src0_modifiers);
assert(Src && Src->isReg());		assert(Src && (Src->isReg() \|\| Src->isImm()));
if (!isSameReg(Src, getReplacedOperand())) {		if (!isSameReg(Src, getReplacedOperand())) {
// If this is not src0 then it should be src1		// If this is not src0 then it should be src1
Src = TII->getNamedOperand(MI, AMDGPU::OpName::src1);		Src = TII->getNamedOperand(MI, AMDGPU::OpName::src1);
SrcSel = TII->getNamedOperand(MI, AMDGPU::OpName::src1_sel);		SrcSel = TII->getNamedOperand(MI, AMDGPU::OpName::src1_sel);
SrcMods = TII->getNamedOperand(MI, AMDGPU::OpName::src1_modifiers);		SrcMods = TII->getNamedOperand(MI, AMDGPU::OpName::src1_modifiers);

assert(Src && Src->isReg());		assert(Src && Src->isReg());

▲ Show 20 Lines • Show All 279 Lines • ▼ Show 20 Lines
}		}

bool SIPeepholeSDWA::isConvertibleToSDWA(const MachineInstr &MI) const {		bool SIPeepholeSDWA::isConvertibleToSDWA(const MachineInstr &MI) const {
// Check if this instruction can be converted to SDWA:		// Check if this instruction can be converted to SDWA:
// 1. Does this opcode support SDWA		// 1. Does this opcode support SDWA
if (AMDGPU::getSDWAOp(MI.getOpcode()) == -1)		if (AMDGPU::getSDWAOp(MI.getOpcode()) == -1)
return false;		return false;

// 2. Are all operands - VGPRs		// 2. Are all operands - VGPRs or can be changed to VGPRs
		SamWotUnsubmitted Done Reply Inline Actions I think there should be some heuristic to check if this should be done. E.g. if we would fold only one SDWA operand in this instruction then creating this copy would only increase code size. SamWot: I think there should be some heuristic to check if this should be done. E.g. if we would fold…
		rampitecAuthorUnsubmitted Done Reply Inline Actions Copy can be hoisted out of a loop. In this situation it is still profitable even if code has grown. I.e. there is a chance to improve, but if not it does not really hurt. rampitec: Copy can be hoisted out of a loop. In this situation it is still profitable even if code has…
		rampitecAuthorUnsubmitted Not Done Reply Inline Actions In fact the case which inspired this change has exactly this situation. Transformation by itself does not bring a big improvement, just below 1%. But with MachineLICM added which only hoists the immediate move out of the loop it yields 11% improvement. Of course the case is compute bound and the loop is small. rampitec: In fact the case which inspired this change has exactly this situation. Transformation by…
for (const MachineOperand &Operand : MI.explicit_operands()) {		const MCInstrDesc &Desc = TII->get(MI.getOpcode());
if (!Operand.isReg() \|\| !TRI->isVGPR(*MRI, Operand.getReg()))		for (unsigned I = 0, E = MI.getNumExplicitOperands(); I != E; ++I) {
		const MachineOperand &Operand = MI.getOperand(I);
		if (Operand.isImm() \|\|
		(Operand.isReg() && !TRI->isVGPR(*MRI, Operand.getReg()))) {
		if (Desc.OpInfo[I].RegClass == -1 \|\|
		!TRI->hasVGPRs(TRI->getRegClass(Desc.OpInfo[I].RegClass)))
		SamWotUnsubmitted Done Reply Inline Actions Why this check is needed? It seems redundant for me. SamWot: Why this check is needed? It seems redundant for me.
		rampitecAuthorUnsubmitted Done Reply Inline Actions Is there any guarantee that all operands can be VGPRs? rampitec: Is there any guarantee that all operands can be VGPRs?
		rampitecAuthorUnsubmitted Done Reply Inline Actions I have checked the list of supported instructions. I believe all of them accept VGPRs. I will remove the check shortly. rampitec: I have checked the list of supported instructions. I believe all of them accept VGPRs. I will…
		return false;
		continue;
		}
		if (!Operand.isReg())
return false;		return false;
}		}

return true;		return true;
}		}

bool SIPeepholeSDWA::convertToSDWA(MachineInstr &MI,		bool SIPeepholeSDWA::convertToSDWA(MachineInstr &MI,
const SDWAOperandsVector &SDWAOperands) {		const SDWAOperandsVector &SDWAOperands) {
▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines	for (auto &Operand : SDWAOperands) {
//		//
// In that example it is possible that we would fold 2nd instruction into 3rd		// In that example it is possible that we would fold 2nd instruction into 3rd
// (v_add_u32_sdwa) and then try to fold 1st instruction into 2nd (that was		// (v_add_u32_sdwa) and then try to fold 1st instruction into 2nd (that was
// already destroyed). So if SDWAOperand is also a potential MI then do not		// already destroyed). So if SDWAOperand is also a potential MI then do not
// apply it.		// apply it.
if (PotentialMatches.count(Operand->getParentInst()) == 0)		if (PotentialMatches.count(Operand->getParentInst()) == 0)
Converted \|= Operand->convertToSDWA(*SDWAInst, TII);		Converted \|= Operand->convertToSDWA(*SDWAInst, TII);
}		}
if (!Converted) {		if (Converted) {
		ConvertedInstructions.push_back(SDWAInst);
		} else {
SDWAInst->eraseFromParent();		SDWAInst->eraseFromParent();
return false;		return false;
}		}

DEBUG(dbgs() << "Convert instruction:" << MI		DEBUG(dbgs() << "Convert instruction:" << MI
<< "Into:" << *SDWAInst << '\n');		<< "Into:" << *SDWAInst << '\n');
++NumSDWAInstructionsPeepholed;		++NumSDWAInstructionsPeepholed;

MI.eraseFromParent();		MI.eraseFromParent();
return true;		return true;
}		}

		// If an instruction was converted to SDWA it should not have immediates or SGPR
		// operands. Copy its scalar operands into VGPRs.
		void SIPeepholeSDWA::legalizeScalarOperands(MachineInstr &MI) const {
		const MCInstrDesc &Desc = TII->get(MI.getOpcode());
		for (unsigned I = 0, E = MI.getNumExplicitOperands(); I != E; ++I) {
		MachineOperand &Op = MI.getOperand(I);
		if (!Op.isImm() && !(Op.isReg() && !TRI->isVGPR(*MRI, Op.getReg())))
		continue;
		if (Desc.OpInfo[I].RegClass == -1 \|\|
		!TRI->hasVGPRs(TRI->getRegClass(Desc.OpInfo[I].RegClass)))
		continue;
		unsigned VGPR = MRI->createVirtualRegister(&AMDGPU::VGPR_32RegClass);
		auto Copy = BuildMI(*MI.getParent(), MI.getIterator(), MI.getDebugLoc(),
		TII->get(AMDGPU::V_MOV_B32_e32), VGPR);
		if (Op.isImm())
		Copy.addImm(Op.getImm());
		else if (Op.isReg())
		Copy.addReg(Op.getReg(), Op.isKill() ? RegState::Kill : 0);
		SamWotUnsubmitted Done Reply Inline Actions You should check for subregs SamWot: You should check for subregs
		rampitecAuthorUnsubmitted Done Reply Inline Actions Thanks, nice catch. rampitec: Thanks, nice catch.
		Op.ChangeToRegister(VGPR, false);
		}
		}

bool SIPeepholeSDWA::runOnMachineFunction(MachineFunction &MF) {		bool SIPeepholeSDWA::runOnMachineFunction(MachineFunction &MF) {
const SISubtarget &ST = MF.getSubtarget<SISubtarget>();		const SISubtarget &ST = MF.getSubtarget<SISubtarget>();

if (!ST.hasSDWA() \|\|		if (!ST.hasSDWA() \|\|
!AMDGPU::isVI(ST)) { // TODO: Add support for SDWA on gfx9		!AMDGPU::isVI(ST)) { // TODO: Add support for SDWA on gfx9
return false;		return false;
}		}

Show All 14 Lines	bool SIPeepholeSDWA::runOnMachineFunction(MachineFunction &MF) {

for (auto &PotentialPair : PotentialMatches) {		for (auto &PotentialPair : PotentialMatches) {
MachineInstr &PotentialMI = *PotentialPair.first;		MachineInstr &PotentialMI = *PotentialPair.first;
convertToSDWA(PotentialMI, PotentialPair.second);		convertToSDWA(PotentialMI, PotentialPair.second);
}		}

PotentialMatches.clear();		PotentialMatches.clear();
SDWAOperands.clear();		SDWAOperands.clear();

		while (!ConvertedInstructions.empty())
		legalizeScalarOperands(*ConvertedInstructions.pop_back_val());

return false;		return false;
}		}

test/CodeGen/AMDGPU/add.v2i16.ll

Show All 17 Lines	define amdgpu_kernel void @v_test_add_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_add_v2i16:		; GCN-LABEL: {{^}}s_test_add_v2i16:
; GFX9: s_load_dword [[VAL0:s[0-9]+]]		; GFX9: s_load_dword [[VAL0:s[0-9]+]]
; GFX9: s_load_dword [[VAL1:s[0-9]+]]		; GFX9: s_load_dword [[VAL1:s[0-9]+]]
; GFX9: v_mov_b32_e32 [[VVAL1:v[0-9]+]]		; GFX9: v_mov_b32_e32 [[VVAL1:v[0-9]+]]
; GFX9: v_pk_add_u16 v{{[0-9]+}}, [[VVAL1]], [[VAL0]]		; GFX9: v_pk_add_u16 v{{[0-9]+}}, [[VAL0]], [[VVAL1]]

; VI: s_add_i32		; VI: s_add_i32
; VI: s_add_i32		; VI: s_add_i32
define amdgpu_kernel void @s_test_add_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0, <2 x i16> addrspace(2)* %in1) #1 {		define amdgpu_kernel void @s_test_add_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0, <2 x i16> addrspace(2)* %in1) #1 {
%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0		%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0
%b = load <2 x i16>, <2 x i16> addrspace(2)* %in1		%b = load <2 x i16>, <2 x i16> addrspace(2)* %in1
%add = add <2 x i16> %a, %b		%add = add <2 x i16> %a, %b
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
Show All 10 Lines	define amdgpu_kernel void @s_test_add_self_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0) #1 {
%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0		%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0
%add = add <2 x i16> %a, %a		%add = add <2 x i16> %a, %a
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: VI should not scalarize arg access.		; FIXME: VI should not scalarize arg access.
; GCN-LABEL: {{^}}s_test_add_v2i16_kernarg:		; GCN-LABEL: {{^}}s_test_add_v2i16_kernarg:
; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, s{{[0-9]+}}		; GFX9: v_pk_add_u16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}

; VI: v_add_i32		; VI: v_add_i32
; VI: v_add_i32_sdwa		; VI: v_add_i32_sdwa
define amdgpu_kernel void @s_test_add_v2i16_kernarg(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #1 {		define amdgpu_kernel void @s_test_add_v2i16_kernarg(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #1 {
%add = add <2 x i16> %a, %b		%add = add <2 x i16> %a, %b
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_add_v2i16_constant:		; GCN-LABEL: {{^}}v_test_add_v2i16_constant:
; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}		; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}
; GFX9: v_pk_add_u16 v{{[0-9]+}}, [[CONST]], v{{[0-9]+}}		; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x7b, v{{[0-9]+}}		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x7b, v{{[0-9]+}}
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x1c8, v{{[0-9]+}}		; VI-DAG: v_mov_b32_e32 v[[SCONST:[0-9]+]], 0x1c8
		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v[[SCONST]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
define amdgpu_kernel void @v_test_add_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_add_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = add <2 x i16> %a, <i16 123, i16 456>		%add = add <2 x i16> %a, <i16 123, i16 456>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_add_v2i16_neg_constant:		; GCN-LABEL: {{^}}v_test_add_v2i16_neg_constant:
; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}		; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}
; GFX9: v_pk_add_u16 v{{[0-9]+}}, [[CONST]], v{{[0-9]+}}		; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xfffffcb3, v{{[0-9]+}}		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xfffffcb3, v{{[0-9]+}}
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xfffffc21, v{{[0-9]+}}		; VI-DAG: v_mov_b32_e32 v[[SCONST:[0-9]+]], 0xfffffc21
		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v[[SCONST]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
define amdgpu_kernel void @v_test_add_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_add_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = add <2 x i16> %a, <i16 -845, i16 -991>		%add = add <2 x i16> %a, <i16 -845, i16 -991>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_add_v2i16_inline_neg1:		; GCN-LABEL: {{^}}v_test_add_v2i16_inline_neg1:
; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}		; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}

		; VI: v_mov_b32_e32 v[[SCONST:[0-9]+]], -1
; VI: flat_load_ushort [[LOAD0:v[0-9]+]]		; VI: flat_load_ushort [[LOAD0:v[0-9]+]]
; VI: flat_load_ushort [[LOAD1:v[0-9]+]]		; VI: flat_load_ushort [[LOAD1:v[0-9]+]]
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, -1, [[LOAD0]]		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v[[SCONST]], [[LOAD0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, -1, [[LOAD1]]		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, -1, [[LOAD1]]
; VI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_add_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_add_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = add <2 x i16> %a, <i16 -1, i16 -1>		%add = add <2 x i16> %a, <i16 -1, i16 -1>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_add_v2i16_inline_lo_zero_hi:		; GCN-LABEL: {{^}}v_test_add_v2i16_inline_lo_zero_hi:
; GFX9: s_mov_b32 [[K:s[0-9]+]], 32{{$}}		; GFX9: s_mov_b32 [[K:s[0-9]+]], 32{{$}}
; GFX9: v_pk_add_u16 v{{[0-9]+}}, [[K]], v{{[0-9]+}}{{$}}		; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]{{$}}

; VI-NOT: v_add_u16		; VI-NOT: v_add_u16
; VI: v_add_u16_e32 v{{[0-9]+}}, 32, v{{[0-9]+}}		; VI: v_add_u16_e32 v{{[0-9]+}}, 32, v{{[0-9]+}}
; VI-NOT: v_add_u16		; VI-NOT: v_add_u16
; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,		; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_add_v2i16_inline_lo_zero_hi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_add_v2i16_inline_lo_zero_hi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = add <2 x i16> %a, <i16 32, i16 0>		%add = add <2 x i16> %a, <i16 32, i16 0>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; The high element gives fp		; The high element gives fp
; GCN-LABEL: {{^}}v_test_add_v2i16_inline_fp_split:		; GCN-LABEL: {{^}}v_test_add_v2i16_inline_fp_split:
; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0		; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0
; GFX9: v_pk_add_u16 v{{[0-9]+}}, [[K]], v{{[0-9]+}}{{$}}		; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]{{$}}

; VI-NOT: v_add_u16		; VI-NOT: v_add_u16
; VI: v_add_u16_e32 v{{[0-9]+}}, 0x3f80, v{{[0-9]+}}		; VI: v_mov_b32_e32 v[[K:[0-9]+]], 0x3f80
		; VI: v_add_u16_sdwa v{{[0-9]+}}, v[[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NOT: v_add_u16		; VI-NOT: v_add_u16
; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_add_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_add_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = add <2 x i16> %a, <i16 0, i16 16256>		%add = add <2 x i16> %a, <i16 0, i16 16256>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
Show All 35 Lines	define amdgpu_kernel void @v_test_add_v2i16_zext_to_v2i32(<2 x i32> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
ret void		ret void
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_add_v2i16_zext_to_v2i64:		; GCN-LABEL: {{^}}v_test_add_v2i16_zext_to_v2i64:
; GFX9: flat_load_dword [[A:v[0-9]+]]		; GFX9: flat_load_dword [[A:v[0-9]+]]
; GFX9: flat_load_dword [[B:v[0-9]+]]		; GFX9: flat_load_dword [[B:v[0-9]+]]

; GFX9: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[A]], [[B]]		; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[A]], [[B]]
; GFX9-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], 0xffff, [[ADD]]		; GFX9-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], 0xffff, [[ADD]]
; GFX9-DAG: v_lshrrev_b32_e32 v[[ELT1:[0-9]+]], 16, [[ADD]]		; GFX9-DAG: v_lshrrev_b32_e32 v[[ELT1:[0-9]+]], 16, [[ADD]]
; GFX9: buffer_store_dwordx4		; GFX9: buffer_store_dwordx4

		; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; VI: flat_load_ushort v[[A_LO:[0-9]+]]		; VI: flat_load_ushort v[[A_LO:[0-9]+]]
; VI: flat_load_ushort v[[A_HI:[0-9]+]]		; VI: flat_load_ushort v[[A_HI:[0-9]+]]
; VI: flat_load_ushort v[[B_LO:[0-9]+]]		; VI: flat_load_ushort v[[B_LO:[0-9]+]]
; VI: flat_load_ushort v[[B_HI:[0-9]+]]		; VI: flat_load_ushort v[[B_HI:[0-9]+]]

; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; VI-DAG: v_add_u16_e32		; VI-DAG: v_add_u16_e32
; VI-DAG: v_add_u16_e32		; VI-DAG: v_add_u16_e32

; VI: buffer_store_dwordx4		; VI: buffer_store_dwordx4
define amdgpu_kernel void @v_test_add_v2i16_zext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_test_add_v2i16_zext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
▲ Show 20 Lines • Show All 69 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/bfe-combine.ll

	; RUN: llc -march=amdgcn -mcpu=fiji < %s \| FileCheck --check-prefix=GCN --check-prefix=VI %s			; RUN: llc -march=amdgcn -mcpu=fiji -amdgpu-sdwa-peephole=0 < %s \| FileCheck --check-prefix=GCN --check-prefix=VI %s
				; RUN: llc -march=amdgcn -mcpu=fiji < %s \| FileCheck --check-prefix=GCN --check-prefix=VI-SDWA %s
	; RUN: llc -march=amdgcn -mcpu=bonaire < %s \| FileCheck --check-prefix=GCN --check-prefix=CI %s			; RUN: llc -march=amdgcn -mcpu=bonaire < %s \| FileCheck --check-prefix=GCN --check-prefix=CI %s

	; GCN-LABEL: {{^}}bfe_combine8:			; GCN-LABEL: {{^}}bfe_combine8:
	; VI: v_bfe_u32 v[[BFE:[0-9]+]], v{{[0-9]+}}, 8, 8			; VI: v_bfe_u32 v[[BFE:[0-9]+]], v{{[0-9]+}}, 8, 8
	; VI: v_lshlrev_b32_e32 v[[ADDRBASE:[0-9]+]], 2, v[[BFE]]			; VI: v_lshlrev_b32_e32 v[[ADDRBASE:[0-9]+]], 2, v[[BFE]]
				; VI-SDWA: v_mov_b32_e32 v[[SHIFT:[0-9]+]], 2
				; VI-SDWA: v_lshlrev_b32_sdwa v[[ADDRBASE:[0-9]+]], v[[SHIFT]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
	; CI: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 6, v{{[0-9]+}}			; CI: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 6, v{{[0-9]+}}
	; CI: v_and_b32_e32 v[[ADDRLO:[0-9]+]], 0x3fc, v[[SHR]]			; CI: v_and_b32_e32 v[[ADDRLO:[0-9]+]], 0x3fc, v[[SHR]]
	; VI: v_add_i32_e32 v[[ADDRLO:[0-9]+]], vcc, s{{[0-9]+}}, v[[ADDRBASE]]			; VI: v_add_i32_e32 v[[ADDRLO:[0-9]+]], vcc, s{{[0-9]+}}, v[[ADDRBASE]]
				; VI-SDWA: v_add_i32_e32 v[[ADDRLO:[0-9]+]], vcc, s{{[0-9]+}}, v[[ADDRBASE]]
	; GCN: load_dword v{{[0-9]+}}, v{{\[}}[[ADDRLO]]:			; GCN: load_dword v{{[0-9]+}}, v{{\[}}[[ADDRLO]]:
	define amdgpu_kernel void @bfe_combine8(i32 addrspace(1)* nocapture %arg, i32 %x) {			define amdgpu_kernel void @bfe_combine8(i32 addrspace(1)* nocapture %arg, i32 %x) {
	%id = tail call i32 @llvm.amdgcn.workitem.id.x() #2			%id = tail call i32 @llvm.amdgcn.workitem.id.x() #2
	%idx = add i32 %x, %id			%idx = add i32 %x, %id
	%srl = lshr i32 %idx, 8			%srl = lshr i32 %idx, 8
	%and = and i32 %srl, 255			%and = and i32 %srl, 255
	%ptr = getelementptr inbounds i32, i32 addrspace(1)* %arg, i32 %and			%ptr = getelementptr inbounds i32, i32 addrspace(1)* %arg, i32 %and
	%val = load i32, i32 addrspace(1)* %ptr, align 4			%val = load i32, i32 addrspace(1)* %ptr, align 4
	store i32 %val, i32 addrspace(1)* %arg, align 4			store i32 %val, i32 addrspace(1)* %arg, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}bfe_combine16:			; GCN-LABEL: {{^}}bfe_combine16:
	; VI: v_bfe_u32 v[[BFE:[0-9]+]], v{{[0-9]+}}, 16, 16			; VI: v_bfe_u32 v[[BFE:[0-9]+]], v{{[0-9]+}}, 16, 16
	; VI: v_lshlrev_b32_e32 v[[ADDRBASE:[0-9]+]], {{[^,]+}}, v[[BFE]]			; VI: v_lshlrev_b32_e32 v[[ADDRBASE:[0-9]+]], {{[^,]+}}, v[[BFE]]
				; VI-SDWA: v_mov_b32_e32 v[[SHIFT:[0-9]+]], 15
				; VI-SDWA: v_lshlrev_b32_sdwa v[[ADDRBASE1:[0-9]+]], v[[SHIFT]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
				; VI-SDWA: v_lshlrev_b64 v{{\[}}[[ADDRBASE:[0-9]+]]:{{[^\]+}}], 2, v{{\[}}[[ADDRBASE1]]:{{[^\]+}}]
				; VI-SDWA: v_add_i32_e32 v[[ADDRLO:[0-9]+]], vcc, s{{[0-9]+}}, v[[ADDRBASE]]
	; CI: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 1, v{{[0-9]+}}			; CI: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 1, v{{[0-9]+}}
	; CI: v_and_b32_e32 v[[AND:[0-9]+]], 0x7fff8000, v[[SHR]]			; CI: v_and_b32_e32 v[[AND:[0-9]+]], 0x7fff8000, v[[SHR]]
	; CI: v_lshl_b64 v{{\[}}[[ADDRLO:[0-9]+]]:{{[^\]+}}], v{{\[}}[[AND]]:{{[^\]+}}], 2			; CI: v_lshl_b64 v{{\[}}[[ADDRLO:[0-9]+]]:{{[^\]+}}], v{{\[}}[[AND]]:{{[^\]+}}], 2
	; VI: v_add_i32_e32 v[[ADDRLO:[0-9]+]], vcc, s{{[0-9]+}}, v[[ADDRBASE]]			; VI: v_add_i32_e32 v[[ADDRLO:[0-9]+]], vcc, s{{[0-9]+}}, v[[ADDRBASE]]
	; GCN: load_dword v{{[0-9]+}}, v{{\[}}[[ADDRLO]]:			; GCN: load_dword v{{[0-9]+}}, v{{\[}}[[ADDRLO]]:
	define amdgpu_kernel void @bfe_combine16(i32 addrspace(1)* nocapture %arg, i32 %x) {			define amdgpu_kernel void @bfe_combine16(i32 addrspace(1)* nocapture %arg, i32 %x) {
	%id = tail call i32 @llvm.amdgcn.workitem.id.x() #2			%id = tail call i32 @llvm.amdgcn.workitem.id.x() #2
	%idx = add i32 %x, %id			%idx = add i32 %x, %id
	Show All 9 Lines

test/CodeGen/AMDGPU/commute-compares.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s			; RUN: llc -march=amdgcn -amdgpu-sdwa-peephole=0 -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI %s

	declare i32 @llvm.amdgcn.workitem.id.x() #0			declare i32 @llvm.amdgcn.workitem.id.x() #0

	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------
	; i32 compares			; i32 compares
	; --------------------------------------------------------------------------------			; --------------------------------------------------------------------------------

	; GCN-LABEL: {{^}}commute_eq_64_i32:			; GCN-LABEL: {{^}}commute_eq_64_i32:
	▲ Show 20 Lines • Show All 708 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/commute_modifiers.ll

Show First 20 Lines • Show All 45 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @commute_mul_imm_fneg_f32(float addrspace(1)* %out, float addrspace(1)* %in) #0 {
store float %z, float addrspace(1)* %out		store float %z, float addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Should use SGPR for literal.		; FIXME: Should use SGPR for literal.
; FUNC-LABEL: @commute_add_lit_fabs_f32		; FUNC-LABEL: @commute_add_lit_fabs_f32
; SI: buffer_load_dword [[X:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}		; SI: buffer_load_dword [[X:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
; SI: v_mov_b32_e32 [[K:v[0-9]+]], 0x44800000		; SI: v_mov_b32_e32 [[K:v[0-9]+]], 0x44800000
; SI: v_add_f32_e64 [[REG:v[0-9]+]], [[K]], \|[[X]]\|		; SI: v_add_f32_e64 [[REG:v[0-9]+]], \|[[X]]\|, [[K]]
; SI: buffer_store_dword [[REG]]		; SI: buffer_store_dword [[REG]]
define amdgpu_kernel void @commute_add_lit_fabs_f32(float addrspace(1)* %out, float addrspace(1)* %in) #0 {		define amdgpu_kernel void @commute_add_lit_fabs_f32(float addrspace(1)* %out, float addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid		%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
%x = load float, float addrspace(1)* %gep.0		%x = load float, float addrspace(1)* %gep.0
%x.fabs = call float @llvm.fabs.f32(float %x) #1		%x.fabs = call float @llvm.fabs.f32(float %x) #1
%z = fadd float 1024.0, %x.fabs		%z = fadd float 1024.0, %x.fabs
store float %z, float addrspace(1)* %out		store float %z, float addrspace(1)* %out
▲ Show 20 Lines • Show All 119 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/copy-illegal-type.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=GCN -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tahiti < %s \| FileCheck -check-prefix=GCN -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -amdgpu-sdwa-peephole=0 < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=FUNC %s

	declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone			declare i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
	declare i32 @llvm.amdgcn.workitem.id.y() nounwind readnone			declare i32 @llvm.amdgcn.workitem.id.y() nounwind readnone

	; FUNC-LABEL: {{^}}test_copy_v4i8:			; FUNC-LABEL: {{^}}test_copy_v4i8:
	; GCN: buffer_load_dword [[REG:v[0-9]+]]			; GCN: buffer_load_dword [[REG:v[0-9]+]]
	; GCN: buffer_store_dword [[REG]]			; GCN: buffer_store_dword [[REG]]
	; GCN: s_endpgm			; GCN: s_endpgm
	▲ Show 20 Lines • Show All 154 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

	Show First 20 Lines • Show All 88 Lines • ▼ Show 20 Lines
	; GCN-LABEL: {{^}}load_v4i8_to_v4f32_2_uses:			; GCN-LABEL: {{^}}load_v4i8_to_v4f32_2_uses:
	; GCN: {{buffer\|flat}}_load_dword			; GCN: {{buffer\|flat}}_load_dword
	; GCN-DAG: v_cvt_f32_ubyte0_e32			; GCN-DAG: v_cvt_f32_ubyte0_e32
	; GCN-DAG: v_cvt_f32_ubyte1_e32			; GCN-DAG: v_cvt_f32_ubyte1_e32
	; GCN-DAG: v_cvt_f32_ubyte2_e32			; GCN-DAG: v_cvt_f32_ubyte2_e32
	; GCN-DAG: v_cvt_f32_ubyte3_e32			; GCN-DAG: v_cvt_f32_ubyte3_e32

	; GCN-DAG: v_lshrrev_b32_e32 v{{[0-9]+}}, 24			; GCN-DAG: v_lshrrev_b32_e32 v{{[0-9]+}}, 24
	; GCN-DAG: v_lshrrev_b32_e32 v{{[0-9]+}}, 16

	; SI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16			; SI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16
	; SI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 8			; SI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 8
	; SI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xffff,			; SI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xffff,
	; SI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xff00,			; SI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xff00,
	; SI-DAG: v_add_i32			; SI-DAG: v_add_i32

	; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xffffff00,			; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0xffffff00,
	▲ Show 20 Lines • Show All 149 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fabs.f64.ll

Show First 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fabs_v4f64(<4 x double> addrspace(1)* %out, <4 x double> %in) {
%fabs = call <4 x double> @llvm.fabs.v4f64(<4 x double> %in)		%fabs = call <4 x double> @llvm.fabs.v4f64(<4 x double> %in)
store <4 x double> %fabs, <4 x double> addrspace(1)* %out		store <4 x double> %fabs, <4 x double> addrspace(1)* %out
ret void		ret void
}		}

; SI-LABEL: {{^}}fabs_fold_f64:		; SI-LABEL: {{^}}fabs_fold_f64:
; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb
; SI-NOT: and		; SI-NOT: and
; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|		; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|, {{v\[[0-9]+:[0-9]+\]}}
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @fabs_fold_f64(double addrspace(1)* %out, double %in0, double %in1) {		define amdgpu_kernel void @fabs_fold_f64(double addrspace(1)* %out, double %in0, double %in1) {
%fabs = call double @llvm.fabs.f64(double %in0)		%fabs = call double @llvm.fabs.f64(double %in0)
%fmul = fmul double %fabs, %in1		%fmul = fmul double %fabs, %in1
store double %fmul, double addrspace(1)* %out		store double %fmul, double addrspace(1)* %out
ret void		ret void
}		}

; SI-LABEL: {{^}}fabs_fn_fold_f64:		; SI-LABEL: {{^}}fabs_fn_fold_f64:
; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb		; SI: s_load_dwordx2 [[ABS_VALUE:s\[[0-9]+:[0-9]+\]]], {{s\[[0-9]+:[0-9]+\]}}, 0xb
; SI-NOT: and		; SI-NOT: and
; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|		; SI: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, \|[[ABS_VALUE]]\|, {{v\[[0-9]+:[0-9]+\]}}
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @fabs_fn_fold_f64(double addrspace(1)* %out, double %in0, double %in1) {		define amdgpu_kernel void @fabs_fn_fold_f64(double addrspace(1)* %out, double %in0, double %in1) {
%fabs = call double @fabs(double %in0)		%fabs = call double @fabs(double %in0)
%fmul = fmul double %fabs, %in1		%fmul = fmul double %fabs, %in1
store double %fmul, double addrspace(1)* %out		store double %fmul, double addrspace(1)* %out
ret void		ret void
}		}

Show All 19 Lines

test/CodeGen/AMDGPU/fabs.ll

Show First 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @fabs_v4f32(<4 x float> addrspace(1)* %out, <4 x float> %in) {
store <4 x float> %fabs, <4 x float> addrspace(1)* %out		store <4 x float> %fabs, <4 x float> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fabs_fn_fold:		; GCN-LABEL: {{^}}fabs_fn_fold:
; SI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb		; SI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb
; VI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c		; VI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, \|[[ABS_VALUE]]\|		; GCN: v_mul_f32_e64 v{{[0-9]+}}, \|[[ABS_VALUE]]\|, v{{[0-9]+}}
define amdgpu_kernel void @fabs_fn_fold(float addrspace(1)* %out, float %in0, float %in1) {		define amdgpu_kernel void @fabs_fn_fold(float addrspace(1)* %out, float %in0, float %in1) {
%fabs = call float @fabs(float %in0)		%fabs = call float @fabs(float %in0)
%fmul = fmul float %fabs, %in1		%fmul = fmul float %fabs, %in1
store float %fmul, float addrspace(1)* %out		store float %fmul, float addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fabs_fold:		; GCN-LABEL: {{^}}fabs_fold:
; SI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb		; SI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0xb
; VI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c		; VI: s_load_dword [[ABS_VALUE:s[0-9]+]], s[{{[0-9]+:[0-9]+}}], 0x2c
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_mul_f32_e64 v{{[0-9]+}}, v{{[0-9]+}}, \|[[ABS_VALUE]]\|		; GCN: v_mul_f32_e64 v{{[0-9]+}}, \|[[ABS_VALUE]]\|, v{{[0-9]+}}
define amdgpu_kernel void @fabs_fold(float addrspace(1)* %out, float %in0, float %in1) {		define amdgpu_kernel void @fabs_fold(float addrspace(1)* %out, float %in0, float %in1) {
%fabs = call float @llvm.fabs.f32(float %in0)		%fabs = call float @llvm.fabs.f32(float %in0)
%fmul = fmul float %fabs, %in1		%fmul = fmul float %fabs, %in1
store float %fmul, float addrspace(1)* %out		store float %fmul, float addrspace(1)* %out
ret void		ret void
}		}

declare float @fabs(float) readnone		declare float @fabs(float) readnone
declare float @llvm.fabs.f32(float) readnone		declare float @llvm.fabs.f32(float) readnone
declare <2 x float> @llvm.fabs.v2f32(<2 x float>) readnone		declare <2 x float> @llvm.fabs.v2f32(<2 x float>) readnone
declare <4 x float> @llvm.fabs.v4f32(<4 x float>) readnone		declare <4 x float> @llvm.fabs.v4f32(<4 x float>) readnone

test/CodeGen/AMDGPU/fadd.f16.ll

Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fadd <2 x half> %a.val, %b.val		%r.val = fadd <2 x half> %a.val, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fadd_v2f16_imm_a:		; GCN-LABEL: {{^}}fadd_v2f16_imm_a:
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]		; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]		; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[B_F16_1]]		; VI-DAG: v_mov_b32_e32 v[[CONST2:[0-9]+]], 0x4000
		; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[CONST2]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]		; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]
; VI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fadd_v2f16_imm_a(		define amdgpu_kernel void @fadd_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fadd <2 x half> <half 1.0, half 2.0>, %b.val		%r.val = fadd <2 x half> <half 1.0, half 2.0>, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fadd_v2f16_imm_b:		; GCN-LABEL: {{^}}fadd_v2f16_imm_b:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 2.0, v[[A_F32_0]]		; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 2.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 1.0, v[[A_F32_1]]		; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 1.0, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[A_F16_1]]		; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
		; VI-DAG: v_add_f16_sdwa v[[R_F16_0:[0-9]+]], v[[CONST1]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[A_V2_F16]]		; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[A_V2_F16]]
; VI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_0]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_1]]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fadd_v2f16_imm_b(		define amdgpu_kernel void @fadd_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = fadd <2 x half> %a.val, <half 2.0, half 1.0>		%r.val = fadd <2 x half> %a.val, <half 2.0, half 1.0>
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/fadd64.ll

	; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -march=amdgcn -mcpu=tahiti -verify-machineinstrs < %s \| FileCheck %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck %s

	; CHECK-LABEL: {{^}}v_fadd_f64:			; CHECK-LABEL: {{^}}v_fadd_f64:
	; CHECK: v_add_f64 {{v[[0-9]+:[0-9]+]}}, {{v[[0-9]+:[0-9]+]}}, {{v[[0-9]+:[0-9]+]}}			; CHECK: v_add_f64 {{v[[0-9]+:[0-9]+]}}, {{v[[0-9]+:[0-9]+]}}, {{v[[0-9]+:[0-9]+]}}
	define amdgpu_kernel void @v_fadd_f64(double addrspace(1)* %out, double addrspace(1)* %in1,			define amdgpu_kernel void @v_fadd_f64(double addrspace(1)* %out, double addrspace(1)* %in1,
	double addrspace(1)* %in2) {			double addrspace(1)* %in2) {
	%r0 = load double, double addrspace(1)* %in1			%r0 = load double, double addrspace(1)* %in1
	%r1 = load double, double addrspace(1)* %in2			%r1 = load double, double addrspace(1)* %in2
	%r2 = fadd double %r0, %r1			%r2 = fadd double %r0, %r1
	store double %r2, double addrspace(1)* %out			store double %r2, double addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}s_fadd_f64:			; CHECK-LABEL: {{^}}s_fadd_f64:
	; CHECK: v_add_f64 {{v\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}			; CHECK: v_add_f64 {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, {{v\[[0-9]+:[0-9]+\]}}
	define amdgpu_kernel void @s_fadd_f64(double addrspace(1)* %out, double %r0, double %r1) {			define amdgpu_kernel void @s_fadd_f64(double addrspace(1)* %out, double %r0, double %r1) {
	%r2 = fadd double %r0, %r1			%r2 = fadd double %r0, %r1
	store double %r2, double addrspace(1)* %out			store double %r2, double addrspace(1)* %out
	ret void			ret void
	}			}

	; CHECK-LABEL: {{^}}v_fadd_v2f64:			; CHECK-LABEL: {{^}}v_fadd_v2f64:
	; CHECK: v_add_f64			; CHECK: v_add_f64
	Show All 20 Lines

test/CodeGen/AMDGPU/fcanonicalize.f16.ll

	Show First 20 Lines • Show All 199 Lines • ▼ Show 20 Lines
	; GCN: buffer_store_short [[REG]]			; GCN: buffer_store_short [[REG]]
	define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f16(half addrspace(1)* %out) #1 {			define amdgpu_kernel void @test_fold_canonicalize_snan3_value_f16(half addrspace(1)* %out) #1 {
	%canonicalized = call half @llvm.canonicalize.f16(half 0xHFC01)			%canonicalized = call half @llvm.canonicalize.f16(half 0xHFC01)
	store half %canonicalized, half addrspace(1)* %out			store half %canonicalized, half addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_var_v2f16:
	; VI: v_mul_f16_e32 [[REG0:v[0-9]+]], 1.0, {{v[0-9]+}}			; VI: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
				; VI-DAG: v_mul_f16_sdwa [[REG0:v[0-9]+]], v[[CONST1]], {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, {{v[0-9]+}}			; VI-DAG: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, {{v[0-9]+}}
	; VI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
	; VI-NOT: v_and_b32			; VI-NOT: v_and_b32

	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%val = load <2 x half>, <2 x half> addrspace(1)* %out			%val = load <2 x half>, <2 x half> addrspace(1)* %out
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Fold modifier			; FIXME: Fold modifier
	; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fabs_var_v2f16:
	; VI-DAG: v_bfe_u32			; VI-DAG: v_bfe_u32
	; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0x7fff7fff, v{{[0-9]+}}			; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, 0x7fff7fff, v{{[0-9]+}}
	; VI: v_mul_f16_e32 [[REG0:v[0-9]+]], 1.0, v{{[0-9]+}}			; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
				; VI: v_mul_f16_sdwa [[REG0:v[0-9]+]], v[[CONST1]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, v{{[0-9]+}}			; VI: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, v{{[0-9]+}}
	; VI-NOT: 0xffff			; VI-NOT: 0xffff
	; VI: v_or_b32			; VI: v_or_b32

	; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}			; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}
	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]]{{$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]]{{$}}
	; GCN: buffer_store_dword			; GCN: buffer_store_dword
	define amdgpu_kernel void @v_test_canonicalize_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%val = load <2 x half>, <2 x half> addrspace(1)* %out			%val = load <2 x half>, <2 x half> addrspace(1)* %out
	%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)			%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_fabs_var_v2f16:
	; VI: v_or_b32_e32 v{{[0-9]+}}, 0x80008000, v{{[0-9]+}}			; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
	; VI: v_mul_f16_e32 [[REG0:v[0-9]+]], 1.0, v{{[0-9]+}}			; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, 0x80008000, v{{[0-9]+}}
	; VI: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, v{{[0-9]+}}			; VI-DAG: v_mul_f16_sdwa [[REG0:v[0-9]+]], v[[CONST1]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
				; VI-DAG: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, v{{[0-9]+}}
	; VI: v_or_b32			; VI: v_or_b32

	; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}			; GFX9: v_and_b32_e32 [[ABS:v[0-9]+]], 0x7fff7fff, v{{[0-9]+}}
	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]] neg_lo:[0,1] neg_hi:[0,1]{{$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, [[ABS]] neg_lo:[0,1] neg_hi:[0,1]{{$}}
	; GCN: buffer_store_dword			; GCN: buffer_store_dword
	define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_fabs_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%val = load <2 x half>, <2 x half> addrspace(1)* %out			%val = load <2 x half>, <2 x half> addrspace(1)* %out
	%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)			%val.fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)
	%val.fabs.fneg = fsub <2 x half> <half -0.0, half -0.0>, %val.fabs			%val.fabs.fneg = fsub <2 x half> <half -0.0, half -0.0>, %val.fabs
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs.fneg)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val.fabs.fneg)
	store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out			store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Fold modifier			; FIXME: Fold modifier
	; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_v2f16:			; GCN-LABEL: {{^}}v_test_canonicalize_fneg_var_v2f16:
	; VI: v_xor_b32_e32 [[FNEG:v[0-9]+]], 0x80008000, v{{[0-9]+}}			; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
	; VI-DAG: v_lshrrev_b32_e32 [[FNEG_HI:v[0-9]+]], 16, [[FNEG]]			; VI-DAG: v_xor_b32_e32 [[FNEG:v[0-9]+]], 0x80008000, v{{[0-9]+}}
	; VI-DAG: v_mul_f16_e32 [[REG1:v[0-9]+]], 1.0, [[FNEG_HI]]			; VI-DAG: v_mul_f16_sdwa [[REG1:v[0-9]+]], v[[CONST1]], [[FNEG]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_mul_f16_e32 [[REG0:v[0-9]+]], 1.0, [[FNEG]]			; VI-DAG: v_mul_f16_e32 [[REG0:v[0-9]+]], 1.0, [[FNEG]]
	; VI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
	; VI-NOT: 0xffff			; VI-NOT: 0xffff

	; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}} neg_lo:[0,1] neg_hi:[0,1]{{$}}			; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{v[0-9]+}} neg_lo:[0,1] neg_hi:[0,1]{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]
	define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {			define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
	%val = load <2 x half>, <2 x half> addrspace(1)* %out			%val = load <2 x half>, <2 x half> addrspace(1)* %out
	%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val			%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val
	%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)			%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)
	▲ Show 20 Lines • Show All 167 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fmul.f16.ll

Show First 20 Lines • Show All 90 Lines • ▼ Show 20 Lines	entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fmul <2 x half> %a.val, %b.val		%r.val = fmul <2 x half> %a.val, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v2f16_imm_a:		; GCN-LABEL: {{^}}fmul_v2f16_imm_a:
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]		; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]		; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; VI-DAG: v_mul_f16_e32 v[[R_F16_1:[0-9]+]], 4.0, v[[B_F16_1]]		; VI-DAG: v_mov_b32_e32 v[[CONST4:[0-9]+]], 0x4400
		; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[CONST4]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]		; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]
; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_v2f16_imm_a(		define amdgpu_kernel void @fmul_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fmul <2 x half> <half 3.0, half 4.0>, %b.val		%r.val = fmul <2 x half> <half 3.0, half 4.0>, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fmul_v2f16_imm_b:		; GCN-LABEL: {{^}}fmul_v2f16_imm_b:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]		; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]		; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; VI-DAG: v_mul_f16_e32 v[[R_F16_1:[0-9]+]], 0x4200, v[[A_F16_1]]		; VI-DAG: v_mov_b32_e32 v[[CONST3:[0-9]+]], 0x4200
		; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[CONST3]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]		; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]
; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @fmul_v2f16_imm_b(		define amdgpu_kernel void @fmul_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = fmul <2 x half> %a.val, <half 4.0, half 3.0>		%r.val = fmul <2 x half> %a.val, <half 4.0, half 3.0>
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

Show First 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_fneg_fabs_f16(half addrspace(1)* %out, half addrspace(1)* %in) {
%fsub = fsub half -0.0, %fabs		%fsub = fsub half -0.0, %fabs
store half %fsub, half addrspace(1)* %out, align 2		store half %fsub, half addrspace(1)* %out, align 2
ret void		ret void
}		}

; FIXME: single bit op		; FIXME: single bit op
; GCN-LABEL: {{^}}s_fneg_fabs_v2f16:		; GCN-LABEL: {{^}}s_fneg_fabs_v2f16:
; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}		; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; VI: v_mov_b32_e32 [[VMASK:v[0-9]+]], [[MASK]]
		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
		; VI: v_or_b32_sdwa v{{[0-9]+}}, [[VMASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CIVI: flat_store_dword		; CIVI: flat_store_dword

; GFX9: s_or_b32 s{{[0-9]+}}, 0x80008000, s{{[0-9]+}}		; GFX9: s_or_b32 s{{[0-9]+}}, 0x80008000, s{{[0-9]+}}
define amdgpu_kernel void @s_fneg_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {		define amdgpu_kernel void @s_fneg_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {
%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)		%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)
%fneg.fabs = fsub <2 x half> <half -0.0, half -0.0>, %fabs		%fneg.fabs = fsub <2 x half> <half -0.0, half -0.0>, %fabs
store <2 x half> %fneg.fabs, <2 x half> addrspace(1)* %out		store <2 x half> %fneg.fabs, <2 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fneg_fabs_v4f16:		; GCN-LABEL: {{^}}fneg_fabs_v4f16:
; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}		; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
		; VI: v_mov_b32_e32 [[VMASK:v[0-9]+]], [[MASK]]
		; VI: v_or_b32_sdwa v{{[0-9]+}}, [[VMASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; VI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
		; VI: v_or_b32_sdwa v{{[0-9]+}}, [[VMASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
		; VI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],

; GFX9: s_mov_b32 [[MASK:s[0-9]+]], 0x80008000		; GFX9: s_mov_b32 [[MASK:s[0-9]+]], 0x80008000
; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}		; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}
; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}		; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}

; GCN: flat_store_dwordx2		; GCN: flat_store_dwordx2
define amdgpu_kernel void @fneg_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {		define amdgpu_kernel void @fneg_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {
%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)		%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)
▲ Show 20 Lines • Show All 54 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg-fabs.f64.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN %s

	; FIXME: Check something here. Currently it seems fabs + fneg aren't			; FIXME: Check something here. Currently it seems fabs + fneg aren't
	; into 2 modifiers, although theoretically that should work.			; into 2 modifiers, although theoretically that should work.

	; GCN-LABEL: {{^}}fneg_fabs_fadd_f64:			; GCN-LABEL: {{^}}fneg_fabs_fadd_f64:
	; GCN: v_add_f64 {{v\[[0-9]+:[0-9]+\]}}, -\|v{{\[[0-9]+:[0-9]+\]}}\|, {{s\[[0-9]+:[0-9]+\]}}			; GCN: v_add_f64 {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, -\|v{{\[[0-9]+:[0-9]+\]}}\|
	define amdgpu_kernel void @fneg_fabs_fadd_f64(double addrspace(1)* %out, double %x, double %y) {			define amdgpu_kernel void @fneg_fabs_fadd_f64(double addrspace(1)* %out, double %x, double %y) {
	%fabs = call double @llvm.fabs.f64(double %x)			%fabs = call double @llvm.fabs.f64(double %x)
	%fsub = fsub double -0.000000e+00, %fabs			%fsub = fsub double -0.000000e+00, %fabs
	%fadd = fadd double %y, %fsub			%fadd = fadd double %y, %fsub
	store double %fadd, double addrspace(1)* %out, align 8			store double %fadd, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	define amdgpu_kernel void @v_fneg_fabs_fadd_f64(double addrspace(1)* %out, double addrspace(1)* %xptr, double addrspace(1)* %yptr) {			define amdgpu_kernel void @v_fneg_fabs_fadd_f64(double addrspace(1)* %out, double addrspace(1)* %xptr, double addrspace(1)* %yptr) {
	%x = load double, double addrspace(1)* %xptr, align 8			%x = load double, double addrspace(1)* %xptr, align 8
	%y = load double, double addrspace(1)* %xptr, align 8			%y = load double, double addrspace(1)* %xptr, align 8
	%fabs = call double @llvm.fabs.f64(double %x)			%fabs = call double @llvm.fabs.f64(double %x)
	%fsub = fsub double -0.000000e+00, %fabs			%fsub = fsub double -0.000000e+00, %fabs
	%fadd = fadd double %y, %fsub			%fadd = fadd double %y, %fsub
	store double %fadd, double addrspace(1)* %out, align 8			store double %fadd, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fneg_fabs_fmul_f64:			; GCN-LABEL: {{^}}fneg_fabs_fmul_f64:
	; GCN: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, -\|{{v\[[0-9]+:[0-9]+\]}}\|, {{s\[[0-9]+:[0-9]+\]}}			; GCN: v_mul_f64 {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, -\|v{{\[[0-9]+:[0-9]+\]}}\|
	define amdgpu_kernel void @fneg_fabs_fmul_f64(double addrspace(1)* %out, double %x, double %y) {			define amdgpu_kernel void @fneg_fabs_fmul_f64(double addrspace(1)* %out, double %x, double %y) {
	%fabs = call double @llvm.fabs.f64(double %x)			%fabs = call double @llvm.fabs.f64(double %x)
	%fsub = fsub double -0.000000e+00, %fabs			%fsub = fsub double -0.000000e+00, %fabs
	%fmul = fmul double %y, %fsub			%fmul = fmul double %y, %fsub
	store double %fmul, double addrspace(1)* %out, align 8			store double %fmul, double addrspace(1)* %out, align 8
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 65 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg-fabs.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s			; RUN: llc -march=amdgcn -mcpu=tonga -verify-machineinstrs < %s \| FileCheck -check-prefix=SI -check-prefix=FUNC %s
	; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s			; RUN: llc -march=r600 -mcpu=redwood < %s \| FileCheck -check-prefix=R600 -check-prefix=FUNC %s

	; FUNC-LABEL: {{^}}fneg_fabs_fadd_f32:			; FUNC-LABEL: {{^}}fneg_fabs_fadd_f32:
	; SI-NOT: and			; SI-NOT: and
	; SI: v_subrev_f32_e64 {{v[0-9]+}}, \|{{v[0-9]+}}\|, {{s[0-9]+}}			; SI: v_sub_f32_e64 {{v[0-9]+}}, {{s[0-9]+}}, \|{{v[0-9]+}}\|
	define amdgpu_kernel void @fneg_fabs_fadd_f32(float addrspace(1)* %out, float %x, float %y) {			define amdgpu_kernel void @fneg_fabs_fadd_f32(float addrspace(1)* %out, float %x, float %y) {
	%fabs = call float @llvm.fabs.f32(float %x)			%fabs = call float @llvm.fabs.f32(float %x)
	%fsub = fsub float -0.000000e+00, %fabs			%fsub = fsub float -0.000000e+00, %fabs
	%fadd = fadd float %y, %fsub			%fadd = fadd float %y, %fsub
	store float %fadd, float addrspace(1)* %out, align 4			store float %fadd, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; FUNC-LABEL: {{^}}fneg_fabs_fmul_f32:			; FUNC-LABEL: {{^}}fneg_fabs_fmul_f32:
	; SI-NOT: and			; SI-NOT: and
	; SI: v_mul_f32_e64 {{v[0-9]+}}, -\|{{v[0-9]+}}\|, {{s[0-9]+}}			; SI: v_mul_f32_e64 {{v[0-9]+}}, {{s[0-9]+}}, -\|{{v[0-9]+}}\|
	; SI-NOT: and			; SI-NOT: and
	define amdgpu_kernel void @fneg_fabs_fmul_f32(float addrspace(1)* %out, float %x, float %y) {			define amdgpu_kernel void @fneg_fabs_fmul_f32(float addrspace(1)* %out, float %x, float %y) {
	%fabs = call float @llvm.fabs.f32(float %x)			%fabs = call float @llvm.fabs.f32(float %x)
	%fsub = fsub float -0.000000e+00, %fabs			%fsub = fsub float -0.000000e+00, %fabs
	%fmul = fmul float %y, %fsub			%fmul = fmul float %y, %fsub
	store float %fmul, float addrspace(1)* %out, align 4			store float %fmul, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}
	▲ Show 20 Lines • Show All 86 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fneg.f16.ll

Show First 20 Lines • Show All 124 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_fneg_fold_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%val = load <2 x half>, <2 x half> addrspace(1)* %in		%val = load <2 x half>, <2 x half> addrspace(1)* %in
%fsub = fsub <2 x half> <half -0.0, half -0.0>, %val		%fsub = fsub <2 x half> <half -0.0, half -0.0>, %val
%fmul = fmul <2 x half> %fsub, %val		%fmul = fmul <2 x half> %fsub, %val
store <2 x half> %fmul, <2 x half> addrspace(1)* %out		store <2 x half> %fmul, <2 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_extract_fneg_fold_v2f16:		; GCN-LABEL: {{^}}v_extract_fneg_fold_v2f16:
; GCN: flat_load_dword [[VAL:v[0-9]+]]		; GCN-DAG: flat_load_dword [[VAL:v[0-9]+]]
; CI-DAG: v_mul_f32_e32 v{{[0-9]+}}, -4.0, v{{[0-9]+}}		; CI-DAG: v_mul_f32_e32 v{{[0-9]+}}, -4.0, v{{[0-9]+}}
; CI-DAG: v_sub_f32_e32 v{{[0-9]+}}, 2.0, v{{[0-9]+}}		; CI-DAG: v_sub_f32_e32 v{{[0-9]+}}, 2.0, v{{[0-9]+}}

; GFX89: v_lshrrev_b32_e32 [[ELT1:v[0-9]+]], 16, [[VAL]]		; GFX9: v_lshrrev_b32_e32 [[ELT1:v[0-9]+]], 16, [[VAL]]
; GFX89-DAG: v_mul_f16_e32 v{{[0-9]+}}, -4.0, [[VAL]]		; GFX89-DAG: v_mul_f16_e32 v{{[0-9]+}}, -4.0, [[VAL]]
; GFX89-DAG: v_sub_f16_e32 v{{[0-9]+}}, 2.0, [[ELT1]]		; GFX9-DAG: v_sub_f16_e32 v{{[0-9]+}}, 2.0, [[ELT1]]
		; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000
		; VI-DAG: v_sub_f16_sdwa v{{[0-9]+}}, [[CONST2]], [[VAL]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
define amdgpu_kernel void @v_extract_fneg_fold_v2f16(<2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_extract_fneg_fold_v2f16(<2 x half> addrspace(1)* %in) #0 {
%val = load <2 x half>, <2 x half> addrspace(1)* %in		%val = load <2 x half>, <2 x half> addrspace(1)* %in
%fneg = fsub <2 x half> <half -0.0, half -0.0>, %val		%fneg = fsub <2 x half> <half -0.0, half -0.0>, %val
%elt0 = extractelement <2 x half> %fneg, i32 0		%elt0 = extractelement <2 x half> %fneg, i32 0
%elt1 = extractelement <2 x half> %fneg, i32 1		%elt1 = extractelement <2 x half> %fneg, i32 1

%fmul0 = fmul half %elt0, 4.0		%fmul0 = fmul half %elt0, 4.0
%fadd1 = fadd half %elt1, 2.0		%fadd1 = fadd half %elt1, 2.0
Show All 23 Lines

test/CodeGen/AMDGPU/fract.f64.ll

; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=SI -check-prefix=FUNC %s
; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=FUNC %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=FUNC %s

; RUN: llc -march=amdgcn -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-UNSAFE -check-prefix=SI-UNSAFE -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-UNSAFE -check-prefix=SI-UNSAFE -check-prefix=FUNC %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-UNSAFE -check-prefix=VI-UNSAFE -check-prefix=FUNC %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -enable-unsafe-fp-math -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN-UNSAFE -check-prefix=VI-UNSAFE -check-prefix=FUNC %s

declare double @llvm.fabs.f64(double) #0		declare double @llvm.fabs.f64(double) #0
declare double @llvm.floor.f64(double) #0		declare double @llvm.floor.f64(double) #0

; FUNC-LABEL: {{^}}fract_f64:		; FUNC-LABEL: {{^}}fract_f64:
; SI-DAG: v_fract_f64_e32 [[FRC:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]]		; SI-DAG: v_fract_f64_e32 [[FRC:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]]
; SI-DAG: v_mov_b32_e32 v[[UPLO:[0-9]+]], -1		; SI-DAG: v_mov_b32_e32 v[[UPLO:[0-9]+]], -1
; SI-DAG: v_mov_b32_e32 v[[UPHI:[0-9]+]], 0x3fefffff		; SI-DAG: v_mov_b32_e32 v[[UPHI:[0-9]+]], 0x3fefffff
; SI-DAG: v_min_f64 v{{\[}}[[MINLO:[0-9]+]]:[[MINHI:[0-9]+]]], v{{\[}}[[UPLO]]:[[UPHI]]], [[FRC]]		; SI-DAG: v_min_f64 v{{\[}}[[MINLO:[0-9]+]]:[[MINHI:[0-9]+]]], [[FRC]], v{{\[}}[[UPLO]]:[[UPHI]]]
; SI-DAG: v_cmp_class_f64_e64 vcc, v{{\[}}[[LO]]:[[HI]]], 3		; SI-DAG: v_cmp_class_f64_e64 vcc, v{{\[}}[[LO]]:[[HI]]], 3
; SI: v_cndmask_b32_e32 v[[RESLO:[0-9]+]], v[[MINLO]], v[[LO]], vcc		; SI: v_cndmask_b32_e32 v[[RESLO:[0-9]+]], v[[MINLO]], v[[LO]], vcc
; SI: v_cndmask_b32_e32 v[[RESHI:[0-9]+]], v[[MINHI]], v[[HI]], vcc		; SI: v_cndmask_b32_e32 v[[RESHI:[0-9]+]], v[[MINHI]], v[[HI]], vcc
; SI: v_add_f64 [[SUB0:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[LO]]:[[HI]]{{\]}}, -v{{\[}}[[RESLO]]:[[RESHI]]{{\]}}		; SI: v_add_f64 [[SUB0:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[LO]]:[[HI]]{{\]}}, -v{{\[}}[[RESLO]]:[[RESHI]]{{\]}}
; SI: v_add_f64 [[FRACT:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[LO]]:[[HI]]{{\]}}, -[[SUB0]]		; SI: v_add_f64 [[FRACT:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[LO]]:[[HI]]{{\]}}, -[[SUB0]]

; CI: buffer_load_dwordx2 [[X:v\[[0-9]+:[0-9]+\]]]		; CI: buffer_load_dwordx2 [[X:v\[[0-9]+:[0-9]+\]]]
; CI: v_floor_f64_e32 [[FLOORX:v\[[0-9]+:[0-9]+\]]], [[X]]		; CI: v_floor_f64_e32 [[FLOORX:v\[[0-9]+:[0-9]+\]]], [[X]]
Show All 10 Lines	define amdgpu_kernel void @fract_f64(double addrspace(1)* %out, double addrspace(1)* %src) #1 {
store double %fract, double addrspace(1)* %out		store double %fract, double addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}fract_f64_neg:		; FUNC-LABEL: {{^}}fract_f64_neg:
; SI-DAG: v_fract_f64_e64 [[FRC:v\[[0-9]+:[0-9]+\]]], -v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]]		; SI-DAG: v_fract_f64_e64 [[FRC:v\[[0-9]+:[0-9]+\]]], -v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]]
; SI-DAG: v_mov_b32_e32 v[[UPLO:[0-9]+]], -1		; SI-DAG: v_mov_b32_e32 v[[UPLO:[0-9]+]], -1
; SI-DAG: v_mov_b32_e32 v[[UPHI:[0-9]+]], 0x3fefffff		; SI-DAG: v_mov_b32_e32 v[[UPHI:[0-9]+]], 0x3fefffff
; SI-DAG: v_min_f64 v{{\[}}[[MINLO:[0-9]+]]:[[MINHI:[0-9]+]]], v{{\[}}[[UPLO]]:[[UPHI]]], [[FRC]]		; SI-DAG: v_min_f64 v{{\[}}[[MINLO:[0-9]+]]:[[MINHI:[0-9]+]]], [[FRC]], v{{\[}}[[UPLO]]:[[UPHI]]]
; SI-DAG: v_cmp_class_f64_e64 vcc, v{{\[}}[[LO]]:[[HI]]], 3		; SI-DAG: v_cmp_class_f64_e64 vcc, v{{\[}}[[LO]]:[[HI]]], 3
; SI: v_cndmask_b32_e32 v[[RESLO:[0-9]+]], v[[MINLO]], v[[LO]], vcc		; SI: v_cndmask_b32_e32 v[[RESLO:[0-9]+]], v[[MINLO]], v[[LO]], vcc
; SI: v_cndmask_b32_e32 v[[RESHI:[0-9]+]], v[[MINHI]], v[[HI]], vcc		; SI: v_cndmask_b32_e32 v[[RESHI:[0-9]+]], v[[MINHI]], v[[HI]], vcc
; SI: v_add_f64 [[SUB0:v\[[0-9]+:[0-9]+\]]], -v{{\[}}[[LO]]:[[HI]]{{\]}}, -v{{\[}}[[RESLO]]:[[RESHI]]{{\]}}		; SI: v_add_f64 [[SUB0:v\[[0-9]+:[0-9]+\]]], -v{{\[}}[[LO]]:[[HI]]{{\]}}, -v{{\[}}[[RESLO]]:[[RESHI]]{{\]}}
; SI: v_add_f64 [[FRACT:v\[[0-9]+:[0-9]+\]]], -v{{\[}}[[LO]]:[[HI]]{{\]}}, -[[SUB0]]		; SI: v_add_f64 [[FRACT:v\[[0-9]+:[0-9]+\]]], -v{{\[}}[[LO]]:[[HI]]{{\]}}, -[[SUB0]]

; CI: buffer_load_dwordx2 [[X:v\[[0-9]+:[0-9]+\]]]		; CI: buffer_load_dwordx2 [[X:v\[[0-9]+:[0-9]+\]]]
; CI: v_floor_f64_e64 [[FLOORX:v\[[0-9]+:[0-9]+\]]], -[[X]]		; CI: v_floor_f64_e64 [[FLOORX:v\[[0-9]+:[0-9]+\]]], -[[X]]
Show All 11 Lines	define amdgpu_kernel void @fract_f64_neg(double addrspace(1)* %out, double addrspace(1)* %src) #1 {
store double %fract, double addrspace(1)* %out		store double %fract, double addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}fract_f64_neg_abs:		; FUNC-LABEL: {{^}}fract_f64_neg_abs:
; SI-DAG: v_fract_f64_e64 [[FRC:v\[[0-9]+:[0-9]+\]]], -\|v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]]\|		; SI-DAG: v_fract_f64_e64 [[FRC:v\[[0-9]+:[0-9]+\]]], -\|v{{\[}}[[LO:[0-9]+]]:[[HI:[0-9]+]]]\|
; SI-DAG: v_mov_b32_e32 v[[UPLO:[0-9]+]], -1		; SI-DAG: v_mov_b32_e32 v[[UPLO:[0-9]+]], -1
; SI-DAG: v_mov_b32_e32 v[[UPHI:[0-9]+]], 0x3fefffff		; SI-DAG: v_mov_b32_e32 v[[UPHI:[0-9]+]], 0x3fefffff
; SI-DAG: v_min_f64 v{{\[}}[[MINLO:[0-9]+]]:[[MINHI:[0-9]+]]], v{{\[}}[[UPLO]]:[[UPHI]]], [[FRC]]		; SI-DAG: v_min_f64 v{{\[}}[[MINLO:[0-9]+]]:[[MINHI:[0-9]+]]], [[FRC]], v{{\[}}[[UPLO]]:[[UPHI]]]
; SI-DAG: v_cmp_class_f64_e64 vcc, v{{\[}}[[LO]]:[[HI]]], 3		; SI-DAG: v_cmp_class_f64_e64 vcc, v{{\[}}[[LO]]:[[HI]]], 3
; SI: v_cndmask_b32_e32 v[[RESLO:[0-9]+]], v[[MINLO]], v[[LO]], vcc		; SI: v_cndmask_b32_e32 v[[RESLO:[0-9]+]], v[[MINLO]], v[[LO]], vcc
; SI: v_cndmask_b32_e32 v[[RESHI:[0-9]+]], v[[MINHI]], v[[HI]], vcc		; SI: v_cndmask_b32_e32 v[[RESHI:[0-9]+]], v[[MINHI]], v[[HI]], vcc
; SI: v_add_f64 [[SUB0:v\[[0-9]+:[0-9]+\]]], -\|v{{\[}}[[LO]]:[[HI]]{{\]}}\|, -v{{\[}}[[RESLO]]:[[RESHI]]{{\]}}		; SI: v_add_f64 [[SUB0:v\[[0-9]+:[0-9]+\]]], -\|v{{\[}}[[LO]]:[[HI]]{{\]}}\|, -v{{\[}}[[RESLO]]:[[RESHI]]{{\]}}
; SI: v_add_f64 [[FRACT:v\[[0-9]+:[0-9]+\]]], -\|v{{\[}}[[LO]]:[[HI]]{{\]}}\|, -[[SUB0]]		; SI: v_add_f64 [[FRACT:v\[[0-9]+:[0-9]+\]]], -\|v{{\[}}[[LO]]:[[HI]]{{\]}}\|, -[[SUB0]]

; CI: buffer_load_dwordx2 [[X:v\[[0-9]+:[0-9]+\]]]		; CI: buffer_load_dwordx2 [[X:v\[[0-9]+:[0-9]+\]]]
; CI: v_floor_f64_e64 [[FLOORX:v\[[0-9]+:[0-9]+\]]], -\|[[X]]\|		; CI: v_floor_f64_e64 [[FLOORX:v\[[0-9]+:[0-9]+\]]], -\|[[X]]\|
Show All 33 Lines

test/CodeGen/AMDGPU/fsub.f16.ll

Show First 20 Lines • Show All 93 Lines • ▼ Show 20 Lines	entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fsub <2 x half> %a.val, %b.val		%r.val = fsub <2 x half> %a.val, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_v2f16_imm_a:		; GCN-LABEL: {{^}}fsub_v2f16_imm_a:
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_sub_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]		; SI: v_sub_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_sub_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]		; SI: v_sub_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; VI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000
; VI-DAG: v_sub_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[B_F16_1]]		; VI-DAG: v_sub_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST2]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_sub_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]		; VI-DAG: v_sub_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]
; VI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x40003c00		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0x40003c00
; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], [[K]], v[[B_V2_F16]] neg_lo:[0,1] neg_hi:[0,1]		; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[B_V2_F16]], [[K]] neg_lo:[1,0] neg_hi:[1,0]

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm

define amdgpu_kernel void @fsub_v2f16_imm_a(		define amdgpu_kernel void @fsub_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = fsub <2 x half> <half 1.0, half 2.0>, %b.val		%r.val = fsub <2 x half> <half 1.0, half 2.0>, %b.val
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}fsub_v2f16_imm_b:		; GCN-LABEL: {{^}}fsub_v2f16_imm_b:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], -2.0, v[[A_F32_0]]		; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], -2.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], -1.0, v[[A_F32_1]]		; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], -1.0, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; VI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00
; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], -1.0, v[[A_F16_1]]		; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONSTM1]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], -2.0, v[[A_V2_F16]]		; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], -2.0, v[[A_V2_F16]]
; VI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

; GFX9: s_mov_b32 [[K:s[0-9]+]], 0xbc00c000		; GFX9: s_mov_b32 [[K:s[0-9]+]], 0xbc00c000
; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], [[K]], v[[A_V2_F16]]{{$}}		; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]{{$}}

; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm

define amdgpu_kernel void @fsub_v2f16_imm_b(		define amdgpu_kernel void @fsub_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = fsub <2 x half> %a.val, <half 2.0, half 1.0>		%r.val = fsub <2 x half> %a.val, <half 2.0, half 1.0>
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/fsub64.ll

Show All 33 Lines	define amdgpu_kernel void @fsub_fabs_inv_f64(double addrspace(1)* %out, double addrspace(1)* %in1,
%r1 = load double, double addrspace(1)* %in2		%r1 = load double, double addrspace(1)* %in2
%r0.fabs = call double @llvm.fabs.f64(double %r0) #0		%r0.fabs = call double @llvm.fabs.f64(double %r0) #0
%r2 = fsub double %r0.fabs, %r1		%r2 = fsub double %r0.fabs, %r1
store double %r2, double addrspace(1)* %out		store double %r2, double addrspace(1)* %out
ret void		ret void
}		}

; SI-LABEL: {{^}}s_fsub_f64:		; SI-LABEL: {{^}}s_fsub_f64:
; SI: v_add_f64 {{v\[[0-9]+:[0-9]+\], -v\[[0-9]+:[0-9]+\], s\[[0-9]+:[0-9]+\]}}		; SI: v_add_f64 {{v\[[0-9]+:[0-9]+\], s\[[0-9]+:[0-9]+\], -v\[[0-9]+:[0-9]+\]}}
define amdgpu_kernel void @s_fsub_f64(double addrspace(1)* %out, double %a, double %b) {		define amdgpu_kernel void @s_fsub_f64(double addrspace(1)* %out, double %a, double %b) {
%sub = fsub double %a, %b		%sub = fsub double %a, %b
store double %sub, double addrspace(1)* %out		store double %sub, double addrspace(1)* %out
ret void		ret void
}		}

; SI-LABEL: {{^}}s_fsub_imm_f64:		; SI-LABEL: {{^}}s_fsub_imm_f64:
; SI: v_add_f64 {{v\[[0-9]+:[0-9]+\], -s\[[0-9]+:[0-9]+\]}}, 4.0		; SI: v_add_f64 {{v\[[0-9]+:[0-9]+\], -s\[[0-9]+:[0-9]+\]}}, 4.0
▲ Show 20 Lines • Show All 57 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/immv216.ll

	Show First 20 Lines • Show All 117 Lines • ▼ Show 20 Lines
	; GCN-LABEL: {{^}}add_inline_imm_0.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_0.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST0:v[0-9]+]], 0
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST0]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_0.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_0.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0.0, half 0.0>			%y = fadd <2 x half> %x, <half 0.0, half 0.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_0.5_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_0.5_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST05]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0.5, half 0.5>			%y = fadd <2 x half> %x, <half 0.5, half 0.5>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -0.5{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -0.5{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -0.5, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -0.5, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -0.5, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM05:v[0-9]+]], 0xb800
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM05]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -0.5, half -0.5>			%y = fadd <2 x half> %x, <half -0.5, half -0.5>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_1.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1.0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1.0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST1:v[0-9]+]], 0x3c00
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 1.0, half 1.0>			%y = fadd <2 x half> %x, <half 1.0, half 1.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1.0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1.0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -1.0, half -1.0>			%y = fadd <2 x half> %x, <half -1.0, half -1.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_2.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2.0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2.0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 2.0, half 2.0>			%y = fadd <2 x half> %x, <half 2.0, half 2.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2.0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2.0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM2:v[0-9]+]], 0xc000
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -2.0, half -2.0>			%y = fadd <2 x half> %x, <half -2.0, half -2.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_4.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_4.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 4.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 4.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 4.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 4.0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 4.0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST4]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 4.0, half 4.0>			%y = fadd <2 x half> %x, <half 4.0, half 4.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -4.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -4.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -4.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -4.0, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -4.0, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM4:v[0-9]+]], 0xc400
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM4]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -4.0, half -4.0>			%y = fadd <2 x half> %x, <half -4.0, half -4.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_v2f16:			; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_v2f16:
	; GFX9: buffer_load_dword [[VAL:v[0-9]+]]			; GFX9: buffer_load_dword [[VAL:v[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

				; VI: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800
	; VI: buffer_load_dword			; VI: buffer_load_dword
	; VI-NOT: and			; VI-NOT: and
	; VI: v_lshrrev_b32_e32 {{v[0-9]+}}, 16,			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST05]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @commute_add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {			define amdgpu_kernel void @commute_add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
	%x = load <2 x half>, <2 x half> addrspace(1)* %in			%x = load <2 x half>, <2 x half> addrspace(1)* %in
	%y = fadd <2 x half> %x, <half 0.5, half 0.5>			%y = fadd <2 x half> %x, <half 0.5, half 0.5>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}commute_add_literal_v2f16:			; GCN-LABEL: {{^}}commute_add_literal_v2f16:
	; GFX9-DAG: buffer_load_dword [[VAL:v[0-9]+]]			; GFX9-DAG: buffer_load_dword [[VAL:v[0-9]+]]
	; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}			; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[K]], [[VAL]] op_sel_hi:[0,1]{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], [[K]] op_sel_hi:[1,0]{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}			; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}
	; VI-DAG: buffer_load_dword			; VI-DAG: buffer_load_dword
	; VI-NOT: and			; VI-NOT: and
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, [[K]], v{{[0-9]+}}			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, [[K]], v{{[0-9]+}}
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @commute_add_literal_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {			define amdgpu_kernel void @commute_add_literal_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
	%x = load <2 x half>, <2 x half> addrspace(1)* %in			%x = load <2 x half>, <2 x half> addrspace(1)* %in
	%y = fadd <2 x half> %x, <half 1024.0, half 1024.0>			%y = fadd <2 x half> %x, <half 1024.0, half 1024.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_1_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST1:v[0-9]+]], 1
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0001, half 0xH0001>			%y = fadd <2 x half> %x, <half 0xH0001, half 0xH0001>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_2_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 2
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0002, half 0xH0002>			%y = fadd <2 x half> %x, <half 0xH0002, half 0xH0002>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_16_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_16_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 16{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 16{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 16, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 16, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 16, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST16:v[0-9]+]], 16
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST16]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0010, half 0xH0010>			%y = fadd <2 x half> %x, <half 0xH0010, half 0xH0010>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_1_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xffff
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xHFFFF, half 0xHFFFF>			%y = fadd <2 x half> %x, <half 0xHFFFF, half 0xHFFFF>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_2_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM2:v[0-9]+]], 0xfffe
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xHFFFE, half 0xHFFFE>			%y = fadd <2 x half> %x, <half 0xHFFFE, half 0xHFFFE>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_16_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_16_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -16{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -16{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -16, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -16, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -16, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONSTM16:v[0-9]+]], 0xfff0
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM16]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xHFFF0, half 0xHFFF0>			%y = fadd <2 x half> %x, <half 0xHFFF0, half 0xHFFF0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_63_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_63_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 63			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 63
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 63, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 63, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 63, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST63:v[0-9]+]], 63
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST63]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_63_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_63_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH003F, half 0xH003F>			%y = fadd <2 x half> %x, <half 0xH003F, half 0xH003F>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_64_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_64_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 64			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 64
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 64, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 64, [[VAL0]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 64, [[VAL1]]			; VI-DAG: v_mov_b32_e32 [[CONST64:v[0-9]+]], 64
				; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST64]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_64_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_64_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0040, half 0xH0040>			%y = fadd <2 x half> %x, <half 0xH0040, half 0xH0040>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

Show First 20 Lines • Show All 252 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_insertelement_v2i16_0_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
%vecins = insertelement <2 x i16> %vec, i16 53, i32 0		%vecins = insertelement <2 x i16> %vec, i16 53, i32 0
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; FIXME: fold lshl_or c0, c1, v0 -> or (c0 << c1), v0		; FIXME: fold lshl_or c0, c1, v0 -> or (c0 << c1), v0

; GCN-LABEL: {{^}}v_insertelement_v2i16_1:		; GCN-LABEL: {{^}}v_insertelement_v2i16_1:
		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e70000
; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]		; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]
; CIVI: v_or_b32_e32 [[RES:v[0-9]+]], 0x3e70000, [[VEC]]		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x3e70000, [[VEC]]
		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0

; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x3e7		; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x3e7
; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 1		%vecins = insertelement <2 x i16> %vec, i16 999, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2i16_1_inlineimm:		; GCN-LABEL: {{^}}v_insertelement_v2i16_1_inlineimm:
		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0xfff10000
; GCN: flat_load_dword [[VEC:v[0-9]+]]		; GCN: flat_load_dword [[VEC:v[0-9]+]]
; GCN: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; CI: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; CIVI: v_or_b32_e32 [[RES:v[0-9]+]], 0xfff10000, [[ELT0]]		; GFX9: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0xfff10000, [[ELT0]]
		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], -15, 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], -15, 16, [[ELT0]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2i16_1_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_1_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
Show All 40 Lines	define amdgpu_kernel void @v_insertelement_v2f16_0_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 0xH0035, i32 0		%vecins = insertelement <2 x half> %vec, half 0xH0035, i32 0
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_1:		; GCN-LABEL: {{^}}v_insertelement_v2f16_1:
		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x45000000
; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]		; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]
; CIVI: v_or_b32_e32 [[RES:v[0-9]+]], 0x45000000, [[VEC]]		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x45000000, [[VEC]]
		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0

; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x4500		; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x4500
; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2f16_1(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_1(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 1		%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 1
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_1_inlineimm:		; GCN-LABEL: {{^}}v_insertelement_v2f16_1_inlineimm:
		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x230000
; GCN: flat_load_dword [[VEC:v[0-9]+]]		; GCN: flat_load_dword [[VEC:v[0-9]+]]
; GCN: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; CI: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; CIVI: v_or_b32_e32 [[RES:v[0-9]+]], 0x230000, [[ELT0]]		; GFX9: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x230000, [[ELT0]]
		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], 35, 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], 35, 16, [[ELT0]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2f16_1_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_1_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
Show All 35 Lines	define amdgpu_kernel void @v_insertelement_v2i16_dynamic_sgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 %idx) #0 {
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx		%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:		; GCN-LABEL: {{^}}v_insertelement_v2i16_dynamic_vgpr:
		; GFX89: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
		; CI: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e7
; GCN: flat_load_dword [[IDX:v[0-9]+]]		; GCN: flat_load_dword [[IDX:v[0-9]+]]
; GCN: flat_load_dword [[VEC:v[0-9]+]]		; GCN: flat_load_dword [[VEC:v[0-9]+]]
; GCN-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e7		; GFX89-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e7

; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]		; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]
; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]		; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]		; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]
; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]		; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]

; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]		; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
define amdgpu_kernel void @v_insertelement_v2i16_dynamic_vgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_dynamic_vgpr(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in, i32 addrspace(1)* %idx.ptr) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext		%idx.gep = getelementptr inbounds i32, i32 addrspace(1)* %idx.ptr, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%idx = load i32, i32 addrspace(1)* %idx.gep		%idx = load i32, i32 addrspace(1)* %idx.gep
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx		%vecins = insertelement <2 x i16> %vec, i16 999, i32 %idx
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_dynamic_vgpr:		; GCN-LABEL: {{^}}v_insertelement_v2f16_dynamic_vgpr:
		; GFX89: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
		; CI: v_mov_b32_e32 [[K:v[0-9]+]], 0x1234
; GCN: flat_load_dword [[IDX:v[0-9]+]]		; GCN: flat_load_dword [[IDX:v[0-9]+]]
; GCN: flat_load_dword [[VEC:v[0-9]+]]		; GCN: flat_load_dword [[VEC:v[0-9]+]]
; GCN-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x1234		; GFX89-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x1234

; GFX89-DAG: s_mov_b32 [[MASKK:s[0-9]+]], 0xffff{{$}}
; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]		; GFX89-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]
; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]		; GFX89-DAG: v_lshlrev_b32_e64 [[MASK:v[0-9]+]], [[SCALED_IDX]], [[MASKK]]

; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]		; CI-DAG: v_lshlrev_b32_e32 [[SCALED_IDX:v[0-9]+]], 16, [[IDX]]
; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]		; CI-DAG: v_lshl_b32_e32 [[MASK:v[0-9]+]], 0xffff, [[SCALED_IDX]]

; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]		; GCN: v_bfi_b32 [[RESULT:v[0-9]+]], [[MASK]], [[K]], [[VEC]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RESULT]]
Show All 17 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.div.fixup.f16.ll

Show All 21 Lines	entry:
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}div_fixup_f16_imm_a		; GCN-LABEL: {{^}}div_fixup_f16_imm_a
; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]
; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}		; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}
; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[B_F16]], v[[A_F16]], v[[C_F16]]		; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @div_fixup_f16_imm_a(		define amdgpu_kernel void @div_fixup_f16_imm_a(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %b,		half addrspace(1)* %b,
half addrspace(1)* %c) {		half addrspace(1)* %c) {
entry:		entry:
%b.val = load half, half addrspace(1)* %b		%b.val = load half, half addrspace(1)* %b
%c.val = load half, half addrspace(1)* %c		%c.val = load half, half addrspace(1)* %c
%r.val = call half @llvm.amdgcn.div.fixup.f16(half 3.0, half %b.val, half %c.val)		%r.val = call half @llvm.amdgcn.div.fixup.f16(half 3.0, half %b.val, half %c.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}div_fixup_f16_imm_b		; GCN-LABEL: {{^}}div_fixup_f16_imm_b
; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]
; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}		; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}
; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[B_F16]], v[[A_F16]], v[[C_F16]]		; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @div_fixup_f16_imm_b(		define amdgpu_kernel void @div_fixup_f16_imm_b(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %c) {		half addrspace(1)* %c) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
%c.val = load half, half addrspace(1)* %c		%c.val = load half, half addrspace(1)* %c
%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half 3.0, half %c.val)		%r.val = call half @llvm.amdgcn.div.fixup.f16(half %a.val, half 3.0, half %c.val)
store half %r.val, half addrspace(1)* %r		store half %r.val, half addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}div_fixup_f16_imm_c		; GCN-LABEL: {{^}}div_fixup_f16_imm_c
; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]		; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}		; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}
; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[B_F16]], v[[A_F16]], v[[C_F16]]		; VI: v_div_fixup_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
; GCN: buffer_store_short v[[R_F16]]		; GCN: buffer_store_short v[[R_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @div_fixup_f16_imm_c(		define amdgpu_kernel void @div_fixup_f16_imm_c(
half addrspace(1)* %r,		half addrspace(1)* %r,
half addrspace(1)* %a,		half addrspace(1)* %a,
half addrspace(1)* %b) {		half addrspace(1)* %b) {
entry:		entry:
%a.val = load half, half addrspace(1)* %a		%a.val = load half, half addrspace(1)* %a
▲ Show 20 Lines • Show All 53 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.div.fmas.ll

	Show All 11 Lines
	; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd			; SI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xd
	; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc
	; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-DAG: s_load_dword [[SA:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x34			; VI-DAG: s_load_dword [[SC:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x34
	; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; VI-DAG: s_load_dword [[SB:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
	; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]			; GCN-DAG: v_mov_b32_e32 [[VC:v[0-9]+]], [[SC]]
	; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; GCN-DAG: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
	; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]			; GCN-DAG: v_mov_b32_e32 [[VA:v[0-9]+]], [[SA]]
	; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VB]], [[VA]], [[VC]]			; GCN: v_div_fmas_f32 [[RESULT:v[0-9]+]], [[VA]], [[VB]], [[VC]]
	; GCN: buffer_store_dword [[RESULT]],			; GCN: buffer_store_dword [[RESULT]],
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @test_div_fmas_f32(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {			define amdgpu_kernel void @test_div_fmas_f32(float addrspace(1)* %out, float %a, float %b, float %c, i1 %d) nounwind {
	%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 %d) nounwind readnone			%result = call float @llvm.amdgcn.div.fmas.f32(float %a, float %b, float %c, i1 %d) nounwind readnone
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 150 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.fcmp.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=fiji -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	declare i64 @llvm.amdgcn.fcmp.f32(float, float, i32) #0			declare i64 @llvm.amdgcn.fcmp.f32(float, float, i32) #0
	declare i64 @llvm.amdgcn.fcmp.f64(double, double, i32) #0			declare i64 @llvm.amdgcn.fcmp.f64(double, double, i32) #0
	declare float @llvm.fabs.f32(float) #0			declare float @llvm.fabs.f32(float) #0

	; GCN-LABEL: {{^}}v_fcmp_f32_dynamic_cc:			; GCN-LABEL: {{^}}v_fcmp_f32_dynamic_cc:
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_fcmp_f32_dynamic_cc(i64 addrspace(1)* %out, float %src0, float %src1, i32 %cc) {			define amdgpu_kernel void @v_fcmp_f32_dynamic_cc(i64 addrspace(1)* %out, float %src0, float %src1, i32 %cc) {
	%result = call i64 @llvm.amdgcn.fcmp.f32(float %src0, float %src1, i32 %cc)			%result = call i64 @llvm.amdgcn.fcmp.f32(float %src0, float %src1, i32 %cc)
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_fcmp_f32_oeq_with_fabs:			; GCN-LABEL: {{^}}v_fcmp_f32_oeq_with_fabs:
	; GCN: v_cmp_eq_f32_e64 {{s\[[0-9]+:[0-9]+\]}}, \|{{v[0-9]+}}\|, {{s[0-9]+}}			; GCN: v_cmp_eq_f32_e64 {{s\[[0-9]+:[0-9]+\]}}, {{s[0-9]+}}, \|{{v[0-9]+}}\|
	define amdgpu_kernel void @v_fcmp_f32_oeq_with_fabs(i64 addrspace(1)* %out, float %src, float %a) {			define amdgpu_kernel void @v_fcmp_f32_oeq_with_fabs(i64 addrspace(1)* %out, float %src, float %a) {
	%temp = call float @llvm.fabs.f32(float %a)			%temp = call float @llvm.fabs.f32(float %a)
	%result = call i64 @llvm.amdgcn.fcmp.f32(float %src, float %temp, i32 1)			%result = call i64 @llvm.amdgcn.fcmp.f32(float %src, float %temp, i32 1)
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_fcmp_f32_oeq_both_operands_with_fabs:			; GCN-LABEL: {{^}}v_fcmp_f32_oeq_both_operands_with_fabs:
	; GCN: v_cmp_eq_f32_e64 {{s\[[0-9]+:[0-9]+\]}}, \|{{v[0-9]+}}\|, \|{{s[0-9]+}}\|			; GCN: v_cmp_eq_f32_e64 {{s\[[0-9]+:[0-9]+\]}}, \|{{s[0-9]+}}\|, \|{{v[0-9]+}}\|
	define amdgpu_kernel void @v_fcmp_f32_oeq_both_operands_with_fabs(i64 addrspace(1)* %out, float %src, float %a) {			define amdgpu_kernel void @v_fcmp_f32_oeq_both_operands_with_fabs(i64 addrspace(1)* %out, float %src, float %a) {
	%temp = call float @llvm.fabs.f32(float %a)			%temp = call float @llvm.fabs.f32(float %a)
	%src_input = call float @llvm.fabs.f32(float %src)			%src_input = call float @llvm.fabs.f32(float %src)
	%result = call i64 @llvm.amdgcn.fcmp.f32(float %src_input, float %temp, i32 1)			%result = call i64 @llvm.amdgcn.fcmp.f32(float %src_input, float %temp, i32 1)
	store i64 %result, i64 addrspace(1)* %out			store i64 %result, i64 addrspace(1)* %out
	ret void			ret void
	}			}

	▲ Show 20 Lines • Show All 202 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.amdgcn.fmul.legacy.ll

	Show All 21 Lines
	; GCN: v_mul_legacy_f32_e32			; GCN: v_mul_legacy_f32_e32
	define amdgpu_kernel void @test_mul_legacy_undef1_f32(float addrspace(1)* %out, float %a) #0 {			define amdgpu_kernel void @test_mul_legacy_undef1_f32(float addrspace(1)* %out, float %a) #0 {
	%result = call float @llvm.amdgcn.fmul.legacy(float %a, float undef)			%result = call float @llvm.amdgcn.fmul.legacy(float %a, float undef)
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_mul_legacy_fabs_f32:			; GCN-LABEL: {{^}}test_mul_legacy_fabs_f32:
	; GCN: v_mul_legacy_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, \|s{{[0-9]+}}\|			; GCN: v_mul_legacy_f32_e64 v{{[0-9]+}}, \|s{{[0-9]+}}\|, \|v{{[0-9]+}}\|
	define amdgpu_kernel void @test_mul_legacy_fabs_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_mul_legacy_fabs_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	%a.fabs = call float @llvm.fabs.f32(float %a)			%a.fabs = call float @llvm.fabs.f32(float %a)
	%b.fabs = call float @llvm.fabs.f32(float %b)			%b.fabs = call float @llvm.fabs.f32(float %b)
	%result = call float @llvm.amdgcn.fmul.legacy(float %a.fabs, float %b.fabs)			%result = call float @llvm.amdgcn.fmul.legacy(float %a.fabs, float %b.fabs)
	store float %result, float addrspace(1)* %out, align 4			store float %result, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	Show All 16 Lines

test/CodeGen/AMDGPU/llvm.fma.f16.ll

	Show All 33 Lines
	; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]

	; SI: v_mov_b32_e32 v[[A_F32:[0-9]+]], 0x40400000{{$}}			; SI: v_mov_b32_e32 v[[A_F32:[0-9]+]], 0x40400000{{$}}
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_cvt_f32_f16_e32 v[[C_F32:[0-9]+]], v[[C_F16]]			; SI: v_cvt_f32_f16_e32 v[[C_F32:[0-9]+]], v[[C_F16]]
	; SI: v_fma_f32 v[[R_F32:[0-9]+]], v[[A_F32:[0-9]]], v[[B_F32:[0-9]]], v[[C_F32:[0-9]]]			; SI: v_fma_f32 v[[R_F32:[0-9]+]], v[[A_F32:[0-9]]], v[[B_F32:[0-9]]], v[[C_F32:[0-9]]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]			; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
	; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}			; VI: v_mov_b32_e32 v[[A_F16:[0-9]+]], 0x4200{{$}}
	; VI: v_fma_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]			; VI: v_fma_f16 v[[R_F16:[0-9]+]], v[[B_F16]], v[[A_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fma_f16_imm_a(			define amdgpu_kernel void @fma_f16_imm_a(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	%b.val = load half, half addrspace(1)* %b			%b.val = load half, half addrspace(1)* %b
	%c.val = load half, half addrspace(1)* %c			%c.val = load half, half addrspace(1)* %c
	%r.val = call half @llvm.fma.f16(half 3.0, half %b.val, half %c.val)			%r.val = call half @llvm.fma.f16(half 3.0, half %b.val, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fma_f16_imm_b			; GCN-LABEL: {{^}}fma_f16_imm_b
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[C_F16:[0-9]+]]
	; SI: v_mov_b32_e32 v[[B_F32:[0-9]+]], 0x40400000{{$}}			; SI: v_mov_b32_e32 v[[B_F32:[0-9]+]], 0x40400000{{$}}
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[C_F32:[0-9]+]], v[[C_F16]]			; SI: v_cvt_f32_f16_e32 v[[C_F32:[0-9]+]], v[[C_F16]]
	; SI: v_fma_f32 v[[R_F32:[0-9]+]], v[[A_F32:[0-9]]], v[[B_F32:[0-9]]], v[[C_F32:[0-9]]]			; SI: v_fma_f32 v[[R_F32:[0-9]+]], v[[A_F32:[0-9]]], v[[B_F32:[0-9]]], v[[C_F32:[0-9]]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]			; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
	; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}			; VI: v_mov_b32_e32 v[[B_F16:[0-9]+]], 0x4200{{$}}
	; VI: v_fma_f16 v[[R_F16:[0-9]+]], v[[B_F16]], v[[A_F16]], v[[C_F16]]			; VI: v_fma_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fma_f16_imm_b(			define amdgpu_kernel void @fma_f16_imm_b(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	%a.val = load half, half addrspace(1)* %a			%a.val = load half, half addrspace(1)* %a
	%c.val = load half, half addrspace(1)* %c			%c.val = load half, half addrspace(1)* %c
	%r.val = call half @llvm.fma.f16(half %a.val, half 3.0, half %c.val)			%r.val = call half @llvm.fma.f16(half %a.val, half 3.0, half %c.val)
	store half %r.val, half addrspace(1)* %r			store half %r.val, half addrspace(1)* %r
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}fma_f16_imm_c			; GCN-LABEL: {{^}}fma_f16_imm_c
	; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[A_F16:[0-9]+]]
	; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]			; GCN: buffer_load_ushort v[[B_F16:[0-9]+]]
	; SI: v_mov_b32_e32 v[[C_F32:[0-9]+]], 0x40400000{{$}}			; SI: v_mov_b32_e32 v[[C_F32:[0-9]+]], 0x40400000{{$}}
	; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32:[0-9]+]], v[[A_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32:[0-9]+]], v[[B_F16]]
	; SI: v_fma_f32 v[[R_F32:[0-9]+]], v[[A_F32:[0-9]]], v[[B_F32:[0-9]]], v[[C_F32:[0-9]]]			; SI: v_fma_f32 v[[R_F32:[0-9]+]], v[[A_F32:[0-9]]], v[[B_F32:[0-9]]], v[[C_F32:[0-9]]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]			; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[R_F32]]
	; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}			; VI: v_mov_b32_e32 v[[C_F16:[0-9]+]], 0x4200{{$}}
	; VI: v_fma_f16 v[[R_F16:[0-9]+]], v[[B_F16]], v[[A_F16]], v[[C_F16]]			; VI: v_fma_f16 v[[R_F16:[0-9]+]], v[[A_F16]], v[[B_F16]], v[[C_F16]]
	; GCN: buffer_store_short v[[R_F16]]			; GCN: buffer_store_short v[[R_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fma_f16_imm_c(			define amdgpu_kernel void @fma_f16_imm_c(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %b) {			half addrspace(1)* %b) {
	%a.val = load half, half addrspace(1)* %a			%a.val = load half, half addrspace(1)* %a
	%b.val = load half, half addrspace(1)* %b			%b.val = load half, half addrspace(1)* %b
	▲ Show 20 Lines • Show All 172 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

	Show First 20 Lines • Show All 44 Lines • ▼ Show 20 Lines
	; SI: v_mac_f32_e32 v[[C_F32]], 0x40400000, v[[B_F32]]			; SI: v_mac_f32_e32 v[[C_F32]], 0x40400000, v[[B_F32]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[C_F32]]			; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[C_F32]]
	; SI: buffer_store_short v[[R_F16]]			; SI: buffer_store_short v[[R_F16]]

	; VI-FLUSH: v_mac_f16_e32 v[[C_F16]], 0x4200, v[[B_F16]]			; VI-FLUSH: v_mac_f16_e32 v[[C_F16]], 0x4200, v[[B_F16]]
	; VI-FLUSH: buffer_store_short v[[C_F16]]			; VI-FLUSH: buffer_store_short v[[C_F16]]

	; VI-DENORM: v_mov_b32_e32 [[KA:v[0-9]+]], 0x4200			; VI-DENORM: v_mov_b32_e32 [[KA:v[0-9]+]], 0x4200
	; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], [[KA]], v[[B_F16]], v[[C_F16]]			; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], v[[B_F16]], [[KA]], v[[C_F16]]
	; VI-DENORM: buffer_store_short [[RESULT]]			; VI-DENORM: buffer_store_short [[RESULT]]

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmuladd_f16_imm_a(			define amdgpu_kernel void @fmuladd_f16_imm_a(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %b,			half addrspace(1)* %b,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	%b.val = load half, half addrspace(1)* %b			%b.val = load half, half addrspace(1)* %b
	Show All 11 Lines
	; SI: v_mac_f32_e32 v[[C_F32]], 0x40400000, v[[B_F32]]			; SI: v_mac_f32_e32 v[[C_F32]], 0x40400000, v[[B_F32]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[C_F32]]			; SI: v_cvt_f16_f32_e32 v[[R_F16:[0-9]+]], v[[C_F32]]
	; SI: buffer_store_short v[[R_F16]]			; SI: buffer_store_short v[[R_F16]]

	; VI-FLUSH: v_mac_f16_e32 v[[C_F16]], 0x4200, v[[A_F16]]			; VI-FLUSH: v_mac_f16_e32 v[[C_F16]], 0x4200, v[[A_F16]]
	; VI-FLUSH: buffer_store_short v[[C_F16]]			; VI-FLUSH: buffer_store_short v[[C_F16]]

	; VI-DENORM: v_mov_b32_e32 [[KA:v[0-9]+]], 0x4200			; VI-DENORM: v_mov_b32_e32 [[KA:v[0-9]+]], 0x4200
	; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], [[KA]], v[[A_F16]], v[[C_F16]]			; VI-DENORM: v_fma_f16 [[RESULT:v[0-9]+]], v[[A_F16]], [[KA]], v[[C_F16]]
	; VI-DENORM buffer_store_short [[RESULT]]			; VI-DENORM buffer_store_short [[RESULT]]


	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmuladd_f16_imm_b(			define amdgpu_kernel void @fmuladd_f16_imm_b(
	half addrspace(1)* %r,			half addrspace(1)* %r,
	half addrspace(1)* %a,			half addrspace(1)* %a,
	half addrspace(1)* %c) {			half addrspace(1)* %c) {
	▲ Show 20 Lines • Show All 61 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

Show First 20 Lines • Show All 95 Lines • ▼ Show 20 Lines	entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_v2f16_imm_a:		; GCN-LABEL: {{^}}maxnum_v2f16_imm_a:
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]		; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]		; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; VI-DAG: v_max_f16_e32 v[[R_F16_1:[0-9]+]], 4.0, v[[B_F16_1]]		; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
		; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST4]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]		; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @maxnum_v2f16_imm_a(		define amdgpu_kernel void @maxnum_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}maxnum_v2f16_imm_b:		; GCN-LABEL: {{^}}maxnum_v2f16_imm_b:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]		; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]		; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; VI-DAG: v_max_f16_e32 v[[R_F16_1:[0-9]+]], 0x4200, v[[A_F16_1]]		; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200
		; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST3]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]		; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @maxnum_v2f16_imm_b(		define amdgpu_kernel void @maxnum_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)		%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/llvm.minnum.f16.ll

Show First 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_v2f16_imm_a:		; GCN-LABEL: {{^}}minnum_v2f16_imm_a:
; GCN: buffer_load_dword v[[B_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[B_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]		; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]		; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

; VI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
; VI-DAG: v_min_f16_e32 v[[R_F16_1:[0-9]+]], 4.0, v[[B_F16_1]]		; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST4]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]		; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @minnum_v2f16_imm_a(		define amdgpu_kernel void @minnum_v2f16_imm_a(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %b) {		<2 x half> addrspace(1)* %b) {
entry:		entry:
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)		%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> <half 3.0, half 4.0>, <2 x half> %b.val)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

; GCN-LABEL: {{^}}minnum_v2f16_imm_b:		; GCN-LABEL: {{^}}minnum_v2f16_imm_b:
; GCN: buffer_load_dword v[[A_V2_F16:[0-9]+]]		; GCN-DAG: buffer_load_dword v[[A_V2_F16:[0-9]+]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; GCN: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]		; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
; SI: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]		; SI: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]		; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
; VI-DAG: v_min_f16_e32 v[[R_F16_1:[0-9]+]], 0x4200, v[[A_F16_1]]		; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200
		; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST3]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]		; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

; GCN-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; GCN-NOT: and		; GCN-NOT: and
; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]		; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
; GCN: buffer_store_dword v[[R_V2_F16]]		; GCN: buffer_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @minnum_v2f16_imm_b(		define amdgpu_kernel void @minnum_v2f16_imm_b(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a) {		<2 x half> addrspace(1)* %a) {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)		%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)
store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

test/CodeGen/AMDGPU/mad24-get-global-id.ll

	; RUN: llc -mtriple=amdgcn--amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -mtriple=amdgcn--amdhsa -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; If the workgroup id range is restricted, we should be able to use			; If the workgroup id range is restricted, we should be able to use
	; mad24 for the usual indexing pattern.			; mad24 for the usual indexing pattern.

	declare i32 @llvm.amdgcn.workgroup.id.x() #0			declare i32 @llvm.amdgcn.workgroup.id.x() #0
	declare i32 @llvm.amdgcn.workitem.id.x() #0			declare i32 @llvm.amdgcn.workitem.id.x() #0
	declare i8 addrspace(2)* @llvm.amdgcn.dispatch.ptr() #0			declare i8 addrspace(2)* @llvm.amdgcn.dispatch.ptr() #0

	; GCN-LABEL: {{^}}get_global_id_0:			; GCN-LABEL: {{^}}get_global_id_0:
	; GCN: s_and_b32 [[WGSIZEX:s[0-9]+]], {{s[0-9]+}}, 0xffff			; GCN: s_and_b32 [[WGSIZEX:s[0-9]+]], {{s[0-9]+}}, 0xffff
	; GCN: v_mov_b32_e32 [[VWGSIZEX:v[0-9]+]], [[WGSIZEX]]			; GCN: v_mov_b32_e32 [[VWGSIZEX:v[0-9]+]], [[WGSIZEX]]
	; GCN: v_mad_u32_u24 v{{[0-9]+}}, [[VWGSIZEX]], s8, v0			; GCN: v_mad_u32_u24 v{{[0-9]+}}, s8, [[VWGSIZEX]], v0
	define amdgpu_kernel void @get_global_id_0(i32 addrspace(1)* %out) #1 {			define amdgpu_kernel void @get_global_id_0(i32 addrspace(1)* %out) #1 {
	%dispatch.ptr = call i8 addrspace(2)* @llvm.amdgcn.dispatch.ptr()			%dispatch.ptr = call i8 addrspace(2)* @llvm.amdgcn.dispatch.ptr()
	%cast.dispatch.ptr = bitcast i8 addrspace(2)* %dispatch.ptr to i32 addrspace(2)*			%cast.dispatch.ptr = bitcast i8 addrspace(2)* %dispatch.ptr to i32 addrspace(2)*
	%gep = getelementptr inbounds i32, i32 addrspace(2)* %cast.dispatch.ptr, i64 1			%gep = getelementptr inbounds i32, i32 addrspace(2)* %cast.dispatch.ptr, i64 1
	%workgroup.size.xy = load i32, i32 addrspace(2)* %gep, align 4, !invariant.load !0			%workgroup.size.xy = load i32, i32 addrspace(2)* %gep, align 4, !invariant.load !0
	%workgroup.size.x = and i32 %workgroup.size.xy, 65535			%workgroup.size.x = and i32 %workgroup.size.xy, 65535

	%workitem.id.x = call i32 @llvm.amdgcn.workitem.id.x(), !range !1			%workitem.id.x = call i32 @llvm.amdgcn.workitem.id.x(), !range !1
	Show All 15 Lines

test/CodeGen/AMDGPU/madak.ll

Show First 20 Lines • Show All 145 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @s_s_madak_f32(float addrspace(1)* %out, float %a, float %b) nounwind {
%madak = fadd float %mul, 10.0		%madak = fadd float %mul, 10.0
store float %madak, float addrspace(1)* %out, align 4		store float %madak, float addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}no_madak_src0_modifier_f32:		; GCN-LABEL: {{^}}no_madak_src0_modifier_f32:
; GCN: buffer_load_dword [[VA:v[0-9]+]]		; GCN: buffer_load_dword [[VA:v[0-9]+]]
; GCN: buffer_load_dword [[VB:v[0-9]+]]		; GCN: buffer_load_dword [[VB:v[0-9]+]]
; GCN: v_mad_f32 {{v[0-9]+}}, {{v[0-9]+}}, \|{{v[0-9]+}}\|, {{[sv][0-9]+}}		; GCN: v_mad_f32 {{v[0-9]+}}, \|{{v[0-9]+}}\|, {{v[0-9]+}}, {{[sv][0-9]+}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @no_madak_src0_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {		define amdgpu_kernel void @no_madak_src0_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid		%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid
%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid		%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid

%a = load float, float addrspace(1)* %in.a.gep, align 4		%a = load float, float addrspace(1)* %in.a.gep, align 4
%b = load float, float addrspace(1)* %in.b.gep, align 4		%b = load float, float addrspace(1)* %in.b.gep, align 4

%a.fabs = call float @llvm.fabs.f32(float %a) nounwind readnone		%a.fabs = call float @llvm.fabs.f32(float %a) nounwind readnone

%mul = fmul float %a.fabs, %b		%mul = fmul float %a.fabs, %b
%madak = fadd float %mul, 10.0		%madak = fadd float %mul, 10.0
store float %madak, float addrspace(1)* %out.gep, align 4		store float %madak, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}no_madak_src1_modifier_f32:		; GCN-LABEL: {{^}}no_madak_src1_modifier_f32:
; GCN: buffer_load_dword [[VA:v[0-9]+]]		; GCN: buffer_load_dword [[VA:v[0-9]+]]
; GCN: buffer_load_dword [[VB:v[0-9]+]]		; GCN: buffer_load_dword [[VB:v[0-9]+]]
; GCN: v_mad_f32 {{v[0-9]+}}, \|{{v[0-9]+}}\|, {{v[0-9]+}}, {{[sv][0-9]+}}		; GCN: v_mad_f32 {{v[0-9]+}}, {{v[0-9]+}}, \|{{v[0-9]+}}\|, {{[sv][0-9]+}}
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @no_madak_src1_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {		define amdgpu_kernel void @no_madak_src1_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in.a, float addrspace(1)* noalias %in.b) nounwind {
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid		%in.a.gep = getelementptr float, float addrspace(1)* %in.a, i32 %tid
%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid		%in.b.gep = getelementptr float, float addrspace(1)* %in.b, i32 %tid
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid

%a = load float, float addrspace(1)* %in.a.gep, align 4		%a = load float, float addrspace(1)* %in.a.gep, align 4
Show All 38 Lines

test/CodeGen/AMDGPU/madmk.ll

Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @scalar_vector_madmk_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in, float %a) nounwind {
store float %madmk, float addrspace(1)* %out.gep, align 4		store float %madmk, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}no_madmk_src0_modifier_f32:		; GCN-LABEL: {{^}}no_madmk_src0_modifier_f32:
; GCN-DAG: buffer_load_dword [[VA:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}		; GCN-DAG: buffer_load_dword [[VA:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
; GCN-DAG: buffer_load_dword [[VB:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4		; GCN-DAG: buffer_load_dword [[VB:v[0-9]+]], {{v\[[0-9]+:[0-9]+\]}}, {{s\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4
; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x41200000		; GCN-DAG: v_mov_b32_e32 [[VK:v[0-9]+]], 0x41200000
; GCN: v_mad_f32 {{v[0-9]+}}, [[VK]], \|[[VA]]\|, [[VB]]		; GCN: v_mad_f32 {{v[0-9]+}}, \|[[VA]]\|, [[VK]], [[VB]]
define amdgpu_kernel void @no_madmk_src0_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @no_madmk_src0_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) nounwind {
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid		%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1		%gep.1 = getelementptr float, float addrspace(1)* %gep.0, i32 1
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid

%a = load volatile float, float addrspace(1)* %gep.0, align 4		%a = load volatile float, float addrspace(1)* %gep.0, align 4
%b = load volatile float, float addrspace(1)* %gep.1, align 4		%b = load volatile float, float addrspace(1)* %gep.1, align 4
Show All 25 Lines	define amdgpu_kernel void @no_madmk_src2_modifier_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) nounwind {
%madmk = fadd float %mul, %b.fabs		%madmk = fadd float %mul, %b.fabs
store float %madmk, float addrspace(1)* %out.gep, align 4		store float %madmk, float addrspace(1)* %out.gep, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}madmk_add_inline_imm_f32:		; GCN-LABEL: {{^}}madmk_add_inline_imm_f32:
; GCN: buffer_load_dword [[A:v[0-9]+]]		; GCN: buffer_load_dword [[A:v[0-9]+]]
; GCN: v_mov_b32_e32 [[VK:v[0-9]+]], 0x41200000		; GCN: v_mov_b32_e32 [[VK:v[0-9]+]], 0x41200000
; GCN: v_mad_f32 {{v[0-9]+}}, [[VK]], [[A]], 2.0		; GCN: v_mad_f32 {{v[0-9]+}}, [[A]], [[VK]], 2.0
define amdgpu_kernel void @madmk_add_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) nounwind {		define amdgpu_kernel void @madmk_add_inline_imm_f32(float addrspace(1)* noalias %out, float addrspace(1)* noalias %in) nounwind {
%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone		%tid = tail call i32 @llvm.amdgcn.workitem.id.x() nounwind readnone
%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid		%gep.0 = getelementptr float, float addrspace(1)* %in, i32 %tid
%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid		%out.gep = getelementptr float, float addrspace(1)* %out, i32 %tid

%a = load float, float addrspace(1)* %gep.0, align 4		%a = load float, float addrspace(1)* %gep.0, align 4

%mul = fmul float %a, 10.0		%mul = fmul float %a, 10.0
Show All 34 Lines

test/CodeGen/AMDGPU/mul.ll

	Show First 20 Lines • Show All 205 Lines • ▼ Show 20 Lines
	; SI: s_load_dwordx2			; SI: s_load_dwordx2
	; SI: s_load_dwordx2			; SI: s_load_dwordx2

	; SI: v_mul_hi_u32			; SI: v_mul_hi_u32
	; SI: v_mul_hi_u32			; SI: v_mul_hi_u32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: v_mul_hi_u32			; SI: v_mul_hi_u32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: s_mul_i32			; SI-DAG: s_mul_i32
	; SI: v_mul_hi_u32			; SI-DAG: v_mul_hi_u32
	; SI: v_mul_hi_u32			; SI-DAG: v_mul_hi_u32
	; SI: s_mul_i32			; SI-DAG: s_mul_i32
	; SI-DAG: s_mul_i32			; SI-DAG: s_mul_i32
	; SI-DAG: v_mul_hi_u32			; SI-DAG: v_mul_hi_u32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: s_mul_i32			; SI: s_mul_i32
	; SI: s_mul_i32			; SI: s_mul_i32

	▲ Show 20 Lines • Show All 46 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/scratch-simple.ll

	; RUN: llc -march=amdgcn -mcpu=verde -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=verde -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=GFX9 %s

	; This used to fail due to a v_add_i32 instruction with an illegal immediate			; This used to fail due to a v_add_i32 instruction with an illegal immediate
	; operand that was created during Local Stack Slot Allocation. Test case derived			; operand that was created during Local Stack Slot Allocation. Test case derived
	; from https://bugs.freedesktop.org/show_bug.cgi?id=96602			; from https://bugs.freedesktop.org/show_bug.cgi?id=96602
	;			;
	; GCN-LABEL: {{^}}ps_main:			; GCN-LABEL: {{^}}ps_main:

	; GCN-DAG: s_mov_b32 [[SWO:s[0-9]+]], s0			; GCN-DAG: s_mov_b32 [[SWO:s[0-9]+]], s0
	; GCN-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x200
	; GCN-DAG: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0x400{{$}}
	; GCN-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0			; GCN-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0
	; GCN-DAG: v_and_b32_e32 [[CLAMP_IDX:v[0-9]+]], 0x1fc, [[BYTES]]			; GCN-DAG: v_and_b32_e32 [[CLAMP_IDX:v[0-9]+]], 0x1fc, [[BYTES]]

	; GCN-DAG: v_or_b32_e32 [[LO_OFF:v[0-9]+]], [[CLAMP_IDX]], [[K]]			; GCN-DAG: v_or_b32_e32 [[LO_OFF:v[0-9]+]], 0x200, [[CLAMP_IDX]]
	; GCN-DAG: v_or_b32_e32 [[HI_OFF:v[0-9]+]], [[CLAMP_IDX]], [[ZERO]]			; GCN-DAG: v_or_b32_e32 [[HI_OFF:v[0-9]+]], 0x400, [[CLAMP_IDX]]

	; GCN: buffer_load_dword {{v[0-9]+}}, [[LO_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen			; GCN: buffer_load_dword {{v[0-9]+}}, [[LO_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen
	; GCN: buffer_load_dword {{v[0-9]+}}, [[HI_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen			; GCN: buffer_load_dword {{v[0-9]+}}, [[HI_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen
	define amdgpu_ps float @ps_main(i32 %idx) {			define amdgpu_ps float @ps_main(i32 %idx) {
	%v1 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0xBFEA477C60000000, float 0xBFEBE5DC60000000, float 0xBFEC71C720000000, float 0xBFEBE5DC60000000, float 0xBFEA477C60000000, float 0xBFE7A693C0000000, float 0xBFE41CFEA0000000, float 0x3FDF9B13E0000000, float 0x3FDF9B1380000000, float 0x3FD5C53B80000000, float 0x3FD5C53B00000000, float 0x3FC6326AC0000000, float 0x3FC63269E0000000, float 0xBEE05CEB00000000, float 0xBEE086A320000000, float 0xBFC63269E0000000, float 0xBFC6326AC0000000, float 0xBFD5C53B80000000, float 0xBFD5C53B80000000, float 0xBFDF9B13E0000000, float 0xBFDF9B1460000000, float 0xBFE41CFE80000000, float 0x3FE7A693C0000000, float 0x3FEA477C20000000, float 0x3FEBE5DC40000000, float 0x3FEC71C6E0000000, float 0x3FEBE5DC40000000, float 0x3FEA477C20000000, float 0x3FE7A693C0000000, float 0xBFE41CFE80000000>, i32 %idx			%v1 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0xBFEA477C60000000, float 0xBFEBE5DC60000000, float 0xBFEC71C720000000, float 0xBFEBE5DC60000000, float 0xBFEA477C60000000, float 0xBFE7A693C0000000, float 0xBFE41CFEA0000000, float 0x3FDF9B13E0000000, float 0x3FDF9B1380000000, float 0x3FD5C53B80000000, float 0x3FD5C53B00000000, float 0x3FC6326AC0000000, float 0x3FC63269E0000000, float 0xBEE05CEB00000000, float 0xBEE086A320000000, float 0xBFC63269E0000000, float 0xBFC6326AC0000000, float 0xBFD5C53B80000000, float 0xBFD5C53B80000000, float 0xBFDF9B13E0000000, float 0xBFDF9B1460000000, float 0xBFE41CFE80000000, float 0x3FE7A693C0000000, float 0x3FEA477C20000000, float 0x3FEBE5DC40000000, float 0x3FEC71C6E0000000, float 0x3FEBE5DC40000000, float 0x3FEA477C20000000, float 0x3FE7A693C0000000, float 0xBFE41CFE80000000>, i32 %idx
	%v2 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0x3FE7A693C0000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFEBE5DC40000000, float 0x3FEBE5DC40000000, float 0xBFEC71C720000000, float 0x3FEC71C6E0000000, float 0xBFEBE5DC60000000, float 0x3FEBE5DC40000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFE7A693C0000000, float 0x3FE7A69380000000, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFE80000000>, i32 %idx			%v2 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0x3FE7A693C0000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFEBE5DC40000000, float 0x3FEBE5DC40000000, float 0xBFEC71C720000000, float 0x3FEC71C6E0000000, float 0xBFEBE5DC60000000, float 0x3FEBE5DC40000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFE7A693C0000000, float 0x3FE7A69380000000, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFE80000000>, i32 %idx
	%r = fadd float %v1, %v2			%r = fadd float %v1, %v2
	ret float %r			ret float %r
	▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sdiv.ll

	Show All 30 Lines
	}			}

	; Multiply by a weird constant to make sure setIntDivIsCheap is			; Multiply by a weird constant to make sure setIntDivIsCheap is
	; working.			; working.

	; FUNC-LABEL: {{^}}slow_sdiv_i32_3435:			; FUNC-LABEL: {{^}}slow_sdiv_i32_3435:
	; SI-DAG: buffer_load_dword [[VAL:v[0-9]+]],			; SI-DAG: buffer_load_dword [[VAL:v[0-9]+]],
	; SI-DAG: v_mov_b32_e32 [[MAGIC:v[0-9]+]], 0x98a1930b			; SI-DAG: v_mov_b32_e32 [[MAGIC:v[0-9]+]], 0x98a1930b
	; SI: v_mul_hi_i32 [[TMP:v[0-9]+]], [[MAGIC]], [[VAL]]			; SI: v_mul_hi_i32 [[TMP:v[0-9]+]], [[VAL]], [[MAGIC]]
	; SI: v_add_i32			; SI: v_add_i32
	; SI: v_lshrrev_b32			; SI: v_lshrrev_b32
	; SI: v_ashrrev_i32			; SI: v_ashrrev_i32
	; SI: v_add_i32			; SI: v_add_i32
	; SI: buffer_store_dword			; SI: buffer_store_dword
	; SI: s_endpgm			; SI: s_endpgm
	define amdgpu_kernel void @slow_sdiv_i32_3435(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {			define amdgpu_kernel void @slow_sdiv_i32_3435(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
	%num = load i32, i32 addrspace(1) * %in			%num = load i32, i32 addrspace(1) * %in
	▲ Show 20 Lines • Show All 124 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sdwa-peephole.ll

Show First 20 Lines • Show All 339 Lines • ▼ Show 20 Lines	entry:
%mul = fmul <2 x half> %a, %b		%mul = fmul <2 x half> %a, %b
%mac = fadd <2 x half> %mul, %b		%mac = fadd <2 x half> %mul, %b
store <2 x half> %mac, <2 x half> addrspace(1)* %out, align 4		store <2 x half> %mac, <2 x half> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}immediate_mul_v2i16:		; GCN-LABEL: {{^}}immediate_mul_v2i16:
; NOSDWA-NOT: v_mul_u32_u24_sdwa		; NOSDWA-NOT: v_mul_u32_u24_sdwa
; SDWA-NOT: v_mul_u32_u24_sdwa		; SDWA-DAG: v_mov_b32_e32 v[[M321:[0-9]+]], 0x141
		; SDWA-DAG: v_mov_b32_e32 v[[M123:[0-9]+]], 0x7b
		; SDWA-DAG: v_mul_u32_u24_sdwa v{{[0-9]+}}, v[[M123]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
		; SDWA-DAG: v_mul_u32_u24_sdwa v{{[0-9]+}}, v[[M321]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1

define amdgpu_kernel void @immediate_mul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) {		define amdgpu_kernel void @immediate_mul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) {
entry:		entry:
%a = load <2 x i16>, <2 x i16> addrspace(1)* %in, align 4		%a = load <2 x i16>, <2 x i16> addrspace(1)* %in, align 4
%mul = mul <2 x i16> %a, <i16 123, i16 321>		%mul = mul <2 x i16> %a, <i16 123, i16 321>
store <2 x i16> %mul, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %mul, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}
▲ Show 20 Lines • Show All 89 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sdwa-scalar-ops.mir

This file was added.

				# RUN: llc -march=amdgcn -mcpu=fiji -start-before si-peephole-sdwa -o - %s \| FileCheck -check-prefix=GCN %s

				# GCN-LABEL: {{^}}sdwa_imm_operand:
				# GCN: v_mov_b32_e32 v[[SHIFT:[0-9]+]], 2
				# GCN-NOT: v_mov_b32_e32 v{{[0-9]+}}, 2
				# GCN: BB0_1:
				# GCN: v_lshlrev_b32_sdwa v{{[0-9]+}}, v[[SHIFT]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				# GCN: v_lshlrev_b32_sdwa v{{[0-9]+}}, v[[SHIFT]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1

				# GCN-LABEL: {{^}}sdwa_sgpr_operand:
				# GCN: v_mov_b32_e32 v[[SHIFT:[0-9]+]], 2
				# GCN-NOT: v_mov_b32_e32 v{{[0-9]+}}, 2
				# GCN: BB1_1:
				# GCN: v_lshlrev_b32_sdwa v{{[0-9]+}}, v[[SHIFT]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1
				# GCN: v_lshlrev_b32_sdwa v{{[0-9]+}}, v[[SHIFT]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:BYTE_1

				--- \|
				; ModuleID = 'sdwa-scalar-ops.opt.ll'
				source_filename = "sdwa-scalar-ops.opt.ll"
				target datalayout = "e-p:32:32-p1:64:64-p2:64:64-p3:32:32-p4:64:64-p5:32:32-i64:64-v16:16-v24:32-v32:32-v48:64-v96:128-v192:256-v256:256-v512:512-v1024:1024-v2048:2048-n32:64"

				define amdgpu_kernel void @sdwa_imm_operand(i32 addrspace(1)* nocapture %arg) {
				bb:
				br label %bb2

				bb1: ; preds = %bb2
				ret void

				bb2: ; preds = %bb2, %bb
				%lsr.iv = phi i64 [ %lsr.iv.next, %bb2 ], [ 0, %bb ]
				%bc = bitcast i32 addrspace(1)* %arg to i8 addrspace(1)*
				%uglygep4 = getelementptr i8, i8 addrspace(1)* %bc, i64 %lsr.iv
				%uglygep45 = bitcast i8 addrspace(1)* %uglygep4 to i32 addrspace(1)*
				%tmp5 = load i32, i32 addrspace(1)* %uglygep45, align 4
				%tmp6 = lshr i32 %tmp5, 8
				%tmp7 = and i32 %tmp6, 255
				%tmp8 = zext i32 %tmp7 to i64
				%tmp9 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp8
				store i32 1, i32 addrspace(1)* %tmp9, align 4
				%scevgep = getelementptr i32, i32 addrspace(1)* %uglygep45, i64 1
				%tmp13 = load i32, i32 addrspace(1)* %scevgep, align 4
				%tmp14 = lshr i32 %tmp13, 8
				%tmp15 = and i32 %tmp14, 255
				%tmp16 = zext i32 %tmp15 to i64
				%tmp17 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp16
				store i32 1, i32 addrspace(1)* %tmp17, align 4
				%lsr.iv.next = add nuw nsw i64 %lsr.iv, 8
				%tmp1 = trunc i64 %lsr.iv.next to i32
				%tmp19 = icmp eq i32 %tmp1, 4096
				br i1 %tmp19, label %bb1, label %bb2
				}

				define amdgpu_kernel void @sdwa_sgpr_operand(i32 addrspace(1)* nocapture %arg) {
				bb:
				br label %bb2

				bb1: ; preds = %bb2
				ret void

				bb2: ; preds = %bb2, %bb
				%lsr.iv = phi i64 [ %lsr.iv.next, %bb2 ], [ 0, %bb ]
				%bc = bitcast i32 addrspace(1)* %arg to i8 addrspace(1)*
				%uglygep4 = getelementptr i8, i8 addrspace(1)* %bc, i64 %lsr.iv
				%uglygep45 = bitcast i8 addrspace(1)* %uglygep4 to i32 addrspace(1)*
				%tmp5 = load i32, i32 addrspace(1)* %uglygep45, align 4
				%tmp6 = lshr i32 %tmp5, 8
				%tmp7 = and i32 %tmp6, 255
				%tmp8 = zext i32 %tmp7 to i64
				%tmp9 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp8
				store i32 1, i32 addrspace(1)* %tmp9, align 4
				%scevgep = getelementptr i32, i32 addrspace(1)* %uglygep45, i64 1
				%tmp13 = load i32, i32 addrspace(1)* %scevgep, align 4
				%tmp14 = lshr i32 %tmp13, 8
				%tmp15 = and i32 %tmp14, 255
				%tmp16 = zext i32 %tmp15 to i64
				%tmp17 = getelementptr inbounds i32, i32 addrspace(1)* %arg, i64 %tmp16
				store i32 1, i32 addrspace(1)* %tmp17, align 4
				%lsr.iv.next = add nuw nsw i64 %lsr.iv, 8
				%tmp1 = trunc i64 %lsr.iv.next to i32
				%tmp19 = icmp eq i32 %tmp1, 4096
				br i1 %tmp19, label %bb1, label %bb2
				}

				...
				---
				name: sdwa_imm_operand
				alignment: 0
				exposesReturnsTwice: false
				noVRegs: false
				legalized: false
				regBankSelected: false
				selected: false
				tracksRegLiveness: true
				registers:
				- { id: 0, class: sreg_64 }
				- { id: 1, class: sreg_64 }
				- { id: 2, class: vgpr_32 }
				- { id: 3, class: sgpr_128 }
				- { id: 4, class: sgpr_64 }
				- { id: 5, class: sreg_32_xm0 }
				- { id: 6, class: sgpr_32 }
				- { id: 7, class: sreg_64 }
				- { id: 8, class: sreg_64 }
				- { id: 9, class: sreg_64_xexec }
				- { id: 10, class: sreg_32_xm0 }
				- { id: 11, class: sreg_32_xm0 }
				- { id: 12, class: sreg_32_xm0 }
				- { id: 13, class: sreg_32_xm0 }
				- { id: 14, class: sreg_32_xm0 }
				- { id: 15, class: sreg_32_xm0 }
				- { id: 16, class: sreg_64 }
				- { id: 17, class: vgpr_32 }
				- { id: 18, class: vreg_64 }
				- { id: 19, class: sreg_32_xm0 }
				- { id: 20, class: sreg_32 }
				- { id: 21, class: sreg_32_xm0 }
				- { id: 22, class: sreg_32_xm0 }
				- { id: 23, class: sreg_32_xm0 }
				- { id: 24, class: sreg_64 }
				- { id: 25, class: sreg_32_xm0 }
				- { id: 26, class: sreg_32_xm0 }
				- { id: 27, class: sreg_32_xm0 }
				- { id: 28, class: sreg_32_xm0 }
				- { id: 29, class: sreg_64 }
				- { id: 30, class: vgpr_32 }
				- { id: 31, class: vreg_64 }
				- { id: 32, class: sreg_32_xm0 }
				- { id: 33, class: sreg_32_xm0 }
				- { id: 34, class: sreg_64 }
				- { id: 35, class: sreg_32_xm0 }
				- { id: 36, class: sreg_32_xm0 }
				- { id: 37, class: sreg_32_xm0 }
				- { id: 38, class: sreg_32_xm0 }
				- { id: 39, class: vreg_64 }
				- { id: 40, class: vgpr_32 }
				- { id: 41, class: vreg_64 }
				- { id: 42, class: sreg_32_xm0 }
				- { id: 43, class: sreg_32 }
				- { id: 44, class: sreg_32_xm0 }
				- { id: 45, class: sreg_64 }
				- { id: 46, class: sreg_32_xm0 }
				- { id: 47, class: sreg_32_xm0 }
				- { id: 48, class: sreg_32_xm0 }
				- { id: 49, class: sreg_32_xm0 }
				- { id: 50, class: sreg_64 }
				- { id: 51, class: vreg_64 }
				- { id: 52, class: sreg_64 }
				- { id: 53, class: sreg_32_xm0 }
				- { id: 54, class: sreg_32_xm0 }
				- { id: 55, class: sreg_32_xm0 }
				- { id: 56, class: sreg_32_xm0 }
				- { id: 57, class: sreg_64 }
				- { id: 58, class: sreg_32_xm0 }
				- { id: 59, class: sreg_32_xm0 }
				- { id: 60, class: vgpr_32 }
				- { id: 61, class: vgpr_32 }
				- { id: 62, class: vreg_64 }
				- { id: 63, class: vgpr_32 }
				- { id: 64, class: vgpr_32 }
				- { id: 65, class: vgpr_32 }
				- { id: 66, class: vgpr_32 }
				- { id: 67, class: vreg_64 }
				- { id: 68, class: vgpr_32 }
				- { id: 69, class: vgpr_32 }
				- { id: 70, class: vgpr_32 }
				- { id: 71, class: vgpr_32 }
				- { id: 72, class: vgpr_32 }
				- { id: 73, class: vgpr_32 }
				- { id: 74, class: vgpr_32 }
				- { id: 75, class: vreg_64 }
				- { id: 76, class: vgpr_32 }
				- { id: 77, class: vgpr_32 }
				- { id: 78, class: vgpr_32 }
				- { id: 79, class: vgpr_32 }
				- { id: 80, class: vreg_64 }
				- { id: 81, class: vgpr_32 }
				- { id: 82, class: vgpr_32 }
				- { id: 83, class: vgpr_32 }
				liveins:
				- { reg: '%sgpr4_sgpr5', virtual-reg: '%4' }
				frameInfo:
				isFrameAddressTaken: false
				isReturnAddressTaken: false
				hasStackMap: false
				hasPatchPoint: false
				stackSize: 0
				offsetAdjustment: 0
				maxAlignment: 0
				adjustsStack: false
				hasCalls: false
				hasOpaqueSPAdjustment: false
				hasVAStart: false
				hasMustTailInVarArgFunc: false
				body: \|
				bb.0.bb:
				successors: %bb.2.bb2(0x80000000)
				liveins: %sgpr4_sgpr5

				%4 = COPY %sgpr4_sgpr5
				%9 = S_LOAD_DWORDX2_IMM %4, 0, 0 :: (non-temporal dereferenceable invariant load 8 from `i64 addrspace(2)* undef`)
				%8 = S_MOV_B64 0
				%7 = COPY %9
				%30 = V_MOV_B32_e32 1, implicit %exec
				S_BRANCH %bb.2.bb2

				bb.1.bb1:
				S_ENDPGM

				bb.2.bb2:
				successors: %bb.1.bb1(0x04000000), %bb.2.bb2(0x7c000000)

				%0 = PHI %8, %bb.0.bb, %1, %bb.2.bb2
				%13 = COPY %7.sub1
				%14 = S_ADD_U32 %7.sub0, %0.sub0, implicit-def %scc
				%15 = S_ADDC_U32 %7.sub1, %0.sub1, implicit-def dead %scc, implicit %scc
				%16 = REG_SEQUENCE %14, 1, %15, 2
				%18 = COPY %16
				%17 = FLAT_LOAD_DWORD %18, 0, 0, implicit %exec, implicit %flat_scr :: (load 4 from %ir.uglygep45)
				%60 = V_BFE_U32 %17, 8, 8, implicit %exec
				%61 = V_LSHLREV_B32_e32 2, killed %60, implicit %exec
				%70 = V_ADD_I32_e32 %7.sub0, %61, implicit-def %vcc, implicit %exec
				%66 = COPY %13
				%65 = V_ADDC_U32_e32 0, %66, implicit-def %vcc, implicit %vcc, implicit %exec
				%67 = REG_SEQUENCE %70, 1, killed %65, 2
				FLAT_STORE_DWORD %67, %30, 0, 0, implicit %exec, implicit %flat_scr :: (store 4 into %ir.tmp9)
				%37 = S_ADD_U32 %14, 4, implicit-def %scc
				%38 = S_ADDC_U32 %15, 0, implicit-def dead %scc, implicit %scc
				%71 = COPY killed %37
				%72 = COPY killed %38
				%41 = REG_SEQUENCE killed %71, 1, killed %72, 2
				%40 = FLAT_LOAD_DWORD killed %41, 0, 0, implicit %exec, implicit %flat_scr :: (load 4 from %ir.scevgep)
				%73 = V_BFE_U32 %40, 8, 8, implicit %exec
				%74 = V_LSHLREV_B32_e32 2, killed %73, implicit %exec
				%83 = V_ADD_I32_e32 %7.sub0, %74, implicit-def %vcc, implicit %exec
				%78 = V_ADDC_U32_e32 0, %66, implicit-def %vcc, implicit %vcc, implicit %exec
				%80 = REG_SEQUENCE %83, 1, killed %78, 2
				FLAT_STORE_DWORD %80, %30, 0, 0, implicit %exec, implicit %flat_scr :: (store 4 into %ir.tmp17)
				%55 = S_ADD_U32 %0.sub0, 8, implicit-def %scc
				%56 = S_ADDC_U32 %0.sub1, 0, implicit-def dead %scc, implicit %scc
				%57 = REG_SEQUENCE %55, 1, killed %56, 2
				%1 = COPY %57
				S_CMPK_EQ_I32 %55, 4096, implicit-def %scc
				S_CBRANCH_SCC1 %bb.1.bb1, implicit %scc
				S_BRANCH %bb.2.bb2

				...
				---
				name: sdwa_sgpr_operand
				alignment: 0
				exposesReturnsTwice: false
				noVRegs: false
				legalized: false
				regBankSelected: false
				selected: false
				tracksRegLiveness: true
				registers:
				- { id: 0, class: sreg_64 }
				- { id: 1, class: sreg_64 }
				- { id: 2, class: vgpr_32 }
				- { id: 3, class: sgpr_128 }
				- { id: 4, class: sgpr_64 }
				- { id: 5, class: sreg_32_xm0 }
				- { id: 6, class: sgpr_32 }
				- { id: 7, class: sreg_64 }
				- { id: 8, class: sreg_64 }
				- { id: 9, class: sreg_64_xexec }
				- { id: 10, class: sreg_32_xm0 }
				- { id: 11, class: sreg_32_xm0 }
				- { id: 12, class: sreg_32_xm0 }
				- { id: 13, class: sreg_32_xm0 }
				- { id: 14, class: sreg_32_xm0 }
				- { id: 15, class: sreg_32_xm0 }
				- { id: 16, class: sreg_64 }
				- { id: 17, class: vgpr_32 }
				- { id: 18, class: vreg_64 }
				- { id: 19, class: sreg_32_xm0 }
				- { id: 20, class: sreg_32 }
				- { id: 21, class: sreg_32_xm0 }
				- { id: 22, class: sreg_32_xm0 }
				- { id: 23, class: sreg_32_xm0 }
				- { id: 24, class: sreg_64 }
				- { id: 25, class: sreg_32_xm0 }
				- { id: 26, class: sreg_32_xm0 }
				- { id: 27, class: sreg_32_xm0 }
				- { id: 28, class: sreg_32_xm0 }
				- { id: 29, class: sreg_64 }
				- { id: 30, class: vgpr_32 }
				- { id: 31, class: vreg_64 }
				- { id: 32, class: sreg_32_xm0 }
				- { id: 33, class: sreg_32_xm0 }
				- { id: 34, class: sreg_64 }
				- { id: 35, class: sreg_32_xm0 }
				- { id: 36, class: sreg_32_xm0 }
				- { id: 37, class: sreg_32_xm0 }
				- { id: 38, class: sreg_32_xm0 }
				- { id: 39, class: vreg_64 }
				- { id: 40, class: vgpr_32 }
				- { id: 41, class: vreg_64 }
				- { id: 42, class: sreg_32_xm0 }
				- { id: 43, class: sreg_32 }
				- { id: 44, class: sreg_32_xm0 }
				- { id: 45, class: sreg_64 }
				- { id: 46, class: sreg_32_xm0 }
				- { id: 47, class: sreg_32_xm0 }
				- { id: 48, class: sreg_32_xm0 }
				- { id: 49, class: sreg_32_xm0 }
				- { id: 50, class: sreg_64 }
				- { id: 51, class: vreg_64 }
				- { id: 52, class: sreg_64 }
				- { id: 53, class: sreg_32_xm0 }
				- { id: 54, class: sreg_32_xm0 }
				- { id: 55, class: sreg_32_xm0 }
				- { id: 56, class: sreg_32_xm0 }
				- { id: 57, class: sreg_64 }
				- { id: 58, class: sreg_32_xm0 }
				- { id: 59, class: sreg_32_xm0 }
				- { id: 60, class: vgpr_32 }
				- { id: 61, class: vgpr_32 }
				- { id: 62, class: vreg_64 }
				- { id: 63, class: vgpr_32 }
				- { id: 64, class: vgpr_32 }
				- { id: 65, class: vgpr_32 }
				- { id: 66, class: vgpr_32 }
				- { id: 67, class: vreg_64 }
				- { id: 68, class: vgpr_32 }
				- { id: 69, class: vgpr_32 }
				- { id: 70, class: vgpr_32 }
				- { id: 71, class: vgpr_32 }
				- { id: 72, class: vgpr_32 }
				- { id: 73, class: vgpr_32 }
				- { id: 74, class: vgpr_32 }
				- { id: 75, class: vreg_64 }
				- { id: 76, class: vgpr_32 }
				- { id: 77, class: vgpr_32 }
				- { id: 78, class: vgpr_32 }
				- { id: 79, class: vgpr_32 }
				- { id: 80, class: vreg_64 }
				- { id: 81, class: vgpr_32 }
				- { id: 82, class: vgpr_32 }
				- { id: 83, class: vgpr_32 }
				- { id: 84, class: sreg_32_xm0 }
				liveins:
				- { reg: '%sgpr4_sgpr5', virtual-reg: '%4' }
				frameInfo:
				isFrameAddressTaken: false
				isReturnAddressTaken: false
				hasStackMap: false
				hasPatchPoint: false
				stackSize: 0
				offsetAdjustment: 0
				maxAlignment: 0
				adjustsStack: false
				hasCalls: false
				hasOpaqueSPAdjustment: false
				hasVAStart: false
				hasMustTailInVarArgFunc: false
				body: \|
				bb.0.bb:
				successors: %bb.2.bb2(0x80000000)
				liveins: %sgpr4_sgpr5

				%4 = COPY %sgpr4_sgpr5
				%9 = S_LOAD_DWORDX2_IMM %4, 0, 0 :: (non-temporal dereferenceable invariant load 8 from `i64 addrspace(2)* undef`)
				%8 = S_MOV_B64 0
				%7 = COPY %9
				%30 = V_MOV_B32_e32 1, implicit %exec
				%84 = S_MOV_B32 2
				S_BRANCH %bb.2.bb2

				bb.1.bb1:
				S_ENDPGM

				bb.2.bb2:
				successors: %bb.1.bb1(0x04000000), %bb.2.bb2(0x7c000000)

				%0 = PHI %8, %bb.0.bb, %1, %bb.2.bb2
				%13 = COPY %7.sub1
				%14 = S_ADD_U32 %7.sub0, %0.sub0, implicit-def %scc
				%15 = S_ADDC_U32 %7.sub1, %0.sub1, implicit-def dead %scc, implicit %scc
				%16 = REG_SEQUENCE %14, 1, %15, 2
				%18 = COPY %16
				%17 = FLAT_LOAD_DWORD %18, 0, 0, implicit %exec, implicit %flat_scr :: (load 4 from %ir.uglygep45)
				%60 = V_BFE_U32 %17, 8, 8, implicit %exec
				%61 = V_LSHLREV_B32_e32 %84, killed %60, implicit %exec
				%70 = V_ADD_I32_e32 %7.sub0, %61, implicit-def %vcc, implicit %exec
				%66 = COPY %13
				%65 = V_ADDC_U32_e32 0, %66, implicit-def %vcc, implicit %vcc, implicit %exec
				%67 = REG_SEQUENCE %70, 1, killed %65, 2
				FLAT_STORE_DWORD %67, %30, 0, 0, implicit %exec, implicit %flat_scr :: (store 4 into %ir.tmp9)
				%37 = S_ADD_U32 %14, 4, implicit-def %scc
				%38 = S_ADDC_U32 %15, 0, implicit-def dead %scc, implicit %scc
				%71 = COPY killed %37
				%72 = COPY killed %38
				%41 = REG_SEQUENCE killed %71, 1, killed %72, 2
				%40 = FLAT_LOAD_DWORD killed %41, 0, 0, implicit %exec, implicit %flat_scr :: (load 4 from %ir.scevgep)
				%73 = V_BFE_U32 %40, 8, 8, implicit %exec
				%74 = V_LSHLREV_B32_e32 %84, killed %73, implicit %exec
				%83 = V_ADD_I32_e32 %7.sub0, %74, implicit-def %vcc, implicit %exec
				%78 = V_ADDC_U32_e32 0, %66, implicit-def %vcc, implicit %vcc, implicit %exec
				%80 = REG_SEQUENCE %83, 1, killed %78, 2
				FLAT_STORE_DWORD %80, %30, 0, 0, implicit %exec, implicit %flat_scr :: (store 4 into %ir.tmp17)
				%55 = S_ADD_U32 %0.sub0, 8, implicit-def %scc
				%56 = S_ADDC_U32 %0.sub1, 0, implicit-def dead %scc, implicit %scc
				%57 = REG_SEQUENCE %55, 1, killed %56, 2
				%1 = COPY %57
				S_CMPK_EQ_I32 %55, 4096, implicit-def %scc
				S_CBRANCH_SCC1 %bb.1.bb1, implicit %scc
				S_BRANCH %bb.2.bb2

				...

test/CodeGen/AMDGPU/select.f16.ll

	Show First 20 Lines • Show All 190 Lines • ▼ Show 20 Lines

	; GCN-LABEL: {{^}}select_v2f16_imm_a:			; GCN-LABEL: {{^}}select_v2f16_imm_a:
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cmp_lt_f32_e64			; SI-DAG: v_cmp_gt_f32_e64
	; SI: v_cmp_lt_f32_e32 vcc, 0.5			; SI-DAG: v_cmp_lt_f32_e32 vcc, 0.5

	; VI: v_cmp_lt_f16_e32			; VI: v_cmp_lt_f16_e32
	; VI: v_cmp_lt_f16_e64			; VI: v_cmp_gt_f16_e64
	; GCN: v_cndmask_b32_e32			; GCN: v_cndmask_b32_e32
	; GCN: v_cndmask_b32_e64			; GCN: v_cndmask_b32_e64
	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_v2f16_imm_a(			define amdgpu_kernel void @select_v2f16_imm_a(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %b,			<2 x half> addrspace(1)* %b,
	Show All 11 Lines

	; GCN-LABEL: {{^}}select_v2f16_imm_b:			; GCN-LABEL: {{^}}select_v2f16_imm_b:
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cvt_f32_f16_e32			; SI: v_cvt_f32_f16_e32
	; SI: v_cmp_gt_f32_e64			; SI-DAG: v_cmp_lt_f32_e64
	; SI: v_cmp_gt_f32_e32 vcc, 0.5			; SI-DAG: v_cmp_gt_f32_e32 vcc, 0.5

	; VI: v_cmp_gt_f16_e32			; VI: v_cmp_gt_f16_e32
	; VI: v_cmp_gt_f16_e64			; VI: v_cmp_lt_f16_e64
	; GCN: v_cndmask_b32_e32			; GCN: v_cndmask_b32_e32
	; GCN: v_cndmask_b32_e64			; GCN: v_cndmask_b32_e64

	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; SI: v_cvt_f16_f32_e32			; SI: v_cvt_f16_f32_e32
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @select_v2f16_imm_b(			define amdgpu_kernel void @select_v2f16_imm_b(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	▲ Show 20 Lines • Show All 81 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/shift-and-i128-ubfe.ll

	; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s			; RUN: llc -march=amdgcn -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN %s

	; Extract the high bit of the 1st quarter			; Extract the high bit of the 1st quarter
	; GCN-LABEL: {{^}}v_uextract_bit_31_i128:			; GCN-LABEL: {{^}}v_uextract_bit_31_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}

	; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]			; GCN: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]

	; GCN: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_uextract_bit_31_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define amdgpu_kernel void @v_uextract_bit_31_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workgroup.id.x()			%id.x = tail call i32 @llvm.amdgcn.workgroup.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 31			%srl = lshr i128 %ld.64, 31
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Extract the high bit of the 2nd quarter			; Extract the high bit of the 2nd quarter
	; GCN-LABEL: {{^}}v_uextract_bit_63_i128:			; GCN-LABEL: {{^}}v_uextract_bit_63_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}			; GCN-DAG: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}

	; GCN-DAG: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO0]]{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}
				; GCN: v_mov_b32_e32 v[[ZERO3:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]

	; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO3]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_uextract_bit_63_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define amdgpu_kernel void @v_uextract_bit_63_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 63			%srl = lshr i128 %ld.64, 63
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Extract the high bit of the 3rd quarter			; Extract the high bit of the 3rd quarter
	; GCN-LABEL: {{^}}v_uextract_bit_95_i128:			; GCN-LABEL: {{^}}v_uextract_bit_95_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}			; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:8{{$}}

	; GCN-DAG: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], 0{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]

	; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_uextract_bit_95_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define amdgpu_kernel void @v_uextract_bit_95_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workgroup.id.x()			%id.x = tail call i32 @llvm.amdgcn.workgroup.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 95			%srl = lshr i128 %ld.64, 95
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Extract the high bit of the 4th quarter			; Extract the high bit of the 4th quarter
	; GCN-LABEL: {{^}}v_uextract_bit_127_i128:			; GCN-LABEL: {{^}}v_uextract_bit_127_i128:
	; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}			; GCN-DAG: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:12{{$}}

	; GCN: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[ZERO0:[0-9]+]], 0{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO0]]{{$}}			; GCN: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}			; GCN: v_mov_b32_e32 v[[ZERO2:[0-9]+]], v[[ZERO0]]{{$}}
				; GCN: v_mov_b32_e32 v[[ZERO3:[0-9]+]], v[[ZERO0]]{{$}}
	; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]			; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]

	; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO2]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[SHIFT]]:[[ZERO3]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_uextract_bit_127_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define amdgpu_kernel void @v_uextract_bit_127_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 127			%srl = lshr i128 %ld.64, 127
	%bit = and i128 %srl, 1			%bit = and i128 %srl, 1
	store i128 %bit, i128 addrspace(1)* %out.gep			store i128 %bit, i128 addrspace(1)* %out.gep
	ret void			ret void
	}			}

	; Spans more than 2 dword boundaries			; Spans more than 2 dword boundaries
	; GCN-LABEL: {{^}}v_uextract_bit_34_100_i128:			; GCN-LABEL: {{^}}v_uextract_bit_34_100_i128:
	; GCN: buffer_load_dwordx4 v{{\[}}[[VAL0:[0-9]+]]:[[VAL3:[0-9]+]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_load_dwordx4 v{{\[}}[[VAL0:[0-9]+]]:[[VAL3:[0-9]+]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}

	; GCN-DAG: v_lshl_b64 v{{\[}}[[SHLLO:[0-9]+]]:[[SHLHI:[0-9]+]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, 30			; GCN-DAG: v_lshl_b64 v{{\[}}[[SHLLO:[0-9]+]]:[[SHLHI:[0-9]+]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, 30
	; GCN-DAG: v_lshrrev_b32_e32 v[[ELT1PART:[0-9]+]], 2, v{{[[0-9]+}}			; GCN-DAG: v_lshrrev_b32_e32 v[[ELT1PART:[0-9]+]], 2, v{{[[0-9]+}}
	; GCN-DAG: v_bfe_u32 v[[ELT2PART:[0-9]+]], v[[VAL3]], 2, 2{{$}}			; GCN-DAG: v_bfe_u32 v[[ELT2PART:[0-9]+]], v[[VAL3]], 2, 2{{$}}
	; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
	; GCN-DAG: v_or_b32_e32 v[[OR0:[0-9]+]], v[[SHLLO]], v[[ELT1PART]]			; GCN-DAG: v_or_b32_e32 v[[OR0:[0-9]+]], v[[SHLLO]], v[[ELT1PART]]
				; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]{{$}}

	; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[OR0]]:[[ZERO]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}			; GCN-DAG: buffer_store_dwordx4 v{{\[}}[[OR0]]:[[ZERO1]]{{\]}}, v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64{{$}}
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @v_uextract_bit_34_100_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {			define amdgpu_kernel void @v_uextract_bit_34_100_i128(i128 addrspace(1)* %out, i128 addrspace(1)* %in) #1 {
	%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()			%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
	%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x			%in.gep = getelementptr i128, i128 addrspace(1)* %in, i32 %id.x
	%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x			%out.gep = getelementptr i128, i128 addrspace(1)* %out, i32 %id.x
	%ld.64 = load i128, i128 addrspace(1)* %in.gep			%ld.64 = load i128, i128 addrspace(1)* %in.gep
	%srl = lshr i128 %ld.64, 34			%srl = lshr i128 %ld.64, 34
	%bit = and i128 %srl, 73786976294838206463			%bit = and i128 %srl, 73786976294838206463
	Show All 10 Lines

test/CodeGen/AMDGPU/shift-and-i64-ubfe.ll

Show All 15 Lines	define amdgpu_kernel void @v_uextract_bit_31_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%srl = lshr i64 %ld.64, 31		%srl = lshr i64 %ld.64, 31
%bit = and i64 %srl, 1		%bit = and i64 %srl, 1
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; Extract the high bit of the high half		; Extract the high bit of the high half
; GCN-LABEL: {{^}}v_uextract_bit_63_i64:		; GCN-LABEL: {{^}}v_uextract_bit_63_i64:
		; GCN: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]		; GCN-DAG: v_lshrrev_b32_e32 v[[SHIFT:[0-9]+]], 31, [[VAL]]
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]
; GCN: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO1]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 63		%srl = lshr i64 %ld.64, 63
%bit = and i64 %srl, 1		%bit = and i64 %srl, 1
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
Show All 28 Lines	define amdgpu_kernel void @v_uextract_bit_20_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 20		%srl = lshr i64 %ld.64, 20
%bit = and i64 %srl, 1		%bit = and i64 %srl, 1
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_32_i64:		; GCN-LABEL: {{^}}v_uextract_bit_32_i64:
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN-DAG: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 1, [[VAL]]		; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 1, [[VAL]]
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO]]{{\]}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]{{$}}
		; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO1]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_32_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_32_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 32		%srl = lshr i64 %ld.64, 32
%bit = and i64 %srl, 1		%bit = and i64 %srl, 1
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_33_i64:		; GCN-LABEL: {{^}}v_uextract_bit_33_i64:
		; GCN: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 1{{$}}		; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 1{{$}}
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]
; GCN: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO1]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_33_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_33_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 33		%srl = lshr i64 %ld.64, 33
%bit = and i64 %srl, 1		%bit = and i64 %srl, 1
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
▲ Show 20 Lines • Show All 62 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_uextract_bit_31_32_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 31		%srl = lshr i64 %ld.64, 31
%bit = and i64 %srl, 3		%bit = and i64 %srl, 3
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_32_33_i64:		; GCN-LABEL: {{^}}v_uextract_bit_32_33_i64:
		; GCN: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 2		; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 2
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]
; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:[[ZERO1]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_32_33_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_32_33_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 33		%srl = lshr i64 %ld.64, 33
%bit = and i64 %srl, 3		%bit = and i64 %srl, 3
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_30_60_i64:		; GCN-LABEL: {{^}}v_uextract_bit_30_60_i64:
		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]
; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 30		; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 30
; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 0x3fffffff, v[[SHRLO]]{{$}}		; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 0x3fffffff, v[[SHRLO]]{{$}}
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]
; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO1]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_30_60_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_30_60_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 30		%srl = lshr i64 %ld.64, 30
%bit = and i64 %srl, 1073741823		%bit = and i64 %srl, 1073741823
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_33_63_i64:		; GCN-LABEL: {{^}}v_uextract_bit_33_63_i64:
		; GCN: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 30		; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 30
; GCN-DAG: v_mov_b32_e32 v[[BFE:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO1:[0-9]+]], v[[ZERO]]
; GCN: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHIFT]]:[[ZERO1]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_33_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_33_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 33		%srl = lshr i64 %ld.64, 33
%bit = and i64 %srl, 1073741823		%bit = and i64 %srl, 1073741823
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_31_63_i64:		; GCN-LABEL: {{^}}v_uextract_bit_31_63_i64:
		; GCN: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]		; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]
; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 31		; GCN: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 31
; GCN-NEXT: v_mov_b32_e32 v[[SHRHI]], 0{{$}}		; GCN-NEXT: v_mov_b32_e32 v[[SHRHI]], v[[ZERO]]
; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_31_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_31_63_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 31		%srl = lshr i64 %ld.64, 31
%and = and i64 %srl, 4294967295		%and = and i64 %srl, 4294967295
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_uextract_bit_31_32_i64_trunc_i32(i32 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%trunc = trunc i64 %srl to i32		%trunc = trunc i64 %srl to i32
%bit = and i32 %trunc, 3		%bit = and i32 %trunc, 3
store i32 %bit, i32 addrspace(1)* %out.gep		store i32 %bit, i32 addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}and_not_mask_i64:		; GCN-LABEL: {{^}}and_not_mask_i64:
; GCN-DAG: buffer_load_dwordx2 v{{\[}}[[VALLO:[0-9]+]]:[[VALHI:[0-9]+]]{{\]}}		; GCN-DAG: buffer_load_dwordx2 v{{\[}}[[VALLO:[0-9]+]]:[[VALHI:[0-9]+]]{{\]}}
; GCN: v_mov_b32_e32 v[[SHRHI:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
		; GCN-DAG: v_mov_b32_e32 v[[SHRHI:[0-9]+]], v[[ZERO]]{{$}}
; GCN: v_lshrrev_b32_e32 [[SHR:v[0-9]+]], 20, v[[VALLO]]		; GCN: v_lshrrev_b32_e32 [[SHR:v[0-9]+]], 20, v[[VALLO]]
; GCN-DAG: v_and_b32_e32 v[[SHRLO:[0-9]+]], 4, [[SHR]]		; GCN-DAG: v_and_b32_e32 v[[SHRLO:[0-9]+]], 4, [[SHR]]
; GCN-NOT: v[[SHRLO]]		; GCN-NOT: v[[SHRLO]]
; GCN-NOT: v[[SHRHI]]		; GCN-NOT: v[[SHRHI]]
; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}
define amdgpu_kernel void @and_not_mask_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @and_not_mask_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 20		%srl = lshr i64 %ld.64, 20
%bit = and i64 %srl, 4		%bit = and i64 %srl, 4
store i64 %bit, i64 addrspace(1)* %out.gep		store i64 %bit, i64 addrspace(1)* %out.gep
ret void		ret void
}		}

; The instruction count is the same with/without hasOneUse, but		; The instruction count is the same with/without hasOneUse, but
; keeping the 32-bit and has a smaller encoding size than the bfe.		; keeping the 32-bit and has a smaller encoding size than the bfe.

; GCN-LABEL: {{^}}v_uextract_bit_27_29_multi_use_shift_i64:		; GCN-LABEL: {{^}}v_uextract_bit_27_29_multi_use_shift_i64:
; GCN: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]		; GCN-DAG: buffer_load_dwordx2 [[VAL:v\[[0-9]+:[0-9]+\]]]
; GCN-DAG: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 27		; GCN-DAG: v_lshr_b64 v{{\[}}[[SHRLO:[0-9]+]]:[[SHRHI:[0-9]+]]{{\]}}, [[VAL]], 27
; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 3, v[[SHRLO]]		; GCN-DAG: v_and_b32_e32 v[[AND:[0-9]+]], 3, v[[SHRLO]]
; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[SHRLO]]:[[SHRHI]]{{\]}}
; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[AND]]:[[ZERO]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_27_29_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_27_29_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 27		%srl = lshr i64 %ld.64, 27
%bit = and i64 %srl, 3		%bit = and i64 %srl, 3
store volatile i64 %srl, i64 addrspace(1)* %out		store volatile i64 %srl, i64 addrspace(1)* %out
store volatile i64 %bit, i64 addrspace(1)* %out		store volatile i64 %bit, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_34_37_multi_use_shift_i64:		; GCN-LABEL: {{^}}v_uextract_bit_34_37_multi_use_shift_i64:
; GCN: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN-DAG: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN: v_mov_b32_e32 v[[ZERO_SHR:[0-9]+]], 0{{$}}		; GCN-DAG: v_mov_b32_e32 v[[ZERO_SHR:[0-9]+]], 0{{$}}
; GCN: v_mov_b32_e32 v[[ZERO_BFE:[0-9]+]], v[[ZERO_SHR]]		; GCN: v_mov_b32_e32 v[[ZERO_BFE:[0-9]+]], v[[ZERO_SHR]]
; GCN-DAG: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 2, [[VAL]]		; GCN-DAG: v_lshrrev_b32_e32 v[[SHR:[0-9]+]], 2, [[VAL]]
; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 2, 3		; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 2, 3
; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHR]]:[[ZERO_SHR]]{{\]}}		; GCN-DAG: buffer_store_dwordx2 v{{\[}}[[SHR]]:[[ZERO_SHR]]{{\]}}
; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:[[ZERO_BFE]]{{\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:[[ZERO_BFE]]{{\]}}
define amdgpu_kernel void @v_uextract_bit_34_37_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_34_37_multi_use_shift_i64(i64 addrspace(1)* %out, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x		%out.gep = getelementptr i64, i64 addrspace(1)* %out, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
%srl = lshr i64 %ld.64, 34		%srl = lshr i64 %ld.64, 34
%bit = and i64 %srl, 7		%bit = and i64 %srl, 7
store volatile i64 %srl, i64 addrspace(1)* %out		store volatile i64 %srl, i64 addrspace(1)* %out
store volatile i64 %bit, i64 addrspace(1)* %out		store volatile i64 %bit, i64 addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_uextract_bit_33_36_use_upper_half_shift_i64:		; GCN-LABEL: {{^}}v_uextract_bit_33_36_use_upper_half_shift_i64:
; GCN-DAG: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}		; GCN-DAG: buffer_load_dword [[VAL:v[0-9]+]], v{{\[[0-9]+:[0-9]+\]}}, s{{\[[0-9]+:[0-9]+\]}}, 0 addr64 offset:4{{$}}
; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 3		; GCN-DAG: v_bfe_u32 v[[BFE:[0-9]+]], [[VAL]], 1, 3
		; GCN-DAG: v_mov_b32_e32 v[[ZERO:[0-9]+]], 0{{$}}
; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:{{[0-9]+\]}}		; GCN: buffer_store_dwordx2 v{{\[}}[[BFE]]:{{[0-9]+\]}}
; GCN: buffer_store_dword v[[ZERO]]		; GCN: buffer_store_dword v[[ZERO]]
define amdgpu_kernel void @v_uextract_bit_33_36_use_upper_half_shift_i64(i64 addrspace(1)* %out0, i32 addrspace(1)* %out1, i64 addrspace(1)* %in) #1 {		define amdgpu_kernel void @v_uextract_bit_33_36_use_upper_half_shift_i64(i64 addrspace(1)* %out0, i32 addrspace(1)* %out1, i64 addrspace(1)* %in) #1 {
%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()		%id.x = tail call i32 @llvm.amdgcn.workitem.id.x()
%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x		%in.gep = getelementptr i64, i64 addrspace(1)* %in, i32 %id.x
%out0.gep = getelementptr i64, i64 addrspace(1)* %out0, i32 %id.x		%out0.gep = getelementptr i64, i64 addrspace(1)* %out0, i32 %id.x
%out1.gep = getelementptr i32, i32 addrspace(1)* %out1, i32 %id.x		%out1.gep = getelementptr i32, i32 addrspace(1)* %out1, i32 %id.x
%ld.64 = load i64, i64 addrspace(1)* %in.gep		%ld.64 = load i64, i64 addrspace(1)* %in.gep
Show All 16 Lines

test/CodeGen/AMDGPU/sminmax.v2i16.ll

Show All 34 Lines
}		}

; GCN-LABEL: {{^}}v_abs_v2i16:		; GCN-LABEL: {{^}}v_abs_v2i16:
; GFX9: flat_load_dword [[VAL:v[0-9]+]]		; GFX9: flat_load_dword [[VAL:v[0-9]+]]
; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]		; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]		; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2		; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2

		; VI: v_mov_b32_e32 [[TWO:v[0-9]+]], 2
; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,		; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}		; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}		; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}		; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}
; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}		; VI: v_add_u16_sdwa v{{[0-9]+}}, [[TWO]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NOT: v_and_b32		; VI-NOT: v_and_b32
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {		define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid		%gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4		%val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4
%neg = sub <2 x i16> zeroinitializer, %val		%neg = sub <2 x i16> zeroinitializer, %val
▲ Show 20 Lines • Show All 143 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_min_max_v2i16_user(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> addrspace(1)* %ptr0, <2 x i16> addrspace(1)* %ptr1) #0 {

store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4		store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4
store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4		store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4
store volatile <2 x i1> %cond0, <2 x i1> addrspace(1)* undef		store volatile <2 x i1> %cond0, <2 x i1> addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}u_min_max_v2i16:		; GCN-LABEL: {{^}}u_min_max_v2i16:
; GFX9: v_pk_max_u16 v{{[0-9]+}}, v{{[0-9]+}}, s{{[0-9]+}}		; GFX9: v_pk_max_u16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}
; GFX9: v_pk_min_u16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}		; GFX9: v_pk_min_u16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @u_min_max_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %val0, <2 x i16> %val1) nounwind {		define amdgpu_kernel void @u_min_max_v2i16(<2 x i16> addrspace(1)* %out0, <2 x i16> addrspace(1)* %out1, <2 x i16> %val0, <2 x i16> %val1) nounwind {
%cond0 = icmp ugt <2 x i16> %val0, %val1		%cond0 = icmp ugt <2 x i16> %val0, %val1
%sel0 = select <2 x i1> %cond0, <2 x i16> %val0, <2 x i16> %val1		%sel0 = select <2 x i1> %cond0, <2 x i16> %val0, <2 x i16> %val1
%sel1 = select <2 x i1> %cond0, <2 x i16> %val1, <2 x i16> %val0		%sel1 = select <2 x i1> %cond0, <2 x i16> %val1, <2 x i16> %val0

store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4		store volatile <2 x i16> %sel0, <2 x i16> addrspace(1)* %out0, align 4
store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4		store volatile <2 x i16> %sel1, <2 x i16> addrspace(1)* %out1, align 4
ret void		ret void
}		}

declare i32 @llvm.amdgcn.workitem.id.x() #1		declare i32 @llvm.amdgcn.workitem.id.x() #1

attributes #0 = { nounwind }		attributes #0 = { nounwind }
attributes #1 = { nounwind readnone }		attributes #1 = { nounwind readnone }

test/CodeGen/AMDGPU/srem.ll

Show All 14 Lines	define amdgpu_kernel void @srem_i32_4(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%num = load i32, i32 addrspace(1) * %in		%num = load i32, i32 addrspace(1) * %in
%result = srem i32 %num, 4		%result = srem i32 %num, 4
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}srem_i32_7:		; FUNC-LABEL: {{^}}srem_i32_7:
; SI: v_mov_b32_e32 [[MAGIC:v[0-9]+]], 0x92492493		; SI: v_mov_b32_e32 [[MAGIC:v[0-9]+]], 0x92492493
; SI: v_mul_hi_i32 {{v[0-9]+}}, [[MAGIC]],		; SI: v_mul_hi_i32 {{v[0-9]+}}, {{v[0-9]+}}, [[MAGIC]]
; SI: v_mul_lo_i32		; SI: v_mul_lo_i32
; SI: v_sub_i32		; SI: v_sub_i32
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @srem_i32_7(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @srem_i32_7(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%num = load i32, i32 addrspace(1) * %in		%num = load i32, i32 addrspace(1) * %in
%result = srem i32 %num, 7		%result = srem i32 %num, 7
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 81 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sub.v2i16.ll

Show All 17 Lines	define amdgpu_kernel void @v_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_sub_v2i16:		; GCN-LABEL: {{^}}s_test_sub_v2i16:
; GFX9: s_load_dword [[VAL0:s[0-9]+]]		; GFX9: s_load_dword [[VAL0:s[0-9]+]]
; GFX9: s_load_dword [[VAL1:s[0-9]+]]		; GFX9: s_load_dword [[VAL1:s[0-9]+]]
; GFX9: v_mov_b32_e32 [[VVAL1:v[0-9]+]]		; GFX9: v_mov_b32_e32 [[VVAL1:v[0-9]+]]
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, [[VVAL1]], [[VAL0]]		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, [[VAL0]], [[VVAL1]]

; VI: s_sub_i32		; VI: s_sub_i32
; VI: s_sub_i32		; VI: s_sub_i32
define amdgpu_kernel void @s_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0, <2 x i16> addrspace(2)* %in1) #1 {		define amdgpu_kernel void @s_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0, <2 x i16> addrspace(2)* %in1) #1 {
%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0		%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0
%b = load <2 x i16>, <2 x i16> addrspace(2)* %in1		%b = load <2 x i16>, <2 x i16> addrspace(2)* %in1
%add = sub <2 x i16> %a, %b		%add = sub <2 x i16> %a, %b
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_sub_self_v2i16:		; GCN-LABEL: {{^}}s_test_sub_self_v2i16:
; GCN: v_mov_b32_e32 [[ZERO:v[0-9]+]]		; GCN: v_mov_b32_e32 [[ZERO:v[0-9]+]]
; GCN: buffer_store_dword [[ZERO]]		; GCN: buffer_store_dword [[ZERO]]
define amdgpu_kernel void @s_test_sub_self_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0) #1 {		define amdgpu_kernel void @s_test_sub_self_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(2)* %in0) #1 {
%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0		%a = load <2 x i16>, <2 x i16> addrspace(2)* %in0
%add = sub <2 x i16> %a, %a		%add = sub <2 x i16> %a, %a
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: VI should not scalarize arg access.		; FIXME: VI should not scalarize arg access.
; GCN-LABEL: {{^}}s_test_sub_v2i16_kernarg:		; GCN-LABEL: {{^}}s_test_sub_v2i16_kernarg:
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, s{{[0-9]+}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, s{{[0-9]+}}, v{{[0-9]+}}

; VI: v_subrev_i32_e32		; VI: v_subrev_i32_e32
; VI: v_subrev_i32_sdwa v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_subrev_i32_sdwa v{{[0-9]+}}, vcc, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
define amdgpu_kernel void @s_test_sub_v2i16_kernarg(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #1 {		define amdgpu_kernel void @s_test_sub_v2i16_kernarg(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #1 {
%add = sub <2 x i16> %a, %b		%add = sub <2 x i16> %a, %b
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_sub_v2i16_constant:		; GCN-LABEL: {{^}}v_test_sub_v2i16_constant:
; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}		; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, [[CONST]], v{{[0-9]+}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xfffffe38, v{{[0-9]+}}		; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0xfffffe38
		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xffffff85, v{{[0-9]+}}		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xffffff85, v{{[0-9]+}}
define amdgpu_kernel void @v_test_sub_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 123, i16 456>		%add = sub <2 x i16> %a, <i16 123, i16 456>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_sub_v2i16_neg_constant:		; GCN-LABEL: {{^}}v_test_sub_v2i16_neg_constant:
; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}		; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, [[CONST]], v{{[0-9]+}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x3df, v{{[0-9]+}}		; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3df
		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}}
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x34d, v{{[0-9]+}}		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x34d, v{{[0-9]+}}
define amdgpu_kernel void @v_test_sub_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 -845, i16 -991>		%add = sub <2 x i16> %a, <i16 -845, i16 -991>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_neg1:		; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_neg1:
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}

		; VI: v_mov_b32_e32 [[ONE:v[0-9]+]], 1
; VI: flat_load_ushort [[LOAD0:v[0-9]+]]		; VI: flat_load_ushort [[LOAD0:v[0-9]+]]
; VI: flat_load_ushort [[LOAD1:v[0-9]+]]		; VI: flat_load_ushort [[LOAD1:v[0-9]+]]
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 1, [[LOAD0]]		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[ONE]], [[LOAD0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 1, [[LOAD1]]		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 1, [[LOAD1]]
; VI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_sub_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 -1, i16 -1>		%add = sub <2 x i16> %a, <i16 -1, i16 -1>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_lo_zero_hi:		; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_lo_zero_hi:
; GFX9: s_mov_b32 [[K:s[0-9]+]], 32{{$}}		; GFX9: s_mov_b32 [[K:s[0-9]+]], 32{{$}}
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, [[K]], v{{[0-9]+}}{{$}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]

; VI-NOT: v_subrev_i16		; VI-NOT: v_subrev_i16
; VI: v_add_u16_e32 v{{[0-9]+}}, 0xffffffe0, v{{[0-9]+}}		; VI: v_add_u16_e32 v{{[0-9]+}}, 0xffffffe0, v{{[0-9]+}}
; VI-NOT: v_subrev_i16		; VI-NOT: v_subrev_i16
; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,		; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_sub_v2i16_inline_lo_zero_hi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_lo_zero_hi(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 32, i16 0>		%add = sub <2 x i16> %a, <i16 32, i16 0>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; The high element gives fp		; The high element gives fp
; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_fp_split:		; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_fp_split:
; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0		; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, [[K]], v{{[0-9]+}}{{$}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]

; VI-NOT: v_subrev_i16		; VI-NOT: v_subrev_i16
; VI: v_add_u16_e32 v{{[0-9]+}}, 0xffffc080, v{{[0-9]+}}		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0xffffc080
		; VI: v_add_u16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NOT: v_subrev_i16		; VI-NOT: v_subrev_i16
; VI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_sub_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 0, i16 16256>		%add = sub <2 x i16> %a, <i16 0, i16 16256>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
Show All 32 Lines	define amdgpu_kernel void @v_test_sub_v2i16_zext_to_v2i32(<2 x i32> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
%add = sub <2 x i16> %a, %b		%add = sub <2 x i16> %a, %b
%ext = zext <2 x i16> %add to <2 x i32>		%ext = zext <2 x i16> %add to <2 x i32>
store <2 x i32> %ext, <2 x i32> addrspace(1)* %out		store <2 x i32> %ext, <2 x i32> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_sub_v2i16_zext_to_v2i64:		; GCN-LABEL: {{^}}v_test_sub_v2i16_zext_to_v2i64:
		; GFX9: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; GFX9: flat_load_dword [[A:v[0-9]+]]		; GFX9: flat_load_dword [[A:v[0-9]+]]
; GFX9: flat_load_dword [[B:v[0-9]+]]		; GFX9: flat_load_dword [[B:v[0-9]+]]

; GFX9: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; GFX9: v_pk_sub_i16 [[ADD:v[0-9]+]], [[A]], [[B]]		; GFX9: v_pk_sub_i16 [[ADD:v[0-9]+]], [[A]], [[B]]
; GFX9-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], 0xffff, [[ADD]]		; GFX9-DAG: v_and_b32_e32 v[[ELT0:[0-9]+]], 0xffff, [[ADD]]
; GFX9-DAG: v_lshrrev_b32_e32 v[[ELT1:[0-9]+]], 16, [[ADD]]		; GFX9-DAG: v_lshrrev_b32_e32 v[[ELT1:[0-9]+]], 16, [[ADD]]
; GFX9: buffer_store_dwordx4		; GFX9: buffer_store_dwordx4

; VI: flat_load_ushort v[[A_LO:[0-9]+]]		; VI: flat_load_ushort v[[A_LO:[0-9]+]]
; VI: flat_load_ushort v[[A_HI:[0-9]+]]		; VI: flat_load_ushort v[[A_HI:[0-9]+]]
; VI: flat_load_ushort v[[B_LO:[0-9]+]]		; VI: flat_load_ushort v[[B_LO:[0-9]+]]
; VI: flat_load_ushort v[[B_HI:[0-9]+]]		; VI: flat_load_ushort v[[B_HI:[0-9]+]]

; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; VI-DAG: v_mov_b32_e32 v{{[0-9]+}}, 0{{$}}
; VI-DAG: v_subrev_u16_e32		; VI-DAG: v_subrev_u16_e32
; VI-DAG: v_subrev_u16_e32		; VI-DAG: v_subrev_u16_e32

; VI: buffer_store_dwordx4		; VI: buffer_store_dwordx4
define amdgpu_kernel void @v_test_sub_v2i16_zext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_zext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i64>, <2 x i64> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
▲ Show 20 Lines • Show All 67 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/udiv.ll

Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @udiv_i32_div_pow2(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%result = udiv i32 %a, 16		%result = udiv i32 %a, 16
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}udiv_i32_div_k_even:		; FUNC-LABEL: {{^}}udiv_i32_div_k_even:
; SI-DAG: buffer_load_dword [[VAL:v[0-9]+]]		; SI-DAG: buffer_load_dword [[VAL:v[0-9]+]]
; SI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0xfabbd9c1		; SI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0xfabbd9c1
; SI: v_mul_hi_u32 [[MULHI:v[0-9]+]], [[K]], [[VAL]]		; SI: v_mul_hi_u32 [[MULHI:v[0-9]+]], [[VAL]], [[K]]
; SI: v_lshrrev_b32_e32 [[RESULT:v[0-9]+]], 25, [[MULHI]]		; SI: v_lshrrev_b32_e32 [[RESULT:v[0-9]+]], 25, [[MULHI]]
; SI: buffer_store_dword [[RESULT]]		; SI: buffer_store_dword [[RESULT]]
define amdgpu_kernel void @udiv_i32_div_k_even(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @udiv_i32_div_k_even(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%b_ptr = getelementptr i32, i32 addrspace(1)* %in, i32 1		%b_ptr = getelementptr i32, i32 addrspace(1)* %in, i32 1
%a = load i32, i32 addrspace(1)* %in		%a = load i32, i32 addrspace(1)* %in
%result = udiv i32 %a, 34259182		%result = udiv i32 %a, 34259182
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}udiv_i32_div_k_odd:		; FUNC-LABEL: {{^}}udiv_i32_div_k_odd:
; SI-DAG: buffer_load_dword [[VAL:v[0-9]+]]		; SI-DAG: buffer_load_dword [[VAL:v[0-9]+]]
; SI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x7d5deca3		; SI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x7d5deca3
; SI: v_mul_hi_u32 [[MULHI:v[0-9]+]], [[K]], [[VAL]]		; SI: v_mul_hi_u32 [[MULHI:v[0-9]+]], [[VAL]], [[K]]
; SI: v_lshrrev_b32_e32 [[RESULT:v[0-9]+]], 24, [[MULHI]]		; SI: v_lshrrev_b32_e32 [[RESULT:v[0-9]+]], 24, [[MULHI]]
; SI: buffer_store_dword [[RESULT]]		; SI: buffer_store_dword [[RESULT]]
define amdgpu_kernel void @udiv_i32_div_k_odd(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @udiv_i32_div_k_odd(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%b_ptr = getelementptr i32, i32 addrspace(1)* %in, i32 1		%b_ptr = getelementptr i32, i32 addrspace(1)* %in, i32 1
%a = load i32, i32 addrspace(1)* %in		%a = load i32, i32 addrspace(1)* %in
%result = udiv i32 %a, 34259183		%result = udiv i32 %a, 34259183
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines
define amdgpu_kernel void @test_udiv2(i32 %p) {		define amdgpu_kernel void @test_udiv2(i32 %p) {
%i = udiv i32 %p, 2		%i = udiv i32 %p, 2
store volatile i32 %i, i32 addrspace(1)* undef		store volatile i32 %i, i32 addrspace(1)* undef
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_udiv_3_mulhu:		; FUNC-LABEL: {{^}}test_udiv_3_mulhu:
; SI: v_mov_b32_e32 v{{[0-9]+}}, 0xaaaaaaab		; SI: v_mov_b32_e32 v{{[0-9]+}}, 0xaaaaaaab
; SI: v_mul_hi_u32 v0, {{v[0-9]+}}, {{s[0-9]+}}		; SI: v_mul_hi_u32 v0, {{s[0-9]+}}, {{v[0-9]+}}
; SI-NEXT: v_lshrrev_b32_e32 v0, 1, v0		; SI-NEXT: v_lshrrev_b32_e32 v0, 1, v0
define amdgpu_kernel void @test_udiv_3_mulhu(i32 %p) {		define amdgpu_kernel void @test_udiv_3_mulhu(i32 %p) {
%i = udiv i32 %p, 3		%i = udiv i32 %p, 3
store volatile i32 %i, i32 addrspace(1)* undef		store volatile i32 %i, i32 addrspace(1)* undef
ret void		ret void
}		}

; GCN-LABEL: {{^}}fdiv_test_denormals		; GCN-LABEL: {{^}}fdiv_test_denormals
Show All 13 Lines

test/CodeGen/AMDGPU/urem.ll

Show All 14 Lines	define amdgpu_kernel void @test_urem_i32(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%b = load i32, i32 addrspace(1)* %b_ptr		%b = load i32, i32 addrspace(1)* %b_ptr
%result = urem i32 %a, %b		%result = urem i32 %a, %b
store i32 %result, i32 addrspace(1)* %out		store i32 %result, i32 addrspace(1)* %out
ret void		ret void
}		}

; FUNC-LABEL: {{^}}test_urem_i32_7:		; FUNC-LABEL: {{^}}test_urem_i32_7:
; SI: v_mov_b32_e32 [[MAGIC:v[0-9]+]], 0x24924925		; SI: v_mov_b32_e32 [[MAGIC:v[0-9]+]], 0x24924925
; SI: v_mul_hi_u32 {{v[0-9]+}}, [[MAGIC]]		; SI: v_mul_hi_u32 [[MAGIC]], {{v[0-9]+}}
; SI: v_subrev_i32		; SI: v_subrev_i32
; SI: v_mul_lo_i32		; SI: v_mul_lo_i32
; SI: v_sub_i32		; SI: v_sub_i32
; SI: buffer_store_dword		; SI: buffer_store_dword
; SI: s_endpgm		; SI: s_endpgm
define amdgpu_kernel void @test_urem_i32_7(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {		define amdgpu_kernel void @test_urem_i32_7(i32 addrspace(1)* %out, i32 addrspace(1)* %in) {
%num = load i32, i32 addrspace(1) * %in		%num = load i32, i32 addrspace(1) * %in
%result = urem i32 %num, 7		%result = urem i32 %num, 7
▲ Show 20 Lines • Show All 63 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/use-sgpr-multiple-times.ll

	Show First 20 Lines • Show All 48 Lines • ▼ Show 20 Lines

	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32
	; GCN: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]			; GCN: v_mov_b32_e32 [[VB:v[0-9]+]], [[SB]]
	; GCN-NOT: v_mov_b32			; GCN-NOT: v_mov_b32

	; VI: buffer_load_dword [[VA0:v[0-9]+]]			; VI: buffer_load_dword [[VA0:v[0-9]+]]
	; VI: buffer_load_dword [[VA1:v[0-9]+]]			; VI: buffer_load_dword [[VA1:v[0-9]+]]

	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[VA0]], [[SA]], [[VB]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[SA]], [[VA0]], [[VB]]
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[VA1]], [[SA]], [[VB]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SA]], [[VA1]], [[VB]]
	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	define amdgpu_kernel void @test_use_s_v_s(float addrspace(1)* %out, float %a, float %b, float addrspace(1)* %in) #0 {			define amdgpu_kernel void @test_use_s_v_s(float addrspace(1)* %out, float %a, float %b, float addrspace(1)* %in) #0 {
	%va0 = load volatile float, float addrspace(1)* %in			%va0 = load volatile float, float addrspace(1)* %in
	%va1 = load volatile float, float addrspace(1)* %in			%va1 = load volatile float, float addrspace(1)* %in
	%fma0 = call float @llvm.fma.f32(float %a, float %va0, float %b) #1			%fma0 = call float @llvm.fma.f32(float %a, float %va0, float %b) #1
	%fma1 = call float @llvm.fma.f32(float %a, float %va1, float %b) #1			%fma1 = call float @llvm.fma.f32(float %a, float %va1, float %b) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_b_a:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_b_a:
	; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc
	; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
	; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]			; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[VGPR1]], [[SGPR0]], [[SGPR0]]			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR0]], [[VGPR1]], [[SGPR0]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_a_b_a(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_a_b_a(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma = call float @llvm.fma.f32(float %a, float %b, float %a) #1			%fma = call float @llvm.fma.f32(float %a, float %b, float %a) #1
	store float %fma, float addrspace(1)* %out, align 4			store float %fma, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_b_a_a:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_b_a_a:
	; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb			; SI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xb
	; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc			; SI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0xc
	; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c			; VI-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x2c
	; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30			; VI-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, 0x30
	; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]			; GCN: v_mov_b32_e32 [[VGPR1:v[0-9]+]], [[SGPR1]]
	; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[SGPR0]], [[VGPR1]], [[SGPR0]]			; GCN: v_fma_f32 [[RESULT:v[0-9]+]], [[VGPR1]], [[SGPR0]], [[SGPR0]]
	; GCN: buffer_store_dword [[RESULT]]			; GCN: buffer_store_dword [[RESULT]]
	define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_b_a_a(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_sgpr_use_twice_ternary_op_b_a_a(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma = call float @llvm.fma.f32(float %b, float %a, float %a) #1			%fma = call float @llvm.fma.f32(float %b, float %a, float %a) #1
	store float %fma, float addrspace(1)* %out, align 4			store float %fma, float addrspace(1)* %out, align 4
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_a_imm:			; GCN-LABEL: {{^}}test_sgpr_use_twice_ternary_op_a_a_imm:
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}test_s0_s1_k_f32:			; GCN-LABEL: {{^}}test_s0_s1_k_f32:
	; GCN-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; GCN-DAG: s_load_dword [[SGPR0:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}
	; GCN-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}			; GCN-DAG: s_load_dword [[SGPR1:s[0-9]+]], s{{\[[0-9]+:[0-9]+\]}}, {{0xc\|0x30}}
	; GCN-DAG: v_mov_b32_e32 [[VK0:v[0-9]+]], 0x44800000			; GCN-DAG: v_mov_b32_e32 [[VK0:v[0-9]+]], 0x44800000
	; GCN-DAG: v_mov_b32_e32 [[VS1:v[0-9]+]], [[SGPR1]]			; GCN-DAG: v_mov_b32_e32 [[VS1:v[0-9]+]], [[SGPR1]]

	; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[VS1]], [[SGPR0]], [[VK0]]			; GCN-DAG: v_fma_f32 [[RESULT0:v[0-9]+]], [[SGPR0]], [[VS1]], [[VK0]]
	; GCN-DAG: v_mov_b32_e32 [[VK1:v[0-9]+]], 0x45800000			; GCN-DAG: v_mov_b32_e32 [[VK1:v[0-9]+]], 0x45800000
	; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SGPR0]], [[VS1]], [[VK1]]			; GCN-DAG: v_fma_f32 [[RESULT1:v[0-9]+]], [[SGPR0]], [[VS1]], [[VK1]]

	; GCN: buffer_store_dword [[RESULT0]]			; GCN: buffer_store_dword [[RESULT0]]
	; GCN: buffer_store_dword [[RESULT1]]			; GCN: buffer_store_dword [[RESULT1]]
	define amdgpu_kernel void @test_s0_s1_k_f32(float addrspace(1)* %out, float %a, float %b) #0 {			define amdgpu_kernel void @test_s0_s1_k_f32(float addrspace(1)* %out, float %a, float %b) #0 {
	%fma0 = call float @llvm.fma.f32(float %a, float %b, float 1024.0) #1			%fma0 = call float @llvm.fma.f32(float %a, float %b, float 1024.0) #1
	%fma1 = call float @llvm.fma.f32(float %a, float %b, float 4096.0) #1			%fma1 = call float @llvm.fma.f32(float %a, float %b, float 4096.0) #1
	store volatile float %fma0, float addrspace(1)* %out			store volatile float %fma0, float addrspace(1)* %out
	store volatile float %fma1, float addrspace(1)* %out			store volatile float %fma1, float addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Immediate in SGPRs just copied to VGPRs			; FIXME: Immediate in SGPRs just copied to VGPRs
	; GCN-LABEL: {{^}}test_s0_s1_k_f64:			; GCN-LABEL: {{^}}test_s0_s1_k_f64:
	; GCN-DAG: s_load_dwordx2 [[SGPR0:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}			; GCN-DAG: s_load_dwordx2 [[SGPR0:s\[[0-9]+:[0-9]+\]]], s{{\[[0-9]+:[0-9]+\]}}, {{0xb\|0x2c}}
	; GCN-DAG: s_load_dwordx2 s{{\[}}[[SGPR1_SUB0:[0-9]+]]:[[SGPR1_SUB1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xd\|0x34}}			; GCN-DAG: s_load_dwordx2 s{{\[}}[[SGPR1_SUB0:[0-9]+]]:[[SGPR1_SUB1:[0-9]+]]{{\]}}, s{{\[[0-9]+:[0-9]+\]}}, {{0xd\|0x34}}
	; GCN-DAG: v_mov_b32_e32 v[[VK0_SUB1:[0-9]+]], 0x40900000			; GCN-DAG: v_mov_b32_e32 v[[VK0_SUB1:[0-9]+]], 0x40900000
	; GCN-DAG: v_mov_b32_e32 v[[VZERO:[0-9]+]], 0{{$}}			; GCN-DAG: v_mov_b32_e32 v[[VZERO:[0-9]+]], 0{{$}}

	; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB0:[0-9]+]], s[[SGPR1_SUB0]]			; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB0:[0-9]+]], s[[SGPR1_SUB0]]
	; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB1:[0-9]+]], s[[SGPR1_SUB1]]			; GCN-DAG: v_mov_b32_e32 v[[VS1_SUB1:[0-9]+]], s[[SGPR1_SUB1]]
	; GCN: v_fma_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, [[SGPR0]], v{{\[}}[[VZERO]]:[[VK0_SUB1]]{{\]}}			; GCN: v_fma_f64 [[RESULT0:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK0_SUB1]]{{\]}}

	; Same zero component is re-used for half of each immediate.			; Same zero component is re-used for half of each immediate.
	; GCN: v_mov_b32_e32 v[[VK1_SUB1:[0-9]+]], 0x40b00000			; GCN: v_mov_b32_e32 v[[VK1_SUB1:[0-9]+]], 0x40b00000
	; GCN: v_fma_f64 [[RESULT1:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK1_SUB1]]{{\]}}			; GCN: v_fma_f64 [[RESULT1:v\[[0-9]+:[0-9]+\]]], [[SGPR0]], v{{\[}}[[VS1_SUB0]]:[[VS1_SUB1]]{{\]}}, v{{\[}}[[VZERO]]:[[VK1_SUB1]]{{\]}}

	; GCN: buffer_store_dwordx2 [[RESULT0]]			; GCN: buffer_store_dwordx2 [[RESULT0]]
	; GCN: buffer_store_dwordx2 [[RESULT1]]			; GCN: buffer_store_dwordx2 [[RESULT1]]
	define amdgpu_kernel void @test_s0_s1_k_f64(double addrspace(1)* %out, double %a, double %b) #0 {			define amdgpu_kernel void @test_s0_s1_k_f64(double addrspace(1)* %out, double %a, double %b) #0 {
	Show All 9 Lines

test/CodeGen/AMDGPU/v_mac_f16.ll

	Show First 20 Lines • Show All 476 Lines • ▼ Show 20 Lines

	; GCN-LABEL: {{^}}mac_v2f16_neg_a_safe_fp_math:			; GCN-LABEL: {{^}}mac_v2f16_neg_a_safe_fp_math:

	; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}			; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}
	; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}			; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
	; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]]			; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]]
	; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]			; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]

	; VI: v_sub_f16_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}			; VI-DAG: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0
	; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}			; VI-DAG: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
				; VI-DAG: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD			; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]			; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @mac_v2f16_neg_a_safe_fp_math(			define amdgpu_kernel void @mac_v2f16_neg_a_safe_fp_math(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b,			<2 x half> addrspace(1)* %b,
	Show All 13 Lines

	; GCN-LABEL: {{^}}mac_v2f16_neg_b_safe_fp_math:			; GCN-LABEL: {{^}}mac_v2f16_neg_b_safe_fp_math:

	; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}			; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}
	; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}			; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
	; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}}			; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}}
	; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}			; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}

	; VI: v_sub_f16_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}			; VI: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0
	; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}			; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
				; VI: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}			; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @mac_v2f16_neg_b_safe_fp_math(			define amdgpu_kernel void @mac_v2f16_neg_b_safe_fp_math(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b,			<2 x half> addrspace(1)* %b,
	Show All 13 Lines

	; GCN-LABEL: {{^}}mac_v2f16_neg_c_safe_fp_math:			; GCN-LABEL: {{^}}mac_v2f16_neg_c_safe_fp_math:

	; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}			; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}
	; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}			; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
	; SI-DAG: v_mac_f32_e32 v[[NEG_A0]], v{{[0-9]+}}, v{{[0-9]+}}			; SI-DAG: v_mac_f32_e32 v[[NEG_A0]], v{{[0-9]+}}, v{{[0-9]+}}
	; SI-DAG: v_mac_f32_e32 v[[NEG_A1]], v{{[0-9]+}}, v{{[0-9]+}}			; SI-DAG: v_mac_f32_e32 v[[NEG_A1]], v{{[0-9]+}}, v{{[0-9]+}}

	; VI: v_sub_f16_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}			; VI: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0
	; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}			; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
				; VI: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
	; VI-DAG: v_mac_f16_sdwa v[[NEG_A0]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_mac_f16_sdwa v[[NEG_A0]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-DAG: v_mac_f16_e32 v[[NEG_A1]], v{{[0-9]+}}, v{{[0-9]+}}			; VI-DAG: v_mac_f16_e32 v[[NEG_A1]], v{{[0-9]+}}, v{{[0-9]+}}

	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @mac_v2f16_neg_c_safe_fp_math(			define amdgpu_kernel void @mac_v2f16_neg_c_safe_fp_math(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b,			<2 x half> addrspace(1)* %b,
	▲ Show 20 Lines • Show All 115 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/wqm.ll

	Show First 20 Lines • Show All 343 Lines • ▼ Show 20 Lines
	; CHECK: s_and_b64 exec, exec, [[LIVE]]			; CHECK: s_and_b64 exec, exec, [[LIVE]]
	; CHECK: image_store			; CHECK: image_store
	; CHECK: s_wqm_b64 exec, exec			; CHECK: s_wqm_b64 exec, exec
	; CHECK-DAG: v_mov_b32_e32 [[CTR:v[0-9]+]], 0			; CHECK-DAG: v_mov_b32_e32 [[CTR:v[0-9]+]], 0
	; CHECK-DAG: v_mov_b32_e32 [[SEVEN:v[0-9]+]], 0x40e00000			; CHECK-DAG: v_mov_b32_e32 [[SEVEN:v[0-9]+]], 0x40e00000

	; CHECK: [[LOOPHDR:BB[0-9]+_[0-9]+]]: ; %body			; CHECK: [[LOOPHDR:BB[0-9]+_[0-9]+]]: ; %body
	; CHECK: v_add_f32_e32 [[CTR]], 2.0, [[CTR]]			; CHECK: v_add_f32_e32 [[CTR]], 2.0, [[CTR]]
	; CHECK: v_cmp_lt_f32_e32 vcc, [[SEVEN]], [[CTR]]			; CHECK: v_cmp_gt_f32_e32 vcc, [[CTR]], [[SEVEN]]
	; CHECK: s_cbranch_vccz [[LOOPHDR]]			; CHECK: s_cbranch_vccz [[LOOPHDR]]
	; CHECK: ; %break			; CHECK: ; %break

	; CHECK: ; return			; CHECK: ; return
	define amdgpu_ps <4 x float> @test_loop_vcc(<4 x float> %in) nounwind {			define amdgpu_ps <4 x float> @test_loop_vcc(<4 x float> %in) nounwind {
	entry:			entry:
	call void @llvm.amdgcn.image.store.v4f32.v4i32.v8i32(<4 x float> %in, <4 x i32> undef, <8 x i32> undef, i32 15, i1 0, i1 0, i1 0, i1 0)			call void @llvm.amdgcn.image.store.v4f32.v4i32.v8i32(<4 x float> %in, <4 x i32> undef, <8 x i32> undef, i32 15, i1 0, i1 0, i1 0, i1 0)
	br label %loop			br label %loop
	▲ Show 20 Lines • Show All 141 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Allow SDWA in instructions with immediates and SGPRsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 100362

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

lib/Target/AMDGPU/SIFoldOperands.cpp

lib/Target/AMDGPU/SIPeepholeSDWA.cpp

test/CodeGen/AMDGPU/add.v2i16.ll

test/CodeGen/AMDGPU/bfe-combine.ll

test/CodeGen/AMDGPU/commute-compares.ll

test/CodeGen/AMDGPU/commute_modifiers.ll

test/CodeGen/AMDGPU/copy-illegal-type.ll

test/CodeGen/AMDGPU/cvt_f32_ubyte.ll

test/CodeGen/AMDGPU/fabs.f64.ll

test/CodeGen/AMDGPU/fabs.ll

test/CodeGen/AMDGPU/fadd.f16.ll

test/CodeGen/AMDGPU/fadd64.ll

test/CodeGen/AMDGPU/fcanonicalize.f16.ll

test/CodeGen/AMDGPU/fmul.f16.ll

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

test/CodeGen/AMDGPU/fneg-fabs.f64.ll

test/CodeGen/AMDGPU/fneg-fabs.ll

test/CodeGen/AMDGPU/fneg.f16.ll

test/CodeGen/AMDGPU/fract.f64.ll

test/CodeGen/AMDGPU/fsub.f16.ll

test/CodeGen/AMDGPU/fsub64.ll

test/CodeGen/AMDGPU/immv216.ll

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.div.fixup.f16.ll

test/CodeGen/AMDGPU/llvm.amdgcn.div.fmas.ll

test/CodeGen/AMDGPU/llvm.amdgcn.fcmp.ll

test/CodeGen/AMDGPU/llvm.amdgcn.fmul.legacy.ll

test/CodeGen/AMDGPU/llvm.fma.f16.ll

test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

test/CodeGen/AMDGPU/llvm.minnum.f16.ll

test/CodeGen/AMDGPU/mad24-get-global-id.ll

test/CodeGen/AMDGPU/madak.ll

test/CodeGen/AMDGPU/madmk.ll

test/CodeGen/AMDGPU/mul.ll

test/CodeGen/AMDGPU/scratch-simple.ll

test/CodeGen/AMDGPU/sdiv.ll

test/CodeGen/AMDGPU/sdwa-peephole.ll

test/CodeGen/AMDGPU/sdwa-scalar-ops.mir

test/CodeGen/AMDGPU/select.f16.ll

test/CodeGen/AMDGPU/shift-and-i128-ubfe.ll

test/CodeGen/AMDGPU/shift-and-i64-ubfe.ll

test/CodeGen/AMDGPU/sminmax.v2i16.ll

test/CodeGen/AMDGPU/srem.ll

test/CodeGen/AMDGPU/sub.v2i16.ll

test/CodeGen/AMDGPU/udiv.ll

test/CodeGen/AMDGPU/urem.ll

test/CodeGen/AMDGPU/use-sgpr-multiple-times.ll

test/CodeGen/AMDGPU/v_mac_f16.ll

test/CodeGen/AMDGPU/wqm.ll

[AMDGPU] Allow SDWA in instructions with immediates and SGPRs
ClosedPublic