This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Untangle SDWA pass from SIShrinkInstructions
ClosedPublic

Authored by rampitec on Jun 3 2017, 12:02 AM.

Download Raw Diff

Details

Reviewers

SamWot
arsenm

Commits

rG033066040305: [AMDGPU] Untangle SDWA pass from SIShrinkInstructions
rL304665: [AMDGPU] Untangle SDWA pass from SIShrinkInstructions

Summary

Remove dependency of SDWA pass on SIShrinkInstructions.
The goal is to move SDWA even higher in the stack to avoid second run
of MachineLICM, MachineCSE and SIFoldOperands.

Also added handling to preserve original src modifiers.

Diff Detail

Repository: rL LLVM

Event Timeline

rampitec created this revision.Jun 3 2017, 12:02 AM

Herald added subscribers: t-tye, tpr, dstuttard and 4 others. · View Herald TranscriptJun 3 2017, 12:03 AM

Restored const on argument of isConvertibleToSDWA.

This is good change. I wanted to propose it myself:)

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
261	Why do you use XOR here?
617	This check isn't strong enough. E.g. VOP3 (e64) instructions allow OMod that is not allowed in SDWA on VI. Another problem is SDST operand. E.g. this is a valid instruction: v_add_i32_e64 v0, s[0:1], v1, v2. It writes carry-out into s[0:1] instead of VCC. Same problem can be with VOPC version of VOP3. You should either check for SDST operand or add special legalizer for it.

rampitec added inline comments.Jun 3 2017, 9:18 AM

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
261	You can set neg modifier yoyrself, but it also can be present in the original instruction on the same operand. The right effective modifier is exactly xor of them.

rampitec added inline comments.Jun 3 2017, 9:28 AM

lib/Target/AMDGPU/SIPeepholeSDWA.cpp
617	The VOPC is checked down in the convertToSDWA, but in general checks for omod and sdst are needed here. I will add them.

Added checks for OMOD and SDST.

SamWot accepted this revision.Jun 3 2017, 10:24 AM

This revision is now accepted and ready to land.Jun 3 2017, 10:24 AM

Closed by commit rL304665: [AMDGPU] Untangle SDWA pass from SIShrinkInstructions (authored by rampitec). · Explain WhyJun 3 2017, 10:40 AM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

lib/

Target/

AMDGPU/

AMDGPUTargetMachine.cpp

2 lines

SIPeepholeSDWA.cpp

91 lines

test/

CodeGen/

AMDGPU/

8 lines

2 lines

8 lines

6 lines

6 lines

6 lines

8 lines

2 lines

2 lines

2 lines

4 lines

38 lines

insert_vector_elt.v2i16.ll

8 lines

2 lines

6 lines

6 lines

6 lines

24 lines

2 lines

8 lines

12 lines

31 lines

Diff 101321

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

Show First 20 Lines • Show All 728 Lines • ▼ Show 20 Lines	void GCNPassConfig::addMachineSSAOptimization() {
// real source operand. We want to eliminate dead instructions after, so that		// real source operand. We want to eliminate dead instructions after, so that
// we see fewer uses of the copies. We then need to clean up the dead		// we see fewer uses of the copies. We then need to clean up the dead
// instructions leftover after the operands are folded as well.		// instructions leftover after the operands are folded as well.
//		//
// XXX - Can we get away without running DeadMachineInstructionElim again?		// XXX - Can we get away without running DeadMachineInstructionElim again?
addPass(&SIFoldOperandsID);		addPass(&SIFoldOperandsID);
addPass(&DeadMachineInstructionElimID);		addPass(&DeadMachineInstructionElimID);
addPass(&SILoadStoreOptimizerID);		addPass(&SILoadStoreOptimizerID);
addPass(createSIShrinkInstructionsPass());
if (EnableSDWAPeephole) {		if (EnableSDWAPeephole) {
addPass(&SIPeepholeSDWAID);		addPass(&SIPeepholeSDWAID);
addPass(&MachineLICMID);		addPass(&MachineLICMID);
addPass(&MachineCSEID);		addPass(&MachineCSEID);
addPass(&SIFoldOperandsID);		addPass(&SIFoldOperandsID);
addPass(&DeadMachineInstructionElimID);		addPass(&DeadMachineInstructionElimID);
}		}
		addPass(createSIShrinkInstructionsPass());
}		}

bool GCNPassConfig::addILPOpts() {		bool GCNPassConfig::addILPOpts() {
if (EnableEarlyIfConversion)		if (EnableEarlyIfConversion)
addPass(&EarlyIfConverterID);		addPass(&EarlyIfConverterID);

TargetPassConfig::addILPOpts();		TargetPassConfig::addILPOpts();
return false;		return false;
▲ Show 20 Lines • Show All 98 Lines • Show Last 20 Lines

lib/Target/AMDGPU/SIPeepholeSDWA.cpp

Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines	public:
virtual MachineInstr potentialToConvert(const SIInstrInfo TII) override;		virtual MachineInstr potentialToConvert(const SIInstrInfo TII) override;
virtual bool convertToSDWA(MachineInstr &MI, const SIInstrInfo *TII) override;		virtual bool convertToSDWA(MachineInstr &MI, const SIInstrInfo *TII) override;

SdwaSel getSrcSel() const { return SrcSel; }		SdwaSel getSrcSel() const { return SrcSel; }
bool getAbs() const { return Abs; }		bool getAbs() const { return Abs; }
bool getNeg() const { return Neg; }		bool getNeg() const { return Neg; }
bool getSext() const { return Sext; }		bool getSext() const { return Sext; }

uint64_t getSrcMods() const;		uint64_t getSrcMods(const SIInstrInfo *TII,
		const MachineOperand *SrcOp) const;
};		};

class SDWADstOperand : public SDWAOperand {		class SDWADstOperand : public SDWAOperand {
private:		private:
SdwaSel DstSel;		SdwaSel DstSel;
DstUnused DstUn;		DstUnused DstUn;

public:		public:
▲ Show 20 Lines • Show All 94 Lines • ▼ Show 20 Lines	if (SuperReg.getReg() != SubReg.getReg())
return false;		return false;

LaneBitmask SuperMask = TRI->getSubRegIndexLaneMask(SuperReg.getSubReg());		LaneBitmask SuperMask = TRI->getSubRegIndexLaneMask(SuperReg.getSubReg());
LaneBitmask SubMask = TRI->getSubRegIndexLaneMask(SubReg.getSubReg());		LaneBitmask SubMask = TRI->getSubRegIndexLaneMask(SubReg.getSubReg());
SuperMask \|= ~SubMask;		SuperMask \|= ~SubMask;
return SuperMask.all();		return SuperMask.all();
}		}

uint64_t SDWASrcOperand::getSrcMods() const {		uint64_t SDWASrcOperand::getSrcMods(const SIInstrInfo *TII,
		const MachineOperand *SrcOp) const {
uint64_t Mods = 0;		uint64_t Mods = 0;
		const auto *MI = SrcOp->getParent();
		if (TII->getNamedOperand(*MI, AMDGPU::OpName::src0) == SrcOp) {
		if (auto Mod = TII->getNamedOperand(MI, AMDGPU::OpName::src0_modifiers)) {
		Mods = Mod->getImm();
		}
		} else if (TII->getNamedOperand(*MI, AMDGPU::OpName::src1) == SrcOp) {
		if (auto Mod = TII->getNamedOperand(MI, AMDGPU::OpName::src1_modifiers)) {
		Mods = Mod->getImm();
		}
		}
if (Abs \|\| Neg) {		if (Abs \|\| Neg) {
assert(!Sext &&		assert(!Sext &&
"Float and integer src modifiers can't be set simulteniously");		"Float and integer src modifiers can't be set simulteniously");
Mods \|= Abs ? SISrcMods::ABS : 0;		Mods \|= Abs ? SISrcMods::ABS : 0;
Mods \|= Neg ? SISrcMods::NEG : 0;		Mods ^= Neg ? SISrcMods::NEG : 0;
		SamWotUnsubmitted Not Done Reply Inline Actions Why do you use XOR here? SamWot: Why do you use XOR here?
		rampitecAuthorUnsubmitted Not Done Reply Inline Actions You can set neg modifier yoyrself, but it also can be present in the original instruction on the same operand. The right effective modifier is exactly xor of them. rampitec: You can set neg modifier yoyrself, but it also can be present in the original instruction on…
} else if (Sext) {		} else if (Sext) {
Mods \|= SISrcMods::SEXT;		Mods \|= SISrcMods::SEXT;
}		}

return Mods;		return Mods;
}		}

MachineInstr SDWASrcOperand::potentialToConvert(const SIInstrInfo TII) {		MachineInstr SDWASrcOperand::potentialToConvert(const SIInstrInfo TII) {
▲ Show 20 Lines • Show All 49 Lines • ▼ Show 20 Lines	if ((MI.getOpcode() == AMDGPU::V_MAC_F16_sdwa \|\|
// src2. This is not allowed.		// src2. This is not allowed.
return false;		return false;
}		}

assert(isSameReg(Src, getReplacedOperand()) && SrcSel && SrcMods);		assert(isSameReg(Src, getReplacedOperand()) && SrcSel && SrcMods);
}		}
copyRegOperand(Src, getTargetOperand());		copyRegOperand(Src, getTargetOperand());
SrcSel->setImm(getSrcSel());		SrcSel->setImm(getSrcSel());
SrcMods->setImm(getSrcMods());		SrcMods->setImm(getSrcMods(TII, Src));
getTargetOperand()->setIsKill(false);		getTargetOperand()->setIsKill(false);
return true;		return true;
}		}

MachineInstr SDWADstOperand::potentialToConvert(const SIInstrInfo TII) {		MachineInstr SDWADstOperand::potentialToConvert(const SIInstrInfo TII) {
// For SDWA dst operand potential instruction is one that defines register		// For SDWA dst operand potential instruction is one that defines register
// that this operand uses		// that this operand uses
MachineRegisterInfo *MRI = getMRI();		MachineRegisterInfo *MRI = getMRI();
▲ Show 20 Lines • Show All 80 Lines • ▼ Show 20 Lines

void SIPeepholeSDWA::matchSDWAOperands(MachineFunction &MF) {		void SIPeepholeSDWA::matchSDWAOperands(MachineFunction &MF) {
for (MachineBasicBlock &MBB : MF) {		for (MachineBasicBlock &MBB : MF) {
for (MachineInstr &MI : MBB) {		for (MachineInstr &MI : MBB) {
unsigned Opcode = MI.getOpcode();		unsigned Opcode = MI.getOpcode();
switch (Opcode) {		switch (Opcode) {
case AMDGPU::V_LSHRREV_B32_e32:		case AMDGPU::V_LSHRREV_B32_e32:
case AMDGPU::V_ASHRREV_I32_e32:		case AMDGPU::V_ASHRREV_I32_e32:
case AMDGPU::V_LSHLREV_B32_e32: {		case AMDGPU::V_LSHLREV_B32_e32:
		case AMDGPU::V_LSHRREV_B32_e64:
		case AMDGPU::V_ASHRREV_I32_e64:
		case AMDGPU::V_LSHLREV_B32_e64: {
// from: v_lshrrev_b32_e32 v1, 16/24, v0		// from: v_lshrrev_b32_e32 v1, 16/24, v0
// to SDWA src:v0 src_sel:WORD_1/BYTE_3		// to SDWA src:v0 src_sel:WORD_1/BYTE_3

// from: v_ashrrev_i32_e32 v1, 16/24, v0		// from: v_ashrrev_i32_e32 v1, 16/24, v0
// to SDWA src:v0 src_sel:WORD_1/BYTE_3 sext:1		// to SDWA src:v0 src_sel:WORD_1/BYTE_3 sext:1

// from: v_lshlrev_b32_e32 v1, 16/24, v0		// from: v_lshlrev_b32_e32 v1, 16/24, v0
// to SDWA dst:v1 dst_sel:WORD_1/BYTE_3 dst_unused:UNUSED_PAD		// to SDWA dst:v1 dst_sel:WORD_1/BYTE_3 dst_unused:UNUSED_PAD
MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);		MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);
auto Imm = foldToImm(*Src0);		auto Imm = foldToImm(*Src0);
if (!Imm)		if (!Imm)
break;		break;

if (Imm != 16 && Imm != 24)		if (Imm != 16 && Imm != 24)
break;		break;

MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);		MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);
MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);		MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);
if (TRI->isPhysicalRegister(Src1->getReg()) \|\|		if (TRI->isPhysicalRegister(Src1->getReg()) \|\|
TRI->isPhysicalRegister(Dst->getReg()))		TRI->isPhysicalRegister(Dst->getReg()))
break;		break;

if (Opcode == AMDGPU::V_LSHLREV_B32_e32) {		if (Opcode == AMDGPU::V_LSHLREV_B32_e32 \|\|
		Opcode == AMDGPU::V_LSHLREV_B32_e64) {
auto SDWADst = make_unique<SDWADstOperand>(		auto SDWADst = make_unique<SDWADstOperand>(
Dst, Src1, *Imm == 16 ? WORD_1 : BYTE_3, UNUSED_PAD);		Dst, Src1, *Imm == 16 ? WORD_1 : BYTE_3, UNUSED_PAD);
DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWADst << '\n');		DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWADst << '\n');
SDWAOperands[&MI] = std::move(SDWADst);		SDWAOperands[&MI] = std::move(SDWADst);
++NumSDWAPatternsFound;		++NumSDWAPatternsFound;
} else {		} else {
auto SDWASrc = make_unique<SDWASrcOperand>(		auto SDWASrc = make_unique<SDWASrcOperand>(
Src1, Dst, *Imm == 16 ? WORD_1 : BYTE_3, false, false,		Src1, Dst, *Imm == 16 ? WORD_1 : BYTE_3, false, false,
Opcode == AMDGPU::V_LSHRREV_B32_e32 ? false : true);		Opcode != AMDGPU::V_LSHRREV_B32_e32 &&
		Opcode != AMDGPU::V_LSHRREV_B32_e64);
DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');		DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');
SDWAOperands[&MI] = std::move(SDWASrc);		SDWAOperands[&MI] = std::move(SDWASrc);
++NumSDWAPatternsFound;		++NumSDWAPatternsFound;
}		}
break;		break;
}		}

case AMDGPU::V_LSHRREV_B16_e32:		case AMDGPU::V_LSHRREV_B16_e32:
case AMDGPU::V_ASHRREV_I16_e32:		case AMDGPU::V_ASHRREV_I16_e32:
case AMDGPU::V_LSHLREV_B16_e32: {		case AMDGPU::V_LSHLREV_B16_e32:
		case AMDGPU::V_LSHRREV_B16_e64:
		case AMDGPU::V_ASHRREV_I16_e64:
		case AMDGPU::V_LSHLREV_B16_e64: {
// from: v_lshrrev_b16_e32 v1, 8, v0		// from: v_lshrrev_b16_e32 v1, 8, v0
// to SDWA src:v0 src_sel:BYTE_1		// to SDWA src:v0 src_sel:BYTE_1

// from: v_ashrrev_i16_e32 v1, 8, v0		// from: v_ashrrev_i16_e32 v1, 8, v0
// to SDWA src:v0 src_sel:BYTE_1 sext:1		// to SDWA src:v0 src_sel:BYTE_1 sext:1

// from: v_lshlrev_b16_e32 v1, 8, v0		// from: v_lshlrev_b16_e32 v1, 8, v0
// to SDWA dst:v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD		// to SDWA dst:v1 dst_sel:BYTE_1 dst_unused:UNUSED_PAD
MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);		MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);
auto Imm = foldToImm(*Src0);		auto Imm = foldToImm(*Src0);
if (!Imm \|\| *Imm != 8)		if (!Imm \|\| *Imm != 8)
break;		break;

MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);		MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);
MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);		MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);

if (TRI->isPhysicalRegister(Src1->getReg()) \|\|		if (TRI->isPhysicalRegister(Src1->getReg()) \|\|
TRI->isPhysicalRegister(Dst->getReg()))		TRI->isPhysicalRegister(Dst->getReg()))
break;		break;

if (Opcode == AMDGPU::V_LSHLREV_B16_e32) {		if (Opcode == AMDGPU::V_LSHLREV_B16_e32 \|\|
		Opcode == AMDGPU::V_LSHLREV_B16_e64) {
auto SDWADst =		auto SDWADst =
make_unique<SDWADstOperand>(Dst, Src1, BYTE_1, UNUSED_PAD);		make_unique<SDWADstOperand>(Dst, Src1, BYTE_1, UNUSED_PAD);
DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWADst << '\n');		DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWADst << '\n');
SDWAOperands[&MI] = std::move(SDWADst);		SDWAOperands[&MI] = std::move(SDWADst);
++NumSDWAPatternsFound;		++NumSDWAPatternsFound;
} else {		} else {
auto SDWASrc = make_unique<SDWASrcOperand>(		auto SDWASrc = make_unique<SDWASrcOperand>(
Src1, Dst, BYTE_1, false, false,		Src1, Dst, BYTE_1, false, false,
Opcode == AMDGPU::V_LSHRREV_B16_e32 ? false : true);		Opcode != AMDGPU::V_LSHRREV_B16_e32 &&
		Opcode != AMDGPU::V_LSHRREV_B16_e64);
DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');		DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');
SDWAOperands[&MI] = std::move(SDWASrc);		SDWAOperands[&MI] = std::move(SDWASrc);
++NumSDWAPatternsFound;		++NumSDWAPatternsFound;
}		}
break;		break;
}		}

case AMDGPU::V_BFE_I32:		case AMDGPU::V_BFE_I32:
▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	for (MachineInstr &MI : MBB) {
auto SDWASrc = make_unique<SDWASrcOperand>(		auto SDWASrc = make_unique<SDWASrcOperand>(
Src0, Dst, SrcSel, false, false,		Src0, Dst, SrcSel, false, false,
Opcode == AMDGPU::V_BFE_U32 ? false : true);		Opcode == AMDGPU::V_BFE_U32 ? false : true);
DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');		DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');
SDWAOperands[&MI] = std::move(SDWASrc);		SDWAOperands[&MI] = std::move(SDWASrc);
++NumSDWAPatternsFound;		++NumSDWAPatternsFound;
break;		break;
}		}
case AMDGPU::V_AND_B32_e32: {		case AMDGPU::V_AND_B32_e32:
		case AMDGPU::V_AND_B32_e64: {
// e.g.:		// e.g.:
// from: v_and_b32_e32 v1, 0x0000ffff/0x000000ff, v0		// from: v_and_b32_e32 v1, 0x0000ffff/0x000000ff, v0
// to SDWA src:v0 src_sel:WORD_0/BYTE_0		// to SDWA src:v0 src_sel:WORD_0/BYTE_0

MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);		MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);
		MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);
		auto ValSrc = Src1;
auto Imm = foldToImm(*Src0);		auto Imm = foldToImm(*Src0);
if (!Imm)
break;

if (Imm != 0x0000ffff && Imm != 0x000000ff)		if (!Imm) {
		Imm = foldToImm(*Src1);
		ValSrc = Src0;
		}

		if (!Imm \|\| (Imm != 0x0000ffff && Imm != 0x000000ff))
break;		break;

MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);
MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);		MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);

if (TRI->isPhysicalRegister(Src1->getReg()) \|\|		if (TRI->isPhysicalRegister(Src1->getReg()) \|\|
TRI->isPhysicalRegister(Dst->getReg()))		TRI->isPhysicalRegister(Dst->getReg()))
break;		break;

auto SDWASrc = make_unique<SDWASrcOperand>(		auto SDWASrc = make_unique<SDWASrcOperand>(
Src1, Dst, *Imm == 0x0000ffff ? WORD_0 : BYTE_0);		ValSrc, Dst, *Imm == 0x0000ffff ? WORD_0 : BYTE_0);
DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');		DEBUG(dbgs() << "Match: " << MI << "To: " << *SDWASrc << '\n');
SDWAOperands[&MI] = std::move(SDWASrc);		SDWAOperands[&MI] = std::move(SDWASrc);
++NumSDWAPatternsFound;		++NumSDWAPatternsFound;
break;		break;
}		}
}		}
}		}
}		}
}		}

bool SIPeepholeSDWA::isConvertibleToSDWA(const MachineInstr &MI) const {		bool SIPeepholeSDWA::isConvertibleToSDWA(const MachineInstr &MI) const {
// Check if this instruction has opcode that supports SDWA		// Check if this instruction has opcode that supports SDWA
return AMDGPU::getSDWAOp(MI.getOpcode()) != -1;		unsigned Opc = MI.getOpcode();
		if (AMDGPU::getSDWAOp(Opc) != -1)
		return true;
		int Opc32 = AMDGPU::getVOPe32(Opc);
		if (Opc32 != -1 && AMDGPU::getSDWAOp(Opc32) != -1)
		SamWotUnsubmitted Done Reply Inline Actions This check isn't strong enough. E.g. VOP3 (e64) instructions allow OMod that is not allowed in SDWA on VI. Another problem is SDST operand. E.g. this is a valid instruction: v_add_i32_e64 v0, s[0:1], v1, v2. It writes carry-out into s[0:1] instead of VCC. Same problem can be with VOPC version of VOP3. You should either check for SDST operand or add special legalizer for it. SamWot: This check isn't strong enough. E.g. VOP3 (e64) instructions allow OMod that is not allowed in…
		rampitecAuthorUnsubmitted Done Reply Inline Actions The VOPC is checked down in the convertToSDWA, but in general checks for omod and sdst are needed here. I will add them. rampitec: The VOPC is checked down in the convertToSDWA, but in general checks for omod and sdst are…
		return !TII->hasModifiersSet(MI, AMDGPU::OpName::omod) &&
		!TII->getNamedOperand(MI, AMDGPU::OpName::sdst);
		return false;
}		}

bool SIPeepholeSDWA::convertToSDWA(MachineInstr &MI,		bool SIPeepholeSDWA::convertToSDWA(MachineInstr &MI,
const SDWAOperandsVector &SDWAOperands) {		const SDWAOperandsVector &SDWAOperands) {
// Convert to sdwa		// Convert to sdwa
int SDWAOpcode = AMDGPU::getSDWAOp(MI.getOpcode());		int SDWAOpcode = AMDGPU::getSDWAOp(MI.getOpcode());
		if (SDWAOpcode == -1)
		SDWAOpcode = AMDGPU::getSDWAOp(AMDGPU::getVOPe32(MI.getOpcode()));
assert(SDWAOpcode != -1);		assert(SDWAOpcode != -1);

		// Copy dst, if it is present in original then should also be present in SDWA
		MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);
		if (!Dst && !TII->isVOPC(MI))
		return false;

const MCInstrDesc &SDWADesc = TII->get(SDWAOpcode);		const MCInstrDesc &SDWADesc = TII->get(SDWAOpcode);

// Create SDWA version of instruction MI and initialize its operands		// Create SDWA version of instruction MI and initialize its operands
MachineInstrBuilder SDWAInst =		MachineInstrBuilder SDWAInst =
BuildMI(*MI.getParent(), MI, MI.getDebugLoc(), SDWADesc);		BuildMI(*MI.getParent(), MI, MI.getDebugLoc(), SDWADesc);

// Copy dst, if it is present in original then should also be present in SDWA
MachineOperand *Dst = TII->getNamedOperand(MI, AMDGPU::OpName::vdst);
if (Dst) {		if (Dst) {
assert(AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::vdst) != -1);		assert(AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::vdst) != -1);
SDWAInst.add(*Dst);		SDWAInst.add(*Dst);
} else {
assert(TII->isVOPC(MI));
}		}

// Copy src0, initialize src0_modifiers. All sdwa instructions has src0 and		// Copy src0, initialize src0_modifiers. All sdwa instructions has src0 and
// src0_modifiers (except for v_nop_sdwa, but it can't get here)		// src0_modifiers (except for v_nop_sdwa, but it can't get here)
MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);		MachineOperand *Src0 = TII->getNamedOperand(MI, AMDGPU::OpName::src0);
assert(		assert(
Src0 &&		Src0 &&
AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src0) != -1 &&		AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src0) != -1 &&
AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src0_modifiers) != -1);		AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src0_modifiers) != -1);
		if (auto *Mod = TII->getNamedOperand(MI, AMDGPU::OpName::src0_modifiers))
		SDWAInst.addImm(Mod->getImm());
		else
SDWAInst.addImm(0);		SDWAInst.addImm(0);
SDWAInst.add(*Src0);		SDWAInst.add(*Src0);

// Copy src1 if present, initialize src1_modifiers.		// Copy src1 if present, initialize src1_modifiers.
MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);		MachineOperand *Src1 = TII->getNamedOperand(MI, AMDGPU::OpName::src1);
if (Src1) {		if (Src1) {
assert(		assert(
AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src1) != -1 &&		AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src1) != -1 &&
AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src1_modifiers) != -1);		AMDGPU::getNamedOperandIdx(SDWAOpcode, AMDGPU::OpName::src1_modifiers) != -1);
		if (auto *Mod = TII->getNamedOperand(MI, AMDGPU::OpName::src1_modifiers))
		SDWAInst.addImm(Mod->getImm());
		else
SDWAInst.addImm(0);		SDWAInst.addImm(0);
SDWAInst.add(*Src1);		SDWAInst.add(*Src1);
} else {
assert(TII->isVOP1(MI));
}		}

if (SDWAOpcode == AMDGPU::V_MAC_F16_sdwa \|\|		if (SDWAOpcode == AMDGPU::V_MAC_F16_sdwa \|\|
SDWAOpcode == AMDGPU::V_MAC_F32_sdwa) {		SDWAOpcode == AMDGPU::V_MAC_F32_sdwa) {
// v_mac_f16/32 has additional src2 operand tied to vdst		// v_mac_f16/32 has additional src2 operand tied to vdst
MachineOperand *Src2 = TII->getNamedOperand(MI, AMDGPU::OpName::src2);		MachineOperand *Src2 = TII->getNamedOperand(MI, AMDGPU::OpName::src2);
assert(Src2);		assert(Src2);
SDWAInst.add(*Src2);		SDWAInst.add(*Src2);
▲ Show 20 Lines • Show All 116 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/add.v2i16.ll

	Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	}			}

	; GCN-LABEL: {{^}}v_test_add_v2i16_constant:			; GCN-LABEL: {{^}}v_test_add_v2i16_constant:
	; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}			; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}
	; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]			; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

	; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x7b, v{{[0-9]+}}			; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x7b, v{{[0-9]+}}
	; VI-DAG: v_mov_b32_e32 v[[SCONST:[0-9]+]], 0x1c8			; VI-DAG: v_mov_b32_e32 v[[SCONST:[0-9]+]], 0x1c8
	; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v[[SCONST]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[SCONST]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	define amdgpu_kernel void @v_test_add_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {			define amdgpu_kernel void @v_test_add_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	%add = add <2 x i16> %a, <i16 123, i16 456>			%add = add <2 x i16> %a, <i16 123, i16 456>
	store <2 x i16> %add, <2 x i16> addrspace(1)* %out			store <2 x i16> %add, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; FIXME: Need to handle non-uniform case for function below (load without gep).			; FIXME: Need to handle non-uniform case for function below (load without gep).
	; GCN-LABEL: {{^}}v_test_add_v2i16_neg_constant:			; GCN-LABEL: {{^}}v_test_add_v2i16_neg_constant:
	; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}			; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}
	; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]			; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

	; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xfffffcb3, v{{[0-9]+}}			; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xfffffcb3, v{{[0-9]+}}
	; VI-DAG: v_mov_b32_e32 v[[SCONST:[0-9]+]], 0xfffffc21			; VI-DAG: v_mov_b32_e32 v[[SCONST:[0-9]+]], 0xfffffc21
	; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v[[SCONST]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[SCONST]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	define amdgpu_kernel void @v_test_add_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {			define amdgpu_kernel void @v_test_add_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	%add = add <2 x i16> %a, <i16 -845, i16 -991>			%add = add <2 x i16> %a, <i16 -845, i16 -991>
	store <2 x i16> %add, <2 x i16> addrspace(1)* %out			store <2 x i16> %add, <2 x i16> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}v_test_add_v2i16_inline_neg1:			; GCN-LABEL: {{^}}v_test_add_v2i16_inline_neg1:
	; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}			; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}

	; VI: v_mov_b32_e32 v[[SCONST:[0-9]+]], -1			; VI: v_mov_b32_e32 v[[SCONST:[0-9]+]], -1
	; VI: flat_load_ushort [[LOAD0:v[0-9]+]]			; VI: flat_load_ushort [[LOAD0:v[0-9]+]]
	; VI: flat_load_ushort [[LOAD1:v[0-9]+]]			; VI: flat_load_ushort [[LOAD1:v[0-9]+]]
	; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v[[SCONST]], [[LOAD0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[LOAD0]], v[[SCONST]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, -1, [[LOAD1]]			; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, -1, [[LOAD1]]
	; VI: v_or_b32_e32			; VI: v_or_b32_e32
	define amdgpu_kernel void @v_test_add_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {			define amdgpu_kernel void @v_test_add_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	%add = add <2 x i16> %a, <i16 -1, i16 -1>			%add = add <2 x i16> %a, <i16 -1, i16 -1>
	Show All 22 Lines

	; The high element gives fp			; The high element gives fp
	; GCN-LABEL: {{^}}v_test_add_v2i16_inline_fp_split:			; GCN-LABEL: {{^}}v_test_add_v2i16_inline_fp_split:
	; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0			; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0
	; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]{{$}}			; GFX9: v_pk_add_u16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]{{$}}

	; VI-NOT: v_add_u16			; VI-NOT: v_add_u16
	; VI: v_mov_b32_e32 v[[K:[0-9]+]], 0x3f80			; VI: v_mov_b32_e32 v[[K:[0-9]+]], 0x3f80
	; VI: v_add_u16_sdwa v{{[0-9]+}}, v[[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[K]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NOT: v_add_u16			; VI-NOT: v_add_u16
	; VI: v_or_b32_e32			; VI: v_or_b32_e32
	define amdgpu_kernel void @v_test_add_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {			define amdgpu_kernel void @v_test_add_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid			%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
	%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0			%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
	%add = add <2 x i16> %a, <i16 0, i16 16256>			%add = add <2 x i16> %a, <i16 0, i16 16256>
	▲ Show 20 Lines • Show All 132 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/ashr.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s

	; GCN-LABEL: {{^}}s_ashr_v2i16:			; GCN-LABEL: {{^}}s_ashr_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_ashrrev_i16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_ashrrev_i16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

	; VI: v_ashrrev_i32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_ashrrev_i32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

	; CI: v_ashrrev_i32_e32			; CI: v_ashrrev_i32_e32
	; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}			; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}
	; CI: v_ashrrev_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_ashrrev_i32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
	; CI: v_or_b32_e32			; CI: v_or_b32_e32
	define amdgpu_kernel void @s_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {			define amdgpu_kernel void @s_ashr_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = ashr <2 x i16> %lhs, %rhs			%result = ashr <2 x i16> %lhs, %rhs
	▲ Show 20 Lines • Show All 141 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fabs.f16.ll

	Show All 34 Lines
	; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,			; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,
	; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]			; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]
	; CI: v_or_b32_e32			; CI: v_or_b32_e32

	; VI: flat_load_ushort [[HI:v[0-9]+]]			; VI: flat_load_ushort [[HI:v[0-9]+]]
	; VI: flat_load_ushort [[LO:v[0-9]+]]			; VI: flat_load_ushort [[LO:v[0-9]+]]
	; VI: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x7fff{{$}}			; VI: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x7fff{{$}}
	; VI-DAG: v_and_b32_e32 [[FABS_LO:v[0-9]+]], [[MASK]], [[HI]]			; VI-DAG: v_and_b32_e32 [[FABS_LO:v[0-9]+]], [[MASK]], [[HI]]
	; VI-DAG: v_and_b32_sdwa [[FABS_HI:v[0-9]+]], [[MASK]], [[LO]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_and_b32_sdwa [[FABS_HI:v[0-9]+]], [[LO]], [[MASK]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, [[FABS_HI]], [[FABS_LO]]			; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, [[FABS_HI]], [[FABS_LO]]
	; VI: flat_store_dword			; VI: flat_store_dword

	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: s_and_b32 s{{[0-9]+}}, [[VAL]], 0x7fff7fff			; GFX9: s_and_b32 s{{[0-9]+}}, [[VAL]], 0x7fff7fff
	define amdgpu_kernel void @s_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {			define amdgpu_kernel void @s_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {
	%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)			%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)
	store <2 x half> %fabs, <2 x half> addrspace(1)* %out			store <2 x half> %fabs, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}s_fabs_v4f16:			; GCN-LABEL: {{^}}s_fabs_v4f16:
	; CI: s_movk_i32 [[MASK:s[0-9]+]], 0x7fff			; CI: s_movk_i32 [[MASK:s[0-9]+]], 0x7fff
	; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]			; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]
	; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]			; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]
	; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]			; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]
	; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]			; CI: v_and_b32_e32 v{{[0-9]+}}, [[MASK]]

	; VI: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x7fff{{$}}			; VI: v_mov_b32_e32 [[MASK:v[0-9]+]], 0x7fff{{$}}
	; VI-DAG: v_and_b32_sdwa v{{[0-9]+}}, [[MASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[MASK]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-DAG: v_and_b32_sdwa v{{[0-9]+}}, [[MASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[MASK]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, [[MASK]], v{{[0-9]+}}			; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, [[MASK]], v{{[0-9]+}}
	; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, [[MASK]], v{{[0-9]+}}			; VI-DAG: v_and_b32_e32 v{{[0-9]+}}, [[MASK]], v{{[0-9]+}}
	; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI-DAG: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

	; GCN: flat_store_dwordx2			; GCN: flat_store_dwordx2
	define amdgpu_kernel void @s_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {			define amdgpu_kernel void @s_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {
	%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)			%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)
	▲ Show 20 Lines • Show All 50 Lines • ▼ Show 20 Lines
	; CI: v_cvt_f32_f16_e32			; CI: v_cvt_f32_f16_e32
	; CI: v_cvt_f32_f16_e32			; CI: v_cvt_f32_f16_e32
	; CI: v_mul_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}			; CI: v_mul_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}
	; CI: v_cvt_f16_f32			; CI: v_cvt_f16_f32
	; CI: v_mul_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}			; CI: v_mul_f32_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}
	; CI: v_cvt_f16_f32			; CI: v_cvt_f16_f32

	; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,			; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,
	; VI: v_mul_f16_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}			; VI: v_mul_f16_sdwa v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI: v_mul_f16_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}			; VI: v_mul_f16_e64 v{{[0-9]+}}, \|v{{[0-9]+}}\|, v{{[0-9]+}}

	; GFX9: v_and_b32_e32 [[FABS:v[0-9]+]], 0x7fff7fff, [[VAL]]			; GFX9: v_and_b32_e32 [[FABS:v[0-9]+]], 0x7fff7fff, [[VAL]]
	; GFX9: v_pk_mul_f16 v{{[0-9]+}}, [[FABS]], v{{[0-9]+$}}			; GFX9: v_pk_mul_f16 v{{[0-9]+}}, [[FABS]], v{{[0-9]+$}}
	define amdgpu_kernel void @v_fabs_fold_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {			define amdgpu_kernel void @v_fabs_fold_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
	%val = load <2 x half>, <2 x half> addrspace(1)* %in			%val = load <2 x half>, <2 x half> addrspace(1)* %in
	%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)			%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %val)
	%fmul = fmul <2 x half> %fabs, %val			%fmul = fmul <2 x half> %fabs, %val
	Show All 11 Lines

test/CodeGen/AMDGPU/fadd.f16.ll

	Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32_0]]			; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32_0]]
	; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]			; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_add_f16_e32 v[[R_F16_LO:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]			; VI-DAG: v_add_f16_e32 v[[R_F16_LO:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]
	; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fadd_v2f16(			define amdgpu_kernel void @fadd_v2f16(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b) {			<2 x half> addrspace(1)* %b) {
	Show All 13 Lines
	; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]			; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 1.0, v[[B_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]			; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 2.0, v[[B_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_mov_b32_e32 v[[CONST2:[0-9]+]], 0x4000			; VI-DAG: v_mov_b32_e32 v[[CONST2:[0-9]+]], 0x4000
	; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[CONST2]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[CONST2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]			; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], 1.0, v[[B_V2_F16]]
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fadd_v2f16_imm_a(			define amdgpu_kernel void @fadd_v2f16_imm_a(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %b) {			<2 x half> addrspace(1)* %b) {
	Show All 12 Lines
	; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 2.0, v[[A_F32_0]]			; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], 2.0, v[[A_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 1.0, v[[A_F32_1]]			; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], 1.0, v[[A_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00			; VI-DAG: v_mov_b32_e32 v[[CONST1:[0-9]+]], 0x3c00
	; VI-DAG: v_add_f16_sdwa v[[R_F16_0:[0-9]+]], v[[CONST1]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v[[R_F16_0:[0-9]+]], v[[A_V2_F16]], v[[CONST1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[A_V2_F16]]			; VI-DAG: v_add_f16_e32 v[[R_F16_1:[0-9]+]], 2.0, v[[A_V2_F16]]
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_0]], v[[R_F16_1]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fadd_v2f16_imm_b(			define amdgpu_kernel void @fadd_v2f16_imm_b(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a) {			<2 x half> addrspace(1)* %a) {
	entry:			entry:
	%a.val = load <2 x half>, <2 x half> addrspace(1)* %a			%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
	%r.val = fadd <2 x half> %a.val, <half 2.0, half 1.0>			%r.val = fadd <2 x half> %a.val, <half 2.0, half 1.0>
	store <2 x half> %r.val, <2 x half> addrspace(1)* %r			store <2 x half> %r.val, <2 x half> addrspace(1)* %r
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/fcanonicalize.f16.ll

Show First 20 Lines • Show All 272 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_test_canonicalize_fneg_var_v2f16(<2 x half> addrspace(1)* %out) #1 {
%val = load <2 x half>, <2 x half> addrspace(1)* %out		%val = load <2 x half>, <2 x half> addrspace(1)* %out
%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val		%fneg.val = fsub <2 x half> <half -0.0, half -0.0>, %val
%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)		%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %fneg.val)
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out		store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}s_test_canonicalize_var_v2f16:		; GCN-LABEL: {{^}}s_test_canonicalize_var_v2f16:
; VI: v_mul_f16_e64 [[REG0:v[0-9]+]], 1.0, {{s[0-9]+}}		; VI: v_mov_b32_e32 [[ONE:v[0-9]+]], 0x3c00
; VI-DAG: v_mul_f16_e64 [[REG1:v[0-9]+]], 1.0, {{s[0-9]+}}		; VI: v_mul_f16_sdwa [[REG0:v[0-9]+]], [[ONE]], {{v[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16,		; VI: v_mul_f16_e64 [[REG1:v[0-9]+]], 1.0, {{s[0-9]+}}
; VI-NOT: v_and_b32		; VI-NOT: v_and_b32

; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{s[0-9]+$}}		; GFX9: v_pk_mul_f16 [[REG:v[0-9]+]], 1.0, {{s[0-9]+$}}
; GFX9: buffer_store_dword [[REG]]		; GFX9: buffer_store_dword [[REG]]
define amdgpu_kernel void @s_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out, i32 zeroext %val.arg) #1 {		define amdgpu_kernel void @s_test_canonicalize_var_v2f16(<2 x half> addrspace(1)* %out, i32 zeroext %val.arg) #1 {
%val = bitcast i32 %val.arg to <2 x half>		%val = bitcast i32 %val.arg to <2 x half>
%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)		%canonicalized = call <2 x half> @llvm.canonicalize.v2f16(<2 x half> %val)
store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out		store <2 x half> %canonicalized, <2 x half> addrspace(1)* %out
▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fmul.f16.ll

	Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32_0]]			; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32_0]]
	; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]			; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_mul_f16_e32 v[[R_F16_LO:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]			; VI-DAG: v_mul_f16_e32 v[[R_F16_LO:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]
	; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmul_v2f16(			define amdgpu_kernel void @fmul_v2f16(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	<2 x half> addrspace(1)* %b) {			<2 x half> addrspace(1)* %b) {
	Show All 10 Lines
	; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
	; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]			; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]			; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; VI-DAG: v_mov_b32_e32 v[[CONST4:[0-9]+]], 0x4400			; VI-DAG: v_mov_b32_e32 v[[CONST4:[0-9]+]], 0x4400
	; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[CONST4]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]			; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmul_v2f16_imm_a(			define amdgpu_kernel void @fmul_v2f16_imm_a(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %b) {			<2 x half> addrspace(1)* %b) {
	Show All 9 Lines
	; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]			; SI: v_mul_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]			; SI: v_mul_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; VI-DAG: v_mov_b32_e32 v[[CONST3:[0-9]+]], 0x4200			; VI-DAG: v_mov_b32_e32 v[[CONST3:[0-9]+]], 0x4200
	; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[CONST3]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_mul_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]			; VI-DAG: v_mul_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @fmul_v2f16_imm_b(			define amdgpu_kernel void @fmul_v2f16_imm_b(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a) {			<2 x half> addrspace(1)* %a) {
	entry:			entry:
	%a.val = load <2 x half>, <2 x half> addrspace(1)* %a			%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
	%r.val = fmul <2 x half> %a.val, <half 4.0, half 3.0>			%r.val = fmul <2 x half> %a.val, <half 4.0, half 3.0>
	store <2 x half> %r.val, <2 x half> addrspace(1)* %r			store <2 x half> %r.val, <2 x half> addrspace(1)* %r
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

Show First 20 Lines • Show All 67 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_fneg_fabs_f16(half addrspace(1)* %out, half addrspace(1)* %in) {
ret void		ret void
}		}

; FIXME: single bit op		; FIXME: single bit op
; GCN-LABEL: {{^}}s_fneg_fabs_v2f16:		; GCN-LABEL: {{^}}s_fneg_fabs_v2f16:
; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}		; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}
; VI: v_mov_b32_e32 [[VMASK:v[0-9]+]], [[MASK]]		; VI: v_mov_b32_e32 [[VMASK:v[0-9]+]], [[MASK]]
; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; VI: v_or_b32_sdwa v{{[0-9]+}}, [[VMASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[VMASK]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CIVI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CIVI: flat_store_dword		; CIVI: flat_store_dword

; GFX9: s_or_b32 s{{[0-9]+}}, 0x80008000, s{{[0-9]+}}		; GFX9: s_or_b32 s{{[0-9]+}}, 0x80008000, s{{[0-9]+}}
define amdgpu_kernel void @s_fneg_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {		define amdgpu_kernel void @s_fneg_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) {
%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)		%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)
%fneg.fabs = fsub <2 x half> <half -0.0, half -0.0>, %fabs		%fneg.fabs = fsub <2 x half> <half -0.0, half -0.0>, %fabs
store <2 x half> %fneg.fabs, <2 x half> addrspace(1)* %out		store <2 x half> %fneg.fabs, <2 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fneg_fabs_v4f16:		; GCN-LABEL: {{^}}fneg_fabs_v4f16:
; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}		; CIVI: s_mov_b32 [[MASK:s[0-9]+]], 0x8000{{$}}
; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; CI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; VI: v_mov_b32_e32 [[VMASK:v[0-9]+]], [[MASK]]		; VI: v_mov_b32_e32 [[VMASK:v[0-9]+]], [[MASK]]
; VI: v_or_b32_sdwa v{{[0-9]+}}, [[VMASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[VMASK]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; VI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],
; VI: v_or_b32_sdwa v{{[0-9]+}}, [[VMASK]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[VMASK]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],		; VI: v_or_b32_e32 v{{[0-9]+}}, [[MASK]],

; GFX9: s_mov_b32 [[MASK:s[0-9]+]], 0x80008000		; GFX9: s_mov_b32 [[MASK:s[0-9]+]], 0x80008000
; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}		; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}
; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}		; GFX9: s_or_b32 s{{[0-9]+}}, [[MASK]], s{{[0-9]+}}

; GCN: flat_store_dwordx2		; GCN: flat_store_dwordx2
define amdgpu_kernel void @fneg_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {		define amdgpu_kernel void @fneg_fabs_v4f16(<4 x half> addrspace(1)* %out, <4 x half> %in) {
%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)		%fabs = call <4 x half> @llvm.fabs.v4f16(<4 x half> %in)
%fsub = fsub <4 x half> <half -0.0, half -0.0, half -0.0, half -0.0>, %fabs		%fsub = fsub <4 x half> <half -0.0, half -0.0, half -0.0, half -0.0>, %fabs
store <4 x half> %fsub, <4 x half> addrspace(1)* %out		store <4 x half> %fsub, <4 x half> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}fold_user_fneg_fabs_v2f16:		; GCN-LABEL: {{^}}fold_user_fneg_fabs_v2f16:
; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|		; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|
; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|		; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|
; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}		; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}
; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}		; CI: v_mul_f32_e32 v{{[0-9]+}}, 4.0, v{{[0-9]+}}

; VI: v_mul_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|, 4.0		; VI: v_mul_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|, 4.0
; VI: v_mul_f16_e64 v{{[0-9]+}}, -\|v{{[0-9]+}}\|, 4.0		; VI: v_mul_f16_sdwa v{{[0-9]+}}, -\|v{{[0-9]+}}\|, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD

; GFX9: s_and_b32 [[ABS:s[0-9]+]], s{{[0-9]+}}, 0x7fff7fff		; GFX9: s_and_b32 [[ABS:s[0-9]+]], s{{[0-9]+}}, 0x7fff7fff
; GFX9: v_pk_mul_f16 v{{[0-9]+}}, [[ABS]], 4.0 neg_lo:[1,0] neg_hi:[1,0]		; GFX9: v_pk_mul_f16 v{{[0-9]+}}, [[ABS]], 4.0 neg_lo:[1,0] neg_hi:[1,0]
define amdgpu_kernel void @fold_user_fneg_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) #0 {		define amdgpu_kernel void @fold_user_fneg_fabs_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %in) #0 {
%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)		%fabs = call <2 x half> @llvm.fabs.v2f16(<2 x half> %in)
%fneg.fabs = fsub <2 x half> <half -0.0, half -0.0>, %fabs		%fneg.fabs = fsub <2 x half> <half -0.0, half -0.0>, %fabs
%mul = fmul <2 x half> %fneg.fabs, <half 4.0, half 4.0>		%mul = fmul <2 x half> %fneg.fabs, <half 4.0, half 4.0>
store <2 x half> %mul, <2 x half> addrspace(1)* %out		store <2 x half> %mul, <2 x half> addrspace(1)* %out
Show All 33 Lines

test/CodeGen/AMDGPU/fneg.f16.ll

	Show First 20 Lines • Show All 111 Lines • ▼ Show 20 Lines
	; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}			; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}
	; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}			; CI: v_cvt_f32_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}
	; CI: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; CI: v_cvt_f16_f32			; CI: v_cvt_f16_f32
	; CI: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_mul_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; CI: v_cvt_f16_f32			; CI: v_cvt_f16_f32

	; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,			; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,
	; VI: v_mul_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_mul_f16_sdwa v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI: v_mul_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_mul_f16_e64 v{{[0-9]+}}, -v{{[0-9]+}}, v{{[0-9]+}}

	; GFX9: v_pk_mul_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} neg_lo:[1,0] neg_hi:[1,0]{{$}}			; GFX9: v_pk_mul_f16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} neg_lo:[1,0] neg_hi:[1,0]{{$}}
	define amdgpu_kernel void @v_fneg_fold_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {			define amdgpu_kernel void @v_fneg_fold_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
	%val = load <2 x half>, <2 x half> addrspace(1)* %in			%val = load <2 x half>, <2 x half> addrspace(1)* %in
	%fsub = fsub <2 x half> <half -0.0, half -0.0>, %val			%fsub = fsub <2 x half> <half -0.0, half -0.0>, %val
	%fmul = fmul <2 x half> %fsub, %val			%fmul = fmul <2 x half> %fsub, %val
	store <2 x half> %fmul, <2 x half> addrspace(1)* %out			store <2 x half> %fmul, <2 x half> addrspace(1)* %out
	▲ Show 20 Lines • Show All 44 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fptosi.f16.ll

	Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SI: v_and_b32_e32 v[[R_I16_LO:[0-9]+]], 0xffff, v[[R_I16_0]]			; SI: v_and_b32_e32 v[[R_I16_LO:[0-9]+]], 0xffff, v[[R_I16_0]]
	; SI: v_lshlrev_b32_e32 v[[R_I16_HI:[0-9]+]], 16, v[[R_I16_1]]			; SI: v_lshlrev_b32_e32 v[[R_I16_HI:[0-9]+]], 16, v[[R_I16_1]]
	; SI: v_or_b32_e32 v[[R_V2_I16:[0-9]+]], v[[R_I16_HI]], v[[R_I16_LO]]			; SI: v_or_b32_e32 v[[R_V2_I16:[0-9]+]], v[[R_I16_HI]], v[[R_I16_LO]]

	; VI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; VI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; VI: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; VI: v_cvt_f32_f16_sdwa v[[A_F32_1:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; VI: v_cvt_i32_f32_e32 v[[R_I16_0:[0-9]+]], v[[A_F32_0]]			; VI: v_cvt_i32_f32_e32 v[[R_I16_0:[0-9]+]], v[[A_F32_0]]
	; VI: v_cvt_i32_f32_sdwa v[[R_I16_1:[0-9]+]], v[[A_F32_1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; VI: v_cvt_i32_f32_sdwa v[[R_I16_1:[0-9]+]], v[[A_F32_1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
	; VI: v_or_b32_sdwa v[[R_V2_I16:[0-9]+]], v[[R_I16_1]], v[[R_I16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI: v_or_b32_sdwa v[[R_V2_I16:[0-9]+]], v[[R_I16_0]], v[[R_I16_1]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

	; GCN: buffer_store_dword v[[R_V2_I16]]			; GCN: buffer_store_dword v[[R_V2_I16]]
	; GCN: s_endpgm			; GCN: s_endpgm

	define amdgpu_kernel void @fptosi_v2f16_to_v2i16(			define amdgpu_kernel void @fptosi_v2f16_to_v2i16(
	<2 x i16> addrspace(1)* %r,			<2 x i16> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a) {			<2 x half> addrspace(1)* %a) {
	entry:			entry:
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fptoui.f16.ll

	Show First 20 Lines • Show All 60 Lines • ▼ Show 20 Lines
	; SI: v_cvt_u32_f32_e32 v[[R_I16_0:[0-9]+]], v[[A_F32_0]]			; SI: v_cvt_u32_f32_e32 v[[R_I16_0:[0-9]+]], v[[A_F32_0]]
	; SI: v_lshlrev_b32_e32 v[[R_I16_HI:[0-9]+]], 16, v[[R_I16_1]]			; SI: v_lshlrev_b32_e32 v[[R_I16_HI:[0-9]+]], 16, v[[R_I16_1]]
	; SI: v_or_b32_e32 v[[R_V2_I16:[0-9]+]], v[[R_I16_HI]], v[[R_I16_0]]			; SI: v_or_b32_e32 v[[R_V2_I16:[0-9]+]], v[[R_I16_HI]], v[[R_I16_0]]

	; VI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_V2_F16]]			; VI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_V2_F16]]
	; VI-DAG: v_cvt_f32_f16_sdwa v[[A_F32_0:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1			; VI-DAG: v_cvt_f32_f16_sdwa v[[A_F32_0:[0-9]+]], v[[A_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1
	; VI: v_cvt_i32_f32_e32 v[[R_I16_1:[0-9]+]], v[[A_F32_1]]			; VI: v_cvt_i32_f32_e32 v[[R_I16_1:[0-9]+]], v[[A_F32_1]]
	; VI: v_cvt_i32_f32_sdwa v[[R_I16_0:[0-9]+]], v[[A_F32_0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD			; VI: v_cvt_i32_f32_sdwa v[[R_I16_0:[0-9]+]], v[[A_F32_0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD
	; VI: v_or_b32_sdwa v[[R_V2_I16:[0-9]+]], v[[R_I16_0]], v[[R_I16_1]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI: v_or_b32_sdwa v[[R_V2_I16:[0-9]+]], v[[R_I16_1]], v[[R_I16_0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

	; GCN: buffer_store_dword v[[R_V2_I16]]			; GCN: buffer_store_dword v[[R_V2_I16]]
	; GCN: s_endpgm			; GCN: s_endpgm

	define amdgpu_kernel void @fptoui_v2f16_to_v2i16(			define amdgpu_kernel void @fptoui_v2f16_to_v2i16(
	<2 x i16> addrspace(1)* %r,			<2 x i16> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a) {			<2 x half> addrspace(1)* %a) {
	entry:			entry:
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/fsub.f16.ll

	Show First 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; SI: v_subrev_f32_e32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32_0]]			; SI: v_subrev_f32_e32 v[[R_F32_0:[0-9]+]], v[[B_F32_0]], v[[A_F32_0]]
	; SI: v_subrev_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]			; SI: v_subrev_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_subrev_f16_e32 v[[R_F16_0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]			; VI-DAG: v_subrev_f16_e32 v[[R_F16_0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]
	; VI-DAG: v_subrev_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_sub_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] neg_lo:[0,1] neg_hi:[0,1]			; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] neg_lo:[0,1] neg_hi:[0,1]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm

	define amdgpu_kernel void @fsub_v2f16(			define amdgpu_kernel void @fsub_v2f16(
	▲ Show 20 Lines • Show All 51 Lines • ▼ Show 20 Lines
	; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], -2.0, v[[A_F32_0]]			; SI: v_add_f32_e32 v[[R_F32_0:[0-9]+]], -2.0, v[[A_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], -1.0, v[[A_F32_1]]			; SI: v_add_f32_e32 v[[R_F32_1:[0-9]+]], -1.0, v[[A_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00			; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00
	; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONSTM1]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[A_V2_F16]], [[CONSTM1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], -2.0, v[[A_V2_F16]]			; VI-DAG: v_add_f16_e32 v[[R_F16_0:[0-9]+]], -2.0, v[[A_V2_F16]]
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; GFX9: s_mov_b32 [[K:s[0-9]+]], 0xbc00c000			; GFX9: s_mov_b32 [[K:s[0-9]+]], 0xbc00c000
	; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]{{$}}			; GFX9: v_pk_add_f16 v[[R_V2_F16:[0-9]+]], v[[A_V2_F16]], [[K]]{{$}}

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	Show All 10 Lines

test/CodeGen/AMDGPU/immv216.ll

	Show First 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST0:v[0-9]+]], 0			; VI-DAG: v_mov_b32_e32 [[CONST0:v[0-9]+]], 0
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST0]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_0.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_0.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0.0, half 0.0>			%y = fadd <2 x half> %x, <half 0.0, half 0.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_0.5_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_0.5_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800			; VI-DAG: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST05]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST05]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0.5, half 0.5>			%y = fadd <2 x half> %x, <half 0.5, half 0.5>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_0.5_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -0.5{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -0.5{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -0.5, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -0.5, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM05:v[0-9]+]], 0xb800			; VI-DAG: v_mov_b32_e32 [[CONSTM05:v[0-9]+]], 0xb800
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM05]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM05]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -0.5, half -0.5>			%y = fadd <2 x half> %x, <half -0.5, half -0.5>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_1.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1.0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST1:v[0-9]+]], 0x3c00			; VI-DAG: v_mov_b32_e32 [[CONST1:v[0-9]+]], 0x3c00
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 1.0, half 1.0>			%y = fadd <2 x half> %x, <half 1.0, half 1.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_1.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1.0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00			; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xbc00
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_1.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -1.0, half -1.0>			%y = fadd <2 x half> %x, <half -1.0, half -1.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_2.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2.0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000			; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 0x4000
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 2.0, half 2.0>			%y = fadd <2 x half> %x, <half 2.0, half 2.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_2.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2.0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM2:v[0-9]+]], 0xc000			; VI-DAG: v_mov_b32_e32 [[CONSTM2:v[0-9]+]], 0xc000
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_2.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -2.0, half -2.0>			%y = fadd <2 x half> %x, <half -2.0, half -2.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_4.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_4.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 4.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 4.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 4.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 4.0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400			; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST4]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 4.0, half 4.0>			%y = fadd <2 x half> %x, <half 4.0, half 4.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_4.0_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -4.0{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -4.0{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -4.0, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -4.0, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM4:v[0-9]+]], 0xc400			; VI-DAG: v_mov_b32_e32 [[CONSTM4:v[0-9]+]], 0xc400
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM4]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_4.0_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half -4.0, half -4.0>			%y = fadd <2 x half> %x, <half -4.0, half -4.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_v2f16:			; GCN-LABEL: {{^}}commute_add_inline_imm_0.5_v2f16:
	; GFX9: buffer_load_dword [[VAL:v[0-9]+]]			; GFX9: buffer_load_dword [[VAL:v[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 0.5
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800			; VI: v_mov_b32_e32 [[CONST05:v[0-9]+]], 0x3800
	; VI: buffer_load_dword			; VI: buffer_load_dword
	; VI-NOT: and			; VI-NOT: and
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST05]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[CONST05]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 0.5, v{{[0-9]+}}
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @commute_add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {			define amdgpu_kernel void @commute_add_inline_imm_0.5_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
	%x = load <2 x half>, <2 x half> addrspace(1)* %in			%x = load <2 x half>, <2 x half> addrspace(1)* %in
	%y = fadd <2 x half> %x, <half 0.5, half 0.5>			%y = fadd <2 x half> %x, <half 0.5, half 0.5>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}commute_add_literal_v2f16:			; GCN-LABEL: {{^}}commute_add_literal_v2f16:
	; GFX9-DAG: buffer_load_dword [[VAL:v[0-9]+]]			; GFX9-DAG: buffer_load_dword [[VAL:v[0-9]+]]
	; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}			; GFX9-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], [[K]] op_sel_hi:[1,0]{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], [[K]] op_sel_hi:[1,0]{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}			; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x6400{{$}}
	; VI-DAG: buffer_load_dword			; VI-DAG: buffer_load_dword
	; VI-NOT: and			; VI-NOT: and
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, [[K]], v{{[0-9]+}}			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, [[K]], v{{[0-9]+}}
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[K]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @commute_add_literal_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {			define amdgpu_kernel void @commute_add_literal_v2f16(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
	%x = load <2 x half>, <2 x half> addrspace(1)* %in			%x = load <2 x half>, <2 x half> addrspace(1)* %in
	%y = fadd <2 x half> %x, <half 1024.0, half 1024.0>			%y = fadd <2 x half> %x, <half 1024.0, half 1024.0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_1_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_1_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 1{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 1, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST1:v[0-9]+]], 1			; VI-DAG: v_mov_b32_e32 [[CONST1:v[0-9]+]], 1
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0001, half 0xH0001>			%y = fadd <2 x half> %x, <half 0xH0001, half 0xH0001>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_2_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_2_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 2{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 2, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 2			; VI-DAG: v_mov_b32_e32 [[CONST2:v[0-9]+]], 2
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0002, half 0xH0002>			%y = fadd <2 x half> %x, <half 0xH0002, half 0xH0002>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_16_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_16_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 16{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 16{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 16, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 16, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST16:v[0-9]+]], 16			; VI-DAG: v_mov_b32_e32 [[CONST16:v[0-9]+]], 16
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST16]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0010, half 0xH0010>			%y = fadd <2 x half> %x, <half 0xH0010, half 0xH0010>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_1_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_1_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -1{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -1, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xffff			; VI-DAG: v_mov_b32_e32 [[CONSTM1:v[0-9]+]], 0xffff
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM1]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_1_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xHFFFF, half 0xHFFFF>			%y = fadd <2 x half> %x, <half 0xHFFFF, half 0xHFFFF>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_2_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_2_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -2{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -2, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM2:v[0-9]+]], 0xfffe			; VI-DAG: v_mov_b32_e32 [[CONSTM2:v[0-9]+]], 0xfffe
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM2]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM2]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_2_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xHFFFE, half 0xHFFFE>			%y = fadd <2 x half> %x, <half 0xHFFFE, half 0xHFFFE>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_neg_16_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_neg_16_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -16{{$}}			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], -16{{$}}
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -16, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, -16, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONSTM16:v[0-9]+]], 0xfff0			; VI-DAG: v_mov_b32_e32 [[CONSTM16:v[0-9]+]], 0xfff0
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONSTM16]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONSTM16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_neg_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_neg_16_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xHFFF0, half 0xHFFF0>			%y = fadd <2 x half> %x, <half 0xHFFF0, half 0xHFFF0>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_63_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_63_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 63			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 63
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 63, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 63, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST63:v[0-9]+]], 63			; VI-DAG: v_mov_b32_e32 [[CONST63:v[0-9]+]], 63
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST63]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST63]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_63_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_63_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH003F, half 0xH003F>			%y = fadd <2 x half> %x, <half 0xH003F, half 0xH003F>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	; GCN-LABEL: {{^}}add_inline_imm_64_v2f16:			; GCN-LABEL: {{^}}add_inline_imm_64_v2f16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 64			; GFX9: v_pk_add_f16 [[REG:v[0-9]+]], [[VAL]], 64
	; GFX9: buffer_store_dword [[REG]]			; GFX9: buffer_store_dword [[REG]]

	; VI: buffer_load_ushort [[VAL0:v[0-9]+]]			; VI: buffer_load_ushort [[VAL0:v[0-9]+]]
	; VI: buffer_load_ushort [[VAL1:v[0-9]+]]			; VI: buffer_load_ushort [[VAL1:v[0-9]+]]
	; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 64, [[VAL0]]			; VI-DAG: v_add_f16_e32 v{{[0-9]+}}, 64, [[VAL0]]
	; VI-DAG: v_mov_b32_e32 [[CONST64:v[0-9]+]], 64			; VI-DAG: v_mov_b32_e32 [[CONST64:v[0-9]+]], 64
	; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[CONST64]], [[VAL1]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI-DAG: v_add_f16_sdwa v{{[0-9]+}}, [[VAL1]], [[CONST64]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32			; VI: v_or_b32
	; VI: buffer_store_dword			; VI: buffer_store_dword
	define amdgpu_kernel void @add_inline_imm_64_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {			define amdgpu_kernel void @add_inline_imm_64_v2f16(<2 x half> addrspace(1)* %out, <2 x half> %x) #0 {
	%y = fadd <2 x half> %x, <half 0xH0040, half 0xH0040>			%y = fadd <2 x half> %x, <half 0xH0040, half 0xH0040>
	store <2 x half> %y, <2 x half> addrspace(1)* %out			store <2 x half> %y, <2 x half> addrspace(1)* %out
	ret void			ret void
	}			}

	attributes #0 = { nounwind }			attributes #0 = { nounwind }

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

Show First 20 Lines • Show All 255 Lines • ▼ Show 20 Lines
}		}

; FIXME: fold lshl_or c0, c1, v0 -> or (c0 << c1), v0		; FIXME: fold lshl_or c0, c1, v0 -> or (c0 << c1), v0

; GCN-LABEL: {{^}}v_insertelement_v2i16_1:		; GCN-LABEL: {{^}}v_insertelement_v2i16_1:
; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e70000		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x3e70000
; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]		; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]
; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x3e70000, [[VEC]]		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x3e70000, [[VEC]]
; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[VEC]], [[K]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x3e7		; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x3e7
; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
%vecins = insertelement <2 x i16> %vec, i16 999, i32 1		%vecins = insertelement <2 x i16> %vec, i16 999, i32 1
store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep		store <2 x i16> %vecins, <2 x i16> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2i16_1_inlineimm:		; GCN-LABEL: {{^}}v_insertelement_v2i16_1_inlineimm:
; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0xfff10000		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0xfff10000
; GCN: flat_load_dword [[VEC:v[0-9]+]]		; GCN: flat_load_dword [[VEC:v[0-9]+]]
; CI: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; CI: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; GFX9: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; GFX9: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0xfff10000, [[ELT0]]		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0xfff10000, [[ELT0]]
; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[VEC]], [[K]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], -15, 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], -15, 16, [[ELT0]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2i16_1_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2i16_1_inlineimm(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep		%vec = load <2 x i16>, <2 x i16> addrspace(1)* %in.gep
▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines	define amdgpu_kernel void @v_insertelement_v2f16_0_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_1:		; GCN-LABEL: {{^}}v_insertelement_v2f16_1:
; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x45000000		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x45000000
; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]		; GCN-DAG: flat_load_dword [[VEC:v[0-9]+]]
; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x45000000, [[VEC]]		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x45000000, [[VEC]]
; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[VEC]], [[K]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x4500		; GFX9-DAG: s_movk_i32 [[K:s[0-9]+]], 0x4500
; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; GFX9-DAG: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], [[K]], 16, [[ELT0]]

; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2f16_1(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_1(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 1		%vecins = insertelement <2 x half> %vec, half 5.000000e+00, i32 1
store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep		store <2 x half> %vecins, <2 x half> addrspace(1)* %out.gep
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_insertelement_v2f16_1_inlineimm:		; GCN-LABEL: {{^}}v_insertelement_v2f16_1_inlineimm:
; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x230000		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0x230000
; GCN: flat_load_dword [[VEC:v[0-9]+]]		; GCN: flat_load_dword [[VEC:v[0-9]+]]
; CI: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; CI: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; GFX9: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]		; GFX9: v_and_b32_e32 [[ELT0:v[0-9]+]], 0xffff, [[VEC]]
; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x230000, [[ELT0]]		; CI: v_or_b32_e32 [[RES:v[0-9]+]], 0x230000, [[ELT0]]
; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[K]], [[VEC]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; VI: v_or_b32_sdwa [[RES:v[0-9]+]], [[VEC]], [[K]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], 35, 16, [[ELT0]]		; GFX9: v_lshl_or_b32 [[RES:v[0-9]+]], 35, 16, [[ELT0]]
; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]		; GCN: flat_store_dword v{{\[[0-9]+:[0-9]+\]}}, [[RES]]
define amdgpu_kernel void @v_insertelement_v2f16_1_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {		define amdgpu_kernel void @v_insertelement_v2f16_1_inlineimm(<2 x half> addrspace(1)* %out, <2 x half> addrspace(1)* %in) #0 {
%tid = call i32 @llvm.amdgcn.workitem.id.x() #1		%tid = call i32 @llvm.amdgcn.workitem.id.x() #1
%tid.ext = sext i32 %tid to i64		%tid.ext = sext i32 %tid to i64
%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext		%in.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %in, i64 %tid.ext
%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext		%out.gep = getelementptr inbounds <2 x half>, <2 x half> addrspace(1)* %out, i64 %tid.ext
%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep		%vec = load <2 x half>, <2 x half> addrspace(1)* %in.gep
▲ Show 20 Lines • Show All 100 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

	Show First 20 Lines • Show All 112 Lines • ▼ Show 20 Lines
	; SI: v_mac_f32_e32 v[[C_F32_0]], v[[B_F32_0]], v[[A_F32_0]]			; SI: v_mac_f32_e32 v[[C_F32_0]], v[[B_F32_0]], v[[A_F32_0]]
	; SI: v_mac_f32_e32 v[[C_F32_1]], v[[B_F32_1]], v[[A_F32_1]]			; SI: v_mac_f32_e32 v[[C_F32_1]], v[[B_F32_1]], v[[A_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[C_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[C_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_LO:[0-9]+]], v[[C_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_LO:[0-9]+]], v[[C_F32_0]]
	; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]

	; VI-FLUSH: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; VI-FLUSH: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; VI-FLUSH-DAG: v_mac_f16_sdwa v[[A_F16_1]], v[[C_V2_F16]], v[[B_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-FLUSH-DAG: v_mac_f16_sdwa v[[A_F16_1]], v[[B_V2_F16]], v[[C_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-FLUSH-DAG: v_mac_f16_e32 v[[A_V2_F16]], v[[C_V2_F16]], v[[B_V2_F16]]			; VI-FLUSH-DAG: v_mac_f16_e32 v[[A_V2_F16]], v[[C_V2_F16]], v[[B_V2_F16]]
	; VI-FLUSH-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[A_F16_1]]			; VI-FLUSH-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[A_F16_1]]
	; VI-FLUSH-NOT: v_and_b32			; VI-FLUSH-NOT: v_and_b32
	; VI-FLUSH: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[A_V2_F16]]			; VI-FLUSH: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[A_V2_F16]]

	; VI-DENORM: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; VI-DENORM: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; VI-DENORM: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; VI-DENORM: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; VI-DENORM: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]			; VI-DENORM: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
	Show All 21 Lines

test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

	Show First 20 Lines • Show All 76 Lines • ▼ Show 20 Lines
	; SI-DAG: v_max_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]			; SI-DAG: v_max_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI-NOT: and			; SI-NOT: and
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]			; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]
	; VI-DAG: v_max_f16_sdwa v[[R_F16_1:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_max_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NOT: and			; VI-NOT: and
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @maxnum_v2f16(			define amdgpu_kernel void @maxnum_v2f16(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	Show All 11 Lines
	; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
	; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]			; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]			; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400			; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
	; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST4]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]			; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; GCN-NOT: and			; GCN-NOT: and
	; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @maxnum_v2f16_imm_a(			define amdgpu_kernel void @maxnum_v2f16_imm_a(
	Show All 11 Lines
	; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]			; SI: v_max_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]			; SI: v_max_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200			; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200
	; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST3]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_max_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]			; VI-DAG: v_max_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; GCN-NOT: and			; GCN-NOT: and
	; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @maxnum_v2f16_imm_b(			define amdgpu_kernel void @maxnum_v2f16_imm_b(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a) {			<2 x half> addrspace(1)* %a) {
	entry:			entry:
	%a.val = load <2 x half>, <2 x half> addrspace(1)* %a			%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
	%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)			%r.val = call <2 x half> @llvm.maxnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)
	store <2 x half> %r.val, <2 x half> addrspace(1)* %r			store <2 x half> %r.val, <2 x half> addrspace(1)* %r
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/llvm.minnum.f16.ll

	Show First 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]			; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], v[[B_F32_1]], v[[A_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; SI-NOT: and			; SI-NOT: and
	; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]

	; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]			; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]]
	; VI-DAG: v_min_f16_sdwa v[[R_F16_1:[0-9]+]], v[[B_V2_F16]], v[[A_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1			; VI-DAG: v_min_f16_sdwa v[[R_F16_1:[0-9]+]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
	; VI-NOT: and			; VI-NOT: and
	; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]			; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_1]], v[[R_F16_0]]

	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @minnum_v2f16(			define amdgpu_kernel void @minnum_v2f16(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a,			<2 x half> addrspace(1)* %a,
	Show All 13 Lines
	; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
	; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]			; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 0x40400000, v[[B_F32_0]]
	; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]			; SI-DAG: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 4.0, v[[B_F32_1]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]

	; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400			; VI-DAG: v_mov_b32_e32 [[CONST4:v[0-9]+]], 0x4400
	; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST4]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST4]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]			; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 0x4200, v[[B_V2_F16]]

	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; GCN-NOT: and			; GCN-NOT: and
	; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @minnum_v2f16_imm_a(			define amdgpu_kernel void @minnum_v2f16_imm_a(
	Show All 11 Lines
	; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
	; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]			; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
	; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]			; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
	; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]			; SI: v_min_f32_e32 v[[R_F32_0:[0-9]+]], 4.0, v[[A_F32_0]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_0:[0-9]+]], v[[R_F32_0]]
	; SI: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]			; SI: v_min_f32_e32 v[[R_F32_1:[0-9]+]], 0x40400000, v[[A_F32_1]]
	; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]			; SI: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[R_F32_1]]
	; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200			; VI-DAG: v_mov_b32_e32 [[CONST3:v[0-9]+]], 0x4200
	; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], [[CONST3]], v[[B_V2_F16]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1			; VI-DAG: v_min_f16_sdwa v[[R_F16_HI:[0-9]+]], v[[B_V2_F16]], [[CONST3]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
	; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]			; VI-DAG: v_min_f16_e32 v[[R_F16_0:[0-9]+]], 4.0, v[[A_V2_F16]]

	; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]			; SI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
	; GCN-NOT: and			; GCN-NOT: and
	; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]			; GCN: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_0]]
	; GCN: buffer_store_dword v[[R_V2_F16]]			; GCN: buffer_store_dword v[[R_V2_F16]]
	; GCN: s_endpgm			; GCN: s_endpgm
	define amdgpu_kernel void @minnum_v2f16_imm_b(			define amdgpu_kernel void @minnum_v2f16_imm_b(
	<2 x half> addrspace(1)* %r,			<2 x half> addrspace(1)* %r,
	<2 x half> addrspace(1)* %a) {			<2 x half> addrspace(1)* %a) {
	entry:			entry:
	%a.val = load <2 x half>, <2 x half> addrspace(1)* %a			%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
	%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)			%r.val = call <2 x half> @llvm.minnum.v2f16(<2 x half> %a.val, <2 x half> <half 4.0, half 3.0>)
	store <2 x half> %r.val, <2 x half> addrspace(1)* %r			store <2 x half> %r.val, <2 x half> addrspace(1)* %r
	ret void			ret void
	}			}

test/CodeGen/AMDGPU/scratch-simple.ll

	; RUN: llc -march=amdgcn -mcpu=verde -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=verde -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=SI %s
	; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx900 -mattr=-flat-for-global -mattr=+vgpr-spilling -verify-machineinstrs < %s \| FileCheck --check-prefix=GCN --check-prefix=GFX9 %s

	; This used to fail due to a v_add_i32 instruction with an illegal immediate			; This used to fail due to a v_add_i32 instruction with an illegal immediate
	; operand that was created during Local Stack Slot Allocation. Test case derived			; operand that was created during Local Stack Slot Allocation. Test case derived
	; from https://bugs.freedesktop.org/show_bug.cgi?id=96602			; from https://bugs.freedesktop.org/show_bug.cgi?id=96602
	;			;
	; GCN-LABEL: {{^}}ps_main:			; GCN-LABEL: {{^}}ps_main:

	; GCN-DAG: s_mov_b32 [[SWO:s[0-9]+]], s0			; GCN-DAG: s_mov_b32 [[SWO:s[0-9]+]], s0
	; GCN-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0			; GCN-DAG: v_lshlrev_b32_e32 [[BYTES:v[0-9]+]], 2, v0
	; GCN-DAG: v_and_b32_e32 [[CLAMP_IDX:v[0-9]+]], 0x1fc, [[BYTES]]			; GCN-DAG: v_and_b32_e32 [[CLAMP_IDX:v[0-9]+]], 0x1fc, [[BYTES]]

	; GCN-DAG: v_or_b32_e32 [[LO_OFF:v[0-9]+]], 0x200, [[CLAMP_IDX]]			; GCN-DAG: v_mov_b32_e32 [[C200:v[0-9]+]], 0x200
	; GCN-DAG: v_or_b32_e32 [[HI_OFF:v[0-9]+]], 0x400, [[CLAMP_IDX]]			; GCN-DAG: v_mov_b32_e32 [[C400:v[0-9]+]], 0x400
				; GCN-DAG: v_or_b32_e32 [[LO_OFF:v[0-9]+]], [[C200]], [[CLAMP_IDX]]
				; GCN-DAG: v_or_b32_e32 [[HI_OFF:v[0-9]+]], [[C400]], [[CLAMP_IDX]]

	; GCN: buffer_load_dword {{v[0-9]+}}, [[LO_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen			; GCN: buffer_load_dword {{v[0-9]+}}, [[LO_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen
	; GCN: buffer_load_dword {{v[0-9]+}}, [[HI_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen			; GCN: buffer_load_dword {{v[0-9]+}}, [[HI_OFF]], {{s\[[0-9]+:[0-9]+\]}}, [[SWO]] offen
	define amdgpu_ps float @ps_main(i32 %idx) {			define amdgpu_ps float @ps_main(i32 %idx) {
	%v1 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0xBFEA477C60000000, float 0xBFEBE5DC60000000, float 0xBFEC71C720000000, float 0xBFEBE5DC60000000, float 0xBFEA477C60000000, float 0xBFE7A693C0000000, float 0xBFE41CFEA0000000, float 0x3FDF9B13E0000000, float 0x3FDF9B1380000000, float 0x3FD5C53B80000000, float 0x3FD5C53B00000000, float 0x3FC6326AC0000000, float 0x3FC63269E0000000, float 0xBEE05CEB00000000, float 0xBEE086A320000000, float 0xBFC63269E0000000, float 0xBFC6326AC0000000, float 0xBFD5C53B80000000, float 0xBFD5C53B80000000, float 0xBFDF9B13E0000000, float 0xBFDF9B1460000000, float 0xBFE41CFE80000000, float 0x3FE7A693C0000000, float 0x3FEA477C20000000, float 0x3FEBE5DC40000000, float 0x3FEC71C6E0000000, float 0x3FEBE5DC40000000, float 0x3FEA477C20000000, float 0x3FE7A693C0000000, float 0xBFE41CFE80000000>, i32 %idx			%v1 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0xBFEA477C60000000, float 0xBFEBE5DC60000000, float 0xBFEC71C720000000, float 0xBFEBE5DC60000000, float 0xBFEA477C60000000, float 0xBFE7A693C0000000, float 0xBFE41CFEA0000000, float 0x3FDF9B13E0000000, float 0x3FDF9B1380000000, float 0x3FD5C53B80000000, float 0x3FD5C53B00000000, float 0x3FC6326AC0000000, float 0x3FC63269E0000000, float 0xBEE05CEB00000000, float 0xBEE086A320000000, float 0xBFC63269E0000000, float 0xBFC6326AC0000000, float 0xBFD5C53B80000000, float 0xBFD5C53B80000000, float 0xBFDF9B13E0000000, float 0xBFDF9B1460000000, float 0xBFE41CFE80000000, float 0x3FE7A693C0000000, float 0x3FEA477C20000000, float 0x3FEBE5DC40000000, float 0x3FEC71C6E0000000, float 0x3FEBE5DC40000000, float 0x3FEA477C20000000, float 0x3FE7A693C0000000, float 0xBFE41CFE80000000>, i32 %idx
	%v2 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0x3FE7A693C0000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFEBE5DC40000000, float 0x3FEBE5DC40000000, float 0xBFEC71C720000000, float 0x3FEC71C6E0000000, float 0xBFEBE5DC60000000, float 0x3FEBE5DC40000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFE7A693C0000000, float 0x3FE7A69380000000, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFE80000000>, i32 %idx			%v2 = extractelement <81 x float> <float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float undef, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFEA0000000, float 0xBFE7A693C0000000, float 0x3FE7A693C0000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFEBE5DC40000000, float 0x3FEBE5DC40000000, float 0xBFEC71C720000000, float 0x3FEC71C6E0000000, float 0xBFEBE5DC60000000, float 0x3FEBE5DC40000000, float 0xBFEA477C20000000, float 0x3FEA477C20000000, float 0xBFE7A693C0000000, float 0x3FE7A69380000000, float 0xBFE41CFEA0000000, float 0xBFDF9B13E0000000, float 0xBFD5C53B80000000, float 0xBFC6326AC0000000, float 0x3EE0789320000000, float 0x3FC6326AC0000000, float 0x3FD5C53B80000000, float 0x3FDF9B13E0000000, float 0x3FE41CFE80000000>, i32 %idx
	%r = fadd float %v1, %v2			%r = fadd float %v1, %v2
	ret float %r			ret float %r
	▲ Show 20 Lines • Show All 77 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sdwa-peephole.ll

Show First 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
; NOSDWA: v_lshrrev_b32_e32 v[[DST1:[0-9]+]], 16, v{{[0-9]+}}		; NOSDWA: v_lshrrev_b32_e32 v[[DST1:[0-9]+]], 16, v{{[0-9]+}}
; NOSDWA: v_mul_u32_u24_e32 v[[DST_MUL:[0-9]+]], v[[DST1]], v[[DST0]]		; NOSDWA: v_mul_u32_u24_e32 v[[DST_MUL:[0-9]+]], v[[DST1]], v[[DST0]]
; NOSDWA: v_lshlrev_b32_e32 v[[DST_SHL:[0-9]+]], 16, v[[DST_MUL]]		; NOSDWA: v_lshlrev_b32_e32 v[[DST_SHL:[0-9]+]], 16, v[[DST_MUL]]
; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v[[DST_SHL]], v{{[0-9]+}}		; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v[[DST_SHL]], v{{[0-9]+}}
; NOSDWA-NOT: v_mul_u32_u24_sdwa		; NOSDWA-NOT: v_mul_u32_u24_sdwa

; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL_LO:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL_LO:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL_HI:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL_HI:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL_HI]], v[[DST_MUL_LO]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL_LO]], v[[DST_MUL_HI]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

define amdgpu_kernel void @mul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %ina, <2 x i16> addrspace(1)* %inb) {		define amdgpu_kernel void @mul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %ina, <2 x i16> addrspace(1)* %inb) {
entry:		entry:
%a = load <2 x i16>, <2 x i16> addrspace(1)* %ina, align 4		%a = load <2 x i16>, <2 x i16> addrspace(1)* %ina, align 4
%b = load <2 x i16>, <2 x i16> addrspace(1)* %inb, align 4		%b = load <2 x i16>, <2 x i16> addrspace(1)* %inb, align 4
%mul = mul <2 x i16> %a, %b		%mul = mul <2 x i16> %a, %b
store <2 x i16> %mul, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %mul, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}mul_v4i16:		; GCN-LABEL: {{^}}mul_v4i16:
; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
; NOSDWA: v_mul_u32_u24_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA: v_mul_u32_u24_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; NOSDWA: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA-NOT: v_mul_u32_u24_sdwa		; NOSDWA-NOT: v_mul_u32_u24_sdwa

; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL0:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL0:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL1:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL1:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL2:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL2:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL3:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL3:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL3]], v[[DST_MUL2]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL2]], v[[DST_MUL3]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL1]], v[[DST_MUL0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL0]], v[[DST_MUL1]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

define amdgpu_kernel void @mul_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %ina, <4 x i16> addrspace(1)* %inb) {		define amdgpu_kernel void @mul_v4i16(<4 x i16> addrspace(1)* %out, <4 x i16> addrspace(1)* %ina, <4 x i16> addrspace(1)* %inb) {
entry:		entry:
%a = load <4 x i16>, <4 x i16> addrspace(1)* %ina, align 4		%a = load <4 x i16>, <4 x i16> addrspace(1)* %ina, align 4
%b = load <4 x i16>, <4 x i16> addrspace(1)* %inb, align 4		%b = load <4 x i16>, <4 x i16> addrspace(1)* %inb, align 4
%mul = mul <4 x i16> %a, %b		%mul = mul <4 x i16> %a, %b
store <4 x i16> %mul, <4 x i16> addrspace(1)* %out, align 4		store <4 x i16> %mul, <4 x i16> addrspace(1)* %out, align 4
ret void		ret void
Show All 10 Lines
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL0:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL0:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL1:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL1:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL2:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL2:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL3:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL3:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL4:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL4:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL5:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL5:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL6:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL6:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:WORD_0
; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL7:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v[[DST_MUL7:[0-9]+]], v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL7]], v[[DST_MUL6]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL6]], v[[DST_MUL7]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL5]], v[[DST_MUL4]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL4]], v[[DST_MUL5]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL3]], v[[DST_MUL2]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL2]], v[[DST_MUL3]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL1]], v[[DST_MUL0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_or_b32_sdwa v{{[0-9]+}}, v[[DST_MUL0]], v[[DST_MUL1]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

define amdgpu_kernel void @mul_v8i16(<8 x i16> addrspace(1)* %out, <8 x i16> addrspace(1)* %ina, <8 x i16> addrspace(1)* %inb) {		define amdgpu_kernel void @mul_v8i16(<8 x i16> addrspace(1)* %out, <8 x i16> addrspace(1)* %ina, <8 x i16> addrspace(1)* %inb) {
entry:		entry:
%a = load <8 x i16>, <8 x i16> addrspace(1)* %ina, align 4		%a = load <8 x i16>, <8 x i16> addrspace(1)* %ina, align 4
%b = load <8 x i16>, <8 x i16> addrspace(1)* %inb, align 4		%b = load <8 x i16>, <8 x i16> addrspace(1)* %inb, align 4
%mul = mul <8 x i16> %a, %b		%mul = mul <8 x i16> %a, %b
store <8 x i16> %mul, <8 x i16> addrspace(1)* %out, align 4		store <8 x i16> %mul, <8 x i16> addrspace(1)* %out, align 4
ret void		ret void
▲ Show 20 Lines • Show All 202 Lines • ▼ Show 20 Lines	entry:
store <2 x half> %mac, <2 x half> addrspace(1)* %out, align 4		store <2 x half> %mac, <2 x half> addrspace(1)* %out, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}immediate_mul_v2i16:		; GCN-LABEL: {{^}}immediate_mul_v2i16:
; NOSDWA-NOT: v_mul_u32_u24_sdwa		; NOSDWA-NOT: v_mul_u32_u24_sdwa
; SDWA-DAG: v_mov_b32_e32 v[[M321:[0-9]+]], 0x141		; SDWA-DAG: v_mov_b32_e32 v[[M321:[0-9]+]], 0x141
; SDWA-DAG: v_mov_b32_e32 v[[M123:[0-9]+]], 0x7b		; SDWA-DAG: v_mov_b32_e32 v[[M123:[0-9]+]], 0x7b
; SDWA-DAG: v_mul_u32_u24_sdwa v{{[0-9]+}}, v[[M123]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0		; SDWA-DAG: v_mul_u32_u24_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[M123]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD
; SDWA-DAG: v_mul_u32_u24_sdwa v{{[0-9]+}}, v[[M321]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; SDWA-DAG: v_mul_u32_u24_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[M321]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD

define amdgpu_kernel void @immediate_mul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) {		define amdgpu_kernel void @immediate_mul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in) {
entry:		entry:
%a = load <2 x i16>, <2 x i16> addrspace(1)* %in, align 4		%a = load <2 x i16>, <2 x i16> addrspace(1)* %in, align 4
%mul = mul <2 x i16> %a, <i16 123, i16 321>		%mul = mul <2 x i16> %a, <i16 123, i16 321>
store <2 x i16> %mul, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %mul, <2 x i16> addrspace(1)* %out, align 4
ret void		ret void
}		}

; Double use of same src - should not convert it		; Double use of same src - should not convert it
; GCN-LABEL: {{^}}mulmul_v2i16:		; GCN-LABEL: {{^}}mulmul_v2i16:
; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; NOSDWA: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
; NOSDWA: v_mul_u32_u24_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA: v_mul_u32_u24_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; NOSDWA: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA-NOT: v_mul_u32_u24_sdwa		; NOSDWA-NOT: v_mul_u32_u24_sdwa

; SDWA: v_mul_u32_u24_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; SDWA: v_mul_u32_u24_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD

define amdgpu_kernel void @mulmul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %ina, <2 x i16> addrspace(1)* %inb) {		define amdgpu_kernel void @mulmul_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %ina, <2 x i16> addrspace(1)* %inb) {
entry:		entry:
%a = load <2 x i16>, <2 x i16> addrspace(1)* %ina, align 4		%a = load <2 x i16>, <2 x i16> addrspace(1)* %ina, align 4
%b = load <2 x i16>, <2 x i16> addrspace(1)* %inb, align 4		%b = load <2 x i16>, <2 x i16> addrspace(1)* %inb, align 4
%mul = mul <2 x i16> %a, %b		%mul = mul <2 x i16> %a, %b
%mul2 = mul <2 x i16> %mul, %b		%mul2 = mul <2 x i16> %mul, %b
store <2 x i16> %mul2, <2 x i16> addrspace(1)* %out, align 4		store <2 x i16> %mul2, <2 x i16> addrspace(1)* %out, align 4
Show All 24 Lines
; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}		; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}
; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA-DAG: v_and_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}		; NOSDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}
; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; NOSDWA: v_or_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
; NOSDWA-NOT: v_and_b32_sdwa		; NOSDWA-NOT: v_and_b32_sdwa
; NOSDWA-NOT: v_or_b32_sdwa		; NOSDWA-NOT: v_or_b32_sdwa

; SDWA-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; SDWA-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; SDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}		; SDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}
; SDWA-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; SDWA-DAG: v_and_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; SDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}		; SDWA-DAG: v_lshlrev_b16_e32 v{{[0-9]+}}, 8, v{{[0-9]+}}
; SDWA: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; SDWA: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD

define amdgpu_kernel void @pulled_out_test(<8 x i8> addrspace(1)* %sourceA, <8 x i8> addrspace(1)* %destValues) {		define amdgpu_kernel void @pulled_out_test(<8 x i8> addrspace(1)* %sourceA, <8 x i8> addrspace(1)* %destValues) {
entry:		entry:
%idxprom = ashr exact i64 15, 32		%idxprom = ashr exact i64 15, 32
%arrayidx = getelementptr inbounds <8 x i8>, <8 x i8> addrspace(1)* %sourceA, i64 %idxprom		%arrayidx = getelementptr inbounds <8 x i8>, <8 x i8> addrspace(1)* %sourceA, i64 %idxprom
%tmp = load <8 x i8>, <8 x i8> addrspace(1)* %arrayidx, align 8		%tmp = load <8 x i8>, <8 x i8> addrspace(1)* %arrayidx, align 8
Show All 27 Lines

test/CodeGen/AMDGPU/shl.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s			; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GCN -check-prefix=GFX9 %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=VI -check-prefix=CIVI %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=GCN -check-prefix=CI -check-prefix=CIVI %s

	; GCN-LABEL: {{^}}s_shl_v2i16:			; GCN-LABEL: {{^}}s_shl_v2i16:
	; GFX9: s_load_dword [[LHS:s[0-9]+]]			; GFX9: s_load_dword [[LHS:s[0-9]+]]
	; GFX9: s_load_dword [[RHS:s[0-9]+]]			; GFX9: s_load_dword [[RHS:s[0-9]+]]
	; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]			; GFX9: v_mov_b32_e32 [[VLHS:v[0-9]+]], [[LHS]]
	; GFX9: v_pk_lshlrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]			; GFX9: v_pk_lshlrev_b16 [[RESULT:v[0-9]+]], [[RHS]], [[VLHS]]

	; VI: v_lshlrev_b32_e32			; VI: v_lshlrev_b32_e32
	; VI: v_lshlrev_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_lshlrev_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

	; CI: v_lshlrev_b32_e32			; CI: v_lshlrev_b32_e32
	; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}			; CI: v_and_b32_e32 v{{[0-9]+}}, 0xffff, v{{[0-9]+}}
	; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}			; CI: v_lshlrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}
	; CI: v_or_b32_e32			; CI: v_or_b32_e32
	define amdgpu_kernel void @s_shl_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {			define amdgpu_kernel void @s_shl_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> %lhs, <2 x i16> %rhs) #0 {
	%result = shl <2 x i16> %lhs, %rhs			%result = shl <2 x i16> %lhs, %rhs
	▲ Show 20 Lines • Show All 131 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sminmax.v2i16.ll

	; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GFX9 -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GFX9 -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=CIVI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=CIVI -check-prefix=GCN %s
	; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=CI -check-prefix=CIVI -check-prefix=GCN %s			; RUN: llc -march=amdgcn -mcpu=bonaire -verify-machineinstrs < %s \| FileCheck -check-prefix=CI -check-prefix=CIVI -check-prefix=GCN %s

	; GCN-LABEL: {{^}}s_abs_v2i16:			; GCN-LABEL: {{^}}s_abs_v2i16:
	; GFX9: s_load_dword [[VAL:s[0-9]+]]			; GFX9: s_load_dword [[VAL:s[0-9]+]]
	; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]			; GFX9: v_pk_sub_i16 [[SUB:v[0-9]+]], 0, [[VAL]]
	; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]			; GFX9: v_pk_max_i16 [[MAX:v[0-9]+]], [[VAL]], [[SUB]]
	; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2			; GFX9: v_pk_add_u16 [[ADD:v[0-9]+]], [[MAX]], 2

	; VI: v_sub_i32_e32			; VI: v_sub_i32_e32
	; VI-DAG: v_sub_i32_e32			; VI-DAG: v_sub_i32_e32
	; VI: v_max_i32_sdwa v{{[0-9]+}}, sext(v{{[0-9]+}}), v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI: v_max_i32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, sext(v{{[0-9]+}}) dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI: v_max_i32_sdwa v{{[0-9]+}}, sext(v{{[0-9]+}}), v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD			; VI: v_max_i32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, sext(v{{[0-9]+}}) dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0
	; VI: v_add_i32_e32			; VI: v_add_i32_e32
	; VI: v_add_i32_e32			; VI: v_add_i32_e32
	; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_0			; VI: v_or_b32_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_0 src1_sel:DWORD

	; CI: v_sub_i32_e32			; CI: v_sub_i32_e32
	; CI-DAG: v_sub_i32_e32			; CI-DAG: v_sub_i32_e32
	; CI: v_bfe_i32			; CI: v_bfe_i32
	; CI-DAG: v_bfe_i32			; CI-DAG: v_bfe_i32
	; CI-DAG: v_add_i32_e32			; CI-DAG: v_add_i32_e32
	; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16			; CI-DAG: v_lshlrev_b32_e32 v{{[0-9]+}}, 16
	; CI: v_add_i32_e32			; CI: v_add_i32_e32
	Show All 16 Lines

	; VI: v_mov_b32_e32 [[TWO:v[0-9]+]], 2			; VI: v_mov_b32_e32 [[TWO:v[0-9]+]], 2
	; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,			; VI: v_lshrrev_b32_e32 v{{[0-9]+}}, 16,
	; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}			; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
	; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}			; VI: v_sub_u16_e32 v{{[0-9]+}}, 0, v{{[0-9]+}}
	; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}			; VI: v_max_i16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
	; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}			; VI: v_add_u16_e32 v{{[0-9]+}}, 2, v{{[0-9]+}}
	; VI: v_add_u16_sdwa v{{[0-9]+}}, [[TWO]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD			; VI: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[TWO]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
	; VI-NOT: v_and_b32			; VI-NOT: v_and_b32
	; VI: v_or_b32_e32			; VI: v_or_b32_e32
	define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {			define amdgpu_kernel void @v_abs_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %src) #0 {
	%tid = call i32 @llvm.amdgcn.workitem.id.x()			%tid = call i32 @llvm.amdgcn.workitem.id.x()
	%gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid			%gep.in = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %src, i32 %tid
	%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid			%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
	%val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4			%val = load <2 x i16>, <2 x i16> addrspace(1)* %gep.in, align 4
	%neg = sub <2 x i16> zeroinitializer, %val			%neg = sub <2 x i16> zeroinitializer, %val
	▲ Show 20 Lines • Show All 167 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/sub.v2i16.ll

; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GFX9 -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=gfx901 -mattr=-flat-for-global -verify-machineinstrs -enable-packed-inlinable-literals < %s \| FileCheck -check-prefix=GFX9 -check-prefix=GCN %s
; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN %s		; RUN: llc -march=amdgcn -mcpu=tonga -mattr=-flat-for-global -verify-machineinstrs < %s \| FileCheck -check-prefix=VI -check-prefix=GCN %s

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_sub_v2i16:		; GCN-LABEL: {{^}}v_test_sub_v2i16:
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}

; VI: v_subrev_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_sub_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI: v_subrev_u16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}		; VI: v_subrev_u16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}}
define amdgpu_kernel void @v_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_test_sub_v2i16(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid		%gep.in1 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in1, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%b = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in1		%b = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in1
Show All 40 Lines	define amdgpu_kernel void @s_test_sub_v2i16_kernarg(<2 x i16> addrspace(1)* %out, <2 x i16> %a, <2 x i16> %b) #1 {
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_sub_v2i16_constant:		; GCN-LABEL: {{^}}v_test_sub_v2i16_constant:
; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}		; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0x1c8007b{{$}}
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0xfffffe38		; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0xfffffe38
; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[K]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xffffff85, v{{[0-9]+}}		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0xffffff85, v{{[0-9]+}}
define amdgpu_kernel void @v_test_sub_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 123, i16 456>		%add = sub <2 x i16> %a, <i16 123, i16 456>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_sub_v2i16_neg_constant:		; GCN-LABEL: {{^}}v_test_sub_v2i16_neg_constant:
; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}		; GFX9: s_mov_b32 [[CONST:s[0-9]+]], 0xfc21fcb3{{$}}
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[CONST]]

; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3df		; VI-DAG: v_mov_b32_e32 [[K:v[0-9]+]], 0x3df
; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}}		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[K]]
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x34d, v{{[0-9]+}}		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 0x34d, v{{[0-9]+}}
define amdgpu_kernel void @v_test_sub_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_neg_constant(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 -845, i16 -991>		%add = sub <2 x i16> %a, <i16 -845, i16 -991>
store <2 x i16> %add, <2 x i16> addrspace(1)* %out		store <2 x i16> %add, <2 x i16> addrspace(1)* %out
ret void		ret void
}		}

; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_neg1:		; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_neg1:
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, -1{{$}}

; VI: v_mov_b32_e32 [[ONE:v[0-9]+]], 1		; VI: v_mov_b32_e32 [[ONE:v[0-9]+]], 1
; VI: flat_load_ushort [[LOAD0:v[0-9]+]]		; VI: flat_load_ushort [[LOAD0:v[0-9]+]]
; VI: flat_load_ushort [[LOAD1:v[0-9]+]]		; VI: flat_load_ushort [[LOAD1:v[0-9]+]]
; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[ONE]], [[LOAD0]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI-DAG: v_add_u16_sdwa v{{[0-9]+}}, [[LOAD0]], [[ONE]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 1, [[LOAD1]]		; VI-DAG: v_add_u16_e32 v{{[0-9]+}}, 1, [[LOAD1]]
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_sub_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_neg1(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 -1, i16 -1>		%add = sub <2 x i16> %a, <i16 -1, i16 -1>
Show All 22 Lines

; The high element gives fp		; The high element gives fp
; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_fp_split:		; GCN-LABEL: {{^}}v_test_sub_v2i16_inline_fp_split:
; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0		; GFX9: s_mov_b32 [[K:s[0-9]+]], 1.0
; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]		; GFX9: v_pk_sub_i16 v{{[0-9]+}}, v{{[0-9]+}}, [[K]]

; VI-NOT: v_subrev_i16		; VI-NOT: v_subrev_i16
; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0xffffc080		; VI: v_mov_b32_e32 [[K:v[0-9]+]], 0xffffc080
; VI: v_add_u16_sdwa v{{[0-9]+}}, [[K]], v{{[0-9]+}} dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD		; VI: v_add_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, [[K]] dst_sel:WORD_1 dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:DWORD
; VI-NOT: v_subrev_i16		; VI-NOT: v_subrev_i16
; VI: v_or_b32_e32		; VI: v_or_b32_e32
define amdgpu_kernel void @v_test_sub_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_inline_fp_split(<2 x i16> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid		%gep.out = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %out, i32 %tid
%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid		%gep.in0 = getelementptr inbounds <2 x i16>, <2 x i16> addrspace(1)* %in0, i32 %tid
%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0		%a = load volatile <2 x i16>, <2 x i16> addrspace(1)* %gep.in0
%add = sub <2 x i16> %a, <i16 0, i16 16256>		%add = sub <2 x i16> %a, <i16 0, i16 16256>
▲ Show 20 Lines • Show All 98 Lines • ▼ Show 20 Lines
; FIXME: Need to handle non-uniform case for function below (load without gep).		; FIXME: Need to handle non-uniform case for function below (load without gep).
; GCN-LABEL: {{^}}v_test_sub_v2i16_sext_to_v2i64:		; GCN-LABEL: {{^}}v_test_sub_v2i16_sext_to_v2i64:
; GCN: flat_load_dword		; GCN: flat_load_dword
; GCN: flat_load_dword		; GCN: flat_load_dword

; GFX9: v_pk_sub_i16		; GFX9: v_pk_sub_i16
; GFX9: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}		; GFX9: v_lshrrev_b32_e32 v{{[0-9]+}}, 16, v{{[0-9]+}}

; VI: v_subrev_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI: v_sub_u16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI: v_subrev_u16_e32		; VI: v_subrev_u16_e32

; GCN: v_bfe_i32 v{{[0-9]+}}, v{{[0-9]+}}, 0, 16		; GCN: v_bfe_i32 v{{[0-9]+}}, v{{[0-9]+}}, 0, 16
; GCN: v_bfe_i32 v{{[0-9]+}}, v{{[0-9]+}}, 0, 16		; GCN: v_bfe_i32 v{{[0-9]+}}, v{{[0-9]+}}, 0, 16
; GCN: v_ashrrev_i32_e32 v{{[0-9]+}}, 31, v{{[0-9]+}}		; GCN: v_ashrrev_i32_e32 v{{[0-9]+}}, 31, v{{[0-9]+}}
; GCN: v_ashrrev_i32_e32 v{{[0-9]+}}, 31, v{{[0-9]+}}		; GCN: v_ashrrev_i32_e32 v{{[0-9]+}}, 31, v{{[0-9]+}}
define amdgpu_kernel void @v_test_sub_v2i16_sext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {		define amdgpu_kernel void @v_test_sub_v2i16_sext_to_v2i64(<2 x i64> addrspace(1)* %out, <2 x i16> addrspace(1)* %in0, <2 x i16> addrspace(1)* %in1) #1 {
%tid = call i32 @llvm.amdgcn.workitem.id.x()		%tid = call i32 @llvm.amdgcn.workitem.id.x()
Show All 15 Lines

test/CodeGen/AMDGPU/v_mac_f16.ll

Show First 20 Lines • Show All 298 Lines • ▼ Show 20 Lines
}		}

; GCN-LABEL: {{^}}mac_v2f16:		; GCN-LABEL: {{^}}mac_v2f16:
; GCN: {{buffer\|flat}}_load_dword v[[A_V2_F16:[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword v[[A_V2_F16:[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword v[[B_V2_F16:[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword v[[B_V2_F16:[0-9]+]]
; GCN: {{buffer\|flat}}_load_dword v[[C_V2_F16:[0-9]+]]		; GCN: {{buffer\|flat}}_load_dword v[[C_V2_F16:[0-9]+]]

; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_0:[0-9]+]], v[[A_V2_F16]]
; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]		; SI: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI-DAG: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]		; SI: v_lshrrev_b32_e32 v[[B_F16_1:[0-9]+]], 16, v[[B_V2_F16]]
; SI-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
; SI-DAG: v_cvt_f32_f16_e32 v[[A_F32_1:[0-9]+]], v[[A_F16_1]]
; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[B_F32_1:[0-9]+]], v[[B_F16_1]]
		; SI: v_cvt_f32_f16_e32 v[[B_F32_0:[0-9]+]], v[[B_V2_F16]]
		; SI: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]		; SI: v_cvt_f32_f16_e32 v[[C_F32_1:[0-9]+]], v[[C_F16_1]]
		; SI-DAG: v_cvt_f32_f16_e32 v[[C_F32_0:[0-9]+]], v[[C_V2_F16]]
; SI-DAG: v_mac_f32_e32 v[[C_F32_0]], v[[B_F32_0]], v[[A_F32_0]]		; SI-DAG: v_mac_f32_e32 v[[C_F32_0]], v[[B_F32_0]], v[[A_F32_0]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_LO:[0-9]+]], v[[C_F32_0]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_LO:[0-9]+]], v[[C_F32_0]]
; SI-DAG: v_mac_f32_e32 v[[C_F32_1]], v[[B_F32_1]], v[[A_F32_1]]		; SI-DAG: v_mac_f32_e32 v[[C_F32_1]], v[[B_F32_1]], v[[A_F32_1]]
; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[C_F32_1]]		; SI-DAG: v_cvt_f16_f32_e32 v[[R_F16_1:[0-9]+]], v[[C_F32_1]]
; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]		; SI: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[R_F16_1]]
; VI-NOT: and		; VI-NOT: and
; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]		; SI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[R_F16_LO]]

; VI-DAG: v_lshrrev_b32_e32 v[[A_F16_1:[0-9]+]], 16, v[[A_V2_F16]]		; VI-DAG: v_lshrrev_b32_e32 v[[C_F16_1:[0-9]+]], 16, v[[C_V2_F16]]
; VI-DAG: v_mac_f16_sdwa v[[A_F16_1]], v[[C_V2_F16]], v[[B_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1		; VI-DAG: v_mac_f16_sdwa v[[C_F16_1]], v[[A_V2_F16]], v[[B_V2_F16]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:WORD_1
; VI-DAG: v_mac_f16_e32 v[[A_V2_F16]], v[[C_V2_F16]], v[[B_V2_F16]]		; VI-DAG: v_mac_f16_e32 v[[C_V2_F16]], v[[B_V2_F16]], v[[A_V2_F16]]
; VI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[A_F16_1]]		; VI-DAG: v_lshlrev_b32_e32 v[[R_F16_HI:[0-9]+]], 16, v[[C_F16_1]]
; VI-NOT: and		; VI-NOT: and
; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[A_V2_F16]]		; VI: v_or_b32_e32 v[[R_V2_F16:[0-9]+]], v[[R_F16_HI]], v[[C_V2_F16]]

; GCN: {{buffer\|flat}}_store_dword v[[R_V2_F16]]		; GCN: {{buffer\|flat}}_store_dword v[[R_V2_F16]]
; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mac_v2f16(		define amdgpu_kernel void @mac_v2f16(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b,		<2 x half> addrspace(1)* %b,
<2 x half> addrspace(1)* %c) #0 {		<2 x half> addrspace(1)* %c) #0 {
entry:		entry:
%a.val = load <2 x half>, <2 x half> addrspace(1)* %a		%a.val = load <2 x half>, <2 x half> addrspace(1)* %a
		call void @llvm.amdgcn.s.barrier() #2
%b.val = load <2 x half>, <2 x half> addrspace(1)* %b		%b.val = load <2 x half>, <2 x half> addrspace(1)* %b
		call void @llvm.amdgcn.s.barrier() #2
%c.val = load <2 x half>, <2 x half> addrspace(1)* %c		%c.val = load <2 x half>, <2 x half> addrspace(1)* %c

%t.val = fmul <2 x half> %a.val, %b.val		%t.val = fmul <2 x half> %a.val, %b.val
%r.val = fadd <2 x half> %t.val, %c.val		%r.val = fadd <2 x half> %t.val, %c.val

store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}
▲ Show 20 Lines • Show All 132 Lines • ▼ Show 20 Lines
; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}		; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}
; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}		; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]]		; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]]
; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]		; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]

; VI-DAG: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0		; VI-DAG: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0
; VI-DAG: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}		; VI-DAG: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
; VI-DAG: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; VI-DAG: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD		; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]		; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A1]]

; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mac_v2f16_neg_a_safe_fp_math(		define amdgpu_kernel void @mac_v2f16_neg_a_safe_fp_math(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b,		<2 x half> addrspace(1)* %b,
<2 x half> addrspace(1)* %c) #0 {		<2 x half> addrspace(1)* %c) #0 {
Show All 15 Lines
; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}		; SI: v_sub_f32_e32 v[[NEG_A0:[0-9]+]], 0, v{{[0-9]+}}
; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}		; SI: v_sub_f32_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}}		; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}}
; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}		; SI-DAG: v_mac_f32_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}

; VI: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0		; VI: v_mov_b32_e32 [[ZERO:v[0-9]+]], 0
; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}		; VI: v_sub_f16_e32 v[[NEG_A1:[0-9]+]], 0, v{{[0-9]+}}
; VI: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; VI: v_sub_f16_sdwa v[[NEG_A0:[0-9]+]], [[ZERO]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1
; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v[[NEG_A0]], v{{[0-9]+}} dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:DWORD src1_sel:WORD_1		; VI-DAG: v_mac_f16_sdwa v{{[0-9]+}}, v{{[0-9]+}}, v[[NEG_A0]] dst_sel:DWORD dst_unused:UNUSED_PAD src0_sel:WORD_1 src1_sel:DWORD
; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}		; VI-DAG: v_mac_f16_e32 v{{[0-9]+}}, v[[NEG_A1]], v{{[0-9]+}}

; GCN: s_endpgm		; GCN: s_endpgm
define amdgpu_kernel void @mac_v2f16_neg_b_safe_fp_math(		define amdgpu_kernel void @mac_v2f16_neg_b_safe_fp_math(
<2 x half> addrspace(1)* %r,		<2 x half> addrspace(1)* %r,
<2 x half> addrspace(1)* %a,		<2 x half> addrspace(1)* %a,
<2 x half> addrspace(1)* %b,		<2 x half> addrspace(1)* %b,
<2 x half> addrspace(1)* %c) #0 {		<2 x half> addrspace(1)* %c) #0 {
▲ Show 20 Lines • Show All 136 Lines • ▼ Show 20 Lines	entry:
%c.neg = fsub <2 x half> <half 0.0, half 0.0>, %c.val		%c.neg = fsub <2 x half> <half 0.0, half 0.0>, %c.val
%t.val = fmul <2 x half> %a.val, %b.val		%t.val = fmul <2 x half> %a.val, %b.val
%r.val = fadd <2 x half> %t.val, %c.neg		%r.val = fadd <2 x half> %t.val, %c.neg

store <2 x half> %r.val, <2 x half> addrspace(1)* %r		store <2 x half> %r.val, <2 x half> addrspace(1)* %r
ret void		ret void
}		}

		declare void @llvm.amdgcn.s.barrier() #2

attributes #0 = { nounwind "no-signed-zeros-fp-math"="false" }		attributes #0 = { nounwind "no-signed-zeros-fp-math"="false" }
attributes #1 = { nounwind "no-signed-zeros-fp-math"="true" }		attributes #1 = { nounwind "no-signed-zeros-fp-math"="true" }
		attributes #2 = { nounwind convergent }

This is an archive of the discontinued LLVM Phabricator instance.

[AMDGPU] Untangle SDWA pass from SIShrinkInstructionsClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 101321

lib/Target/AMDGPU/AMDGPUTargetMachine.cpp

lib/Target/AMDGPU/SIPeepholeSDWA.cpp

test/CodeGen/AMDGPU/add.v2i16.ll

test/CodeGen/AMDGPU/ashr.v2i16.ll

test/CodeGen/AMDGPU/fabs.f16.ll

test/CodeGen/AMDGPU/fadd.f16.ll

test/CodeGen/AMDGPU/fcanonicalize.f16.ll

test/CodeGen/AMDGPU/fmul.f16.ll

test/CodeGen/AMDGPU/fneg-fabs.f16.ll

test/CodeGen/AMDGPU/fneg.f16.ll

test/CodeGen/AMDGPU/fptosi.f16.ll

test/CodeGen/AMDGPU/fptoui.f16.ll

test/CodeGen/AMDGPU/fsub.f16.ll

test/CodeGen/AMDGPU/immv216.ll

test/CodeGen/AMDGPU/insert_vector_elt.v2i16.ll

test/CodeGen/AMDGPU/llvm.fmuladd.f16.ll

test/CodeGen/AMDGPU/llvm.maxnum.f16.ll

test/CodeGen/AMDGPU/llvm.minnum.f16.ll

test/CodeGen/AMDGPU/scratch-simple.ll

test/CodeGen/AMDGPU/sdwa-peephole.ll

test/CodeGen/AMDGPU/shl.v2i16.ll

test/CodeGen/AMDGPU/sminmax.v2i16.ll

test/CodeGen/AMDGPU/sub.v2i16.ll

test/CodeGen/AMDGPU/v_mac_f16.ll

[AMDGPU] Untangle SDWA pass from SIShrinkInstructions
ClosedPublic