This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
include/llvm/
-
llvm/
-
CodeGen/
-
SelectionDAG.h
1/2
SelectionDAGNodes.h
2/6
TargetLowering.h
-
Target/
-
TargetSelectionDAG.td
-
lib/
-
CodeGen/
-
SelectionDAG/
3
DAGCombiner.cpp
-
LegalizeIntegerTypes.cpp
-
LegalizeVectorTypes.cpp
-
SelectionDAG.cpp
-
SelectionDAGBuilder.cpp
-
SelectionDAGDumper.cpp
-
TargetLoweringBase.cpp
-
Target/
-
AArch64/
-
AArch64InstrInfo.td
-
ARM/
-
ARMISelDAGToDAG.cpp
3/4
ARMISelLowering.cpp
2/3
ARMInstrMVE.td
-
X86/
-
X86ISelLowering.cpp
1
X86InstrFragmentsSIMD.td
-
test/CodeGen/Thumb2/
-
CodeGen/
-
Thumb2/
-
LowOverheadLoops/
-
cond-vector-reduce-mve-codegen.ll
-
fast-fp-loops.ll
-
mve-tail-data-types.ll
-
vector-arith-codegen.ll
-
mve-masked-ldst-postinc.ll
-
mve-masked-ldst-preinc.ll
-
mve-masked-load.ll
-
mve-masked-store.ll

Differential D70176

[Codegen][ARM] Add addressing modes from masked loads and stores
ClosedPublic

Authored by dmgreen on Nov 13 2019, 6:16 AM.

Download Raw Diff

Details

Reviewers

craig.topper
RKSimon
samparker
SjoerdMeijer

Commits

rGb5315ae8ffa6: [Codegen][ARM] Add addressing modes from masked loads and stores

Summary

MVE has a basic symmetry between it's normal loads/store operations and the masked variants. This means that masked loads and stores can use pre-inc and post-inc addressing modes, just like the standard loads and stores already do.

To enable that, this patch adds all the relevant infrastructure for treating masked loads/stores the same as normal loads/stores. This involves:

Adding an AddressingMode to MaskedLoadStoreSDNode, along with an extra Offset operand that is added after the PtrBase.
Extending the IndexedModeActions from 8bits to 16bits to store the legality of masked operations as well as normal ones. This array is fairly small, so doubling the size still won't make it very large. Offset masked loads can then be controlled with setIndexedMaskedLoadAction, similar to standard loads.
The same methods that combine to indexed loads, such as CombineToPostIndexedLoadStore, are adjusted to handle masked loads in the same way.
The ARM backend is then adjusted to make use of these indexed masked loads/stores.
The X86 backend is adjusted to hopefully be no functional changes.

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

dmgreen created this revision.Nov 13 2019, 6:16 AM

Herald added a project: Restricted Project. · View Herald TranscriptNov 13 2019, 6:16 AM

Herald added subscribers: hiraditya, kristof.beyls. · View Herald Transcript

Nice one. Haven't looked at everything yet, but some first nits inlined.

llvm/include/llvm/CodeGen/SelectionDAGNodes.h
2293	This should be `ISD::MLOAD`?
llvm/include/llvm/CodeGen/TargetLowering.h
2067	abort -> about?
llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp
13670–13671	While you're at it, to make things a bit more consistent: isLoad -> IsLoad ?
13946–13947	Same here?
13948–13949	Is this big if-statement exactly the same as in `DAGCombiner::CombineToPreIndexedLoadStore`, except the ISD nodes? Can this be a helper function?

samparker added inline comments.Nov 13 2019, 7:29 AM

llvm/include/llvm/CodeGen/TargetLowering.h
1145	Is there a way that we can avoid these magic hex values?

dmgreen marked 2 inline comments as done.Nov 14 2019, 1:50 AM

dmgreen added inline comments.

llvm/include/llvm/CodeGen/SelectionDAGNodes.h
2293	Yeah. Nice spot. You can tell how many times this function gets called directly.
llvm/include/llvm/CodeGen/TargetLowering.h
1145	I'm not sure. We are trying to pull 4 bits out of an 16bit value, so the hex seems to fit perfectly!

dmgreen updated this revision to Diff 229247.Nov 14 2019, 1:59 AM

SjoerdMeijer added inline comments.Nov 14 2019, 5:43 AM

llvm/include/llvm/CodeGen/TargetLowering.h
1145	Agreed, but how about we do that inside a few simple getter/setter helper functions? I guess that would improve readability here a bit.

dmgreen marked an inline comment as done.Nov 14 2019, 1:51 PM

dmgreen added inline comments.

llvm/include/llvm/CodeGen/TargetLowering.h
1145	I think this is the getter helper function? I would prefer to keep it consistent with everything else in this file, which seem to just use shifts and Ands. I could change them to `(LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> 12) & 0xf);` if that would be better?

samparker added inline comments.Nov 15 2019, 1:54 AM

llvm/include/llvm/CodeGen/TargetLowering.h
1145	I don't mind adds and shifts, but what is twelve and why four bits? Can't we at least some enums for readability?

I would prefer that we kept this code consistent with the rest of the file. It's quite internal to lowering, and I'd prefer it to be explicit and declarative about what it's doing.

I've tried to update it a little and added extra comments from elsewhere in the file.

craig.topper added inline comments.Nov 18 2019, 1:25 PM

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td
1127	This looks to be unused?

Oh yeah. Thanks for taking a look.

Removed the unnecessary SDTX86MaskedLoad and moved SDTX86MaskedStore up to the other SDTypeProfiles.

Thanks for the changes. I am happy with this patch.
I could do a suggestion about readability, for me this would greatly improve that (a diff on top of this diff) because this has all the bit twiddling in one place, with all the patterns easy to see, and then you don't need to read any of that in the rest of the code:

diff --git a/llvm/include/llvm/CodeGen/TargetLowering.h b/llvm/include/llvm/CodeGen/TargetLowering.h
index 36e7509..ef7730c 100644
--- a/llvm/include/llvm/CodeGen/TargetLowering.h
+++ b/llvm/include/llvm/CodeGen/TargetLowering.h
@@ -1150,8 +1150,6 @@ public:
        getIndexedLoadAction(IdxMode, VT.getSimpleVT()) == Custom);
   }
 
   /// Return how the indexed store should be treated: either it is legal, needs
   /// to be promoted to a larger size, needs to be expanded to some other code
   /// sequence, or the target has a custom expander for it.
@@ -1171,15 +1169,59 @@ public:
        getIndexedStoreAction(IdxMode, VT.getSimpleVT()) == Custom);
   }
 
+  // The Action is a 16 bit value in the table, and we encode the action for
+  // the different instructions in the follow upper/lower parts of these 2
+  // bytes:
+  //
+  //          top         bottom
+  //    15            |           0 bit
+  //    --------------------------|
+  //    |  ML  |  MS  |  L  |  S  |
+  //    --------------------------|
+  //
+  // where:
+  //   ML = indexed masked load
+  //   MS = indexed masked store
+  //   L  = indexed load
+  //   S  = indexed store
+  //
+  void writeIndexedModeActionLowerBottomByte(unsigned Idx, unsigned IdxMode,
+                                             uint16_t Action) {
+    IndexedModeActions[Idx][IdxMode] &= ~0xf;
+    IndexedModeActions[Idx][IdxMode] |= Action;
+  }
+  void writeIndexedModeActionUpperBottomByte(unsigned Idx, unsigned IdxMode,
+                                             uint16_t Action) {
+    IndexedModeActions[Idx][IdxMode] &= ~(0xf << 4);
+    IndexedModeActions[Idx][IdxMode] |= Action << 4;
+  }
+  void writeIndexedModeActionLowerTopByte(unsigned Idx, unsigned IdxMode,
+                                          uint16_t Action) {
+    IndexedModeActions[Idx][IdxMode] &= ~(0xf << 8);
+    IndexedModeActions[Idx][IdxMode] |= Action << 8;
+  }
+  void writeIndexedModeActionUpperTopByte(unsigned Idx, unsigned IdxMode,
+                                          uint16_t Action) {
+    IndexedModeActions[Idx][IdxMode] &= ~(0xf << 12);
+    IndexedModeActions[Idx][IdxMode] |= Action << 12;
+  }
+  LegalizeAction getIndexedModeLowerTopByte(unsigned Ty, unsigned IdxMode) const {
+    return (LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> 8) & 0xf);
+  }
+  LegalizeAction getIndexedModeUpperTopByte(unsigned Ty, unsigned IdxMode) const {
+    return (LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> 12) & 0xf);
+  }
+  /*
+     TODO: the others
+  */
+
   /// Return how the indexed load should be treated: either it is legal, needs
   /// to be promoted to a larger size, needs to be expanded to some other code
   /// sequence, or the target has a custom expander for it.
   LegalizeAction getIndexedMaskedLoadAction(unsigned IdxMode, MVT VT) const {
     assert(IdxMode < ISD::LAST_INDEXED_MODE && VT.isValid() &&
            "Table isn't big enough!");
-    unsigned Ty = (unsigned)VT.SimpleTy;
-    // Masked Load action are kept in the upper half of the top byte.
-    return (LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> 12) & 0xf);
+    return getIndexedModeUpperTopByte(VT.SimpleTy, IdxMode);
   }
 
   /// Return true if the specified indexed load is legal on this target.
@@ -1195,9 +1237,7 @@ public:
   LegalizeAction getIndexedMaskedStoreAction(unsigned IdxMode, MVT VT) const {
     assert(IdxMode < ISD::LAST_INDEXED_MODE && VT.isValid() &&
            "Table isn't big enough!");
-    unsigned Ty = (unsigned)VT.SimpleTy;
-    // Masked Store action are kept in the lower half of the top byte.
-    return (LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> 8) & 0xf);
+    return getIndexedModeLowerTopByte(VT.SimpleTy, IdxMode);
   }
 
   /// Return true if the specified indexed load is legal on this target.
@@ -2099,9 +2139,7 @@ protected:
     assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&
            (unsigned)Action < 0xf && "Table isn't big enough!");
     // Load action are kept in the upper half of the bottom byte.
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] &= ~(0xf << 4);
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] |= ((uint16_t)Action)
-                                                          << 4;
+    writeIndexedModeActionUpperBottomByte(VT.SimpleTy, IdxMode, Action);
   }
 
   /// Indicate that the specified indexed store does or does not work with the
@@ -2113,9 +2151,7 @@ protected:
                              LegalizeAction Action) {
     assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&
            (unsigned)Action < 0xf && "Table isn't big enough!");
-    // Store action are kept in the lower half of the bottom byte.
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] &= ~0xf;
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] |= ((uint16_t)Action);
+    writeIndexedModeActionLowerBottomByte(VT.SimpleTy, IdxMode, Action);
   }
 
   /// Indicate that the specified indexed masked load does or does not work with
@@ -2127,10 +2163,7 @@ protected:
                                   LegalizeAction Action) {
     assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&
            (unsigned)Action < 0xf && "Table isn't big enough!");
-    // Masked Load action are kept in the upper half of the top byte.
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] &= ~(0xf << 12);
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] |= ((uint16_t)Action)
-                                                          << 12;
+    writeIndexedModeActionUpperTopByte(VT.SimpleTy, IdxMode, Action);
   }
 
   /// Indicate that the specified indexed masked store does or does not work
@@ -2142,10 +2175,7 @@ protected:
                                    LegalizeAction Action) {
     assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&
            (unsigned)Action < 0xf && "Table isn't big enough!");
-    // Masked Store action are kept in the lower half of the top byte.
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] &= ~(0xf << 8);
-    IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] |= ((uint16_t)Action)
-                                                          << 8;
+    writeIndexedModeActionLowerTopByte(VT.SimpleTy, IdxMode, Action);
   }
 
   /// Indicate that the specified condition code is or isn't supported on the

Alright, Awesome.

I had written something similar, but different in what parts were altered. I didn't like it in the end though, I felt like it ended up being harder to read and maintain because you just end up spreading the information that you need all over the file. I may not be the best judge of such things though, I often favour a declarative style over one that is more elegant, and am aware that that opinion isn't always popular. It's worth remembering that the aim is for simplicity and maintainability over something that is prettier (although they are often related).

But if you are having trouble reading this in its current form, I will try and make some modifications to it. Watch this space.

I will say that there is lots of other code in this patch that could do with extra eyes though! You've already found one issue, and it's worth making sure we are not focusing on the wrong thing, missing the forest for the trees. There's lots of other code in here that could do with a bit of extra scrutiny.

It would be good to see this rebased since the tail predication changes went in.

llvm/lib/Target/ARM/ARMISelLowering.cpp
385	Why not v4i32 and floats too?
15208	Maybe add a comment here for why we have this restriction?
llvm/lib/Target/ARM/ARMInstrMVE.td
5337	I don't think we shouldn't be restricting the base to a T1 register.

Prettify and address comments.

llvm/lib/Target/ARM/ARMISelLowering.cpp
385	This is "extending masked post-inc stores", so is only the extended types that will be extended. The others are above. We might well want to "zero extend" fp16s into a wider register at some point, especially if we are converting them to floats, but thats not a job for here.
llvm/lib/Target/ARM/ARMInstrMVE.td
5337	Ooof, the double negatives! This uses the same as the MVE_vector_offset_store_typed, which I think is OK for "normal" loads/stores. It's the extending loads/stores below that might be the problem (and don't really look right to me). I'll make it the same a non-masked for the moment, and try to fixup what doesn't look right in another commit.

Cheers. LGTM

llvm/lib/Target/ARM/ARMISelLowering.cpp
385	Face palm. Yeah ok, we can cross fp16 if/when we need it.
llvm/lib/Target/ARM/ARMInstrMVE.td
5337	Haha, my bad. Okay.

This revision is now accepted and ready to land.Nov 21 2019, 5:03 AM

Closed by commit rGb5315ae8ffa6: [Codegen][ARM] Add addressing modes from masked loads and stores (authored by dmgreen). · Explain WhyNov 26 2019, 8:45 AM

This revision was automatically updated to reflect the committed changes.

efriedma mentioned this in D102493: [RISCV] Expand unaligned fixed-length vector memory accesses.May 19 2021, 11:28 AM

Revision Contents

Path

Size

llvm/

include/

llvm/

CodeGen/

SelectionDAG.h

19 lines

SelectionDAGNodes.h

53 lines

TargetLowering.h

114 lines

Target/

TargetSelectionDAG.td

10 lines

lib/

CodeGen/

SelectionDAG/

DAGCombiner.cpp

177 lines

LegalizeIntegerTypes.cpp

16 lines

LegalizeVectorTypes.cpp

36 lines

SelectionDAG.cpp

63 lines

SelectionDAGBuilder.cpp

13 lines

SelectionDAGDumper.cpp

8 lines

TargetLoweringBase.cpp

2 lines

Target/

AArch64/

AArch64InstrInfo.td

27 lines

ARM/

ARMISelDAGToDAG.cpp

118 lines

ARMISelLowering.cpp

74 lines

ARMInstrMVE.td

118 lines

X86/

X86ISelLowering.cpp

44 lines

X86InstrFragmentsSIMD.td

35 lines

test/

CodeGen/

Thumb2/

LowOverheadLoops/

cond-vector-reduce-mve-codegen.ll

2 lines

fast-fp-loops.ll

19 lines

mve-tail-data-types.ll

59 lines

vector-arith-codegen.ll

49 lines

mve-masked-ldst-postinc.ll

240 lines

mve-masked-ldst-preinc.ll

240 lines

mve-masked-load.ll

60 lines

mve-masked-store.ll

60 lines

Diff 231080

llvm/include/llvm/CodeGen/SelectionDAG.h

Show First 20 Lines • Show All 1,130 Lines • ▼ Show 20 Lines	#endif
SDValue getTruncStore(SDValue Chain, const SDLoc &dl, SDValue Val,		SDValue getTruncStore(SDValue Chain, const SDLoc &dl, SDValue Val,
SDValue Ptr, EVT SVT, MachineMemOperand *MMO);		SDValue Ptr, EVT SVT, MachineMemOperand *MMO);
SDValue getIndexedStore(SDValue OrigStore, const SDLoc &dl, SDValue Base,		SDValue getIndexedStore(SDValue OrigStore, const SDLoc &dl, SDValue Base,
SDValue Offset, ISD::MemIndexedMode AM);		SDValue Offset, ISD::MemIndexedMode AM);

/// Returns sum of the base pointer and offset.		/// Returns sum of the base pointer and offset.
SDValue getMemBasePlusOffset(SDValue Base, unsigned Offset, const SDLoc &DL);		SDValue getMemBasePlusOffset(SDValue Base, unsigned Offset, const SDLoc &DL);

SDValue getMaskedLoad(EVT VT, const SDLoc &dl, SDValue Chain, SDValue Ptr,		SDValue getMaskedLoad(EVT VT, const SDLoc &dl, SDValue Chain, SDValue Base,
SDValue Mask, SDValue Src0, EVT MemVT,		SDValue Offset, SDValue Mask, SDValue Src0, EVT MemVT,
MachineMemOperand *MMO, ISD::LoadExtType,		MachineMemOperand *MMO, ISD::MemIndexedMode AM,
bool IsExpanding = false);		ISD::LoadExtType, bool IsExpanding = false);
		SDValue getIndexedMaskedLoad(SDValue OrigLoad, const SDLoc &dl, SDValue Base,
		SDValue Offset, ISD::MemIndexedMode AM);
SDValue getMaskedStore(SDValue Chain, const SDLoc &dl, SDValue Val,		SDValue getMaskedStore(SDValue Chain, const SDLoc &dl, SDValue Val,
SDValue Ptr, SDValue Mask, EVT MemVT,		SDValue Base, SDValue Offset, SDValue Mask, EVT MemVT,
MachineMemOperand *MMO, bool IsTruncating = false,		MachineMemOperand *MMO, ISD::MemIndexedMode AM,
bool IsCompressing = false);		bool IsTruncating = false, bool IsCompressing = false);
		SDValue getIndexedMaskedStore(SDValue OrigStore, const SDLoc &dl,
		SDValue Base, SDValue Offset,
		ISD::MemIndexedMode AM);
SDValue getMaskedGather(SDVTList VTs, EVT VT, const SDLoc &dl,		SDValue getMaskedGather(SDVTList VTs, EVT VT, const SDLoc &dl,
ArrayRef<SDValue> Ops, MachineMemOperand *MMO,		ArrayRef<SDValue> Ops, MachineMemOperand *MMO,
ISD::MemIndexType IndexType);		ISD::MemIndexType IndexType);
SDValue getMaskedScatter(SDVTList VTs, EVT VT, const SDLoc &dl,		SDValue getMaskedScatter(SDVTList VTs, EVT VT, const SDLoc &dl,
ArrayRef<SDValue> Ops, MachineMemOperand *MMO,		ArrayRef<SDValue> Ops, MachineMemOperand *MMO,
ISD::MemIndexType IndexType);		ISD::MemIndexType IndexType);

/// Return (create a new or find existing) a target-specific node.		/// Return (create a new or find existing) a target-specific node.
▲ Show 20 Lines • Show All 667 Lines • Show Last 20 Lines

llvm/include/llvm/CodeGen/SelectionDAGNodes.h

Show First 20 Lines • Show All 547 Lines • ▼ Show 20 Lines	class MemSDNodeBitfields {
uint16_t IsNonTemporal : 1;		uint16_t IsNonTemporal : 1;
uint16_t IsDereferenceable : 1;		uint16_t IsDereferenceable : 1;
uint16_t IsInvariant : 1;		uint16_t IsInvariant : 1;
};		};
enum { NumMemSDNodeBits = NumSDNodeBits + 4 };		enum { NumMemSDNodeBits = NumSDNodeBits + 4 };

class LSBaseSDNodeBitfields {		class LSBaseSDNodeBitfields {
friend class LSBaseSDNode;		friend class LSBaseSDNode;
		friend class MaskedLoadStoreSDNode;
friend class MaskedGatherScatterSDNode;		friend class MaskedGatherScatterSDNode;

uint16_t : NumMemSDNodeBits;		uint16_t : NumMemSDNodeBits;

// This storage is shared between disparate class hierarchies to hold an		// This storage is shared between disparate class hierarchies to hold an
// enumeration specific to the class hierarchy in use.		// enumeration specific to the class hierarchy in use.
// LSBaseSDNode => enum ISD::MemIndexedMode		// LSBaseSDNode => enum ISD::MemIndexedMode
		// MaskedLoadStoreBaseSDNode => enum ISD::MemIndexedMode
// MaskedGatherScatterSDNode => enum ISD::MemIndexType		// MaskedGatherScatterSDNode => enum ISD::MemIndexType
uint16_t AddressingMode : 3;		uint16_t AddressingMode : 3;
};		};
enum { NumLSBaseSDNodeBits = NumMemSDNodeBits + 3 };		enum { NumLSBaseSDNodeBits = NumMemSDNodeBits + 3 };

class LoadSDNodeBitfields {		class LoadSDNodeBitfields {
friend class LoadSDNode;		friend class LoadSDNode;
friend class MaskedLoadSDNode;		friend class MaskedLoadSDNode;
▲ Show 20 Lines • Show All 1,697 Lines • ▼ Show 20 Lines
};		};

/// This base class is used to represent MLOAD and MSTORE nodes		/// This base class is used to represent MLOAD and MSTORE nodes
class MaskedLoadStoreSDNode : public MemSDNode {		class MaskedLoadStoreSDNode : public MemSDNode {
public:		public:
friend class SelectionDAG;		friend class SelectionDAG;

MaskedLoadStoreSDNode(ISD::NodeType NodeTy, unsigned Order,		MaskedLoadStoreSDNode(ISD::NodeType NodeTy, unsigned Order,
const DebugLoc &dl, SDVTList VTs, EVT MemVT,		const DebugLoc &dl, SDVTList VTs,
		ISD::MemIndexedMode AM, EVT MemVT,
MachineMemOperand *MMO)		MachineMemOperand *MMO)
: MemSDNode(NodeTy, Order, dl, VTs, MemVT, MMO) {}		: MemSDNode(NodeTy, Order, dl, VTs, MemVT, MMO) {
		LSBaseSDNodeBits.AddressingMode = AM;
		assert(getAddressingMode() == AM && "Value truncated");
		}

// MaskedLoadSDNode (Chain, ptr, mask, passthru)		// MaskedLoadSDNode (Chain, ptr, offset, mask, passthru)
// MaskedStoreSDNode (Chain, data, ptr, mask)		// MaskedStoreSDNode (Chain, data, ptr, offset, mask)
// Mask is a vector of i1 elements		// Mask is a vector of i1 elements
const SDValue &getBasePtr() const {		const SDValue &getBasePtr() const {
return getOperand(getOpcode() == ISD::MLOAD ? 1 : 2);		return getOperand(getOpcode() == ISD::MLOAD ? 1 : 2);
}		}
const SDValue &getMask() const {		const SDValue &getOffset() const {
return getOperand(getOpcode() == ISD::MLOAD ? 2 : 3);		return getOperand(getOpcode() == ISD::MLOAD ? 2 : 3);
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions This should be `ISD::MLOAD`? SjoerdMeijer: This should be `ISD::MLOAD`?
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Yeah. Nice spot. You can tell how many times this function gets called directly. dmgreen: Yeah. Nice spot. You can tell how many times this function gets called directly.
}		}
		const SDValue &getMask() const {
		return getOperand(getOpcode() == ISD::MLOAD ? 3 : 4);
		}

		/// Return the addressing mode for this load or store:
		/// unindexed, pre-inc, pre-dec, post-inc, or post-dec.
		ISD::MemIndexedMode getAddressingMode() const {
		return static_cast<ISD::MemIndexedMode>(LSBaseSDNodeBits.AddressingMode);
		}

		/// Return true if this is a pre/post inc/dec load/store.
		bool isIndexed() const { return getAddressingMode() != ISD::UNINDEXED; }

		/// Return true if this is NOT a pre/post inc/dec load/store.
		bool isUnindexed() const { return getAddressingMode() == ISD::UNINDEXED; }

static bool classof(const SDNode *N) {		static bool classof(const SDNode *N) {
return N->getOpcode() == ISD::MLOAD \|\|		return N->getOpcode() == ISD::MLOAD \|\|
N->getOpcode() == ISD::MSTORE;		N->getOpcode() == ISD::MSTORE;
}		}
};		};

/// This class is used to represent an MLOAD node		/// This class is used to represent an MLOAD node
class MaskedLoadSDNode : public MaskedLoadStoreSDNode {		class MaskedLoadSDNode : public MaskedLoadStoreSDNode {
public:		public:
friend class SelectionDAG;		friend class SelectionDAG;

MaskedLoadSDNode(unsigned Order, const DebugLoc &dl, SDVTList VTs,		MaskedLoadSDNode(unsigned Order, const DebugLoc &dl, SDVTList VTs,
ISD::LoadExtType ETy, bool IsExpanding, EVT MemVT,		ISD::MemIndexedMode AM, ISD::LoadExtType ETy,
MachineMemOperand *MMO)		bool IsExpanding, EVT MemVT, MachineMemOperand *MMO)
: MaskedLoadStoreSDNode(ISD::MLOAD, Order, dl, VTs, MemVT, MMO) {		: MaskedLoadStoreSDNode(ISD::MLOAD, Order, dl, VTs, AM, MemVT, MMO) {
LoadSDNodeBits.ExtTy = ETy;		LoadSDNodeBits.ExtTy = ETy;
LoadSDNodeBits.IsExpanding = IsExpanding;		LoadSDNodeBits.IsExpanding = IsExpanding;
}		}

ISD::LoadExtType getExtensionType() const {		ISD::LoadExtType getExtensionType() const {
return static_cast<ISD::LoadExtType>(LoadSDNodeBits.ExtTy);		return static_cast<ISD::LoadExtType>(LoadSDNodeBits.ExtTy);
}		}

const SDValue &getBasePtr() const { return getOperand(1); }		const SDValue &getBasePtr() const { return getOperand(1); }
const SDValue &getMask() const { return getOperand(2); }		const SDValue &getOffset() const { return getOperand(2); }
const SDValue &getPassThru() const { return getOperand(3); }		const SDValue &getMask() const { return getOperand(3); }
		const SDValue &getPassThru() const { return getOperand(4); }

static bool classof(const SDNode *N) {		static bool classof(const SDNode *N) {
return N->getOpcode() == ISD::MLOAD;		return N->getOpcode() == ISD::MLOAD;
}		}

bool isExpandingLoad() const { return LoadSDNodeBits.IsExpanding; }		bool isExpandingLoad() const { return LoadSDNodeBits.IsExpanding; }
};		};

/// This class is used to represent an MSTORE node		/// This class is used to represent an MSTORE node
class MaskedStoreSDNode : public MaskedLoadStoreSDNode {		class MaskedStoreSDNode : public MaskedLoadStoreSDNode {
public:		public:
friend class SelectionDAG;		friend class SelectionDAG;

MaskedStoreSDNode(unsigned Order, const DebugLoc &dl, SDVTList VTs,		MaskedStoreSDNode(unsigned Order, const DebugLoc &dl, SDVTList VTs,
bool isTrunc, bool isCompressing, EVT MemVT,		ISD::MemIndexedMode AM, bool isTrunc, bool isCompressing,
MachineMemOperand *MMO)		EVT MemVT, MachineMemOperand *MMO)
: MaskedLoadStoreSDNode(ISD::MSTORE, Order, dl, VTs, MemVT, MMO) {		: MaskedLoadStoreSDNode(ISD::MSTORE, Order, dl, VTs, AM, MemVT, MMO) {
StoreSDNodeBits.IsTruncating = isTrunc;		StoreSDNodeBits.IsTruncating = isTrunc;
StoreSDNodeBits.IsCompressing = isCompressing;		StoreSDNodeBits.IsCompressing = isCompressing;
}		}

/// Return true if the op does a truncation before store.		/// Return true if the op does a truncation before store.
/// For integers this is the same as doing a TRUNCATE and storing the result.		/// For integers this is the same as doing a TRUNCATE and storing the result.
/// For floats, it is the same as doing an FP_ROUND and storing the result.		/// For floats, it is the same as doing an FP_ROUND and storing the result.
bool isTruncatingStore() const { return StoreSDNodeBits.IsTruncating; }		bool isTruncatingStore() const { return StoreSDNodeBits.IsTruncating; }

/// Returns true if the op does a compression to the vector before storing.		/// Returns true if the op does a compression to the vector before storing.
/// The node contiguously stores the active elements (integers or floats)		/// The node contiguously stores the active elements (integers or floats)
/// in src (those with their respective bit set in writemask k) to unaligned		/// in src (those with their respective bit set in writemask k) to unaligned
/// memory at base_addr.		/// memory at base_addr.
bool isCompressingStore() const { return StoreSDNodeBits.IsCompressing; }		bool isCompressingStore() const { return StoreSDNodeBits.IsCompressing; }

const SDValue &getValue() const { return getOperand(1); }		const SDValue &getValue() const { return getOperand(1); }
const SDValue &getBasePtr() const { return getOperand(2); }		const SDValue &getBasePtr() const { return getOperand(2); }
const SDValue &getMask() const { return getOperand(3); }		const SDValue &getOffset() const { return getOperand(3); }
		const SDValue &getMask() const { return getOperand(4); }

static bool classof(const SDNode *N) {		static bool classof(const SDNode *N) {
return N->getOpcode() == ISD::MSTORE;		return N->getOpcode() == ISD::MSTORE;
}		}
};		};

/// This is a base class used to represent		/// This is a base class used to represent
/// MGATHER and MSCATTER nodes		/// MGATHER and MSCATTER nodes
▲ Show 20 Lines • Show All 292 Lines • Show Last 20 Lines

llvm/include/llvm/CodeGen/TargetLowering.h

Show First 20 Lines • Show All 1,104 Lines • ▼ Show 20 Lines	bool isTruncStoreLegalOrCustom(EVT ValVT, EVT MemVT) const {
return isTypeLegal(ValVT) &&		return isTypeLegal(ValVT) &&
(getTruncStoreAction(ValVT, MemVT) == Legal \|\|		(getTruncStoreAction(ValVT, MemVT) == Legal \|\|
getTruncStoreAction(ValVT, MemVT) == Custom);		getTruncStoreAction(ValVT, MemVT) == Custom);
}		}

/// Return how the indexed load should be treated: either it is legal, needs		/// Return how the indexed load should be treated: either it is legal, needs
/// to be promoted to a larger size, needs to be expanded to some other code		/// to be promoted to a larger size, needs to be expanded to some other code
/// sequence, or the target has a custom expander for it.		/// sequence, or the target has a custom expander for it.
LegalizeAction		LegalizeAction getIndexedLoadAction(unsigned IdxMode, MVT VT) const {
getIndexedLoadAction(unsigned IdxMode, MVT VT) const {		return getIndexedModeAction(IdxMode, VT, IMAB_Load);
assert(IdxMode < ISD::LAST_INDEXED_MODE && VT.isValid() &&
"Table isn't big enough!");
unsigned Ty = (unsigned)VT.SimpleTy;
return (LegalizeAction)((IndexedModeActions[Ty][IdxMode] & 0xf0) >> 4);
}		}

/// Return true if the specified indexed load is legal on this target.		/// Return true if the specified indexed load is legal on this target.
bool isIndexedLoadLegal(unsigned IdxMode, EVT VT) const {		bool isIndexedLoadLegal(unsigned IdxMode, EVT VT) const {
return VT.isSimple() &&		return VT.isSimple() &&
(getIndexedLoadAction(IdxMode, VT.getSimpleVT()) == Legal \|\|		(getIndexedLoadAction(IdxMode, VT.getSimpleVT()) == Legal \|\|
getIndexedLoadAction(IdxMode, VT.getSimpleVT()) == Custom);		getIndexedLoadAction(IdxMode, VT.getSimpleVT()) == Custom);
}		}

/// Return how the indexed store should be treated: either it is legal, needs		/// Return how the indexed store should be treated: either it is legal, needs
/// to be promoted to a larger size, needs to be expanded to some other code		/// to be promoted to a larger size, needs to be expanded to some other code
/// sequence, or the target has a custom expander for it.		/// sequence, or the target has a custom expander for it.
LegalizeAction		LegalizeAction getIndexedStoreAction(unsigned IdxMode, MVT VT) const {
getIndexedStoreAction(unsigned IdxMode, MVT VT) const {		return getIndexedModeAction(IdxMode, VT, IMAB_Store);
assert(IdxMode < ISD::LAST_INDEXED_MODE && VT.isValid() &&
"Table isn't big enough!");
unsigned Ty = (unsigned)VT.SimpleTy;
return (LegalizeAction)(IndexedModeActions[Ty][IdxMode] & 0x0f);
}		}

/// Return true if the specified indexed load is legal on this target.		/// Return true if the specified indexed load is legal on this target.
bool isIndexedStoreLegal(unsigned IdxMode, EVT VT) const {		bool isIndexedStoreLegal(unsigned IdxMode, EVT VT) const {
return VT.isSimple() &&		return VT.isSimple() &&
(getIndexedStoreAction(IdxMode, VT.getSimpleVT()) == Legal \|\|		(getIndexedStoreAction(IdxMode, VT.getSimpleVT()) == Legal \|\|
getIndexedStoreAction(IdxMode, VT.getSimpleVT()) == Custom);		getIndexedStoreAction(IdxMode, VT.getSimpleVT()) == Custom);
}		}

		/// Return how the indexed load should be treated: either it is legal, needs
		/// to be promoted to a larger size, needs to be expanded to some other code
		/// sequence, or the target has a custom expander for it.
		LegalizeAction getIndexedMaskedLoadAction(unsigned IdxMode, MVT VT) const {
		return getIndexedModeAction(IdxMode, VT, IMAB_MaskedLoad);
		}

		/// Return true if the specified indexed load is legal on this target.
		samparkerUnsubmitted Not Done Reply Inline Actions Is there a way that we can avoid these magic hex values? samparker: Is there a way that we can avoid these magic hex values?
		dmgreenAuthorUnsubmitted Done Reply Inline Actions I'm not sure. We are trying to pull 4 bits out of an 16bit value, so the hex seems to fit perfectly! dmgreen: I'm not sure. We are trying to pull 4 bits out of an 16bit value, so the hex seems to fit…
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Agreed, but how about we do that inside a few simple getter/setter helper functions? I guess that would improve readability here a bit. SjoerdMeijer: Agreed, but how about we do that inside a few simple getter/setter helper functions? I guess…
		dmgreenAuthorUnsubmitted Done Reply Inline Actions I think this is the getter helper function? I would prefer to keep it consistent with everything else in this file, which seem to just use shifts and Ands. I could change them to `(LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> 12) & 0xf);` if that would be better? dmgreen: I think this is the getter helper function? I would prefer to keep it consistent with…
		samparkerUnsubmitted Not Done Reply Inline Actions I don't mind adds and shifts, but what is twelve and why four bits? Can't we at least some enums for readability? samparker: I don't mind adds and shifts, but what is twelve and why four bits? Can't we at least some…
		bool isIndexedMaskedLoadLegal(unsigned IdxMode, EVT VT) const {
		return VT.isSimple() &&
		(getIndexedMaskedLoadAction(IdxMode, VT.getSimpleVT()) == Legal \|\|
		getIndexedMaskedLoadAction(IdxMode, VT.getSimpleVT()) == Custom);
		}

		/// Return how the indexed store should be treated: either it is legal, needs
		/// to be promoted to a larger size, needs to be expanded to some other code
		/// sequence, or the target has a custom expander for it.
		LegalizeAction getIndexedMaskedStoreAction(unsigned IdxMode, MVT VT) const {
		return getIndexedModeAction(IdxMode, VT, IMAB_MaskedStore);
		}

		/// Return true if the specified indexed load is legal on this target.
		bool isIndexedMaskedStoreLegal(unsigned IdxMode, EVT VT) const {
		return VT.isSimple() &&
		(getIndexedMaskedStoreAction(IdxMode, VT.getSimpleVT()) == Legal \|\|
		getIndexedMaskedStoreAction(IdxMode, VT.getSimpleVT()) == Custom);
		}

/// Return how the condition code should be treated: either it is legal, needs		/// Return how the condition code should be treated: either it is legal, needs
/// to be expanded to some other code sequence, or the target has a custom		/// to be expanded to some other code sequence, or the target has a custom
/// expander for it.		/// expander for it.
LegalizeAction		LegalizeAction
getCondCodeAction(ISD::CondCode CC, MVT VT) const {		getCondCodeAction(ISD::CondCode CC, MVT VT) const {
assert((unsigned)CC < array_lengthof(CondCodeActions) &&		assert((unsigned)CC < array_lengthof(CondCodeActions) &&
((unsigned)VT.SimpleTy >> 3) < array_lengthof(CondCodeActions[0]) &&		((unsigned)VT.SimpleTy >> 3) < array_lengthof(CondCodeActions[0]) &&
"Table isn't big enough!");		"Table isn't big enough!");
▲ Show 20 Lines • Show All 871 Lines • ▼ Show 20 Lines	void setTruncStoreAction(MVT ValVT, MVT MemVT,
TruncStoreActions[(unsigned)ValVT.SimpleTy][MemVT.SimpleTy] = Action;		TruncStoreActions[(unsigned)ValVT.SimpleTy][MemVT.SimpleTy] = Action;
}		}

/// Indicate that the specified indexed load does or does not work with the		/// Indicate that the specified indexed load does or does not work with the
/// specified type and indicate what to do abort it.		/// specified type and indicate what to do abort it.
///		///
/// NOTE: All indexed mode loads are initialized to Expand in		/// NOTE: All indexed mode loads are initialized to Expand in
/// TargetLowering.cpp		/// TargetLowering.cpp
void setIndexedLoadAction(unsigned IdxMode, MVT VT,		void setIndexedLoadAction(unsigned IdxMode, MVT VT, LegalizeAction Action) {
LegalizeAction Action) {		setIndexedModeAction(IdxMode, VT, IMAB_Load, Action);
assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&
(unsigned)Action < 0xf && "Table isn't big enough!");
// Load action are kept in the upper half.
IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] &= ~0xf0;
IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] \|= ((uint8_t)Action) <<4;
}		}

/// Indicate that the specified indexed store does or does not work with the		/// Indicate that the specified indexed store does or does not work with the
/// specified type and indicate what to do about it.		/// specified type and indicate what to do about it.
///		///
/// NOTE: All indexed mode stores are initialized to Expand in		/// NOTE: All indexed mode stores are initialized to Expand in
/// TargetLowering.cpp		/// TargetLowering.cpp
void setIndexedStoreAction(unsigned IdxMode, MVT VT,		void setIndexedStoreAction(unsigned IdxMode, MVT VT, LegalizeAction Action) {
		setIndexedModeAction(IdxMode, VT, IMAB_Store, Action);
		}

		/// Indicate that the specified indexed masked load does or does not work with
		/// the specified type and indicate what to do about it.
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions abort -> about? SjoerdMeijer: abort -> about?
		///
		/// NOTE: All indexed mode masked loads are initialized to Expand in
		/// TargetLowering.cpp
		void setIndexedMaskedLoadAction(unsigned IdxMode, MVT VT,
LegalizeAction Action) {		LegalizeAction Action) {
assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&		setIndexedModeAction(IdxMode, VT, IMAB_MaskedLoad, Action);
(unsigned)Action < 0xf && "Table isn't big enough!");		}
// Store action are kept in the lower half.
IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] &= ~0x0f;		/// Indicate that the specified indexed masked store does or does not work
IndexedModeActions[(unsigned)VT.SimpleTy][IdxMode] \|= ((uint8_t)Action);		/// with the specified type and indicate what to do about it.
		///
		/// NOTE: All indexed mode masked stores are initialized to Expand in
		/// TargetLowering.cpp
		void setIndexedMaskedStoreAction(unsigned IdxMode, MVT VT,
		LegalizeAction Action) {
		setIndexedModeAction(IdxMode, VT, IMAB_MaskedStore, Action);
}		}

/// Indicate that the specified condition code is or isn't supported on the		/// Indicate that the specified condition code is or isn't supported on the
/// target and indicate what to do about it.		/// target and indicate what to do about it.
void setCondCodeAction(ISD::CondCode CC, MVT VT,		void setCondCodeAction(ISD::CondCode CC, MVT VT,
LegalizeAction Action) {		LegalizeAction Action) {
assert(VT.isValid() && (unsigned)CC < array_lengthof(CondCodeActions) &&		assert(VT.isValid() && (unsigned)CC < array_lengthof(CondCodeActions) &&
"Table isn't big enough!");		"Table isn't big enough!");
▲ Show 20 Lines • Show All 696 Lines • ▼ Show 20 Lines	private:
/// specific value type and extension type. Uses 4-bits to store the action		/// specific value type and extension type. Uses 4-bits to store the action
/// for each of the 4 load ext types.		/// for each of the 4 load ext types.
uint16_t LoadExtActions[MVT::LAST_VALUETYPE][MVT::LAST_VALUETYPE];		uint16_t LoadExtActions[MVT::LAST_VALUETYPE][MVT::LAST_VALUETYPE];

/// For each value type pair keep a LegalizeAction that indicates whether a		/// For each value type pair keep a LegalizeAction that indicates whether a
/// truncating store of a specific value type and truncating type is legal.		/// truncating store of a specific value type and truncating type is legal.
LegalizeAction TruncStoreActions[MVT::LAST_VALUETYPE][MVT::LAST_VALUETYPE];		LegalizeAction TruncStoreActions[MVT::LAST_VALUETYPE][MVT::LAST_VALUETYPE];

/// For each indexed mode and each value type, keep a pair of LegalizeAction		/// For each indexed mode and each value type, keep a quad of LegalizeAction
/// that indicates how instruction selection should deal with the load /		/// that indicates how instruction selection should deal with the load /
/// store.		/// store / maskedload / maskedstore.
///		///
/// The first dimension is the value_type for the reference. The second		/// The first dimension is the value_type for the reference. The second
/// dimension represents the various modes for load store.		/// dimension represents the various modes for load store.
uint8_t IndexedModeActions[MVT::LAST_VALUETYPE][ISD::LAST_INDEXED_MODE];		uint16_t IndexedModeActions[MVT::LAST_VALUETYPE][ISD::LAST_INDEXED_MODE];

/// For each condition code (ISD::CondCode) keep a LegalizeAction that		/// For each condition code (ISD::CondCode) keep a LegalizeAction that
/// indicates how instruction selection should deal with the condition code.		/// indicates how instruction selection should deal with the condition code.
///		///
/// Because each CC action takes up 4 bits, we need to have the array size be		/// Because each CC action takes up 4 bits, we need to have the array size be
/// large enough to fit all of the value types. This can be done by rounding		/// large enough to fit all of the value types. This can be done by rounding
/// up the MVT::LAST_VALUETYPE value to the next multiple of 8.		/// up the MVT::LAST_VALUETYPE value to the next multiple of 8.
uint32_t CondCodeActions[ISD::SETCC_INVALID][(MVT::LAST_VALUETYPE + 7) / 8];		uint32_t CondCodeActions[ISD::SETCC_INVALID][(MVT::LAST_VALUETYPE + 7) / 8];
Show All 26 Lines	private:
ISD::CondCode CmpLibcallCCs[RTLIB::UNKNOWN_LIBCALL];		ISD::CondCode CmpLibcallCCs[RTLIB::UNKNOWN_LIBCALL];

/// Stores the CallingConv that should be used for each libcall.		/// Stores the CallingConv that should be used for each libcall.
CallingConv::ID LibcallCallingConvs[RTLIB::UNKNOWN_LIBCALL];		CallingConv::ID LibcallCallingConvs[RTLIB::UNKNOWN_LIBCALL];

/// Set default libcall names and calling conventions.		/// Set default libcall names and calling conventions.
void InitLibcalls(const Triple &TT);		void InitLibcalls(const Triple &TT);

		/// The bits of IndexedModeActions used to store the legalisation actions
		/// We store the data as \| ML \| MS \| L \| S \| each taking 4 bits.
		enum IndexedModeActionsBits {
		IMAB_Store = 0,
		IMAB_Load = 4,
		IMAB_MaskedStore = 8,
		IMAB_MaskedLoad = 12
		};

		void setIndexedModeAction(unsigned IdxMode, MVT VT, unsigned Shift,
		LegalizeAction Action) {
		assert(VT.isValid() && IdxMode < ISD::LAST_INDEXED_MODE &&
		(unsigned)Action < 0xf && "Table isn't big enough!");
		unsigned Ty = (unsigned)VT.SimpleTy;
		IndexedModeActions[Ty][IdxMode] &= ~(0xf << Shift);
		IndexedModeActions[Ty][IdxMode] \|= ((uint16_t)Action) << Shift;
		}

		LegalizeAction getIndexedModeAction(unsigned IdxMode, MVT VT,
		unsigned Shift) const {
		assert(IdxMode < ISD::LAST_INDEXED_MODE && VT.isValid() &&
		"Table isn't big enough!");
		unsigned Ty = (unsigned)VT.SimpleTy;
		return (LegalizeAction)((IndexedModeActions[Ty][IdxMode] >> Shift) & 0xf);
		}

protected:		protected:
/// Return true if the extension represented by \p I is free.		/// Return true if the extension represented by \p I is free.
/// \pre \p I is a sign, zero, or fp extension and		/// \pre \p I is a sign, zero, or fp extension and
/// is[Z\|FP]ExtFree of the related types is not true.		/// is[Z\|FP]ExtFree of the related types is not true.
virtual bool isExtFreeImpl(const Instruction *I) const { return false; }		virtual bool isExtFreeImpl(const Instruction *I) const { return false; }

/// Depth that GatherAllAliases should should continue looking for chain		/// Depth that GatherAllAliases should should continue looking for chain
/// dependencies when trying to find a more preferable chain. As an		/// dependencies when trying to find a more preferable chain. As an
▲ Show 20 Lines • Show All 1,445 Lines • Show Last 20 Lines

llvm/include/llvm/Target/TargetSelectionDAG.td

	Show First 20 Lines • Show All 218 Lines • ▼ Show 20 Lines
	def SDTStore : SDTypeProfile<0, 2, [ // store			def SDTStore : SDTypeProfile<0, 2, [ // store
	SDTCisPtrTy<1>			SDTCisPtrTy<1>
	]>;			]>;

	def SDTIStore : SDTypeProfile<1, 3, [ // indexed store			def SDTIStore : SDTypeProfile<1, 3, [ // indexed store
	SDTCisSameAs<0, 2>, SDTCisPtrTy<0>, SDTCisPtrTy<3>			SDTCisSameAs<0, 2>, SDTCisPtrTy<0>, SDTCisPtrTy<3>
	]>;			]>;

	def SDTMaskedStore: SDTypeProfile<0, 3, [ // masked store			def SDTMaskedStore: SDTypeProfile<0, 4, [ // masked store
	SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVec<2>, SDTCisSameNumEltsAs<0, 2>			SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisPtrTy<2>, SDTCisVec<3>, SDTCisSameNumEltsAs<0, 3>
	]>;			]>;

	def SDTMaskedLoad: SDTypeProfile<1, 3, [ // masked load			def SDTMaskedLoad: SDTypeProfile<1, 4, [ // masked load
	SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVec<2>, SDTCisSameAs<0, 3>,			SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisPtrTy<2>, SDTCisVec<3>, SDTCisSameAs<0, 4>,
	SDTCisSameNumEltsAs<0, 2>			SDTCisSameNumEltsAs<0, 3>
	]>;			]>;

	def SDTVecShuffle : SDTypeProfile<1, 2, [			def SDTVecShuffle : SDTypeProfile<1, 2, [
	SDTCisSameAs<0, 1>, SDTCisSameAs<1, 2>			SDTCisSameAs<0, 1>, SDTCisSameAs<1, 2>
	]>;			]>;
	def SDTVecExtract : SDTypeProfile<1, 2, [ // vector extract			def SDTVecExtract : SDTypeProfile<1, 2, [ // vector extract
	SDTCisEltOfVec<0, 1>, SDTCisPtrTy<2>			SDTCisEltOfVec<0, 1>, SDTCisPtrTy<2>
	]>;			]>;
	▲ Show 20 Lines • Show All 1,354 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 8,718 Lines • ▼ Show 20 Lines	SDValue DAGCombiner::visitMSTORE(SDNode *N) {
SDValue Mask = MST->getMask();		SDValue Mask = MST->getMask();
SDValue Chain = MST->getChain();		SDValue Chain = MST->getChain();
SDLoc DL(N);		SDLoc DL(N);

// Zap masked stores with a zero mask.		// Zap masked stores with a zero mask.
if (ISD::isBuildVectorAllZeros(Mask.getNode()))		if (ISD::isBuildVectorAllZeros(Mask.getNode()))
return Chain;		return Chain;

		// Try transforming N to an indexed store.
		if (CombineToPreIndexedLoadStore(N) \|\| CombineToPostIndexedLoadStore(N))
		return SDValue(N, 0);

return SDValue();		return SDValue();
}		}

SDValue DAGCombiner::visitMGATHER(SDNode *N) {		SDValue DAGCombiner::visitMGATHER(SDNode *N) {
MaskedGatherSDNode *MGT = cast<MaskedGatherSDNode>(N);		MaskedGatherSDNode *MGT = cast<MaskedGatherSDNode>(N);
SDValue Mask = MGT->getMask();		SDValue Mask = MGT->getMask();
SDLoc DL(N);		SDLoc DL(N);

// Zap gathers with a zero mask.		// Zap gathers with a zero mask.
if (ISD::isBuildVectorAllZeros(Mask.getNode()))		if (ISD::isBuildVectorAllZeros(Mask.getNode()))
return CombineTo(N, MGT->getPassThru(), MGT->getChain());		return CombineTo(N, MGT->getPassThru(), MGT->getChain());

return SDValue();		return SDValue();
}		}

SDValue DAGCombiner::visitMLOAD(SDNode *N) {		SDValue DAGCombiner::visitMLOAD(SDNode *N) {
MaskedLoadSDNode *MLD = cast<MaskedLoadSDNode>(N);		MaskedLoadSDNode *MLD = cast<MaskedLoadSDNode>(N);
SDValue Mask = MLD->getMask();		SDValue Mask = MLD->getMask();
SDLoc DL(N);		SDLoc DL(N);

// Zap masked loads with a zero mask.		// Zap masked loads with a zero mask.
if (ISD::isBuildVectorAllZeros(Mask.getNode()))		if (ISD::isBuildVectorAllZeros(Mask.getNode()))
return CombineTo(N, MLD->getPassThru(), MLD->getChain());		return CombineTo(N, MLD->getPassThru(), MLD->getChain());

		// Try transforming N to an indexed load.
		if (CombineToPreIndexedLoadStore(N) \|\| CombineToPostIndexedLoadStore(N))
		return SDValue(N, 0);

return SDValue();		return SDValue();
}		}

/// A vector select of 2 constant vectors can be simplified to math/logic to		/// A vector select of 2 constant vectors can be simplified to math/logic to
/// avoid a variable select instruction and possibly avoid constant loads.		/// avoid a variable select instruction and possibly avoid constant loads.
SDValue DAGCombiner::foldVSelectOfConstants(SDNode *N) {		SDValue DAGCombiner::foldVSelectOfConstants(SDNode *N) {
SDValue Cond = N->getOperand(0);		SDValue Cond = N->getOperand(0);
SDValue N1 = N->getOperand(1);		SDValue N1 = N->getOperand(1);
▲ Show 20 Lines • Show All 742 Lines • ▼ Show 20 Lines	static SDValue tryToFoldExtOfMaskedLoad(SelectionDAG &DAG,
if (!TLI.isLoadExtLegal(ExtLoadType, VT, Ld->getValueType(0)))		if (!TLI.isLoadExtLegal(ExtLoadType, VT, Ld->getValueType(0)))
return SDValue();		return SDValue();

if (!TLI.isVectorLoadExtDesirable(SDValue(N, 0)))		if (!TLI.isVectorLoadExtDesirable(SDValue(N, 0)))
return SDValue();		return SDValue();

SDLoc dl(Ld);		SDLoc dl(Ld);
SDValue PassThru = DAG.getNode(ExtOpc, dl, VT, Ld->getPassThru());		SDValue PassThru = DAG.getNode(ExtOpc, dl, VT, Ld->getPassThru());
SDValue NewLoad = DAG.getMaskedLoad(VT, dl, Ld->getChain(),		SDValue NewLoad = DAG.getMaskedLoad(
Ld->getBasePtr(), Ld->getMask(),		VT, dl, Ld->getChain(), Ld->getBasePtr(), Ld->getOffset(), Ld->getMask(),
PassThru, Ld->getMemoryVT(),		PassThru, Ld->getMemoryVT(), Ld->getMemOperand(), Ld->getAddressingMode(),
Ld->getMemOperand(), ExtLoadType,		ExtLoadType, Ld->isExpandingLoad());
Ld->isExpandingLoad());
DAG.ReplaceAllUsesOfValueWith(SDValue(Ld, 1), SDValue(NewLoad.getNode(), 1));		DAG.ReplaceAllUsesOfValueWith(SDValue(Ld, 1), SDValue(NewLoad.getNode(), 1));
return NewLoad;		return NewLoad;
}		}

static SDValue foldExtendedSignBitTest(SDNode *N, SelectionDAG &DAG,		static SDValue foldExtendedSignBitTest(SDNode *N, SelectionDAG &DAG,
bool LegalOperations) {		bool LegalOperations) {
assert((N->getOpcode() == ISD::SIGN_EXTEND \|\|		assert((N->getOpcode() == ISD::SIGN_EXTEND \|\|
N->getOpcode() == ISD::ZERO_EXTEND) && "Expected sext or zext");		N->getOpcode() == ISD::ZERO_EXTEND) && "Expected sext or zext");
▲ Show 20 Lines • Show All 4,085 Lines • ▼ Show 20 Lines
/// Return true if 'Use' is a load or a store that uses N as its base pointer		/// Return true if 'Use' is a load or a store that uses N as its base pointer
/// and that N may be folded in the load / store addressing mode.		/// and that N may be folded in the load / store addressing mode.
static bool canFoldInAddressingMode(SDNode N, SDNode Use,		static bool canFoldInAddressingMode(SDNode N, SDNode Use,
SelectionDAG &DAG,		SelectionDAG &DAG,
const TargetLowering &TLI) {		const TargetLowering &TLI) {
EVT VT;		EVT VT;
unsigned AS;		unsigned AS;

if (LoadSDNode *LD = dyn_cast<LoadSDNode>(Use)) {		if (LoadSDNode *LD = dyn_cast<LoadSDNode>(Use)) {
if (LD->isIndexed() \|\| LD->getBasePtr().getNode() != N)		if (LD->isIndexed() \|\| LD->getBasePtr().getNode() != N)
return false;		return false;
VT = LD->getMemoryVT();		VT = LD->getMemoryVT();
AS = LD->getAddressSpace();		AS = LD->getAddressSpace();
} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(Use)) {		} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(Use)) {
if (ST->isIndexed() \|\| ST->getBasePtr().getNode() != N)		if (ST->isIndexed() \|\| ST->getBasePtr().getNode() != N)
return false;		return false;
VT = ST->getMemoryVT();		VT = ST->getMemoryVT();
AS = ST->getAddressSpace();		AS = ST->getAddressSpace();
		} else if (MaskedLoadSDNode *LD = dyn_cast<MaskedLoadSDNode>(Use)) {
		if (LD->isIndexed() \|\| LD->getBasePtr().getNode() != N)
		return false;
		VT = LD->getMemoryVT();
		AS = LD->getAddressSpace();
		} else if (MaskedStoreSDNode *ST = dyn_cast<MaskedStoreSDNode>(Use)) {
		if (ST->isIndexed() \|\| ST->getBasePtr().getNode() != N)
		return false;
		VT = ST->getMemoryVT();
		AS = ST->getAddressSpace();
} else		} else
return false;		return false;

TargetLowering::AddrMode AM;		TargetLowering::AddrMode AM;
if (N->getOpcode() == ISD::ADD) {		if (N->getOpcode() == ISD::ADD) {
AM.HasBaseReg = true;		AM.HasBaseReg = true;
ConstantSDNode *Offset = dyn_cast<ConstantSDNode>(N->getOperand(1));		ConstantSDNode *Offset = dyn_cast<ConstantSDNode>(N->getOperand(1));
if (Offset)		if (Offset)
Show All 12 Lines	else
// [reg +/- reg]		// [reg +/- reg]
AM.Scale = 1;		AM.Scale = 1;
} else		} else
return false;		return false;

return TLI.isLegalAddressingMode(DAG.getDataLayout(), AM,		return TLI.isLegalAddressingMode(DAG.getDataLayout(), AM,
VT.getTypeForEVT(*DAG.getContext()), AS);		VT.getTypeForEVT(*DAG.getContext()), AS);
}		}

/// Try turning a load/store into a pre-indexed load/store when the base		static bool getCombineLoadStoreParts(SDNode *N, unsigned Inc, unsigned Dec,
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions While you're at it, to make things a bit more consistent: isLoad -> IsLoad ? SjoerdMeijer: While you're at it, to make things a bit more consistent: isLoad -> IsLoad ?
/// pointer is an add or subtract and it has other uses besides the load/store.		bool &IsLoad, bool &IsMasked, SDValue &Ptr,
/// After the transformation, the new indexed load/store has effectively folded		const TargetLowering &TLI) {
/// the add/subtract in and all of its other uses are redirected to the
/// new load/store.
bool DAGCombiner::CombineToPreIndexedLoadStore(SDNode *N) {
if (Level < AfterLegalizeDAG)
return false;

bool isLoad = true;
SDValue Ptr;
EVT VT;
if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {		if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {
if (LD->isIndexed())		if (LD->isIndexed())
return false;		return false;
VT = LD->getMemoryVT();		EVT VT = LD->getMemoryVT();
if (!TLI.isIndexedLoadLegal(ISD::PRE_INC, VT) &&		if (!TLI.isIndexedLoadLegal(Inc, VT) && !TLI.isIndexedLoadLegal(Dec, VT))
!TLI.isIndexedLoadLegal(ISD::PRE_DEC, VT))
return false;		return false;
Ptr = LD->getBasePtr();		Ptr = LD->getBasePtr();
} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {		} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {
if (ST->isIndexed())		if (ST->isIndexed())
return false;		return false;
VT = ST->getMemoryVT();		EVT VT = ST->getMemoryVT();
if (!TLI.isIndexedStoreLegal(ISD::PRE_INC, VT) &&		if (!TLI.isIndexedStoreLegal(Inc, VT) && !TLI.isIndexedStoreLegal(Dec, VT))
!TLI.isIndexedStoreLegal(ISD::PRE_DEC, VT))		return false;
		Ptr = ST->getBasePtr();
		IsLoad = false;
		} else if (MaskedLoadSDNode *LD = dyn_cast<MaskedLoadSDNode>(N)) {
		if (LD->isIndexed())
		return false;
		EVT VT = LD->getMemoryVT();
		if (!TLI.isIndexedMaskedLoadLegal(Inc, VT) &&
		!TLI.isIndexedMaskedLoadLegal(Dec, VT))
		return false;
		Ptr = LD->getBasePtr();
		IsMasked = true;
		} else if (MaskedStoreSDNode *ST = dyn_cast<MaskedStoreSDNode>(N)) {
		if (ST->isIndexed())
		return false;
		EVT VT = ST->getMemoryVT();
		if (!TLI.isIndexedMaskedStoreLegal(Inc, VT) &&
		!TLI.isIndexedMaskedStoreLegal(Dec, VT))
return false;		return false;
Ptr = ST->getBasePtr();		Ptr = ST->getBasePtr();
isLoad = false;		IsLoad = false;
		IsMasked = true;
} else {		} else {
return false;		return false;
}		}
		return true;
		}

		/// Try turning a load/store into a pre-indexed load/store when the base
		/// pointer is an add or subtract and it has other uses besides the load/store.
		/// After the transformation, the new indexed load/store has effectively folded
		/// the add/subtract in and all of its other uses are redirected to the
		/// new load/store.
		bool DAGCombiner::CombineToPreIndexedLoadStore(SDNode *N) {
		if (Level < AfterLegalizeDAG)
		return false;

		bool IsLoad = true;
		bool IsMasked = false;
		SDValue Ptr;
		if (!getCombineLoadStoreParts(N, ISD::PRE_INC, ISD::PRE_DEC, IsLoad, IsMasked,
		Ptr, TLI))
		return false;

// If the pointer is not an add/sub, or if it doesn't have multiple uses, bail		// If the pointer is not an add/sub, or if it doesn't have multiple uses, bail
// out. There is no reason to make this a preinc/predec.		// out. There is no reason to make this a preinc/predec.
if ((Ptr.getOpcode() != ISD::ADD && Ptr.getOpcode() != ISD::SUB) \|\|		if ((Ptr.getOpcode() != ISD::ADD && Ptr.getOpcode() != ISD::SUB) \|\|
Ptr.getNode()->hasOneUse())		Ptr.getNode()->hasOneUse())
return false;		return false;

// Ask the target to do addressing mode selection.		// Ask the target to do addressing mode selection.
Show All 25 Lines	bool DAGCombiner::CombineToPreIndexedLoadStore(SDNode *N) {
// 4) All uses are load / store ops that use it as old base ptr.		// 4) All uses are load / store ops that use it as old base ptr.

// Check #1. Preinc'ing a frame index would require copying the stack pointer		// Check #1. Preinc'ing a frame index would require copying the stack pointer
// (plus the implicit offset) to a register to preinc anyway.		// (plus the implicit offset) to a register to preinc anyway.
if (isa<FrameIndexSDNode>(BasePtr) \|\| isa<RegisterSDNode>(BasePtr))		if (isa<FrameIndexSDNode>(BasePtr) \|\| isa<RegisterSDNode>(BasePtr))
return false;		return false;

// Check #2.		// Check #2.
if (!isLoad) {		if (!IsLoad) {
SDValue Val = cast<StoreSDNode>(N)->getValue();		SDValue Val = IsMasked ? cast<MaskedStoreSDNode>(N)->getValue()
		: cast<StoreSDNode>(N)->getValue();

// Would require a copy.		// Would require a copy.
if (Val == BasePtr)		if (Val == BasePtr)
return false;		return false;

// Would create a cycle.		// Would create a cycle.
if (Val == Ptr \|\| Ptr->isPredecessorOf(Val.getNode()))		if (Val == Ptr \|\| Ptr->isPredecessorOf(Val.getNode()))
return false;		return false;
▲ Show 20 Lines • Show All 59 Lines • ▼ Show 20 Lines	for (SDNode *Use : Ptr.getNode()->uses()) {
if (!canFoldInAddressingMode(Ptr.getNode(), Use, DAG, TLI))		if (!canFoldInAddressingMode(Ptr.getNode(), Use, DAG, TLI))
RealUse = true;		RealUse = true;
}		}

if (!RealUse)		if (!RealUse)
return false;		return false;

SDValue Result;		SDValue Result;
if (isLoad)		if (!IsMasked) {
Result = DAG.getIndexedLoad(SDValue(N,0), SDLoc(N),		if (IsLoad)
BasePtr, Offset, AM);		Result = DAG.getIndexedLoad(SDValue(N, 0), SDLoc(N), BasePtr, Offset, AM);
else		else
Result = DAG.getIndexedStore(SDValue(N,0), SDLoc(N),		Result =
BasePtr, Offset, AM);		DAG.getIndexedStore(SDValue(N, 0), SDLoc(N), BasePtr, Offset, AM);
		} else {
		if (IsLoad)
		Result = DAG.getIndexedMaskedLoad(SDValue(N, 0), SDLoc(N), BasePtr,
		Offset, AM);
		else
		Result = DAG.getIndexedMaskedStore(SDValue(N, 0), SDLoc(N), BasePtr,
		Offset, AM);
		}
++PreIndexedNodes;		++PreIndexedNodes;
++NodesCombined;		++NodesCombined;
LLVM_DEBUG(dbgs() << "\nReplacing.4 "; N->dump(&DAG); dbgs() << "\nWith: ";		LLVM_DEBUG(dbgs() << "\nReplacing.4 "; N->dump(&DAG); dbgs() << "\nWith: ";
Result.getNode()->dump(&DAG); dbgs() << '\n');		Result.getNode()->dump(&DAG); dbgs() << '\n');
WorklistRemover DeadNodes(*this);		WorklistRemover DeadNodes(*this);
if (isLoad) {		if (IsLoad) {
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(0));		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(0));
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 1), Result.getValue(2));		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 1), Result.getValue(2));
} else {		} else {
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(1));		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(1));
}		}

// Finally, since the node is now dead, remove it from the graph.		// Finally, since the node is now dead, remove it from the graph.
deleteAndRecombine(N);		deleteAndRecombine(N);
Show All 37 Lines	for (unsigned i = 0, e = OtherUses.size(); i != e; ++i) {
if (X0 < 0) CNV = -CNV;		if (X0 < 0) CNV = -CNV;
if (X1 * Y0 * Y1 < 0) CNV = CNV + Offset1;		if (X1 * Y0 * Y1 < 0) CNV = CNV + Offset1;
else CNV = CNV - Offset1;		else CNV = CNV - Offset1;

SDLoc DL(OtherUses[i]);		SDLoc DL(OtherUses[i]);

// We can now generate the new expression.		// We can now generate the new expression.
SDValue NewOp1 = DAG.getConstant(CNV, DL, CN->getValueType(0));		SDValue NewOp1 = DAG.getConstant(CNV, DL, CN->getValueType(0));
SDValue NewOp2 = Result.getValue(isLoad ? 1 : 0);		SDValue NewOp2 = Result.getValue(IsLoad ? 1 : 0);

SDValue NewUse = DAG.getNode(Opcode,		SDValue NewUse = DAG.getNode(Opcode,
DL,		DL,
OtherUses[i]->getValueType(0), NewOp1, NewOp2);		OtherUses[i]->getValueType(0), NewOp1, NewOp2);
DAG.ReplaceAllUsesOfValueWith(SDValue(OtherUses[i], 0), NewUse);		DAG.ReplaceAllUsesOfValueWith(SDValue(OtherUses[i], 0), NewUse);
deleteAndRecombine(OtherUses[i]);		deleteAndRecombine(OtherUses[i]);
}		}

// Replace the uses of Ptr with uses of the updated base value.		// Replace the uses of Ptr with uses of the updated base value.
DAG.ReplaceAllUsesOfValueWith(Ptr, Result.getValue(isLoad ? 1 : 0));		DAG.ReplaceAllUsesOfValueWith(Ptr, Result.getValue(IsLoad ? 1 : 0));
deleteAndRecombine(Ptr.getNode());		deleteAndRecombine(Ptr.getNode());
AddToWorklist(Result.getNode());		AddToWorklist(Result.getNode());

return true;		return true;
}		}

/// Try to combine a load/store with a add/sub of the base pointer node into a		/// Try to combine a load/store with a add/sub of the base pointer node into a
/// post-indexed load/store. The transformation folded the add/subtract into the		/// post-indexed load/store. The transformation folded the add/subtract into the
/// new indexed load/store effectively and all of its uses are redirected to the		/// new indexed load/store effectively and all of its uses are redirected to the
/// new load/store.		/// new load/store.
bool DAGCombiner::CombineToPostIndexedLoadStore(SDNode *N) {		bool DAGCombiner::CombineToPostIndexedLoadStore(SDNode *N) {
if (Level < AfterLegalizeDAG)		if (Level < AfterLegalizeDAG)
return false;		return false;

bool isLoad = true;		bool IsLoad = true;
		bool IsMasked = false;
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Same here? SjoerdMeijer: Same here?
SDValue Ptr;		SDValue Ptr;
EVT VT;		if (!getCombineLoadStoreParts(N, ISD::POST_INC, ISD::POST_DEC, IsLoad, IsMasked,
		SjoerdMeijerUnsubmitted Not Done Reply Inline Actions Is this big if-statement exactly the same as in `DAGCombiner::CombineToPreIndexedLoadStore`, except the ISD nodes? Can this be a helper function? SjoerdMeijer: Is this big if-statement exactly the same as in `DAGCombiner::CombineToPreIndexedLoadStore`…
if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {		Ptr, TLI))
if (LD->isIndexed())
return false;
VT = LD->getMemoryVT();
if (!TLI.isIndexedLoadLegal(ISD::POST_INC, VT) &&
!TLI.isIndexedLoadLegal(ISD::POST_DEC, VT))
return false;
Ptr = LD->getBasePtr();
} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {
if (ST->isIndexed())
return false;
VT = ST->getMemoryVT();
if (!TLI.isIndexedStoreLegal(ISD::POST_INC, VT) &&
!TLI.isIndexedStoreLegal(ISD::POST_DEC, VT))
return false;		return false;
Ptr = ST->getBasePtr();
isLoad = false;
} else {
return false;
}

if (Ptr.getNode()->hasOneUse())		if (Ptr.getNode()->hasOneUse())
return false;		return false;

for (SDNode *Op : Ptr.getNode()->uses()) {		for (SDNode *Op : Ptr.getNode()->uses()) {
if (Op == N \|\|		if (Op == N \|\|
(Op->getOpcode() != ISD::ADD && Op->getOpcode() != ISD::SUB))		(Op->getOpcode() != ISD::ADD && Op->getOpcode() != ISD::SUB))
continue;		continue;
Show All 19 Lines	if (TLI.getPostIndexedAddressParts(N, Op, BasePtr, Offset, AM, DAG)) {
// Check for #1.		// Check for #1.
bool TryNext = false;		bool TryNext = false;
for (SDNode *Use : BasePtr.getNode()->uses()) {		for (SDNode *Use : BasePtr.getNode()->uses()) {
if (Use == Ptr.getNode())		if (Use == Ptr.getNode())
continue;		continue;

// If all the uses are load / store addresses, then don't do the		// If all the uses are load / store addresses, then don't do the
// transformation.		// transformation.
if (Use->getOpcode() == ISD::ADD \|\| Use->getOpcode() == ISD::SUB){		if (Use->getOpcode() == ISD::ADD \|\| Use->getOpcode() == ISD::SUB) {
bool RealUse = false;		bool RealUse = false;
for (SDNode *UseUse : Use->uses()) {		for (SDNode *UseUse : Use->uses()) {
if (!canFoldInAddressingMode(Use, UseUse, DAG, TLI))		if (!canFoldInAddressingMode(Use, UseUse, DAG, TLI))
RealUse = true;		RealUse = true;
}		}

if (!RealUse) {		if (!RealUse) {
TryNext = true;		TryNext = true;
Show All 9 Lines	if (TLI.getPostIndexedAddressParts(N, Op, BasePtr, Offset, AM, DAG)) {
SmallPtrSet<const SDNode *, 32> Visited;		SmallPtrSet<const SDNode *, 32> Visited;
SmallVector<const SDNode *, 8> Worklist;		SmallVector<const SDNode *, 8> Worklist;
// Ptr is predecessor to both N and Op.		// Ptr is predecessor to both N and Op.
Visited.insert(Ptr.getNode());		Visited.insert(Ptr.getNode());
Worklist.push_back(N);		Worklist.push_back(N);
Worklist.push_back(Op);		Worklist.push_back(Op);
if (!SDNode::hasPredecessorHelper(N, Visited, Worklist) &&		if (!SDNode::hasPredecessorHelper(N, Visited, Worklist) &&
!SDNode::hasPredecessorHelper(Op, Visited, Worklist)) {		!SDNode::hasPredecessorHelper(Op, Visited, Worklist)) {
SDValue Result = isLoad		SDValue Result;
? DAG.getIndexedLoad(SDValue(N,0), SDLoc(N),		if (!IsMasked)
BasePtr, Offset, AM)		Result = IsLoad ? DAG.getIndexedLoad(SDValue(N, 0), SDLoc(N), BasePtr,
		Offset, AM)
: DAG.getIndexedStore(SDValue(N,0), SDLoc(N),		: DAG.getIndexedStore(SDValue(N, 0), SDLoc(N),
BasePtr, Offset, AM);		BasePtr, Offset, AM);
		else
		Result = IsLoad ? DAG.getIndexedMaskedLoad(SDValue(N, 0), SDLoc(N),
		BasePtr, Offset, AM)
		: DAG.getIndexedMaskedStore(SDValue(N, 0), SDLoc(N),
		BasePtr, Offset, AM);
++PostIndexedNodes;		++PostIndexedNodes;
++NodesCombined;		++NodesCombined;
LLVM_DEBUG(dbgs() << "\nReplacing.5 "; N->dump(&DAG);		LLVM_DEBUG(dbgs() << "\nReplacing.5 "; N->dump(&DAG);
dbgs() << "\nWith: "; Result.getNode()->dump(&DAG);		dbgs() << "\nWith: "; Result.getNode()->dump(&DAG);
dbgs() << '\n');		dbgs() << '\n');
WorklistRemover DeadNodes(*this);		WorklistRemover DeadNodes(*this);
if (isLoad) {		if (IsLoad) {
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(0));		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(0));
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 1), Result.getValue(2));		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 1), Result.getValue(2));
} else {		} else {
DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(1));		DAG.ReplaceAllUsesOfValueWith(SDValue(N, 0), Result.getValue(1));
}		}

// Finally, since the node is now dead, remove it from the graph.		// Finally, since the node is now dead, remove it from the graph.
deleteAndRecombine(N);		deleteAndRecombine(N);

// Replace the uses of Use with uses of the updated base value.		// Replace the uses of Use with uses of the updated base value.
DAG.ReplaceAllUsesOfValueWith(SDValue(Op, 0),		DAG.ReplaceAllUsesOfValueWith(SDValue(Op, 0),
Result.getValue(isLoad ? 1 : 0));		Result.getValue(IsLoad ? 1 : 0));
deleteAndRecombine(Op);		deleteAndRecombine(Op);
return true;		return true;
}		}
}		}
}		}

return false;		return false;
}		}
▲ Show 20 Lines • Show All 7,055 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/LegalizeIntegerTypes.cpp

Show First 20 Lines • Show All 586 Lines • ▼ Show 20 Lines
}		}

SDValue DAGTypeLegalizer::PromoteIntRes_MLOAD(MaskedLoadSDNode *N) {		SDValue DAGTypeLegalizer::PromoteIntRes_MLOAD(MaskedLoadSDNode *N) {
EVT NVT = TLI.getTypeToTransformTo(*DAG.getContext(), N->getValueType(0));		EVT NVT = TLI.getTypeToTransformTo(*DAG.getContext(), N->getValueType(0));
SDValue ExtPassThru = GetPromotedInteger(N->getPassThru());		SDValue ExtPassThru = GetPromotedInteger(N->getPassThru());

SDLoc dl(N);		SDLoc dl(N);
SDValue Res = DAG.getMaskedLoad(NVT, dl, N->getChain(), N->getBasePtr(),		SDValue Res = DAG.getMaskedLoad(NVT, dl, N->getChain(), N->getBasePtr(),
N->getMask(), ExtPassThru, N->getMemoryVT(),		N->getOffset(), N->getMask(), ExtPassThru,
N->getMemOperand(), ISD::EXTLOAD);		N->getMemoryVT(), N->getMemOperand(),
		N->getAddressingMode(), ISD::EXTLOAD);
// Legalize the chain result - switch anything that used the old chain to		// Legalize the chain result - switch anything that used the old chain to
// use the new one.		// use the new one.
ReplaceValueWith(SDValue(N, 1), Res.getValue(1));		ReplaceValueWith(SDValue(N, 1), Res.getValue(1));
return Res;		return Res;
}		}

SDValue DAGTypeLegalizer::PromoteIntRes_MGATHER(MaskedGatherSDNode *N) {		SDValue DAGTypeLegalizer::PromoteIntRes_MGATHER(MaskedGatherSDNode *N) {
EVT NVT = TLI.getTypeToTransformTo(*DAG.getContext(), N->getValueType(0));		EVT NVT = TLI.getTypeToTransformTo(*DAG.getContext(), N->getValueType(0));
▲ Show 20 Lines • Show All 875 Lines • ▼ Show 20 Lines	SDValue DAGTypeLegalizer::PromoteIntOp_MSTORE(MaskedStoreSDNode *N,
unsigned OpNo) {		unsigned OpNo) {

SDValue DataOp = N->getValue();		SDValue DataOp = N->getValue();
EVT DataVT = DataOp.getValueType();		EVT DataVT = DataOp.getValueType();
SDValue Mask = N->getMask();		SDValue Mask = N->getMask();
SDLoc dl(N);		SDLoc dl(N);

bool TruncateStore = false;		bool TruncateStore = false;
if (OpNo == 3) {		if (OpNo == 4) {
Mask = PromoteTargetBoolean(Mask, DataVT);		Mask = PromoteTargetBoolean(Mask, DataVT);
// Update in place.		// Update in place.
SmallVector<SDValue, 4> NewOps(N->op_begin(), N->op_end());		SmallVector<SDValue, 4> NewOps(N->op_begin(), N->op_end());
NewOps[3] = Mask;		NewOps[4] = Mask;
return SDValue(DAG.UpdateNodeOperands(N, NewOps), 0);		return SDValue(DAG.UpdateNodeOperands(N, NewOps), 0);
} else { // Data operand		} else { // Data operand
assert(OpNo == 1 && "Unexpected operand for promotion");		assert(OpNo == 1 && "Unexpected operand for promotion");
DataOp = GetPromotedInteger(DataOp);		DataOp = GetPromotedInteger(DataOp);
TruncateStore = true;		TruncateStore = true;
}		}

return DAG.getMaskedStore(N->getChain(), dl, DataOp, N->getBasePtr(), Mask,		return DAG.getMaskedStore(N->getChain(), dl, DataOp, N->getBasePtr(),
N->getMemoryVT(), N->getMemOperand(),		N->getOffset(), Mask, N->getMemoryVT(),
		N->getMemOperand(), N->getAddressingMode(),
TruncateStore, N->isCompressingStore());		TruncateStore, N->isCompressingStore());
}		}

SDValue DAGTypeLegalizer::PromoteIntOp_MLOAD(MaskedLoadSDNode *N,		SDValue DAGTypeLegalizer::PromoteIntOp_MLOAD(MaskedLoadSDNode *N,
unsigned OpNo) {		unsigned OpNo) {
assert(OpNo == 2 && "Only know how to promote the mask!");		assert(OpNo == 3 && "Only know how to promote the mask!");
EVT DataVT = N->getValueType(0);		EVT DataVT = N->getValueType(0);
SDValue Mask = PromoteTargetBoolean(N->getOperand(OpNo), DataVT);		SDValue Mask = PromoteTargetBoolean(N->getOperand(OpNo), DataVT);
SmallVector<SDValue, 4> NewOps(N->op_begin(), N->op_end());		SmallVector<SDValue, 4> NewOps(N->op_begin(), N->op_end());
NewOps[OpNo] = Mask;		NewOps[OpNo] = Mask;
return SDValue(DAG.UpdateNodeOperands(N, NewOps), 0);		return SDValue(DAG.UpdateNodeOperands(N, NewOps), 0);
}		}

SDValue DAGTypeLegalizer::PromoteIntOp_MGATHER(MaskedGatherSDNode *N,		SDValue DAGTypeLegalizer::PromoteIntOp_MGATHER(MaskedGatherSDNode *N,
▲ Show 20 Lines • Show All 2,839 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

Show First 20 Lines • Show All 1,535 Lines • ▼ Show 20 Lines	void DAGTypeLegalizer::SplitVecRes_LOAD(LoadSDNode *LD, SDValue &Lo,

// Legalize the chain result - switch anything that used the old chain to		// Legalize the chain result - switch anything that used the old chain to
// use the new one.		// use the new one.
ReplaceValueWith(SDValue(LD, 1), Ch);		ReplaceValueWith(SDValue(LD, 1), Ch);
}		}

void DAGTypeLegalizer::SplitVecRes_MLOAD(MaskedLoadSDNode *MLD,		void DAGTypeLegalizer::SplitVecRes_MLOAD(MaskedLoadSDNode *MLD,
SDValue &Lo, SDValue &Hi) {		SDValue &Lo, SDValue &Hi) {
		assert(MLD->isUnindexed() && "Indexed masked load during type legalization!");
EVT LoVT, HiVT;		EVT LoVT, HiVT;
SDLoc dl(MLD);		SDLoc dl(MLD);
std::tie(LoVT, HiVT) = DAG.GetSplitDestVTs(MLD->getValueType(0));		std::tie(LoVT, HiVT) = DAG.GetSplitDestVTs(MLD->getValueType(0));

SDValue Ch = MLD->getChain();		SDValue Ch = MLD->getChain();
SDValue Ptr = MLD->getBasePtr();		SDValue Ptr = MLD->getBasePtr();
		SDValue Offset = MLD->getOffset();
		assert(Offset.isUndef() && "Unexpected indexed masked load offset");
SDValue Mask = MLD->getMask();		SDValue Mask = MLD->getMask();
SDValue PassThru = MLD->getPassThru();		SDValue PassThru = MLD->getPassThru();
unsigned Alignment = MLD->getOriginalAlignment();		unsigned Alignment = MLD->getOriginalAlignment();
ISD::LoadExtType ExtType = MLD->getExtensionType();		ISD::LoadExtType ExtType = MLD->getExtensionType();

// Split Mask operand		// Split Mask operand
SDValue MaskLo, MaskHi;		SDValue MaskLo, MaskHi;
if (Mask.getOpcode() == ISD::SETCC) {		if (Mask.getOpcode() == ISD::SETCC) {
Show All 15 Lines	void DAGTypeLegalizer::SplitVecRes_MLOAD(MaskedLoadSDNode *MLD,
else		else
std::tie(PassThruLo, PassThruHi) = DAG.SplitVector(PassThru, dl);		std::tie(PassThruLo, PassThruHi) = DAG.SplitVector(PassThru, dl);

MachineMemOperand *MMO = DAG.getMachineFunction().		MachineMemOperand *MMO = DAG.getMachineFunction().
getMachineMemOperand(MLD->getPointerInfo(),		getMachineMemOperand(MLD->getPointerInfo(),
MachineMemOperand::MOLoad, LoMemVT.getStoreSize(),		MachineMemOperand::MOLoad, LoMemVT.getStoreSize(),
Alignment, MLD->getAAInfo(), MLD->getRanges());		Alignment, MLD->getAAInfo(), MLD->getRanges());

Lo = DAG.getMaskedLoad(LoVT, dl, Ch, Ptr, MaskLo, PassThruLo, LoMemVT, MMO,		Lo = DAG.getMaskedLoad(LoVT, dl, Ch, Ptr, Offset, MaskLo, PassThruLo, LoMemVT,
ExtType, MLD->isExpandingLoad());		MMO, MLD->getAddressingMode(), ExtType,
		MLD->isExpandingLoad());

Ptr = TLI.IncrementMemoryAddress(Ptr, MaskLo, dl, LoMemVT, DAG,		Ptr = TLI.IncrementMemoryAddress(Ptr, MaskLo, dl, LoMemVT, DAG,
MLD->isExpandingLoad());		MLD->isExpandingLoad());
unsigned HiOffset = LoMemVT.getStoreSize();		unsigned HiOffset = LoMemVT.getStoreSize();

MMO = DAG.getMachineFunction().getMachineMemOperand(		MMO = DAG.getMachineFunction().getMachineMemOperand(
MLD->getPointerInfo().getWithOffset(HiOffset), MachineMemOperand::MOLoad,		MLD->getPointerInfo().getWithOffset(HiOffset), MachineMemOperand::MOLoad,
HiMemVT.getStoreSize(), Alignment, MLD->getAAInfo(),		HiMemVT.getStoreSize(), Alignment, MLD->getAAInfo(),
MLD->getRanges());		MLD->getRanges());

Hi = DAG.getMaskedLoad(HiVT, dl, Ch, Ptr, MaskHi, PassThruHi, HiMemVT, MMO,		Hi = DAG.getMaskedLoad(HiVT, dl, Ch, Ptr, Offset, MaskHi, PassThruHi, HiMemVT,
ExtType, MLD->isExpandingLoad());		MMO, MLD->getAddressingMode(), ExtType,
		MLD->isExpandingLoad());

// Build a factor node to remember that this load is independent of the		// Build a factor node to remember that this load is independent of the
// other one.		// other one.
Ch = DAG.getNode(ISD::TokenFactor, dl, MVT::Other, Lo.getValue(1),		Ch = DAG.getNode(ISD::TokenFactor, dl, MVT::Other, Lo.getValue(1),
Hi.getValue(1));		Hi.getValue(1));

// Legalize the chain result - switch anything that used the old chain to		// Legalize the chain result - switch anything that used the old chain to
// use the new one.		// use the new one.
▲ Show 20 Lines • Show All 718 Lines • ▼ Show 20 Lines	SDValue DAGTypeLegalizer::SplitVecOp_MGATHER(MaskedGatherSDNode *MGT,
SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, dl, MGT->getValueType(0), Lo,		SDValue Res = DAG.getNode(ISD::CONCAT_VECTORS, dl, MGT->getValueType(0), Lo,
Hi);		Hi);
ReplaceValueWith(SDValue(MGT, 0), Res);		ReplaceValueWith(SDValue(MGT, 0), Res);
return SDValue();		return SDValue();
}		}

SDValue DAGTypeLegalizer::SplitVecOp_MSTORE(MaskedStoreSDNode *N,		SDValue DAGTypeLegalizer::SplitVecOp_MSTORE(MaskedStoreSDNode *N,
unsigned OpNo) {		unsigned OpNo) {
		assert(N->isUnindexed() && "Indexed masked store of vector?");
SDValue Ch = N->getChain();		SDValue Ch = N->getChain();
SDValue Ptr = N->getBasePtr();		SDValue Ptr = N->getBasePtr();
		SDValue Offset = N->getOffset();
		assert(Offset.isUndef() && "Unexpected indexed masked store offset");
SDValue Mask = N->getMask();		SDValue Mask = N->getMask();
SDValue Data = N->getValue();		SDValue Data = N->getValue();
EVT MemoryVT = N->getMemoryVT();		EVT MemoryVT = N->getMemoryVT();
unsigned Alignment = N->getOriginalAlignment();		unsigned Alignment = N->getOriginalAlignment();
SDLoc DL(N);		SDLoc DL(N);

EVT LoMemVT, HiMemVT;		EVT LoMemVT, HiMemVT;
std::tie(LoMemVT, HiMemVT) = DAG.GetSplitDestVTs(MemoryVT);		std::tie(LoMemVT, HiMemVT) = DAG.GetSplitDestVTs(MemoryVT);
Show All 17 Lines	SDValue DAGTypeLegalizer::SplitVecOp_MSTORE(MaskedStoreSDNode *N,
}		}

SDValue Lo, Hi;		SDValue Lo, Hi;
MachineMemOperand *MMO = DAG.getMachineFunction().		MachineMemOperand *MMO = DAG.getMachineFunction().
getMachineMemOperand(N->getPointerInfo(),		getMachineMemOperand(N->getPointerInfo(),
MachineMemOperand::MOStore, LoMemVT.getStoreSize(),		MachineMemOperand::MOStore, LoMemVT.getStoreSize(),
Alignment, N->getAAInfo(), N->getRanges());		Alignment, N->getAAInfo(), N->getRanges());

Lo = DAG.getMaskedStore(Ch, DL, DataLo, Ptr, MaskLo, LoMemVT, MMO,		Lo = DAG.getMaskedStore(Ch, DL, DataLo, Ptr, Offset, MaskLo, LoMemVT, MMO,
N->isTruncatingStore(),		N->getAddressingMode(), N->isTruncatingStore(),
N->isCompressingStore());		N->isCompressingStore());

Ptr = TLI.IncrementMemoryAddress(Ptr, MaskLo, DL, LoMemVT, DAG,		Ptr = TLI.IncrementMemoryAddress(Ptr, MaskLo, DL, LoMemVT, DAG,
N->isCompressingStore());		N->isCompressingStore());
unsigned HiOffset = LoMemVT.getStoreSize();		unsigned HiOffset = LoMemVT.getStoreSize();

MMO = DAG.getMachineFunction().getMachineMemOperand(		MMO = DAG.getMachineFunction().getMachineMemOperand(
N->getPointerInfo().getWithOffset(HiOffset), MachineMemOperand::MOStore,		N->getPointerInfo().getWithOffset(HiOffset), MachineMemOperand::MOStore,
HiMemVT.getStoreSize(), Alignment, N->getAAInfo(),		HiMemVT.getStoreSize(), Alignment, N->getAAInfo(),
N->getRanges());		N->getRanges());

Hi = DAG.getMaskedStore(Ch, DL, DataHi, Ptr, MaskHi, HiMemVT, MMO,		Hi = DAG.getMaskedStore(Ch, DL, DataHi, Ptr, Offset, MaskHi, HiMemVT, MMO,
N->isTruncatingStore(), N->isCompressingStore());		N->getAddressingMode(), N->isTruncatingStore(),
		N->isCompressingStore());

// Build a factor node to remember that this store is independent of the		// Build a factor node to remember that this store is independent of the
// other one.		// other one.
return DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Lo, Hi);		return DAG.getNode(ISD::TokenFactor, DL, MVT::Other, Lo, Hi);
}		}

SDValue DAGTypeLegalizer::SplitVecOp_MSCATTER(MaskedScatterSDNode *N,		SDValue DAGTypeLegalizer::SplitVecOp_MSCATTER(MaskedScatterSDNode *N,
unsigned OpNo) {		unsigned OpNo) {
▲ Show 20 Lines • Show All 1,307 Lines • ▼ Show 20 Lines	SDValue DAGTypeLegalizer::WidenVecRes_MLOAD(MaskedLoadSDNode *N) {
SDLoc dl(N);		SDLoc dl(N);

// The mask should be widened as well		// The mask should be widened as well
EVT WideMaskVT = EVT::getVectorVT(*DAG.getContext(),		EVT WideMaskVT = EVT::getVectorVT(*DAG.getContext(),
MaskVT.getVectorElementType(),		MaskVT.getVectorElementType(),
WidenVT.getVectorNumElements());		WidenVT.getVectorNumElements());
Mask = ModifyToType(Mask, WideMaskVT, true);		Mask = ModifyToType(Mask, WideMaskVT, true);

SDValue Res = DAG.getMaskedLoad(WidenVT, dl, N->getChain(), N->getBasePtr(),		SDValue Res = DAG.getMaskedLoad(
Mask, PassThru, N->getMemoryVT(),		WidenVT, dl, N->getChain(), N->getBasePtr(), N->getOffset(), Mask,
N->getMemOperand(), ExtType,		PassThru, N->getMemoryVT(), N->getMemOperand(), N->getAddressingMode(),
N->isExpandingLoad());		ExtType, N->isExpandingLoad());
// Legalize the chain result - switch anything that used the old chain to		// Legalize the chain result - switch anything that used the old chain to
// use the new one.		// use the new one.
ReplaceValueWith(SDValue(N, 1), Res.getValue(1));		ReplaceValueWith(SDValue(N, 1), Res.getValue(1));
return Res;		return Res;
}		}

SDValue DAGTypeLegalizer::WidenVecRes_MGATHER(MaskedGatherSDNode *N) {		SDValue DAGTypeLegalizer::WidenVecRes_MGATHER(MaskedGatherSDNode *N) {

▲ Show 20 Lines • Show All 728 Lines • ▼ Show 20 Lines	EVT WideVT = EVT::getVectorVT(*DAG.getContext(),
WideMaskVT.getVectorNumElements());		WideMaskVT.getVectorNumElements());
StVal = ModifyToType(StVal, WideVT);		StVal = ModifyToType(StVal, WideVT);
}		}

assert(Mask.getValueType().getVectorNumElements() ==		assert(Mask.getValueType().getVectorNumElements() ==
StVal.getValueType().getVectorNumElements() &&		StVal.getValueType().getVectorNumElements() &&
"Mask and data vectors should have the same number of elements");		"Mask and data vectors should have the same number of elements");
return DAG.getMaskedStore(MST->getChain(), dl, StVal, MST->getBasePtr(),		return DAG.getMaskedStore(MST->getChain(), dl, StVal, MST->getBasePtr(),
Mask, MST->getMemoryVT(), MST->getMemOperand(),		MST->getOffset(), Mask, MST->getMemoryVT(),
		MST->getMemOperand(), MST->getAddressingMode(),
false, MST->isCompressingStore());		false, MST->isCompressingStore());
}		}

SDValue DAGTypeLegalizer::WidenVecOp_MGATHER(SDNode *N, unsigned OpNo) {		SDValue DAGTypeLegalizer::WidenVecOp_MGATHER(SDNode *N, unsigned OpNo) {
assert(OpNo == 4 && "Can widen only the index of mgather");		assert(OpNo == 4 && "Can widen only the index of mgather");
auto *MG = cast<MaskedGatherSDNode>(N);		auto *MG = cast<MaskedGatherSDNode>(N);
SDValue DataOp = MG->getPassThru();		SDValue DataOp = MG->getPassThru();
SDValue Mask = MG->getMask();		SDValue Mask = MG->getMask();
▲ Show 20 Lines • Show All 633 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,969 Lines • ▼ Show 20 Lines	SDValue SelectionDAG::getIndexedStore(SDValue OrigStore, const SDLoc &dl,
CSEMap.InsertNode(N, IP);		CSEMap.InsertNode(N, IP);
InsertNode(N);		InsertNode(N);
SDValue V(N, 0);		SDValue V(N, 0);
NewSDValueDbgMsg(V, "Creating new node: ", this);		NewSDValueDbgMsg(V, "Creating new node: ", this);
return V;		return V;
}		}

SDValue SelectionDAG::getMaskedLoad(EVT VT, const SDLoc &dl, SDValue Chain,		SDValue SelectionDAG::getMaskedLoad(EVT VT, const SDLoc &dl, SDValue Chain,
SDValue Ptr, SDValue Mask, SDValue PassThru,		SDValue Base, SDValue Offset, SDValue Mask,
EVT MemVT, MachineMemOperand *MMO,		SDValue PassThru, EVT MemVT,
		MachineMemOperand *MMO,
		ISD::MemIndexedMode AM,
ISD::LoadExtType ExtTy, bool isExpanding) {		ISD::LoadExtType ExtTy, bool isExpanding) {
SDVTList VTs = getVTList(VT, MVT::Other);		bool Indexed = AM != ISD::UNINDEXED;
SDValue Ops[] = { Chain, Ptr, Mask, PassThru };		assert((Indexed \|\| Offset.isUndef()) &&
		"Unindexed masked load with an offset!");
		SDVTList VTs = Indexed ? getVTList(VT, Base.getValueType(), MVT::Other)
		: getVTList(VT, MVT::Other);
		SDValue Ops[] = {Chain, Base, Offset, Mask, PassThru};
FoldingSetNodeID ID;		FoldingSetNodeID ID;
AddNodeIDNode(ID, ISD::MLOAD, VTs, Ops);		AddNodeIDNode(ID, ISD::MLOAD, VTs, Ops);
ID.AddInteger(MemVT.getRawBits());		ID.AddInteger(MemVT.getRawBits());
ID.AddInteger(getSyntheticNodeSubclassData<MaskedLoadSDNode>(		ID.AddInteger(getSyntheticNodeSubclassData<MaskedLoadSDNode>(
dl.getIROrder(), VTs, ExtTy, isExpanding, MemVT, MMO));		dl.getIROrder(), VTs, AM, ExtTy, isExpanding, MemVT, MMO));
ID.AddInteger(MMO->getPointerInfo().getAddrSpace());		ID.AddInteger(MMO->getPointerInfo().getAddrSpace());
void *IP = nullptr;		void *IP = nullptr;
if (SDNode *E = FindNodeOrInsertPos(ID, dl, IP)) {		if (SDNode *E = FindNodeOrInsertPos(ID, dl, IP)) {
cast<MaskedLoadSDNode>(E)->refineAlignment(MMO);		cast<MaskedLoadSDNode>(E)->refineAlignment(MMO);
return SDValue(E, 0);		return SDValue(E, 0);
}		}
auto *N = newSDNode<MaskedLoadSDNode>(dl.getIROrder(), dl.getDebugLoc(), VTs,		auto *N = newSDNode<MaskedLoadSDNode>(dl.getIROrder(), dl.getDebugLoc(), VTs,
ExtTy, isExpanding, MemVT, MMO);		AM, ExtTy, isExpanding, MemVT, MMO);
createOperands(N, Ops);		createOperands(N, Ops);

CSEMap.InsertNode(N, IP);		CSEMap.InsertNode(N, IP);
InsertNode(N);		InsertNode(N);
SDValue V(N, 0);		SDValue V(N, 0);
NewSDValueDbgMsg(V, "Creating new node: ", this);		NewSDValueDbgMsg(V, "Creating new node: ", this);
return V;		return V;
}		}

		SDValue SelectionDAG::getIndexedMaskedLoad(SDValue OrigLoad, const SDLoc &dl,
		SDValue Base, SDValue Offset,
		ISD::MemIndexedMode AM) {
		MaskedLoadSDNode *LD = cast<MaskedLoadSDNode>(OrigLoad);
		assert(LD->getOffset().isUndef() && "Masked load is already a indexed load!");
		return getMaskedLoad(OrigLoad.getValueType(), dl, LD->getChain(), Base,
		Offset, LD->getMask(), LD->getPassThru(),
		LD->getMemoryVT(), LD->getMemOperand(), AM,
		LD->getExtensionType(), LD->isExpandingLoad());
		}

SDValue SelectionDAG::getMaskedStore(SDValue Chain, const SDLoc &dl,		SDValue SelectionDAG::getMaskedStore(SDValue Chain, const SDLoc &dl,
SDValue Val, SDValue Ptr, SDValue Mask,		SDValue Val, SDValue Base, SDValue Offset,
EVT MemVT, MachineMemOperand *MMO,		SDValue Mask, EVT MemVT,
bool IsTruncating, bool IsCompressing) {		MachineMemOperand *MMO,
		ISD::MemIndexedMode AM, bool IsTruncating,
		bool IsCompressing) {
assert(Chain.getValueType() == MVT::Other &&		assert(Chain.getValueType() == MVT::Other &&
"Invalid chain type");		"Invalid chain type");
SDVTList VTs = getVTList(MVT::Other);		bool Indexed = AM != ISD::UNINDEXED;
SDValue Ops[] = { Chain, Val, Ptr, Mask };		assert((Indexed \|\| Offset.isUndef()) &&
		"Unindexed masked store with an offset!");
		SDVTList VTs = Indexed ? getVTList(Base.getValueType(), MVT::Other)
		: getVTList(MVT::Other);
		SDValue Ops[] = {Chain, Val, Base, Offset, Mask};
FoldingSetNodeID ID;		FoldingSetNodeID ID;
AddNodeIDNode(ID, ISD::MSTORE, VTs, Ops);		AddNodeIDNode(ID, ISD::MSTORE, VTs, Ops);
ID.AddInteger(MemVT.getRawBits());		ID.AddInteger(MemVT.getRawBits());
ID.AddInteger(getSyntheticNodeSubclassData<MaskedStoreSDNode>(		ID.AddInteger(getSyntheticNodeSubclassData<MaskedStoreSDNode>(
dl.getIROrder(), VTs, IsTruncating, IsCompressing, MemVT, MMO));		dl.getIROrder(), VTs, AM, IsTruncating, IsCompressing, MemVT, MMO));
ID.AddInteger(MMO->getPointerInfo().getAddrSpace());		ID.AddInteger(MMO->getPointerInfo().getAddrSpace());
void *IP = nullptr;		void *IP = nullptr;
if (SDNode *E = FindNodeOrInsertPos(ID, dl, IP)) {		if (SDNode *E = FindNodeOrInsertPos(ID, dl, IP)) {
cast<MaskedStoreSDNode>(E)->refineAlignment(MMO);		cast<MaskedStoreSDNode>(E)->refineAlignment(MMO);
return SDValue(E, 0);		return SDValue(E, 0);
}		}
auto *N = newSDNode<MaskedStoreSDNode>(dl.getIROrder(), dl.getDebugLoc(), VTs,		auto *N =
		newSDNode<MaskedStoreSDNode>(dl.getIROrder(), dl.getDebugLoc(), VTs, AM,
IsTruncating, IsCompressing, MemVT, MMO);		IsTruncating, IsCompressing, MemVT, MMO);
createOperands(N, Ops);		createOperands(N, Ops);

CSEMap.InsertNode(N, IP);		CSEMap.InsertNode(N, IP);
InsertNode(N);		InsertNode(N);
SDValue V(N, 0);		SDValue V(N, 0);
NewSDValueDbgMsg(V, "Creating new node: ", this);		NewSDValueDbgMsg(V, "Creating new node: ", this);
return V;		return V;
}		}

		SDValue SelectionDAG::getIndexedMaskedStore(SDValue OrigStore, const SDLoc &dl,
		SDValue Base, SDValue Offset,
		ISD::MemIndexedMode AM) {
		MaskedStoreSDNode *ST = cast<MaskedStoreSDNode>(OrigStore);
		assert(ST->getOffset().isUndef() &&
		"Masked store is already a indexed store!");
		return getMaskedStore(ST->getChain(), dl, ST->getValue(), Base, Offset,
		ST->getMask(), ST->getMemoryVT(), ST->getMemOperand(),
		AM, ST->isTruncatingStore(), ST->isCompressingStore());
		}

SDValue SelectionDAG::getMaskedGather(SDVTList VTs, EVT VT, const SDLoc &dl,		SDValue SelectionDAG::getMaskedGather(SDVTList VTs, EVT VT, const SDLoc &dl,
ArrayRef<SDValue> Ops,		ArrayRef<SDValue> Ops,
MachineMemOperand *MMO,		MachineMemOperand *MMO,
ISD::MemIndexType IndexType) {		ISD::MemIndexType IndexType) {
assert(Ops.size() == 6 && "Incompatible number of operands");		assert(Ops.size() == 6 && "Incompatible number of operands");

FoldingSetNodeID ID;		FoldingSetNodeID ID;
AddNodeIDNode(ID, ISD::MGATHER, VTs, Ops);		AddNodeIDNode(ID, ISD::MGATHER, VTs, Ops);
▲ Show 20 Lines • Show All 2,586 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 4,289 Lines • ▼ Show 20 Lines	void SelectionDAGBuilder::visitMaskedStore(const CallInst &I,
if (IsCompressing)		if (IsCompressing)
getCompressingStoreOps(PtrOperand, MaskOperand, Src0Operand, Alignment);		getCompressingStoreOps(PtrOperand, MaskOperand, Src0Operand, Alignment);
else		else
getMaskedStoreOps(PtrOperand, MaskOperand, Src0Operand, Alignment);		getMaskedStoreOps(PtrOperand, MaskOperand, Src0Operand, Alignment);

SDValue Ptr = getValue(PtrOperand);		SDValue Ptr = getValue(PtrOperand);
SDValue Src0 = getValue(Src0Operand);		SDValue Src0 = getValue(Src0Operand);
SDValue Mask = getValue(MaskOperand);		SDValue Mask = getValue(MaskOperand);
		SDValue Offset = DAG.getUNDEF(Ptr.getValueType());

EVT VT = Src0.getValueType();		EVT VT = Src0.getValueType();
if (!Alignment)		if (!Alignment)
Alignment = DAG.getEVTAlignment(VT);		Alignment = DAG.getEVTAlignment(VT);

AAMDNodes AAInfo;		AAMDNodes AAInfo;
I.getAAMetadata(AAInfo);		I.getAAMetadata(AAInfo);

MachineMemOperand *MMO =		MachineMemOperand *MMO =
DAG.getMachineFunction().		DAG.getMachineFunction().
getMachineMemOperand(MachinePointerInfo(PtrOperand),		getMachineMemOperand(MachinePointerInfo(PtrOperand),
MachineMemOperand::MOStore,		MachineMemOperand::MOStore,
// TODO: Make MachineMemOperands aware of scalable		// TODO: Make MachineMemOperands aware of scalable
// vectors.		// vectors.
VT.getStoreSize().getKnownMinSize(),		VT.getStoreSize().getKnownMinSize(),
Alignment, AAInfo);		Alignment, AAInfo);
SDValue StoreNode = DAG.getMaskedStore(getRoot(), sdl, Src0, Ptr, Mask, VT,		SDValue StoreNode =
MMO, false /* Truncating */,		DAG.getMaskedStore(getRoot(), sdl, Src0, Ptr, Offset, Mask, VT, MMO,
IsCompressing);		ISD::UNINDEXED, false /* Truncating */, IsCompressing);
DAG.setRoot(StoreNode);		DAG.setRoot(StoreNode);
setValue(&I, StoreNode);		setValue(&I, StoreNode);
}		}

// Get a uniform base for the Gather/Scatter intrinsic.		// Get a uniform base for the Gather/Scatter intrinsic.
// The first argument of the Gather/Scatter intrinsic is a vector of pointers.		// The first argument of the Gather/Scatter intrinsic is a vector of pointers.
// We try to represent it as a base pointer + vector of indices.		// We try to represent it as a base pointer + vector of indices.
// Usually, the vector of pointers comes from a 'getelementptr' instruction.		// Usually, the vector of pointers comes from a 'getelementptr' instruction.
▲ Show 20 Lines • Show All 131 Lines • ▼ Show 20 Lines	void SelectionDAGBuilder::visitMaskedLoad(const CallInst &I, bool IsExpanding) {
if (IsExpanding)		if (IsExpanding)
getExpandingLoadOps(PtrOperand, MaskOperand, Src0Operand, Alignment);		getExpandingLoadOps(PtrOperand, MaskOperand, Src0Operand, Alignment);
else		else
getMaskedLoadOps(PtrOperand, MaskOperand, Src0Operand, Alignment);		getMaskedLoadOps(PtrOperand, MaskOperand, Src0Operand, Alignment);

SDValue Ptr = getValue(PtrOperand);		SDValue Ptr = getValue(PtrOperand);
SDValue Src0 = getValue(Src0Operand);		SDValue Src0 = getValue(Src0Operand);
SDValue Mask = getValue(MaskOperand);		SDValue Mask = getValue(MaskOperand);
		SDValue Offset = DAG.getUNDEF(Ptr.getValueType());

EVT VT = Src0.getValueType();		EVT VT = Src0.getValueType();
if (!Alignment)		if (!Alignment)
Alignment = DAG.getEVTAlignment(VT);		Alignment = DAG.getEVTAlignment(VT);

AAMDNodes AAInfo;		AAMDNodes AAInfo;
I.getAAMetadata(AAInfo);		I.getAAMetadata(AAInfo);
const MDNode *Ranges = I.getMetadata(LLVMContext::MD_range);		const MDNode *Ranges = I.getMetadata(LLVMContext::MD_range);
Show All 14 Lines	MachineMemOperand *MMO =
DAG.getMachineFunction().		DAG.getMachineFunction().
getMachineMemOperand(MachinePointerInfo(PtrOperand),		getMachineMemOperand(MachinePointerInfo(PtrOperand),
MachineMemOperand::MOLoad,		MachineMemOperand::MOLoad,
// TODO: Make MachineMemOperands aware of scalable		// TODO: Make MachineMemOperands aware of scalable
// vectors.		// vectors.
VT.getStoreSize().getKnownMinSize(),		VT.getStoreSize().getKnownMinSize(),
Alignment, AAInfo, Ranges);		Alignment, AAInfo, Ranges);

SDValue Load = DAG.getMaskedLoad(VT, sdl, InChain, Ptr, Mask, Src0, VT, MMO,		SDValue Load =
ISD::NON_EXTLOAD, IsExpanding);		DAG.getMaskedLoad(VT, sdl, InChain, Ptr, Offset, Mask, Src0, VT, MMO,
		ISD::UNINDEXED, ISD::NON_EXTLOAD, IsExpanding);
if (AddToChain)		if (AddToChain)
PendingLoads.push_back(Load.getValue(1));		PendingLoads.push_back(Load.getValue(1));
setValue(&I, Load);		setValue(&I, Load);
}		}

void SelectionDAGBuilder::visitMaskedGather(const CallInst &I) {		void SelectionDAGBuilder::visitMaskedGather(const CallInst &I) {
SDLoc sdl = getCurSDLoc();		SDLoc sdl = getCurSDLoc();

▲ Show 20 Lines • Show All 5,996 Lines • Show Last 20 Lines

llvm/lib/CodeGen/SelectionDAG/SelectionDAGDumper.cpp

Show First 20 Lines • Show All 679 Lines • ▼ Show 20 Lines	else if (const LoadSDNode *LD = dyn_cast<LoadSDNode>(this)) {
default: doExt = false; break;		default: doExt = false; break;
case ISD::EXTLOAD: OS << ", anyext"; break;		case ISD::EXTLOAD: OS << ", anyext"; break;
case ISD::SEXTLOAD: OS << ", sext"; break;		case ISD::SEXTLOAD: OS << ", sext"; break;
case ISD::ZEXTLOAD: OS << ", zext"; break;		case ISD::ZEXTLOAD: OS << ", zext"; break;
}		}
if (doExt)		if (doExt)
OS << " from " << MLd->getMemoryVT().getEVTString();		OS << " from " << MLd->getMemoryVT().getEVTString();

		const char *AM = getIndexedModeName(MLd->getAddressingMode());
		if (*AM)
		OS << ", " << AM;

if (MLd->isExpandingLoad())		if (MLd->isExpandingLoad())
OS << ", expanding";		OS << ", expanding";

OS << ">";		OS << ">";
} else if (const MaskedStoreSDNode *MSt = dyn_cast<MaskedStoreSDNode>(this)) {		} else if (const MaskedStoreSDNode *MSt = dyn_cast<MaskedStoreSDNode>(this)) {
OS << "<";		OS << "<";
printMemOperand(OS, *MSt->getMemOperand(), G);		printMemOperand(OS, *MSt->getMemOperand(), G);

if (MSt->isTruncatingStore())		if (MSt->isTruncatingStore())
OS << ", trunc to " << MSt->getMemoryVT().getEVTString();		OS << ", trunc to " << MSt->getMemoryVT().getEVTString();

		const char *AM = getIndexedModeName(MSt->getAddressingMode());
		if (*AM)
		OS << ", " << AM;

if (MSt->isCompressingStore())		if (MSt->isCompressingStore())
OS << ", compressing";		OS << ", compressing";

OS << ">";		OS << ">";
} else if (const MemSDNode* M = dyn_cast<MemSDNode>(this)) {		} else if (const MemSDNode* M = dyn_cast<MemSDNode>(this)) {
OS << "<";		OS << "<";
printMemOperand(OS, *M->getMemOperand(), G);		printMemOperand(OS, *M->getMemOperand(), G);
OS << ">";		OS << ">";
▲ Show 20 Lines • Show All 257 Lines • Show Last 20 Lines

llvm/lib/CodeGen/TargetLoweringBase.cpp

Show First 20 Lines • Show All 627 Lines • ▼ Show 20 Lines	void TargetLoweringBase::initActions() {

// Set default actions for various operations.		// Set default actions for various operations.
for (MVT VT : MVT::all_valuetypes()) {		for (MVT VT : MVT::all_valuetypes()) {
// Default all indexed load / store to expand.		// Default all indexed load / store to expand.
for (unsigned IM = (unsigned)ISD::PRE_INC;		for (unsigned IM = (unsigned)ISD::PRE_INC;
IM != (unsigned)ISD::LAST_INDEXED_MODE; ++IM) {		IM != (unsigned)ISD::LAST_INDEXED_MODE; ++IM) {
setIndexedLoadAction(IM, VT, Expand);		setIndexedLoadAction(IM, VT, Expand);
setIndexedStoreAction(IM, VT, Expand);		setIndexedStoreAction(IM, VT, Expand);
		setIndexedMaskedLoadAction(IM, VT, Expand);
		setIndexedMaskedStoreAction(IM, VT, Expand);
}		}

// Most backends expect to see the node which just returns the value loaded.		// Most backends expect to see the node which just returns the value loaded.
setOperationAction(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS, VT, Expand);		setOperationAction(ISD::ATOMIC_CMP_SWAP_WITH_SUCCESS, VT, Expand);

// These operations default to expand.		// These operations default to expand.
setOperationAction(ISD::FGETSIGN, VT, Expand);		setOperationAction(ISD::FGETSIGN, VT, Expand);
setOperationAction(ISD::CONCAT_VECTORS, VT, Expand);		setOperationAction(ISD::CONCAT_VECTORS, VT, Expand);
▲ Show 20 Lines • Show All 1,366 Lines • Show Last 20 Lines

llvm/lib/Target/AArch64/AArch64InstrInfo.td

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 256 Lines • ▼ Show 20 Lines
	def SDT_AArch64WrapperLarge : SDTypeProfile<1, 4,			def SDT_AArch64WrapperLarge : SDTypeProfile<1, 4,
	[SDTCisVT<0, i64>, SDTCisVT<1, i32>,			[SDTCisVT<0, i64>, SDTCisVT<1, i32>,
	SDTCisSameAs<1, 2>, SDTCisSameAs<1, 3>,			SDTCisSameAs<1, 2>, SDTCisSameAs<1, 3>,
	SDTCisSameAs<1, 4>]>;			SDTCisSameAs<1, 4>]>;

	// non-extending masked load fragment.			// non-extending masked load fragment.
	def nonext_masked_load :			def nonext_masked_load :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(masked_ld node:$ptr, node:$pred, node:$def), [{			(masked_ld node:$ptr, undef, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::NON_EXTLOAD;			return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::NON_EXTLOAD &&
				cast<MaskedLoadSDNode>(N)->isUnindexed();
	}]>;			}]>;
	// sign extending masked load fragments.			// sign extending masked load fragments.
	def asext_masked_load :			def asext_masked_load :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(masked_ld node:$ptr, node:$pred, node:$def),[{			(masked_ld node:$ptr, undef, node:$pred, node:$def),[{
	return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::EXTLOAD \|\|			return (cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::EXTLOAD \|\|
	cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::SEXTLOAD;			cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::SEXTLOAD) &&
				cast<MaskedLoadSDNode>(N)->isUnindexed();
	}]>;			}]>;
	def asext_masked_load_i8 :			def asext_masked_load_i8 :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(asext_masked_load node:$ptr, node:$pred, node:$def), [{			(asext_masked_load node:$ptr, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;			return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
	}]>;			}]>;
	def asext_masked_load_i16 :			def asext_masked_load_i16 :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(asext_masked_load node:$ptr, node:$pred, node:$def), [{			(asext_masked_load node:$ptr, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i16;			return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i16;
	}]>;			}]>;
	def asext_masked_load_i32 :			def asext_masked_load_i32 :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(asext_masked_load node:$ptr, node:$pred, node:$def), [{			(asext_masked_load node:$ptr, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i32;			return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i32;
	}]>;			}]>;
	// zero extending masked load fragments.			// zero extending masked load fragments.
	def zext_masked_load :			def zext_masked_load :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(masked_ld node:$ptr, node:$pred, node:$def), [{			(masked_ld node:$ptr, undef, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::ZEXTLOAD;			return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::ZEXTLOAD &&
				cast<MaskedLoadSDNode>(N)->isUnindexed();
	}]>;			}]>;
	def zext_masked_load_i8 :			def zext_masked_load_i8 :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(zext_masked_load node:$ptr, node:$pred, node:$def), [{			(zext_masked_load node:$ptr, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;			return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
	}]>;			}]>;
	def zext_masked_load_i16 :			def zext_masked_load_i16 :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(zext_masked_load node:$ptr, node:$pred, node:$def), [{			(zext_masked_load node:$ptr, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i16;			return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i16;
	}]>;			}]>;
	def zext_masked_load_i32 :			def zext_masked_load_i32 :
	PatFrag<(ops node:$ptr, node:$pred, node:$def),			PatFrag<(ops node:$ptr, node:$pred, node:$def),
	(zext_masked_load node:$ptr, node:$pred, node:$def), [{			(zext_masked_load node:$ptr, node:$pred, node:$def), [{
	return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i32;			return cast<MaskedLoadSDNode>(N)->getMemoryVT().getScalarType() == MVT::i32;
	}]>;			}]>;

	// non-truncating masked store fragment.			// non-truncating masked store fragment.
	def nontrunc_masked_store :			def nontrunc_masked_store :
	PatFrag<(ops node:$val, node:$ptr, node:$pred),			PatFrag<(ops node:$val, node:$ptr, node:$pred),
	(masked_st node:$val, node:$ptr, node:$pred), [{			(masked_st node:$val, node:$ptr, undef, node:$pred), [{
	return !cast<MaskedStoreSDNode>(N)->isTruncatingStore();			return !cast<MaskedStoreSDNode>(N)->isTruncatingStore() &&
				cast<MaskedStoreSDNode>(N)->isUnindexed();
	}]>;			}]>;
	// truncating masked store fragments.			// truncating masked store fragments.
	def trunc_masked_store :			def trunc_masked_store :
	PatFrag<(ops node:$val, node:$ptr, node:$pred),			PatFrag<(ops node:$val, node:$ptr, node:$pred),
	(masked_st node:$val, node:$ptr, node:$pred), [{			(masked_st node:$val, node:$ptr, undef, node:$pred), [{
	return cast<MaskedStoreSDNode>(N)->isTruncatingStore();			return cast<MaskedStoreSDNode>(N)->isTruncatingStore() &&
				cast<MaskedStoreSDNode>(N)->isUnindexed();
	}]>;			}]>;
	def trunc_masked_store_i8 :			def trunc_masked_store_i8 :
	PatFrag<(ops node:$val, node:$ptr, node:$pred),			PatFrag<(ops node:$val, node:$ptr, node:$pred),
	(trunc_masked_store node:$val, node:$ptr, node:$pred), [{			(trunc_masked_store node:$val, node:$ptr, node:$pred), [{
	return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;			return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
	}]>;			}]>;
	def trunc_masked_store_i16 :			def trunc_masked_store_i16 :
	PatFrag<(ops node:$val, node:$ptr, node:$pred),			PatFrag<(ops node:$val, node:$ptr, node:$pred),
	▲ Show 20 Lines • Show All 6,902 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMISelDAGToDAG.cpp

Show First 20 Lines • Show All 1,345 Lines • ▼ Show 20 Lines	bool ARMDAGToDAGISel::SelectT2AddrModeImm7Offset(SDNode *Op, SDValue N,
SDValue &OffImm) {		SDValue &OffImm) {
return SelectT2AddrModeImm7Offset(Op, N, OffImm, Shift);		return SelectT2AddrModeImm7Offset(Op, N, OffImm, Shift);
}		}

bool ARMDAGToDAGISel::SelectT2AddrModeImm7Offset(SDNode *Op, SDValue N,		bool ARMDAGToDAGISel::SelectT2AddrModeImm7Offset(SDNode *Op, SDValue N,
SDValue &OffImm,		SDValue &OffImm,
unsigned Shift) {		unsigned Shift) {
unsigned Opcode = Op->getOpcode();		unsigned Opcode = Op->getOpcode();
ISD::MemIndexedMode AM = (Opcode == ISD::LOAD)		ISD::MemIndexedMode AM;
? cast<LoadSDNode>(Op)->getAddressingMode()		switch (Opcode) {
: cast<StoreSDNode>(Op)->getAddressingMode();		case ISD::LOAD:
		AM = cast<LoadSDNode>(Op)->getAddressingMode();
		break;
		case ISD::STORE:
		AM = cast<StoreSDNode>(Op)->getAddressingMode();
		break;
		case ISD::MLOAD:
		AM = cast<MaskedLoadSDNode>(Op)->getAddressingMode();
		break;
		case ISD::MSTORE:
		AM = cast<MaskedStoreSDNode>(Op)->getAddressingMode();
		break;
		default:
		llvm_unreachable("Unexpected Opcode for Imm7Offset");
		}

int RHSC;		int RHSC;
if (isScaledConstantInRange(N, 1 << Shift, 0, 0x80, RHSC)) { // 7 bits.		// 7 bit constant, shifted by Shift.
		if (isScaledConstantInRange(N, 1 << Shift, 0, 0x80, RHSC)) {
OffImm =		OffImm =
((AM == ISD::PRE_INC) \|\| (AM == ISD::POST_INC))		((AM == ISD::PRE_INC) \|\| (AM == ISD::POST_INC))
? CurDAG->getTargetConstant(RHSC * (1 << Shift), SDLoc(N), MVT::i32)		? CurDAG->getTargetConstant(RHSC * (1 << Shift), SDLoc(N), MVT::i32)
: CurDAG->getTargetConstant(-RHSC * (1 << Shift), SDLoc(N),		: CurDAG->getTargetConstant(-RHSC * (1 << Shift), SDLoc(N),
MVT::i32);		MVT::i32);
return true;		return true;
}		}
return false;		return false;
▲ Show 20 Lines • Show All 253 Lines • ▼ Show 20 Lines	if (Match) {
ReplaceNode(N, New);		ReplaceNode(N, New);
return true;		return true;
}		}

return false;		return false;
}		}

bool ARMDAGToDAGISel::tryMVEIndexedLoad(SDNode *N) {		bool ARMDAGToDAGISel::tryMVEIndexedLoad(SDNode *N) {
LoadSDNode *LD = cast<LoadSDNode>(N);		EVT LoadedVT;
		unsigned Opcode = 0;
		bool isSExtLd, isPre;
		unsigned Align;
		ARMVCC::VPTCodes Pred;
		SDValue PredReg;
		SDValue Chain, Base, Offset;

		if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {
ISD::MemIndexedMode AM = LD->getAddressingMode();		ISD::MemIndexedMode AM = LD->getAddressingMode();
if (AM == ISD::UNINDEXED)		if (AM == ISD::UNINDEXED)
return false;		return false;
EVT LoadedVT = LD->getMemoryVT();		LoadedVT = LD->getMemoryVT();
if (!LoadedVT.isVector())		if (!LoadedVT.isVector())
return false;		return false;
bool isSExtLd = LD->getExtensionType() == ISD::SEXTLOAD;
SDValue Offset;
bool isPre = (AM == ISD::PRE_INC) \|\| (AM == ISD::PRE_DEC);
unsigned Opcode = 0;
unsigned Align = LD->getAlignment();
bool IsLE = Subtarget->isLittle();

		Chain = LD->getChain();
		Base = LD->getBasePtr();
		Offset = LD->getOffset();
		Align = LD->getAlignment();
		isSExtLd = LD->getExtensionType() == ISD::SEXTLOAD;
		isPre = (AM == ISD::PRE_INC) \|\| (AM == ISD::PRE_DEC);
		Pred = ARMVCC::None;
		PredReg = CurDAG->getRegister(0, MVT::i32);
		} else if (MaskedLoadSDNode *LD = dyn_cast<MaskedLoadSDNode>(N)) {
		ISD::MemIndexedMode AM = LD->getAddressingMode();
		if (AM == ISD::UNINDEXED)
		return false;
		LoadedVT = LD->getMemoryVT();
		if (!LoadedVT.isVector())
		return false;

		Chain = LD->getChain();
		Base = LD->getBasePtr();
		Offset = LD->getOffset();
		Align = LD->getAlignment();
		isSExtLd = LD->getExtensionType() == ISD::SEXTLOAD;
		isPre = (AM == ISD::PRE_INC) \|\| (AM == ISD::PRE_DEC);
		Pred = ARMVCC::Then;
		PredReg = LD->getMask();
		} else
		llvm_unreachable("Expected a Load or a Masked Load!");

		// We allow LE non-masked loads to change the type (for example use a vldrb.8
		// as opposed to a vldrw.32). This can allow extra addressing modes or
		// alignments for what is otherwise an equivalent instruction.
		bool CanChangeType = Subtarget->isLittle() && !isa<MaskedLoadSDNode>(N);

		SDValue NewOffset;
if (Align >= 2 && LoadedVT == MVT::v4i16 &&		if (Align >= 2 && LoadedVT == MVT::v4i16 &&
SelectT2AddrModeImm7Offset(N, LD->getOffset(), Offset, 1)) {		SelectT2AddrModeImm7Offset(N, Offset, NewOffset, 1)) {
if (isSExtLd)		if (isSExtLd)
Opcode = isPre ? ARM::MVE_VLDRHS32_pre : ARM::MVE_VLDRHS32_post;		Opcode = isPre ? ARM::MVE_VLDRHS32_pre : ARM::MVE_VLDRHS32_post;
else		else
Opcode = isPre ? ARM::MVE_VLDRHU32_pre : ARM::MVE_VLDRHU32_post;		Opcode = isPre ? ARM::MVE_VLDRHU32_pre : ARM::MVE_VLDRHU32_post;
} else if (LoadedVT == MVT::v8i8 &&		} else if (LoadedVT == MVT::v8i8 &&
SelectT2AddrModeImm7Offset(N, LD->getOffset(), Offset, 0)) {		SelectT2AddrModeImm7Offset(N, Offset, NewOffset, 0)) {
if (isSExtLd)		if (isSExtLd)
Opcode = isPre ? ARM::MVE_VLDRBS16_pre : ARM::MVE_VLDRBS16_post;		Opcode = isPre ? ARM::MVE_VLDRBS16_pre : ARM::MVE_VLDRBS16_post;
else		else
Opcode = isPre ? ARM::MVE_VLDRBU16_pre : ARM::MVE_VLDRBU16_post;		Opcode = isPre ? ARM::MVE_VLDRBU16_pre : ARM::MVE_VLDRBU16_post;
} else if (LoadedVT == MVT::v4i8 &&		} else if (LoadedVT == MVT::v4i8 &&
SelectT2AddrModeImm7Offset(N, LD->getOffset(), Offset, 0)) {		SelectT2AddrModeImm7Offset(N, Offset, NewOffset, 0)) {
if (isSExtLd)		if (isSExtLd)
Opcode = isPre ? ARM::MVE_VLDRBS32_pre : ARM::MVE_VLDRBS32_post;		Opcode = isPre ? ARM::MVE_VLDRBS32_pre : ARM::MVE_VLDRBS32_post;
else		else
Opcode = isPre ? ARM::MVE_VLDRBU32_pre : ARM::MVE_VLDRBU32_post;		Opcode = isPre ? ARM::MVE_VLDRBU32_pre : ARM::MVE_VLDRBU32_post;
} else if (Align >= 4 &&		} else if (Align >= 4 &&
(IsLE \|\| LoadedVT == MVT::v4i32 \|\| LoadedVT == MVT::v4f32) &&		(CanChangeType \|\| LoadedVT == MVT::v4i32 \|\|
SelectT2AddrModeImm7Offset(N, LD->getOffset(), Offset, 2))		LoadedVT == MVT::v4f32) &&
		SelectT2AddrModeImm7Offset(N, Offset, NewOffset, 2))
Opcode = isPre ? ARM::MVE_VLDRWU32_pre : ARM::MVE_VLDRWU32_post;		Opcode = isPre ? ARM::MVE_VLDRWU32_pre : ARM::MVE_VLDRWU32_post;
else if (Align >= 2 &&		else if (Align >= 2 &&
(IsLE \|\| LoadedVT == MVT::v8i16 \|\| LoadedVT == MVT::v8f16) &&		(CanChangeType \|\| LoadedVT == MVT::v8i16 \|\|
SelectT2AddrModeImm7Offset(N, LD->getOffset(), Offset, 1))		LoadedVT == MVT::v8f16) &&
		SelectT2AddrModeImm7Offset(N, Offset, NewOffset, 1))
Opcode = isPre ? ARM::MVE_VLDRHU16_pre : ARM::MVE_VLDRHU16_post;		Opcode = isPre ? ARM::MVE_VLDRHU16_pre : ARM::MVE_VLDRHU16_post;
else if ((IsLE \|\| LoadedVT == MVT::v16i8) &&		else if ((CanChangeType \|\| LoadedVT == MVT::v16i8) &&
SelectT2AddrModeImm7Offset(N, LD->getOffset(), Offset, 0))		SelectT2AddrModeImm7Offset(N, Offset, NewOffset, 0))
Opcode = isPre ? ARM::MVE_VLDRBU8_pre : ARM::MVE_VLDRBU8_post;		Opcode = isPre ? ARM::MVE_VLDRBU8_pre : ARM::MVE_VLDRBU8_post;
else		else
return false;		return false;

SDValue Chain = LD->getChain();		SDValue Ops[] = {Base, NewOffset,
SDValue Base = LD->getBasePtr();		CurDAG->getTargetConstant(Pred, SDLoc(N), MVT::i32), PredReg,
SDValue Ops[] = {Base, Offset,		Chain};
CurDAG->getTargetConstant(ARMVCC::None, SDLoc(N), MVT::i32),		SDNode *New = CurDAG->getMachineNode(Opcode, SDLoc(N), N->getValueType(0),
CurDAG->getRegister(0, MVT::i32), Chain};
SDNode *New = CurDAG->getMachineNode(Opcode, SDLoc(N), LD->getValueType(0),
MVT::i32, MVT::Other, Ops);		MVT::i32, MVT::Other, Ops);
transferMemOperands(N, New);		transferMemOperands(N, New);
ReplaceUses(SDValue(N, 0), SDValue(New, 1));		ReplaceUses(SDValue(N, 0), SDValue(New, 1));
ReplaceUses(SDValue(N, 1), SDValue(New, 0));		ReplaceUses(SDValue(N, 1), SDValue(New, 0));
ReplaceUses(SDValue(N, 2), SDValue(New, 2));		ReplaceUses(SDValue(N, 2), SDValue(New, 2));
CurDAG->RemoveDeadNode(N);		CurDAG->RemoveDeadNode(N);
return true;		return true;
}		}
▲ Show 20 Lines • Show All 1,599 Lines • ▼ Show 20 Lines	case ISD::LOAD: {
} else if (Subtarget->isThumb()) {		} else if (Subtarget->isThumb()) {
if (tryT1IndexedLoad(N))		if (tryT1IndexedLoad(N))
return;		return;
} else if (tryARMIndexedLoad(N))		} else if (tryARMIndexedLoad(N))
return;		return;
// Other cases are autogenerated.		// Other cases are autogenerated.
break;		break;
}		}
		case ISD::MLOAD:
		if (Subtarget->hasMVEIntegerOps() && tryMVEIndexedLoad(N))
		return;
		// Other cases are autogenerated.
		break;
case ARMISD::WLS:		case ARMISD::WLS:
case ARMISD::LE: {		case ARMISD::LE: {
SDValue Ops[] = { N->getOperand(1),		SDValue Ops[] = { N->getOperand(1),
N->getOperand(2),		N->getOperand(2),
N->getOperand(0) };		N->getOperand(0) };
unsigned Opc = N->getOpcode() == ARMISD::WLS ?		unsigned Opc = N->getOpcode() == ARMISD::WLS ?
ARM::t2WhileLoopStart : ARM::t2LoopEnd;		ARM::t2WhileLoopStart : ARM::t2LoopEnd;
SDNode *New = CurDAG->getMachineNode(Opc, dl, MVT::Other, Ops);		SDNode *New = CurDAG->getMachineNode(Opc, dl, MVT::Other, Ops);
▲ Show 20 Lines • Show All 1,558 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 290 Lines • ▼ Show 20 Lines	if (!HasMVEFP) {
setOperationAction(ISD::FP_TO_UINT, VT, Expand);		setOperationAction(ISD::FP_TO_UINT, VT, Expand);
}		}

// Pre and Post inc are supported on loads and stores		// Pre and Post inc are supported on loads and stores
for (unsigned im = (unsigned)ISD::PRE_INC;		for (unsigned im = (unsigned)ISD::PRE_INC;
im != (unsigned)ISD::LAST_INDEXED_MODE; ++im) {		im != (unsigned)ISD::LAST_INDEXED_MODE; ++im) {
setIndexedLoadAction(im, VT, Legal);		setIndexedLoadAction(im, VT, Legal);
setIndexedStoreAction(im, VT, Legal);		setIndexedStoreAction(im, VT, Legal);
		setIndexedMaskedLoadAction(im, VT, Legal);
		setIndexedMaskedStoreAction(im, VT, Legal);
}		}
}		}

const MVT FloatTypes[] = { MVT::v8f16, MVT::v4f32 };		const MVT FloatTypes[] = { MVT::v8f16, MVT::v4f32 };
for (auto VT : FloatTypes) {		for (auto VT : FloatTypes) {
addRegisterClass(VT, &ARM::MQPRRegClass);		addRegisterClass(VT, &ARM::MQPRRegClass);
if (!HasMVEFP)		if (!HasMVEFP)
setAllExpand(VT);		setAllExpand(VT);
Show All 10 Lines	for (auto VT : FloatTypes) {
setOperationAction(ISD::MLOAD, VT, Custom);		setOperationAction(ISD::MLOAD, VT, Custom);
setOperationAction(ISD::MSTORE, VT, Legal);		setOperationAction(ISD::MSTORE, VT, Legal);

// Pre and Post inc are supported on loads and stores		// Pre and Post inc are supported on loads and stores
for (unsigned im = (unsigned)ISD::PRE_INC;		for (unsigned im = (unsigned)ISD::PRE_INC;
im != (unsigned)ISD::LAST_INDEXED_MODE; ++im) {		im != (unsigned)ISD::LAST_INDEXED_MODE; ++im) {
setIndexedLoadAction(im, VT, Legal);		setIndexedLoadAction(im, VT, Legal);
setIndexedStoreAction(im, VT, Legal);		setIndexedStoreAction(im, VT, Legal);
		setIndexedMaskedLoadAction(im, VT, Legal);
		setIndexedMaskedStoreAction(im, VT, Legal);
}		}

if (HasMVEFP) {		if (HasMVEFP) {
setOperationAction(ISD::FMINNUM, VT, Legal);		setOperationAction(ISD::FMINNUM, VT, Legal);
setOperationAction(ISD::FMAXNUM, VT, Legal);		setOperationAction(ISD::FMAXNUM, VT, Legal);
setOperationAction(ISD::FROUND, VT, Legal);		setOperationAction(ISD::FROUND, VT, Legal);

// No native support for these.		// No native support for these.
Show All 36 Lines	void ARMTargetLowering::addMVEVectorTypes(bool HasMVEFP) {
// Some truncating stores are legal too.		// Some truncating stores are legal too.
setTruncStoreAction(MVT::v4i32, MVT::v4i16, Legal);		setTruncStoreAction(MVT::v4i32, MVT::v4i16, Legal);
setTruncStoreAction(MVT::v4i32, MVT::v4i8, Legal);		setTruncStoreAction(MVT::v4i32, MVT::v4i8, Legal);
setTruncStoreAction(MVT::v8i16, MVT::v8i8, Legal);		setTruncStoreAction(MVT::v8i16, MVT::v8i8, Legal);

// Pre and Post inc on these are legal, given the correct extends		// Pre and Post inc on these are legal, given the correct extends
for (unsigned im = (unsigned)ISD::PRE_INC;		for (unsigned im = (unsigned)ISD::PRE_INC;
im != (unsigned)ISD::LAST_INDEXED_MODE; ++im) {		im != (unsigned)ISD::LAST_INDEXED_MODE; ++im) {
setIndexedLoadAction(im, MVT::v8i8, Legal);		for (auto VT : {MVT::v8i8, MVT::v4i8, MVT::v4i16}) {
setIndexedStoreAction(im, MVT::v8i8, Legal);		setIndexedLoadAction(im, VT, Legal);
setIndexedLoadAction(im, MVT::v4i8, Legal);		setIndexedStoreAction(im, VT, Legal);
setIndexedStoreAction(im, MVT::v4i8, Legal);		setIndexedMaskedLoadAction(im, VT, Legal);
setIndexedLoadAction(im, MVT::v4i16, Legal);		setIndexedMaskedStoreAction(im, VT, Legal);
		samparkerUnsubmitted Done Reply Inline Actions Why not v4i32 and floats too? samparker: Why not v4i32 and floats too?
		dmgreenAuthorUnsubmitted Done Reply Inline Actions This is "extending masked post-inc stores", so is only the extended types that will be extended. The others are above. We might well want to "zero extend" fp16s into a wider register at some point, especially if we are converting them to floats, but thats not a job for here. dmgreen: This is "extending masked post-inc stores", so is only the extended types that will be extended.
		samparkerUnsubmitted Not Done Reply Inline Actions Face palm. Yeah ok, we can cross fp16 if/when we need it. samparker: Face palm. Yeah ok, we can cross fp16 if/when we need it.
setIndexedStoreAction(im, MVT::v4i16, Legal);		}
}		}

// Predicate types		// Predicate types
const MVT pTypes[] = {MVT::v16i1, MVT::v8i1, MVT::v4i1};		const MVT pTypes[] = {MVT::v16i1, MVT::v8i1, MVT::v4i1};
for (auto VT : pTypes) {		for (auto VT : pTypes) {
addRegisterClass(VT, &ARM::VCCRRegClass);		addRegisterClass(VT, &ARM::VCCRRegClass);
setOperationAction(ISD::BUILD_VECTOR, VT, Custom);		setOperationAction(ISD::BUILD_VECTOR, VT, Custom);
setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);		setOperationAction(ISD::VECTOR_SHUFFLE, VT, Custom);
▲ Show 20 Lines • Show All 8,617 Lines • ▼ Show 20 Lines	static SDValue LowerMLOAD(SDValue Op, SelectionDAG &DAG) {
if (IsZero(PassThru))		if (IsZero(PassThru))
return Op;		return Op;

// MVE Masked loads use zero as the passthru value. Here we convert undef to		// MVE Masked loads use zero as the passthru value. Here we convert undef to
// zero too, and other values are lowered to a select.		// zero too, and other values are lowered to a select.
SDValue ZeroVec = DAG.getNode(ARMISD::VMOVIMM, dl, VT,		SDValue ZeroVec = DAG.getNode(ARMISD::VMOVIMM, dl, VT,
DAG.getTargetConstant(0, dl, MVT::i32));		DAG.getTargetConstant(0, dl, MVT::i32));
SDValue NewLoad = DAG.getMaskedLoad(		SDValue NewLoad = DAG.getMaskedLoad(
VT, dl, N->getChain(), N->getBasePtr(), Mask, ZeroVec, N->getMemoryVT(),		VT, dl, N->getChain(), N->getBasePtr(), N->getOffset(), Mask, ZeroVec,
N->getMemOperand(), N->getExtensionType(), N->isExpandingLoad());		N->getMemoryVT(), N->getMemOperand(), N->getAddressingMode(),
		N->getExtensionType(), N->isExpandingLoad());
SDValue Combo = NewLoad;		SDValue Combo = NewLoad;
if (!PassThru.isUndef() &&		if (!PassThru.isUndef() &&
(PassThru.getOpcode() != ISD::BITCAST \|\|		(PassThru.getOpcode() != ISD::BITCAST \|\|
!IsZero(PassThru->getOperand(0))))		!IsZero(PassThru->getOperand(0))))
Combo = DAG.getNode(ISD::VSELECT, dl, VT, Mask, NewLoad, PassThru);		Combo = DAG.getNode(ISD::VSELECT, dl, VT, Mask, NewLoad, PassThru);
return DAG.getMergeValues({Combo, NewLoad.getValue(1)}, dl);		return DAG.getMergeValues({Combo, NewLoad.getValue(1)}, dl);
}		}

▲ Show 20 Lines • Show All 6,161 Lines • ▼ Show 20 Lines	if (RHSC < 0 && RHSC > -0x100) { // 8 bits.
return true;		return true;
}		}
}		}

return false;		return false;
}		}

static bool getMVEIndexedAddressParts(SDNode *Ptr, EVT VT, unsigned Align,		static bool getMVEIndexedAddressParts(SDNode *Ptr, EVT VT, unsigned Align,
bool isSEXTLoad, bool isLE, SDValue &Base,		bool isSEXTLoad, bool IsMasked, bool isLE,
SDValue &Offset, bool &isInc,		SDValue &Base, SDValue &Offset,
SelectionDAG &DAG) {		bool &isInc, SelectionDAG &DAG) {
if (Ptr->getOpcode() != ISD::ADD && Ptr->getOpcode() != ISD::SUB)		if (Ptr->getOpcode() != ISD::ADD && Ptr->getOpcode() != ISD::SUB)
return false;		return false;
if (!isa<ConstantSDNode>(Ptr->getOperand(1)))		if (!isa<ConstantSDNode>(Ptr->getOperand(1)))
return false;		return false;

		// We allow LE non-masked loads to change the type (for example use a vldrb.8
		samparkerUnsubmitted Done Reply Inline Actions Maybe add a comment here for why we have this restriction? samparker: Maybe add a comment here for why we have this restriction?
		// as opposed to a vldrw.32). This can allow extra addressing modes or
		// alignments for what is otherwise an equivalent instruction.
		bool CanChangeType = isLE && !IsMasked;

ConstantSDNode *RHS = cast<ConstantSDNode>(Ptr->getOperand(1));		ConstantSDNode *RHS = cast<ConstantSDNode>(Ptr->getOperand(1));
int RHSC = (int)RHS->getZExtValue();		int RHSC = (int)RHS->getZExtValue();

auto IsInRange = [&](int RHSC, int Limit, int Scale) {		auto IsInRange = [&](int RHSC, int Limit, int Scale) {
if (RHSC < 0 && RHSC > -Limit * Scale && RHSC % Scale == 0) {		if (RHSC < 0 && RHSC > -Limit * Scale && RHSC % Scale == 0) {
assert(Ptr->getOpcode() == ISD::ADD);		assert(Ptr->getOpcode() == ISD::ADD);
isInc = false;		isInc = false;
Offset = DAG.getConstant(-RHSC, SDLoc(Ptr), RHS->getValueType(0));		Offset = DAG.getConstant(-RHSC, SDLoc(Ptr), RHS->getValueType(0));
return true;		return true;
} else if (RHSC > 0 && RHSC < Limit * Scale && RHSC % Scale == 0) {		} else if (RHSC > 0 && RHSC < Limit * Scale && RHSC % Scale == 0) {
isInc = Ptr->getOpcode() == ISD::ADD;		isInc = Ptr->getOpcode() == ISD::ADD;
Offset = DAG.getConstant(RHSC, SDLoc(Ptr), RHS->getValueType(0));		Offset = DAG.getConstant(RHSC, SDLoc(Ptr), RHS->getValueType(0));
return true;		return true;
}		}
return false;		return false;
};		};

// Try to find a matching instruction based on s/zext, Alignment, Offset and		// Try to find a matching instruction based on s/zext, Alignment, Offset and
// (in BE) type.		// (in BE/masked) type.
Base = Ptr->getOperand(0);		Base = Ptr->getOperand(0);
if (VT == MVT::v4i16) {		if (VT == MVT::v4i16) {
if (Align >= 2 && IsInRange(RHSC, 0x80, 2))		if (Align >= 2 && IsInRange(RHSC, 0x80, 2))
return true;		return true;
} else if (VT == MVT::v4i8 \|\| VT == MVT::v8i8) {		} else if (VT == MVT::v4i8 \|\| VT == MVT::v8i8) {
if (IsInRange(RHSC, 0x80, 1))		if (IsInRange(RHSC, 0x80, 1))
return true;		return true;
} else if (Align >= 4 && (isLE \|\| VT == MVT::v4i32 \|\| VT == MVT::v4f32) &&		} else if (Align >= 4 &&
		(CanChangeType \|\| VT == MVT::v4i32 \|\| VT == MVT::v4f32) &&
IsInRange(RHSC, 0x80, 4))		IsInRange(RHSC, 0x80, 4))
return true;		return true;
else if (Align >= 2 && (isLE \|\| VT == MVT::v8i16 \|\| VT == MVT::v8f16) &&		else if (Align >= 2 &&
		(CanChangeType \|\| VT == MVT::v8i16 \|\| VT == MVT::v8f16) &&
IsInRange(RHSC, 0x80, 2))		IsInRange(RHSC, 0x80, 2))
return true;		return true;
else if ((isLE \|\| VT == MVT::v16i8) && IsInRange(RHSC, 0x80, 1))		else if ((CanChangeType \|\| VT == MVT::v16i8) && IsInRange(RHSC, 0x80, 1))
return true;		return true;
return false;		return false;
}		}

/// getPreIndexedAddressParts - returns true by value, base pointer and		/// getPreIndexedAddressParts - returns true by value, base pointer and
/// offset pointer and addressing mode by reference if the node's address		/// offset pointer and addressing mode by reference if the node's address
/// can be legally represented as pre-indexed load / store address.		/// can be legally represented as pre-indexed load / store address.
bool		bool
ARMTargetLowering::getPreIndexedAddressParts(SDNode *N, SDValue &Base,		ARMTargetLowering::getPreIndexedAddressParts(SDNode *N, SDValue &Base,
SDValue &Offset,		SDValue &Offset,
ISD::MemIndexedMode &AM,		ISD::MemIndexedMode &AM,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
if (Subtarget->isThumb1Only())		if (Subtarget->isThumb1Only())
return false;		return false;

EVT VT;		EVT VT;
SDValue Ptr;		SDValue Ptr;
unsigned Align;		unsigned Align;
bool isSEXTLoad = false;		bool isSEXTLoad = false;
		bool IsMasked = false;
if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {		if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {
Ptr = LD->getBasePtr();		Ptr = LD->getBasePtr();
VT = LD->getMemoryVT();		VT = LD->getMemoryVT();
Align = LD->getAlignment();		Align = LD->getAlignment();
isSEXTLoad = LD->getExtensionType() == ISD::SEXTLOAD;		isSEXTLoad = LD->getExtensionType() == ISD::SEXTLOAD;
} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {		} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {
Ptr = ST->getBasePtr();		Ptr = ST->getBasePtr();
VT = ST->getMemoryVT();		VT = ST->getMemoryVT();
Align = ST->getAlignment();		Align = ST->getAlignment();
		} else if (MaskedLoadSDNode *LD = dyn_cast<MaskedLoadSDNode>(N)) {
		Ptr = LD->getBasePtr();
		VT = LD->getMemoryVT();
		Align = LD->getAlignment();
		isSEXTLoad = LD->getExtensionType() == ISD::SEXTLOAD;
		IsMasked = true;
		} else if (MaskedStoreSDNode *ST = dyn_cast<MaskedStoreSDNode>(N)) {
		Ptr = ST->getBasePtr();
		VT = ST->getMemoryVT();
		Align = ST->getAlignment();
		IsMasked = true;
} else		} else
return false;		return false;

bool isInc;		bool isInc;
bool isLegal = false;		bool isLegal = false;
if (VT.isVector())		if (VT.isVector())
isLegal = Subtarget->hasMVEIntegerOps() &&		isLegal = Subtarget->hasMVEIntegerOps() &&
getMVEIndexedAddressParts(Ptr.getNode(), VT, Align, isSEXTLoad,		getMVEIndexedAddressParts(Ptr.getNode(), VT, Align, isSEXTLoad,
Subtarget->isLittle(), Base, Offset,		IsMasked, Subtarget->isLittle(), Base,
isInc, DAG);		Offset, isInc, DAG);
else {		else {
if (Subtarget->isThumb2())		if (Subtarget->isThumb2())
isLegal = getT2IndexedAddressParts(Ptr.getNode(), VT, isSEXTLoad, Base,		isLegal = getT2IndexedAddressParts(Ptr.getNode(), VT, isSEXTLoad, Base,
Offset, isInc, DAG);		Offset, isInc, DAG);
else		else
isLegal = getARMIndexedAddressParts(Ptr.getNode(), VT, isSEXTLoad, Base,		isLegal = getARMIndexedAddressParts(Ptr.getNode(), VT, isSEXTLoad, Base,
Offset, isInc, DAG);		Offset, isInc, DAG);
}		}
Show All 11 Lines	bool ARMTargetLowering::getPostIndexedAddressParts(SDNode N, SDNode Op,
SDValue &Base,		SDValue &Base,
SDValue &Offset,		SDValue &Offset,
ISD::MemIndexedMode &AM,		ISD::MemIndexedMode &AM,
SelectionDAG &DAG) const {		SelectionDAG &DAG) const {
EVT VT;		EVT VT;
SDValue Ptr;		SDValue Ptr;
unsigned Align;		unsigned Align;
bool isSEXTLoad = false, isNonExt;		bool isSEXTLoad = false, isNonExt;
		bool IsMasked = false;
if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {		if (LoadSDNode *LD = dyn_cast<LoadSDNode>(N)) {
VT = LD->getMemoryVT();		VT = LD->getMemoryVT();
Ptr = LD->getBasePtr();		Ptr = LD->getBasePtr();
Align = LD->getAlignment();		Align = LD->getAlignment();
isSEXTLoad = LD->getExtensionType() == ISD::SEXTLOAD;		isSEXTLoad = LD->getExtensionType() == ISD::SEXTLOAD;
isNonExt = LD->getExtensionType() == ISD::NON_EXTLOAD;		isNonExt = LD->getExtensionType() == ISD::NON_EXTLOAD;
} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {		} else if (StoreSDNode *ST = dyn_cast<StoreSDNode>(N)) {
VT = ST->getMemoryVT();		VT = ST->getMemoryVT();
Ptr = ST->getBasePtr();		Ptr = ST->getBasePtr();
Align = ST->getAlignment();		Align = ST->getAlignment();
isNonExt = !ST->isTruncatingStore();		isNonExt = !ST->isTruncatingStore();
		} else if (MaskedLoadSDNode *LD = dyn_cast<MaskedLoadSDNode>(N)) {
		VT = LD->getMemoryVT();
		Ptr = LD->getBasePtr();
		Align = LD->getAlignment();
		isSEXTLoad = LD->getExtensionType() == ISD::SEXTLOAD;
		isNonExt = LD->getExtensionType() == ISD::NON_EXTLOAD;
		IsMasked = true;
		} else if (MaskedStoreSDNode *ST = dyn_cast<MaskedStoreSDNode>(N)) {
		VT = ST->getMemoryVT();
		Ptr = ST->getBasePtr();
		Align = ST->getAlignment();
		isNonExt = !ST->isTruncatingStore();
		IsMasked = true;
} else		} else
return false;		return false;

if (Subtarget->isThumb1Only()) {		if (Subtarget->isThumb1Only()) {
// Thumb-1 can do a limited post-inc load or store as an updating LDM. It		// Thumb-1 can do a limited post-inc load or store as an updating LDM. It
// must be non-extending/truncating, i32, with an offset of 4.		// must be non-extending/truncating, i32, with an offset of 4.
assert(Op->getValueType(0) == MVT::i32 && "Non-i32 post-inc op?!");		assert(Op->getValueType(0) == MVT::i32 && "Non-i32 post-inc op?!");
if (Op->getOpcode() != ISD::ADD \|\| !isNonExt)		if (Op->getOpcode() != ISD::ADD \|\| !isNonExt)
return false;		return false;
auto *RHS = dyn_cast<ConstantSDNode>(Op->getOperand(1));		auto *RHS = dyn_cast<ConstantSDNode>(Op->getOperand(1));
if (!RHS \|\| RHS->getZExtValue() != 4)		if (!RHS \|\| RHS->getZExtValue() != 4)
return false;		return false;

Offset = Op->getOperand(1);		Offset = Op->getOperand(1);
Base = Op->getOperand(0);		Base = Op->getOperand(0);
AM = ISD::POST_INC;		AM = ISD::POST_INC;
return true;		return true;
}		}

bool isInc;		bool isInc;
bool isLegal = false;		bool isLegal = false;
if (VT.isVector())		if (VT.isVector())
isLegal = Subtarget->hasMVEIntegerOps() &&		isLegal = Subtarget->hasMVEIntegerOps() &&
getMVEIndexedAddressParts(Op, VT, Align, isSEXTLoad,		getMVEIndexedAddressParts(Op, VT, Align, isSEXTLoad, IsMasked,
Subtarget->isLittle(), Base, Offset,		Subtarget->isLittle(), Base, Offset,
isInc, DAG);		isInc, DAG);
else {		else {
if (Subtarget->isThumb2())		if (Subtarget->isThumb2())
isLegal = getT2IndexedAddressParts(Op, VT, isSEXTLoad, Base, Offset,		isLegal = getT2IndexedAddressParts(Op, VT, isSEXTLoad, Base, Offset,
isInc, DAG);		isInc, DAG);
else		else
isLegal = getARMIndexedAddressParts(Op, VT, isSEXTLoad, Base, Offset,		isLegal = getARMIndexedAddressParts(Op, VT, isSEXTLoad, Base, Offset,
▲ Show 20 Lines • Show All 1,842 Lines • Show Last 20 Lines

llvm/lib/Target/ARM/ARMInstrMVE.td

Show First 20 Lines • Show All 5,326 Lines • ▼ Show 20 Lines	multiclass MVE_vector_load<Instruction RegImmInst, PatFrag LoadKind,
def : MVE_vector_load_typed<v2i64, RegImmInst, LoadKind, shift>;		def : MVE_vector_load_typed<v2i64, RegImmInst, LoadKind, shift>;
def : MVE_vector_load_typed<v2f64, RegImmInst, LoadKind, shift>;		def : MVE_vector_load_typed<v2f64, RegImmInst, LoadKind, shift>;
}		}

class MVE_vector_offset_store_typed<ValueType Ty, Instruction Opcode,		class MVE_vector_offset_store_typed<ValueType Ty, Instruction Opcode,
PatFrag StoreKind, int shift>		PatFrag StoreKind, int shift>
: Pat<(StoreKind (Ty MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<shift>:$addr),		: Pat<(StoreKind (Ty MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<shift>:$addr),
(Opcode MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<shift>:$addr)>;		(Opcode MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<shift>:$addr)>;
		class MVE_vector_offset_maskedstore_typed<ValueType Ty, Instruction Opcode,
		PatFrag StoreKind, int shift>
		: Pat<(StoreKind (Ty MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<shift>:$addr, VCCR:$pred),
		samparkerUnsubmitted Done Reply Inline Actions I don't think we shouldn't be restricting the base to a T1 register. samparker: I don't think we shouldn't be restricting the base to a T1 register.
		dmgreenAuthorUnsubmitted Done Reply Inline Actions Ooof, the double negatives! This uses the same as the MVE_vector_offset_store_typed, which I think is OK for "normal" loads/stores. It's the extending loads/stores below that might be the problem (and don't really look right to me). I'll make it the same a non-masked for the moment, and try to fixup what doesn't look right in another commit. dmgreen: Ooof, the double negatives! This uses the same as the MVE_vector_offset_store_typed, which I…
		samparkerUnsubmitted Not Done Reply Inline Actions Haha, my bad. Okay. samparker: Haha, my bad. Okay.
		(Opcode MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<shift>:$addr, (i32 1), VCCR:$pred)>;

multiclass MVE_vector_offset_store<Instruction RegImmInst, PatFrag StoreKind,		multiclass MVE_vector_offset_store<Instruction RegImmInst, PatFrag StoreKind,
int shift> {		int shift> {
def : MVE_vector_offset_store_typed<v16i8, RegImmInst, StoreKind, shift>;		def : MVE_vector_offset_store_typed<v16i8, RegImmInst, StoreKind, shift>;
def : MVE_vector_offset_store_typed<v8i16, RegImmInst, StoreKind, shift>;		def : MVE_vector_offset_store_typed<v8i16, RegImmInst, StoreKind, shift>;
def : MVE_vector_offset_store_typed<v8f16, RegImmInst, StoreKind, shift>;		def : MVE_vector_offset_store_typed<v8f16, RegImmInst, StoreKind, shift>;
def : MVE_vector_offset_store_typed<v4i32, RegImmInst, StoreKind, shift>;		def : MVE_vector_offset_store_typed<v4i32, RegImmInst, StoreKind, shift>;
def : MVE_vector_offset_store_typed<v4f32, RegImmInst, StoreKind, shift>;		def : MVE_vector_offset_store_typed<v4f32, RegImmInst, StoreKind, shift>;
Show All 15 Lines
}]>;		}]>;
def aligned16_post_store : PatFrag<(ops node:$val, node:$ptr, node:$offset),		def aligned16_post_store : PatFrag<(ops node:$val, node:$ptr, node:$offset),
(post_store node:$val, node:$ptr, node:$offset), [{		(post_store node:$val, node:$ptr, node:$offset), [{
return cast<StoreSDNode>(N)->getAlignment() >= 2;		return cast<StoreSDNode>(N)->getAlignment() >= 2;
}]>;		}]>;


def maskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def maskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(masked_ld node:$ptr, node:$pred, node:$passthru), [{		(masked_ld node:$ptr, undef, node:$pred, node:$passthru), [{
auto *Ld = cast<MaskedLoadSDNode>(N);		auto *Ld = cast<MaskedLoadSDNode>(N);
return Ld->getMemoryVT().getScalarType() == MVT::i8;		return Ld->getMemoryVT().getScalarType() == MVT::i8;
}]>;		}]>;
def sextmaskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def sextmaskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(maskedload8 node:$ptr, node:$pred, node:$passthru), [{		(maskedload8 node:$ptr, node:$pred, node:$passthru), [{
return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::SEXTLOAD;		return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::SEXTLOAD;
}]>;		}]>;
def zextmaskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def zextmaskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(maskedload8 node:$ptr, node:$pred, node:$passthru), [{		(maskedload8 node:$ptr, node:$pred, node:$passthru), [{
return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::ZEXTLOAD;		return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::ZEXTLOAD;
}]>;		}]>;
def extmaskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def extmaskedload8 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(maskedload8 node:$ptr, node:$pred, node:$passthru), [{		(maskedload8 node:$ptr, node:$pred, node:$passthru), [{
auto *Ld = cast<MaskedLoadSDNode>(N);		auto *Ld = cast<MaskedLoadSDNode>(N);
EVT ScalarVT = Ld->getMemoryVT().getScalarType();		EVT ScalarVT = Ld->getMemoryVT().getScalarType();
return ScalarVT.isInteger() && Ld->getExtensionType() == ISD::EXTLOAD;		return ScalarVT.isInteger() && Ld->getExtensionType() == ISD::EXTLOAD;
}]>;		}]>;
def alignedmaskedload16: PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def alignedmaskedload16: PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(masked_ld node:$ptr, node:$pred, node:$passthru), [{		(masked_ld node:$ptr, undef, node:$pred, node:$passthru), [{
auto *Ld = cast<MaskedLoadSDNode>(N);		auto *Ld = cast<MaskedLoadSDNode>(N);
EVT ScalarVT = Ld->getMemoryVT().getScalarType();		EVT ScalarVT = Ld->getMemoryVT().getScalarType();
return (ScalarVT == MVT::i16 \|\| ScalarVT == MVT::f16) && Ld->getAlignment() >= 2;		return (ScalarVT == MVT::i16 \|\| ScalarVT == MVT::f16) && Ld->getAlignment() >= 2;
}]>;		}]>;
def sextmaskedload16 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def sextmaskedload16 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(alignedmaskedload16 node:$ptr, node:$pred, node:$passthru), [{		(alignedmaskedload16 node:$ptr, node:$pred, node:$passthru), [{
return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::SEXTLOAD;		return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::SEXTLOAD;
}]>;		}]>;
def zextmaskedload16 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def zextmaskedload16 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(alignedmaskedload16 node:$ptr, node:$pred, node:$passthru), [{		(alignedmaskedload16 node:$ptr, node:$pred, node:$passthru), [{
return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::ZEXTLOAD;		return cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::ZEXTLOAD;
}]>;		}]>;
def extmaskedload16 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def extmaskedload16 : PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(alignedmaskedload16 node:$ptr, node:$pred, node:$passthru), [{		(alignedmaskedload16 node:$ptr, node:$pred, node:$passthru), [{
auto *Ld = cast<MaskedLoadSDNode>(N);		auto *Ld = cast<MaskedLoadSDNode>(N);
EVT ScalarVT = Ld->getMemoryVT().getScalarType();		EVT ScalarVT = Ld->getMemoryVT().getScalarType();
return ScalarVT.isInteger() && Ld->getExtensionType() == ISD::EXTLOAD;		return ScalarVT.isInteger() && Ld->getExtensionType() == ISD::EXTLOAD;
}]>;		}]>;
def alignedmaskedload32: PatFrag<(ops node:$ptr, node:$pred, node:$passthru),		def alignedmaskedload32: PatFrag<(ops node:$ptr, node:$pred, node:$passthru),
(masked_ld node:$ptr, node:$pred, node:$passthru), [{		(masked_ld node:$ptr, undef, node:$pred, node:$passthru), [{
auto *Ld = cast<MaskedLoadSDNode>(N);		auto *Ld = cast<MaskedLoadSDNode>(N);
EVT ScalarVT = Ld->getMemoryVT().getScalarType();		EVT ScalarVT = Ld->getMemoryVT().getScalarType();
return (ScalarVT == MVT::i32 \|\| ScalarVT == MVT::f32) && Ld->getAlignment() >= 4;		return (ScalarVT == MVT::i32 \|\| ScalarVT == MVT::f32) && Ld->getAlignment() >= 4;
}]>;		}]>;

def maskedstore8 : PatFrag<(ops node:$val, node:$ptr, node:$pred),		def maskedstore8 : PatFrag<(ops node:$val, node:$ptr, node:$pred),
(masked_st node:$val, node:$ptr, node:$pred), [{		(masked_st node:$val, node:$ptr, undef, node:$pred), [{
return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;		return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
}]>;		}]>;
def truncatingmaskedstore8 : PatFrag<(ops node:$val, node:$ptr, node:$pred),		def truncatingmaskedstore8 : PatFrag<(ops node:$val, node:$ptr, node:$pred),
(maskedstore8 node:$val, node:$ptr, node:$pred), [{		(maskedstore8 node:$val, node:$ptr, node:$pred), [{
return cast<MaskedStoreSDNode>(N)->isTruncatingStore();		return cast<MaskedStoreSDNode>(N)->isTruncatingStore();
}]>;		}]>;
def maskedstore16 : PatFrag<(ops node:$val, node:$ptr, node:$pred),		def maskedstore16 : PatFrag<(ops node:$val, node:$ptr, node:$pred),
(masked_st node:$val, node:$ptr, node:$pred), [{		(masked_st node:$val, node:$ptr, undef, node:$pred), [{
auto *St = cast<MaskedStoreSDNode>(N);		auto *St = cast<MaskedStoreSDNode>(N);
EVT ScalarVT = St->getMemoryVT().getScalarType();		EVT ScalarVT = St->getMemoryVT().getScalarType();
return (ScalarVT == MVT::i16 \|\| ScalarVT == MVT::f16) && St->getAlignment() >= 2;		return (ScalarVT == MVT::i16 \|\| ScalarVT == MVT::f16) && St->getAlignment() >= 2;
}]>;		}]>;

def truncatingmaskedstore16 : PatFrag<(ops node:$val, node:$ptr, node:$pred),		def truncatingmaskedstore16 : PatFrag<(ops node:$val, node:$ptr, node:$pred),
(maskedstore16 node:$val, node:$ptr, node:$pred), [{		(maskedstore16 node:$val, node:$ptr, node:$pred), [{
return cast<MaskedStoreSDNode>(N)->isTruncatingStore();		return cast<MaskedStoreSDNode>(N)->isTruncatingStore();
}]>;		}]>;
def maskedstore32 : PatFrag<(ops node:$val, node:$ptr, node:$pred),		def maskedstore32 : PatFrag<(ops node:$val, node:$ptr, node:$pred),
(masked_st node:$val, node:$ptr, node:$pred), [{		(masked_st node:$val, node:$ptr, undef, node:$pred), [{
auto *St = cast<MaskedStoreSDNode>(N);		auto *St = cast<MaskedStoreSDNode>(N);
EVT ScalarVT = St->getMemoryVT().getScalarType();		EVT ScalarVT = St->getMemoryVT().getScalarType();
return (ScalarVT == MVT::i32 \|\| ScalarVT == MVT::f32) && St->getAlignment() >= 4;		return (ScalarVT == MVT::i32 \|\| ScalarVT == MVT::f32) && St->getAlignment() >= 4;
}]>;		}]>;


		def pre_maskedstore : PatFrag<(ops node:$val, node:$base, node:$offset, node:$mask),
		(masked_st node:$val, node:$base, node:$offset, node:$mask), [{
		ISD::MemIndexedMode AM = cast<MaskedStoreSDNode>(N)->getAddressingMode();
		return AM == ISD::PRE_INC \|\| AM == ISD::PRE_DEC;
		}]>;
		def post_maskedstore : PatFrag<(ops node:$val, node:$base, node:$offset, node:$mask),
		(masked_st node:$val, node:$base, node:$offset, node:$mask), [{
		ISD::MemIndexedMode AM = cast<MaskedStoreSDNode>(N)->getAddressingMode();
		return AM == ISD::POST_INC \|\| AM == ISD::POST_DEC;
		}]>;
		def aligned32_pre_maskedstore : PatFrag<(ops node:$val, node:$ptr, node:$offset, node:$mask),
		(pre_maskedstore node:$val, node:$ptr, node:$offset, node:$mask), [{
		return cast<MaskedStoreSDNode>(N)->getAlignment() >= 4;
		}]>;
		def aligned32_post_maskedstore : PatFrag<(ops node:$val, node:$ptr, node:$offset, node:$mask),
		(post_maskedstore node:$val, node:$ptr, node:$offset, node:$mask), [{
		return cast<MaskedStoreSDNode>(N)->getAlignment() >= 4;
		}]>;
		def aligned16_pre_maskedstore : PatFrag<(ops node:$val, node:$ptr, node:$offset, node:$mask),
		(pre_maskedstore node:$val, node:$ptr, node:$offset, node:$mask), [{
		return cast<MaskedStoreSDNode>(N)->getAlignment() >= 2;
		}]>;
		def aligned16_post_maskedstore : PatFrag<(ops node:$val, node:$ptr, node:$offset, node:$mask),
		(post_maskedstore node:$val, node:$ptr, node:$offset, node:$mask), [{
		return cast<MaskedStoreSDNode>(N)->getAlignment() >= 2;
		}]>;


let Predicates = [HasMVEInt, IsLE] in {		let Predicates = [HasMVEInt, IsLE] in {
// Stores		// Stores
defm : MVE_vector_store<MVE_VSTRBU8, byte_alignedstore, 0>;		defm : MVE_vector_store<MVE_VSTRBU8, byte_alignedstore, 0>;
defm : MVE_vector_store<MVE_VSTRHU16, hword_alignedstore, 1>;		defm : MVE_vector_store<MVE_VSTRHU16, hword_alignedstore, 1>;
defm : MVE_vector_store<MVE_VSTRWU32, alignedstore32, 2>;		defm : MVE_vector_store<MVE_VSTRWU32, alignedstore32, 2>;

// Loads		// Loads
defm : MVE_vector_load<MVE_VLDRBU8, byte_alignedload, 0>;		defm : MVE_vector_load<MVE_VLDRBU8, byte_alignedload, 0>;
▲ Show 20 Lines • Show All 65 Lines • ▼ Show 20 Lines

let Predicates = [HasMVEInt] in {		let Predicates = [HasMVEInt] in {
// Aligned masked store, shared between LE and BE		// Aligned masked store, shared between LE and BE
def : MVE_vector_maskedstore_typed<v16i8, MVE_VSTRBU8, maskedstore8, 0>;		def : MVE_vector_maskedstore_typed<v16i8, MVE_VSTRBU8, maskedstore8, 0>;
def : MVE_vector_maskedstore_typed<v8i16, MVE_VSTRHU16, maskedstore16, 1>;		def : MVE_vector_maskedstore_typed<v8i16, MVE_VSTRHU16, maskedstore16, 1>;
def : MVE_vector_maskedstore_typed<v8f16, MVE_VSTRHU16, maskedstore16, 1>;		def : MVE_vector_maskedstore_typed<v8f16, MVE_VSTRHU16, maskedstore16, 1>;
def : MVE_vector_maskedstore_typed<v4i32, MVE_VSTRWU32, maskedstore32, 2>;		def : MVE_vector_maskedstore_typed<v4i32, MVE_VSTRWU32, maskedstore32, 2>;
def : MVE_vector_maskedstore_typed<v4f32, MVE_VSTRWU32, maskedstore32, 2>;		def : MVE_vector_maskedstore_typed<v4f32, MVE_VSTRWU32, maskedstore32, 2>;
// Truncating stores
def : Pat<(truncatingmaskedstore8 (v8i16 MQPR:$val), t2addrmode_imm7<0>:$addr, VCCR:$pred),		// Pre/Post inc masked stores
(MVE_VSTRB16 MQPR:$val, t2addrmode_imm7<0>:$addr, (i32 1), VCCR:$pred)>;		def : MVE_vector_offset_maskedstore_typed<v16i8, MVE_VSTRBU8_pre, pre_maskedstore, 0>;
def : Pat<(truncatingmaskedstore8 (v4i32 MQPR:$val), t2addrmode_imm7<0>:$addr, VCCR:$pred),		def : MVE_vector_offset_maskedstore_typed<v16i8, MVE_VSTRBU8_post, post_maskedstore, 0>;
(MVE_VSTRB32 MQPR:$val, t2addrmode_imm7<0>:$addr, (i32 1), VCCR:$pred)>;		def : MVE_vector_offset_maskedstore_typed<v8i16, MVE_VSTRHU16_pre, aligned16_pre_maskedstore, 1>;
def : Pat<(truncatingmaskedstore16 (v4i32 MQPR:$val), t2addrmode_imm7<1>:$addr, VCCR:$pred),		def : MVE_vector_offset_maskedstore_typed<v8i16, MVE_VSTRHU16_post, aligned16_post_maskedstore, 1>;
(MVE_VSTRH32 MQPR:$val, t2addrmode_imm7<1>:$addr, (i32 1), VCCR:$pred)>;		def : MVE_vector_offset_maskedstore_typed<v8f16, MVE_VSTRHU16_pre, aligned16_pre_maskedstore, 1>;
		def : MVE_vector_offset_maskedstore_typed<v8f16, MVE_VSTRHU16_post, aligned16_post_maskedstore, 1>;
		def : MVE_vector_offset_maskedstore_typed<v4i32, MVE_VSTRWU32_pre, aligned32_pre_maskedstore, 2>;
		def : MVE_vector_offset_maskedstore_typed<v4i32, MVE_VSTRWU32_post, aligned32_post_maskedstore, 2>;
		def : MVE_vector_offset_maskedstore_typed<v4f32, MVE_VSTRWU32_pre, aligned32_pre_maskedstore, 2>;
		def : MVE_vector_offset_maskedstore_typed<v4f32, MVE_VSTRWU32_post, aligned32_post_maskedstore, 2>;

// Aligned masked loads		// Aligned masked loads
def : MVE_vector_maskedload_typed<v16i8, MVE_VLDRBU8, maskedload8, 0>;		def : MVE_vector_maskedload_typed<v16i8, MVE_VLDRBU8, maskedload8, 0>;
def : MVE_vector_maskedload_typed<v8i16, MVE_VLDRHU16, alignedmaskedload16, 1>;		def : MVE_vector_maskedload_typed<v8i16, MVE_VLDRHU16, alignedmaskedload16, 1>;
def : MVE_vector_maskedload_typed<v8f16, MVE_VLDRHU16, alignedmaskedload16, 1>;		def : MVE_vector_maskedload_typed<v8f16, MVE_VLDRHU16, alignedmaskedload16, 1>;
def : MVE_vector_maskedload_typed<v4i32, MVE_VLDRWU32, alignedmaskedload32, 2>;		def : MVE_vector_maskedload_typed<v4i32, MVE_VLDRWU32, alignedmaskedload32, 2>;
def : MVE_vector_maskedload_typed<v4f32, MVE_VLDRWU32, alignedmaskedload32, 2>;		def : MVE_vector_maskedload_typed<v4f32, MVE_VLDRWU32, alignedmaskedload32, 2>;

// Extending masked loads.		// Extending masked loads.
def : Pat<(v8i16 (sextmaskedload8 t2addrmode_imm7<0>:$addr, VCCR:$pred,		def : Pat<(v8i16 (sextmaskedload8 t2addrmode_imm7<0>:$addr, VCCR:$pred,
(v8i16 NEONimmAllZerosV))),		(v8i16 NEONimmAllZerosV))),
(v8i16 (MVE_VLDRBS16 t2addrmode_imm7<0>:$addr, (i32 1), VCCR:$pred))>;		(v8i16 (MVE_VLDRBS16 t2addrmode_imm7<0>:$addr, (i32 1), VCCR:$pred))>;
def : Pat<(v4i32 (sextmaskedload8 t2addrmode_imm7<0>:$addr, VCCR:$pred,		def : Pat<(v4i32 (sextmaskedload8 t2addrmode_imm7<0>:$addr, VCCR:$pred,
(v4i32 NEONimmAllZerosV))),		(v4i32 NEONimmAllZerosV))),
(v4i32 (MVE_VLDRBS32 t2addrmode_imm7<0>:$addr, (i32 1), VCCR:$pred))>;		(v4i32 (MVE_VLDRBS32 t2addrmode_imm7<0>:$addr, (i32 1), VCCR:$pred))>;
def : Pat<(v8i16 (zextmaskedload8 t2addrmode_imm7<0>:$addr, VCCR:$pred,		def : Pat<(v8i16 (zextmaskedload8 t2addrmode_imm7<0>:$addr, VCCR:$pred,
Show All 25 Lines	let MinAlignment = 2 in {
def truncstorevi16_align2 : PatFrag<(ops node:$val, node:$ptr),		def truncstorevi16_align2 : PatFrag<(ops node:$val, node:$ptr),
(truncstorevi16 node:$val, node:$ptr)>;		(truncstorevi16 node:$val, node:$ptr)>;
def post_truncstvi16_align2 : PatFrag<(ops node:$val, node:$base, node:$offset),		def post_truncstvi16_align2 : PatFrag<(ops node:$val, node:$base, node:$offset),
(post_truncstvi16 node:$val, node:$base, node:$offset)>;		(post_truncstvi16 node:$val, node:$base, node:$offset)>;
def pre_truncstvi16_align2 : PatFrag<(ops node:$val, node:$base, node:$offset),		def pre_truncstvi16_align2 : PatFrag<(ops node:$val, node:$base, node:$offset),
(pre_truncstvi16 node:$val, node:$base, node:$offset)>;		(pre_truncstvi16 node:$val, node:$base, node:$offset)>;
}		}

		def pre_truncmaskedst : PatFrag<(ops node:$val, node:$base, node:$offset, node:$pred),
		(masked_st node:$val, node:$base, node:$offset, node:$pred), [{
		ISD::MemIndexedMode AM = cast<MaskedStoreSDNode>(N)->getAddressingMode();
		return AM == ISD::PRE_INC \|\| AM == ISD::PRE_DEC;
		}]>;
		def pre_truncmaskedstvi8 : PatFrag<(ops node:$val, node:$base, node:$offset, node:$pred),
		(pre_truncmaskedst node:$val, node:$base, node:$offset, node:$pred), [{
		return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
		}]>;
		def pre_truncmaskedstvi16_align2 : PatFrag<(ops node:$val, node:$base, node:$offset, node:$pred),
		(pre_truncmaskedst node:$val, node:$base, node:$offset, node:$pred), [{
		auto *St = cast<MaskedStoreSDNode>(N);
		EVT ScalarVT = St->getMemoryVT().getScalarType();
		return (ScalarVT == MVT::i16 \|\| ScalarVT == MVT::f16) && St->getAlignment() >= 2;
		}]>;
		def post_truncmaskedst : PatFrag<(ops node:$val, node:$base, node:$offset, node:$postd),
		(masked_st node:$val, node:$base, node:$offset, node:$postd), [{
		ISD::MemIndexedMode AM = cast<MaskedStoreSDNode>(N)->getAddressingMode();
		return AM == ISD::POST_INC \|\| AM == ISD::POST_DEC;
		}]>;
		def post_truncmaskedstvi8 : PatFrag<(ops node:$val, node:$base, node:$offset, node:$postd),
		(post_truncmaskedst node:$val, node:$base, node:$offset, node:$postd), [{
		return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
		}]>;
		def post_truncmaskedstvi16_align2 : PatFrag<(ops node:$val, node:$base, node:$offset, node:$postd),
		(post_truncmaskedst node:$val, node:$base, node:$offset, node:$postd), [{
		auto *St = cast<MaskedStoreSDNode>(N);
		EVT ScalarVT = St->getMemoryVT().getScalarType();
		return (ScalarVT == MVT::i16 \|\| ScalarVT == MVT::f16) && St->getAlignment() >= 2;
		}]>;

let Predicates = [HasMVEInt] in {		let Predicates = [HasMVEInt] in {
def : Pat<(truncstorevi8 (v8i16 MQPR:$val), taddrmode_imm7<0>:$addr),		def : Pat<(truncstorevi8 (v8i16 MQPR:$val), taddrmode_imm7<0>:$addr),
(MVE_VSTRB16 MQPR:$val, taddrmode_imm7<0>:$addr)>;		(MVE_VSTRB16 MQPR:$val, taddrmode_imm7<0>:$addr)>;
def : Pat<(truncstorevi8 (v4i32 MQPR:$val), taddrmode_imm7<0>:$addr),		def : Pat<(truncstorevi8 (v4i32 MQPR:$val), taddrmode_imm7<0>:$addr),
(MVE_VSTRB32 MQPR:$val, taddrmode_imm7<0>:$addr)>;		(MVE_VSTRB32 MQPR:$val, taddrmode_imm7<0>:$addr)>;
def : Pat<(truncstorevi16_align2 (v4i32 MQPR:$val), taddrmode_imm7<1>:$addr),		def : Pat<(truncstorevi16_align2 (v4i32 MQPR:$val), taddrmode_imm7<1>:$addr),
(MVE_VSTRH32 MQPR:$val, taddrmode_imm7<1>:$addr)>;		(MVE_VSTRH32 MQPR:$val, taddrmode_imm7<1>:$addr)>;

def : Pat<(post_truncstvi8 (v8i16 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),		def : Pat<(post_truncstvi8 (v8i16 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),
(MVE_VSTRB16_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;		(MVE_VSTRB16_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;
def : Pat<(post_truncstvi8 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),		def : Pat<(post_truncstvi8 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),
(MVE_VSTRB32_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;		(MVE_VSTRB32_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;
def : Pat<(post_truncstvi16_align2 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<1>:$addr),		def : Pat<(post_truncstvi16_align2 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<1>:$addr),
(MVE_VSTRH32_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<1>:$addr)>;		(MVE_VSTRH32_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<1>:$addr)>;

def : Pat<(pre_truncstvi8 (v8i16 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),		def : Pat<(pre_truncstvi8 (v8i16 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),
(MVE_VSTRB16_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;		(MVE_VSTRB16_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;
def : Pat<(pre_truncstvi8 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),		def : Pat<(pre_truncstvi8 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr),
(MVE_VSTRB32_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;		(MVE_VSTRB32_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr)>;
def : Pat<(pre_truncstvi16_align2 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<1>:$addr),		def : Pat<(pre_truncstvi16_align2 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<1>:$addr),
(MVE_VSTRH32_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<1>:$addr)>;		(MVE_VSTRH32_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<1>:$addr)>;

		def : Pat<(truncatingmaskedstore8 (v8i16 MQPR:$val), taddrmode_imm7<0>:$addr, VCCR:$pred),
		(MVE_VSTRB16 MQPR:$val, taddrmode_imm7<0>:$addr, (i32 1), VCCR:$pred)>;
		def : Pat<(truncatingmaskedstore8 (v4i32 MQPR:$val), taddrmode_imm7<0>:$addr, VCCR:$pred),
		(MVE_VSTRB32 MQPR:$val, taddrmode_imm7<0>:$addr, (i32 1), VCCR:$pred)>;
		def : Pat<(truncatingmaskedstore16 (v4i32 MQPR:$val), taddrmode_imm7<1>:$addr, VCCR:$pred),
		(MVE_VSTRH32 MQPR:$val, taddrmode_imm7<1>:$addr, (i32 1), VCCR:$pred)>;

		def : Pat<(post_truncmaskedstvi8 (v8i16 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr, VCCR:$pred),
		(MVE_VSTRB16_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr, (i32 1), VCCR:$pred)>;
		def : Pat<(post_truncmaskedstvi8 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr, VCCR:$pred),
		(MVE_VSTRB32_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr, (i32 1), VCCR:$pred)>;
		def : Pat<(post_truncmaskedstvi16_align2 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<1>:$addr, VCCR:$pred),
		(MVE_VSTRH32_post MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<1>:$addr, (i32 1), VCCR:$pred)>;

		def : Pat<(pre_truncmaskedstvi8 (v8i16 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr, VCCR:$pred),
		(MVE_VSTRB16_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr, (i32 1), VCCR:$pred)>;
		def : Pat<(pre_truncmaskedstvi8 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<0>:$addr, VCCR:$pred),
		(MVE_VSTRB32_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<0>:$addr, (i32 1), VCCR:$pred)>;
		def : Pat<(pre_truncmaskedstvi16_align2 (v4i32 MQPR:$Rt), tGPR:$Rn, t2am_imm7_offset<1>:$addr, VCCR:$pred),
		(MVE_VSTRH32_pre MQPR:$Rt, tGPR:$Rn, t2am_imm7_offset<1>:$addr, (i32 1), VCCR:$pred)>;
}		}


let MinAlignment = 2 in {		let MinAlignment = 2 in {
def extloadvi16_align2 : PatFrag<(ops node:$ptr), (extloadvi16 node:$ptr)>;		def extloadvi16_align2 : PatFrag<(ops node:$ptr), (extloadvi16 node:$ptr)>;
def sextloadvi16_align2 : PatFrag<(ops node:$ptr), (sextloadvi16 node:$ptr)>;		def sextloadvi16_align2 : PatFrag<(ops node:$ptr), (sextloadvi16 node:$ptr)>;
def zextloadvi16_align2 : PatFrag<(ops node:$ptr), (zextloadvi16 node:$ptr)>;		def zextloadvi16_align2 : PatFrag<(ops node:$ptr), (zextloadvi16 node:$ptr)>;
}		}
▲ Show 20 Lines • Show All 127 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 24,274 Lines • ▼ Show 20 Lines	case TRUNCATE_TO_MEM_VI32: {
switch (TruncationOp) {		switch (TruncationOp) {
case X86ISD::VTRUNC: {		case X86ISD::VTRUNC: {
if (isAllOnesConstant(Mask)) // return just a truncate store		if (isAllOnesConstant(Mask)) // return just a truncate store
return DAG.getTruncStore(Chain, dl, DataToTruncate, Addr, MemVT,		return DAG.getTruncStore(Chain, dl, DataToTruncate, Addr, MemVT,
MemIntr->getMemOperand());		MemIntr->getMemOperand());

MVT MaskVT = MVT::getVectorVT(MVT::i1, MemVT.getVectorNumElements());		MVT MaskVT = MVT::getVectorVT(MVT::i1, MemVT.getVectorNumElements());
SDValue VMask = getMaskNode(Mask, MaskVT, Subtarget, DAG, dl);		SDValue VMask = getMaskNode(Mask, MaskVT, Subtarget, DAG, dl);
		SDValue Offset = DAG.getUNDEF(VMask.getValueType());

return DAG.getMaskedStore(Chain, dl, DataToTruncate, Addr, VMask, MemVT,		return DAG.getMaskedStore(Chain, dl, DataToTruncate, Addr, Offset, VMask,
MemIntr->getMemOperand(), true /* truncating */);		MemVT, MemIntr->getMemOperand(), ISD::UNINDEXED,
		true /* truncating */);
}		}
case X86ISD::VTRUNCUS:		case X86ISD::VTRUNCUS:
case X86ISD::VTRUNCS: {		case X86ISD::VTRUNCS: {
bool IsSigned = (TruncationOp == X86ISD::VTRUNCS);		bool IsSigned = (TruncationOp == X86ISD::VTRUNCS);
if (isAllOnesConstant(Mask))		if (isAllOnesConstant(Mask))
return EmitTruncSStore(IsSigned, Chain, dl, DataToTruncate, Addr, MemVT,		return EmitTruncSStore(IsSigned, Chain, dl, DataToTruncate, Addr, MemVT,
MemIntr->getMemOperand(), DAG);		MemIntr->getMemOperand(), DAG);

▲ Show 20 Lines • Show All 3,294 Lines • ▼ Show 20 Lines	static SDValue LowerMLOAD(SDValue Op, const X86Subtarget &Subtarget,
SDLoc dl(Op);		SDLoc dl(Op);

// Handle AVX masked loads which don't support passthru other than 0.		// Handle AVX masked loads which don't support passthru other than 0.
if (MaskVT.getVectorElementType() != MVT::i1) {		if (MaskVT.getVectorElementType() != MVT::i1) {
// We also allow undef in the isel pattern.		// We also allow undef in the isel pattern.
if (PassThru.isUndef() \|\| ISD::isBuildVectorAllZeros(PassThru.getNode()))		if (PassThru.isUndef() \|\| ISD::isBuildVectorAllZeros(PassThru.getNode()))
return Op;		return Op;

SDValue NewLoad = DAG.getMaskedLoad(VT, dl, N->getChain(),		SDValue NewLoad = DAG.getMaskedLoad(
N->getBasePtr(), Mask,		VT, dl, N->getChain(), N->getBasePtr(), N->getOffset(), Mask,
getZeroVector(VT, Subtarget, DAG, dl),		getZeroVector(VT, Subtarget, DAG, dl), N->getMemoryVT(),
N->getMemoryVT(), N->getMemOperand(),		N->getMemOperand(), N->getAddressingMode(), N->getExtensionType(),
N->getExtensionType(),
N->isExpandingLoad());		N->isExpandingLoad());
// Emit a blend.		// Emit a blend.
SDValue Select = DAG.getNode(ISD::VSELECT, dl, MaskVT, Mask, NewLoad,		SDValue Select = DAG.getNode(ISD::VSELECT, dl, MaskVT, Mask, NewLoad,
PassThru);		PassThru);
return DAG.getMergeValues({ Select, NewLoad.getValue(1) }, dl);		return DAG.getMergeValues({ Select, NewLoad.getValue(1) }, dl);
}		}

assert((!N->isExpandingLoad() \|\| Subtarget.hasAVX512()) &&		assert((!N->isExpandingLoad() \|\| Subtarget.hasAVX512()) &&
"Expanding masked load is supported on AVX-512 target only!");		"Expanding masked load is supported on AVX-512 target only!");
Show All 17 Lines	static SDValue LowerMLOAD(SDValue Op, const X86Subtarget &Subtarget,

// Mask element has to be i1.		// Mask element has to be i1.
assert(Mask.getSimpleValueType().getScalarType() == MVT::i1 &&		assert(Mask.getSimpleValueType().getScalarType() == MVT::i1 &&
"Unexpected mask type");		"Unexpected mask type");

MVT WideMaskVT = MVT::getVectorVT(MVT::i1, NumEltsInWideVec);		MVT WideMaskVT = MVT::getVectorVT(MVT::i1, NumEltsInWideVec);

Mask = ExtendToType(Mask, WideMaskVT, DAG, true);		Mask = ExtendToType(Mask, WideMaskVT, DAG, true);
SDValue NewLoad = DAG.getMaskedLoad(WideDataVT, dl, N->getChain(),		SDValue NewLoad = DAG.getMaskedLoad(
N->getBasePtr(), Mask, PassThru,		WideDataVT, dl, N->getChain(), N->getBasePtr(), N->getOffset(), Mask,
N->getMemoryVT(), N->getMemOperand(),		PassThru, N->getMemoryVT(), N->getMemOperand(), N->getAddressingMode(),
N->getExtensionType(),		N->getExtensionType(), N->isExpandingLoad());
N->isExpandingLoad());

SDValue Exract = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, VT,		SDValue Exract = DAG.getNode(ISD::EXTRACT_SUBVECTOR, dl, VT,
NewLoad.getValue(0),		NewLoad.getValue(0),
DAG.getIntPtrConstant(0, dl));		DAG.getIntPtrConstant(0, dl));
SDValue RetOps[] = {Exract, NewLoad.getValue(1)};		SDValue RetOps[] = {Exract, NewLoad.getValue(1)};
return DAG.getMergeValues(RetOps, dl);		return DAG.getMergeValues(RetOps, dl);
}		}

Show All 29 Lines	static SDValue LowerMSTORE(SDValue Op, const X86Subtarget &Subtarget,
assert(Mask.getSimpleValueType().getScalarType() == MVT::i1 &&		assert(Mask.getSimpleValueType().getScalarType() == MVT::i1 &&
"Unexpected mask type");		"Unexpected mask type");

MVT WideMaskVT = MVT::getVectorVT(MVT::i1, NumEltsInWideVec);		MVT WideMaskVT = MVT::getVectorVT(MVT::i1, NumEltsInWideVec);

DataToStore = ExtendToType(DataToStore, WideDataVT, DAG);		DataToStore = ExtendToType(DataToStore, WideDataVT, DAG);
Mask = ExtendToType(Mask, WideMaskVT, DAG, true);		Mask = ExtendToType(Mask, WideMaskVT, DAG, true);
return DAG.getMaskedStore(N->getChain(), dl, DataToStore, N->getBasePtr(),		return DAG.getMaskedStore(N->getChain(), dl, DataToStore, N->getBasePtr(),
Mask, N->getMemoryVT(), N->getMemOperand(),		N->getOffset(), Mask, N->getMemoryVT(),
		N->getMemOperand(), N->getAddressingMode(),
N->isTruncatingStore(), N->isCompressingStore());		N->isTruncatingStore(), N->isCompressingStore());
}		}

static SDValue LowerMGATHER(SDValue Op, const X86Subtarget &Subtarget,		static SDValue LowerMGATHER(SDValue Op, const X86Subtarget &Subtarget,
SelectionDAG &DAG) {		SelectionDAG &DAG) {
assert(Subtarget.hasAVX2() &&		assert(Subtarget.hasAVX2() &&
"MGATHER/MSCATTER are supported on AVX-512/AVX-2 arch only");		"MGATHER/MSCATTER are supported on AVX-512/AVX-2 arch only");

▲ Show 20 Lines • Show All 12,754 Lines • ▼ Show 20 Lines

/// If exactly one element of the mask is set for a non-extending masked load,		/// If exactly one element of the mask is set for a non-extending masked load,
/// it is a scalar load and vector insert.		/// it is a scalar load and vector insert.
/// Note: It is expected that the degenerate cases of an all-zeros or all-ones		/// Note: It is expected that the degenerate cases of an all-zeros or all-ones
/// mask have already been optimized in IR, so we don't bother with those here.		/// mask have already been optimized in IR, so we don't bother with those here.
static SDValue		static SDValue
reduceMaskedLoadToScalarLoad(MaskedLoadSDNode *ML, SelectionDAG &DAG,		reduceMaskedLoadToScalarLoad(MaskedLoadSDNode *ML, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI) {		TargetLowering::DAGCombinerInfo &DCI) {
		assert(ML->isUnindexed() && "Unexpected indexed masked load!");
// TODO: This is not x86-specific, so it could be lifted to DAGCombiner.		// TODO: This is not x86-specific, so it could be lifted to DAGCombiner.
// However, some target hooks may need to be added to know when the transform		// However, some target hooks may need to be added to know when the transform
// is profitable. Endianness would also have to be considered.		// is profitable. Endianness would also have to be considered.

SDValue Addr, VecIndex;		SDValue Addr, VecIndex;
unsigned Alignment;		unsigned Alignment;
if (!getParamsForOneTrueMaskedElt(ML, DAG, Addr, VecIndex, Alignment))		if (!getParamsForOneTrueMaskedElt(ML, DAG, Addr, VecIndex, Alignment))
return SDValue();		return SDValue();
Show All 11 Lines	reduceMaskedLoadToScalarLoad(MaskedLoadSDNode *ML, SelectionDAG &DAG,
SDValue Insert = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, VT,		SDValue Insert = DAG.getNode(ISD::INSERT_VECTOR_ELT, DL, VT,
ML->getPassThru(), Load, VecIndex);		ML->getPassThru(), Load, VecIndex);
return DCI.CombineTo(ML, Insert, Load.getValue(1), true);		return DCI.CombineTo(ML, Insert, Load.getValue(1), true);
}		}

static SDValue		static SDValue
combineMaskedLoadConstantMask(MaskedLoadSDNode *ML, SelectionDAG &DAG,		combineMaskedLoadConstantMask(MaskedLoadSDNode *ML, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI) {		TargetLowering::DAGCombinerInfo &DCI) {
		assert(ML->isUnindexed() && "Unexpected indexed masked load!");
if (!ISD::isBuildVectorOfConstantSDNodes(ML->getMask().getNode()))		if (!ISD::isBuildVectorOfConstantSDNodes(ML->getMask().getNode()))
return SDValue();		return SDValue();

SDLoc DL(ML);		SDLoc DL(ML);
EVT VT = ML->getValueType(0);		EVT VT = ML->getValueType(0);

// If we are loading the first and last elements of a vector, it is safe and		// If we are loading the first and last elements of a vector, it is safe and
// always faster to load the whole vector. Replace the masked load with a		// always faster to load the whole vector. Replace the masked load with a
Show All 19 Lines	combineMaskedLoadConstantMask(MaskedLoadSDNode *ML, SelectionDAG &DAG,
if (ML->getPassThru().isUndef())		if (ML->getPassThru().isUndef())
return SDValue();		return SDValue();

if (ISD::isBuildVectorAllZeros(ML->getPassThru().getNode()))		if (ISD::isBuildVectorAllZeros(ML->getPassThru().getNode()))
return SDValue();		return SDValue();

// The new masked load has an undef pass-through operand. The select uses the		// The new masked load has an undef pass-through operand. The select uses the
// original pass-through operand.		// original pass-through operand.
SDValue NewML = DAG.getMaskedLoad(VT, DL, ML->getChain(), ML->getBasePtr(),		SDValue NewML = DAG.getMaskedLoad(
ML->getMask(), DAG.getUNDEF(VT),		VT, DL, ML->getChain(), ML->getBasePtr(), ML->getOffset(), ML->getMask(),
ML->getMemoryVT(), ML->getMemOperand(),		DAG.getUNDEF(VT), ML->getMemoryVT(), ML->getMemOperand(),
ML->getExtensionType());		ML->getAddressingMode(), ML->getExtensionType());
SDValue Blend = DAG.getSelect(DL, VT, ML->getMask(), NewML,		SDValue Blend = DAG.getSelect(DL, VT, ML->getMask(), NewML,
ML->getPassThru());		ML->getPassThru());

return DCI.CombineTo(ML, Blend, NewML.getValue(1), true);		return DCI.CombineTo(ML, Blend, NewML.getValue(1), true);
}		}

static SDValue combineMaskedLoad(SDNode *N, SelectionDAG &DAG,		static SDValue combineMaskedLoad(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
▲ Show 20 Lines • Show All 69 Lines • ▼ Show 20 Lines	if (TLI.SimplifyDemandedBits(Mask, DemandedMask, DCI))
return SDValue(N, 0);		return SDValue(N, 0);
}		}

SDValue Value = Mst->getValue();		SDValue Value = Mst->getValue();
if (Value.getOpcode() == ISD::TRUNCATE && Value.getNode()->hasOneUse() &&		if (Value.getOpcode() == ISD::TRUNCATE && Value.getNode()->hasOneUse() &&
TLI.isTruncStoreLegal(Value.getOperand(0).getValueType(),		TLI.isTruncStoreLegal(Value.getOperand(0).getValueType(),
Mst->getMemoryVT())) {		Mst->getMemoryVT())) {
return DAG.getMaskedStore(Mst->getChain(), SDLoc(N), Value.getOperand(0),		return DAG.getMaskedStore(Mst->getChain(), SDLoc(N), Value.getOperand(0),
Mst->getBasePtr(), Mask,		Mst->getBasePtr(), Mst->getOffset(), Mask,
Mst->getMemoryVT(), Mst->getMemOperand(), true);		Mst->getMemoryVT(), Mst->getMemOperand(),
		Mst->getAddressingMode(), true);
}		}

return SDValue();		return SDValue();
}		}

static SDValue combineStore(SDNode *N, SelectionDAG &DAG,		static SDValue combineStore(SDNode *N, SelectionDAG &DAG,
TargetLowering::DAGCombinerInfo &DCI,		TargetLowering::DAGCombinerInfo &DCI,
const X86Subtarget &Subtarget) {		const X86Subtarget &Subtarget) {
▲ Show 20 Lines • Show All 5,750 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

Show First 20 Lines • Show All 700 Lines • ▼ Show 20 Lines	def X86dpbf16ps : SDNode<"X86ISD::DPBF16PS",
SDTCVecEltisVT<2, i32>,		SDTCVecEltisVT<2, i32>,
SDTCisSameAs<2,3>]>>;		SDTCisSameAs<2,3>]>>;

// galois field arithmetic		// galois field arithmetic
def X86GF2P8affineinvqb : SDNode<"X86ISD::GF2P8AFFINEINVQB", SDTBlend>;		def X86GF2P8affineinvqb : SDNode<"X86ISD::GF2P8AFFINEINVQB", SDTBlend>;
def X86GF2P8affineqb : SDNode<"X86ISD::GF2P8AFFINEQB", SDTBlend>;		def X86GF2P8affineqb : SDNode<"X86ISD::GF2P8AFFINEQB", SDTBlend>;
def X86GF2P8mulb : SDNode<"X86ISD::GF2P8MULB", SDTIntBinOp>;		def X86GF2P8mulb : SDNode<"X86ISD::GF2P8MULB", SDTIntBinOp>;

		def SDTX86MaskedStore: SDTypeProfile<0, 3, [ // masked store
		SDTCisVec<0>, SDTCisPtrTy<1>, SDTCisVec<2>, SDTCisSameNumEltsAs<0, 2>
		]>;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// SSE Complex Patterns		// SSE Complex Patterns
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// These are 'extloads' from a scalar to the low element of a vector, zeroing		// These are 'extloads' from a scalar to the low element of a vector, zeroing
// the top elements. These are used for the SSE 'ss' and 'sd' instruction		// the top elements. These are used for the SSE 'ss' and 'sd' instruction
// forms.		// forms.
def sse_load_f32 : ComplexPattern<v4f32, 5, "selectScalarSSELoad", [],		def sse_load_f32 : ComplexPattern<v4f32, 5, "selectScalarSSELoad", [],
▲ Show 20 Lines • Show All 318 Lines • ▼ Show 20 Lines

def vinsert256_insert : PatFrag<(ops node:$bigvec, node:$smallvec,		def vinsert256_insert : PatFrag<(ops node:$bigvec, node:$smallvec,
node:$index),		node:$index),
(insert_subvector node:$bigvec, node:$smallvec,		(insert_subvector node:$bigvec, node:$smallvec,
node:$index), [{}],		node:$index), [{}],
INSERT_get_vinsert256_imm>;		INSERT_get_vinsert256_imm>;

def masked_load : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def masked_load : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_ld node:$src1, node:$src2, node:$src3), [{		(masked_ld node:$src1, undef, node:$src2, node:$src3), [{
return !cast<MaskedLoadSDNode>(N)->isExpandingLoad() &&		return !cast<MaskedLoadSDNode>(N)->isExpandingLoad() &&
cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::NON_EXTLOAD;		cast<MaskedLoadSDNode>(N)->getExtensionType() == ISD::NON_EXTLOAD &&
		cast<MaskedLoadSDNode>(N)->isUnindexed();
}]>;		}]>;

def masked_load_aligned : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def masked_load_aligned : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_load node:$src1, node:$src2, node:$src3), [{		(masked_load node:$src1, node:$src2, node:$src3), [{
// Use the node type to determine the size the alignment needs to match.		// Use the node type to determine the size the alignment needs to match.
// We can't use memory VT because type widening changes the node VT, but		// We can't use memory VT because type widening changes the node VT, but
// not the memory VT.		// not the memory VT.
auto *Ld = cast<MaskedLoadSDNode>(N);		auto *Ld = cast<MaskedLoadSDNode>(N);
return Ld->getAlignment() >= Ld->getValueType(0).getStoreSize();		return Ld->getAlignment() >= Ld->getValueType(0).getStoreSize();
}]>;		}]>;

def X86mExpandingLoad : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def X86mExpandingLoad : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_ld node:$src1, node:$src2, node:$src3), [{		(masked_ld node:$src1, undef, node:$src2, node:$src3), [{
return cast<MaskedLoadSDNode>(N)->isExpandingLoad();		return cast<MaskedLoadSDNode>(N)->isExpandingLoad() &&
		cast<MaskedLoadSDNode>(N)->isUnindexed();
}]>;		}]>;

// Masked store fragments.		// Masked store fragments.
// X86mstore can't be implemented in core DAG files because some targets		// X86mstore can't be implemented in core DAG files because some targets
// do not support vector types (llvm-tblgen will fail).		// do not support vector types (llvm-tblgen will fail).
def masked_store : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def masked_store : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_st node:$src1, node:$src2, node:$src3), [{		(masked_st node:$src1, node:$src2, undef, node:$src3), [{
return (!cast<MaskedStoreSDNode>(N)->isTruncatingStore()) &&		return !cast<MaskedStoreSDNode>(N)->isTruncatingStore() &&
(!cast<MaskedStoreSDNode>(N)->isCompressingStore());		!cast<MaskedStoreSDNode>(N)->isCompressingStore() &&
		cast<MaskedStoreSDNode>(N)->isUnindexed();
}]>;		}]>;

def masked_store_aligned : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def masked_store_aligned : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_store node:$src1, node:$src2, node:$src3), [{		(masked_store node:$src1, node:$src2, node:$src3), [{
// Use the node type to determine the size the alignment needs to match.		// Use the node type to determine the size the alignment needs to match.
// We can't use memory VT because type widening changes the node VT, but		// We can't use memory VT because type widening changes the node VT, but
// not the memory VT.		// not the memory VT.
auto *St = cast<MaskedStoreSDNode>(N);		auto *St = cast<MaskedStoreSDNode>(N);
return St->getAlignment() >= St->getOperand(1).getValueType().getStoreSize();		return St->getAlignment() >= St->getOperand(1).getValueType().getStoreSize();
}]>;		}]>;

def X86mCompressingStore : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def X86mCompressingStore : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_st node:$src1, node:$src2, node:$src3), [{		(masked_st node:$src1, node:$src2, undef, node:$src3), [{
return cast<MaskedStoreSDNode>(N)->isCompressingStore();		return cast<MaskedStoreSDNode>(N)->isCompressingStore() &&
		cast<MaskedStoreSDNode>(N)->isUnindexed();
}]>;		}]>;

// masked truncstore fragments		// masked truncstore fragments
// X86mtruncstore can't be implemented in core DAG files because some targets		// X86mtruncstore can't be implemented in core DAG files because some targets
// doesn't support vector type ( llvm-tblgen will fail)		// doesn't support vector type ( llvm-tblgen will fail)
def X86mtruncstore : PatFrag<(ops node:$src1, node:$src2, node:$src3),		def X86mtruncstore : PatFrag<(ops node:$src1, node:$src2, node:$src3),
(masked_st node:$src1, node:$src2, node:$src3), [{		(masked_st node:$src1, node:$src2, undef, node:$src3), [{
return cast<MaskedStoreSDNode>(N)->isTruncatingStore();		return cast<MaskedStoreSDNode>(N)->isTruncatingStore() &&
		cast<MaskedStoreSDNode>(N)->isUnindexed();
}]>;		}]>;
def masked_truncstorevi8 :		def masked_truncstorevi8 :
PatFrag<(ops node:$src1, node:$src2, node:$src3),		PatFrag<(ops node:$src1, node:$src2, node:$src3),
(X86mtruncstore node:$src1, node:$src2, node:$src3), [{		(X86mtruncstore node:$src1, node:$src2, node:$src3), [{
return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;		return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
}]>;		}]>;
def masked_truncstorevi16 :		def masked_truncstorevi16 :
PatFrag<(ops node:$src1, node:$src2, node:$src3),		PatFrag<(ops node:$src1, node:$src2, node:$src3),
(X86mtruncstore node:$src1, node:$src2, node:$src3), [{		(X86mtruncstore node:$src1, node:$src2, node:$src3), [{
return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i16;		return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i16;
}]>;		}]>;
def masked_truncstorevi32 :		def masked_truncstorevi32 :
PatFrag<(ops node:$src1, node:$src2, node:$src3),		PatFrag<(ops node:$src1, node:$src2, node:$src3),
(X86mtruncstore node:$src1, node:$src2, node:$src3), [{		(X86mtruncstore node:$src1, node:$src2, node:$src3), [{
return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i32;		return cast<MaskedStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i32;
}]>;		}]>;

def X86TruncSStore : SDNode<"X86ISD::VTRUNCSTORES", SDTStore,		def X86TruncSStore : SDNode<"X86ISD::VTRUNCSTORES", SDTStore,
[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;

def X86TruncUSStore : SDNode<"X86ISD::VTRUNCSTOREUS", SDTStore,		def X86TruncUSStore : SDNode<"X86ISD::VTRUNCSTOREUS", SDTStore,
[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;

def X86MTruncSStore : SDNode<"X86ISD::VMTRUNCSTORES", SDTMaskedStore,		def X86MTruncSStore : SDNode<"X86ISD::VMTRUNCSTORES", SDTX86MaskedStore,
[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;

def X86MTruncUSStore : SDNode<"X86ISD::VMTRUNCSTOREUS", SDTMaskedStore,		def X86MTruncUSStore : SDNode<"X86ISD::VMTRUNCSTOREUS", SDTX86MaskedStore,
[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;		[SDNPHasChain, SDNPMayStore, SDNPMemOperand]>;
		craig.topperUnsubmitted Not Done Reply Inline Actions This looks to be unused? craig.topper: This looks to be unused?

def truncstore_s_vi8 : PatFrag<(ops node:$val, node:$ptr),		def truncstore_s_vi8 : PatFrag<(ops node:$val, node:$ptr),
(X86TruncSStore node:$val, node:$ptr), [{		(X86TruncSStore node:$val, node:$ptr), [{
return cast<TruncSStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;		return cast<TruncSStoreSDNode>(N)->getMemoryVT().getScalarType() == MVT::i8;
}]>;		}]>;

def truncstore_us_vi8 : PatFrag<(ops node:$val, node:$ptr),		def truncstore_us_vi8 : PatFrag<(ops node:$val, node:$ptr),
(X86TruncUSStore node:$val, node:$ptr), [{		(X86TruncUSStore node:$val, node:$ptr), [{
▲ Show 20 Lines • Show All 52 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/cond-vector-reduce-mve-codegen.ll

	Show First 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	; CHECK-LABEL: and_mul_reduce_add			; CHECK-LABEL: and_mul_reduce_add
	; CHECK: dls lr, lr			; CHECK: dls lr, lr
	; CHECK: [[LOOP:.LBB[0-9_]+]]:			; CHECK: [[LOOP:.LBB[0-9_]+]]:
	; CHECK: vctp.32 [[ELEMS:r[0-9]+]]			; CHECK: vctp.32 [[ELEMS:r[0-9]+]]
	; CHECK: vpstt			; CHECK: vpstt
	; CHECK-NEXT: vldrwt.u32			; CHECK-NEXT: vldrwt.u32
	; CHECK-NEXT: vldrwt.u32			; CHECK-NEXT: vldrwt.u32
	; CHECK: mov [[ELEMS_OUT:r[0-9]+]], [[ELEMS]]			; CHECK: mov [[ELEMS_OUT:r[0-9]+]], [[ELEMS]]
				; CHECK: sub{{.}} [[ELEMS]],{{.}}#4
	; CHECK: vpsttt			; CHECK: vpsttt
	; CHECK-NEXT: vcmpt.i32 eq, {{.*}}, zr			; CHECK-NEXT: vcmpt.i32 eq, {{.*}}, zr
	; CHECK-NEXT: vldrwt.u32 q{{.*}}, [r3]			; CHECK-NEXT: vldrwt.u32 q{{.*}}, [r3]
	; CHECK-NEXT: vldrwt.u32 q{{.*}}, [r2]			; CHECK-NEXT: vldrwt.u32 q{{.*}}, [r2]
	; CHECK: sub{{.}} [[ELEMS]],{{.}}#4
	; CHECK: le lr, [[LOOP]]			; CHECK: le lr, [[LOOP]]
	; CHECK: vctp.32 [[ELEMS_OUT]]			; CHECK: vctp.32 [[ELEMS_OUT]]
	; CHECK: vpsel			; CHECK: vpsel
	define dso_local i32 @and_mul_reduce_add(i32* noalias nocapture readonly %a, i32* noalias nocapture readonly %b,			define dso_local i32 @and_mul_reduce_add(i32* noalias nocapture readonly %a, i32* noalias nocapture readonly %b,
	i32* noalias nocapture readonly %c, i32* noalias nocapture readonly %d, i32 %N) {			i32* noalias nocapture readonly %c, i32* noalias nocapture readonly %d, i32 %N) {
	entry:			entry:
	%cmp8 = icmp eq i32 %N, 0			%cmp8 = icmp eq i32 %N, 0
	br i1 %cmp8, label %for.cond.cleanup, label %vector.ph			br i1 %cmp8, label %for.cond.cleanup, label %vector.ph
	▲ Show 20 Lines • Show All 127 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/fast-fp-loops.ll

	Show All 33 Lines
	; CHECK-NEXT: @ %bb.3:			; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: mov r8, r7			; CHECK-NEXT: mov r8, r7
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: b .LBB0_8			; CHECK-NEXT: b .LBB0_8
	; CHECK-NEXT: .LBB0_4: @ %vector.ph			; CHECK-NEXT: .LBB0_4: @ %vector.ph
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB0_5: @ %vector.body			; CHECK-NEXT: .LBB0_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r1]			; CHECK-NEXT: vldrw.u32 q0, [r1], #16
	; CHECK-NEXT: vldrw.u32 q1, [r2]			; CHECK-NEXT: vldrw.u32 q1, [r2], #16
	; CHECK-NEXT: vmul.f32 q0, q1, q0
	; CHECK-NEXT: vstrw.32 q0, [r0]
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: adds r2, #16
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
				; CHECK-NEXT: vmul.f32 q0, q1, q0
				; CHECK-NEXT: vstrw.32 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB0_5			; CHECK-NEXT: letp lr, .LBB0_5
	; CHECK-NEXT: b .LBB0_11			; CHECK-NEXT: b .LBB0_11
	; CHECK-NEXT: .LBB0_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB0_6: @ %for.body.preheader.new
	; CHECK-NEXT: subs r3, r3, r7			; CHECK-NEXT: subs r3, r3, r7
	; CHECK-NEXT: mov r8, r7			; CHECK-NEXT: mov r8, r7
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
	; CHECK-NEXT: add.w lr, r12, r3, lsr #2			; CHECK-NEXT: add.w lr, r12, r3, lsr #2
	; CHECK-NEXT: movs r3, #0			; CHECK-NEXT: movs r3, #0
	▲ Show 20 Lines • Show All 173 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bic r3, r3, #3			; CHECK-NEXT: bic r3, r3, #3
	; CHECK-NEXT: sub.w r12, r3, #4			; CHECK-NEXT: sub.w r12, r3, #4
	; CHECK-NEXT: movs r3, #1			; CHECK-NEXT: movs r3, #1
	; CHECK-NEXT: add.w lr, r3, r12, lsr #2			; CHECK-NEXT: add.w lr, r3, r12, lsr #2
	; CHECK-NEXT: dls lr, lr			; CHECK-NEXT: dls lr, lr
	; CHECK-NEXT: .LBB1_2: @ %vector.body			; CHECK-NEXT: .LBB1_2: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vctp.32 r2			; CHECK-NEXT: vctp.32 r2
	; CHECK-NEXT: vpstt
	; CHECK-NEXT: vldrwt.u32 q2, [r0]
	; CHECK-NEXT: vldrwt.u32 q3, [r1]
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
				; CHECK-NEXT: vpstt
				; CHECK-NEXT: vldrwt.u32 q2, [r0], #16
				; CHECK-NEXT: vldrwt.u32 q3, [r1], #16
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vfma.f32 q0, q3, q2			; CHECK-NEXT: vfma.f32 q0, q3, q2
	; CHECK-NEXT: le lr, .LBB1_2			; CHECK-NEXT: le lr, .LBB1_2
	; CHECK-NEXT: @ %bb.3: @ %middle.block			; CHECK-NEXT: @ %bb.3: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vmov.f32 s4, s2			; CHECK-NEXT: vmov.f32 s4, s2
	; CHECK-NEXT: vmov.f32 s5, s3			; CHECK-NEXT: vmov.f32 s5, s3
	▲ Show 20 Lines • Show All 341 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-tail-data-types.ll

	Show First 20 Lines • Show All 82 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB1_1: @ %vector.body			; CHECK-NEXT: .LBB1_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.s32 q2, [r1]
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: adds r1, #8
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
				; CHECK-NEXT: vldrh.s32 q2, [r1], #8
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmla.u32 q0, q2, r0			; CHECK-NEXT: vmla.u32 q0, q2, r0
	; CHECK-NEXT: letp lr, .LBB1_1			; CHECK-NEXT: letp lr, .LBB1_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	▲ Show 20 Lines • Show All 121 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB3_1: @ %vector.body			; CHECK-NEXT: .LBB3_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q2, [r1]
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: adds r1, #8
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
				; CHECK-NEXT: vldrh.u32 q2, [r1], #8
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmla.u32 q0, q2, r0			; CHECK-NEXT: vmla.u32 q0, q2, r0
	; CHECK-NEXT: letp lr, .LBB3_1			; CHECK-NEXT: letp lr, .LBB3_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	▲ Show 20 Lines • Show All 46 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB4_1: @ %vector.body			; CHECK-NEXT: .LBB4_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q2, [r1]
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
				; CHECK-NEXT: vldrw.u32 q2, [r1], #16
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vmla.u32 q0, q2, r0			; CHECK-NEXT: vmla.u32 q0, q2, r0
	; CHECK-NEXT: letp lr, .LBB4_1			; CHECK-NEXT: letp lr, .LBB4_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	▲ Show 20 Lines • Show All 75 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB5_5: @ %vector.body			; CHECK-NEXT: .LBB5_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: adds r5, r0, r4			; CHECK-NEXT: adds r5, r0, r4
	; CHECK-NEXT: vldrb.u32 q0, [r5]			; CHECK-NEXT: vldrb.u32 q0, [r5]
	; CHECK-NEXT: adds r5, r1, r4			; CHECK-NEXT: adds r5, r1, r4
	; CHECK-NEXT: vldrb.u32 q1, [r5]			; CHECK-NEXT: vldrb.u32 q1, [r5]
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3]
	; CHECK-NEXT: adds r3, #16
	; CHECK-NEXT: adds r4, #4			; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: sub.w r12, r12, #4			; CHECK-NEXT: sub.w r12, r12, #4
				; CHECK-NEXT: vadd.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB5_5			; CHECK-NEXT: letp lr, .LBB5_5
	; CHECK-NEXT: b .LBB5_12			; CHECK-NEXT: b .LBB5_12
	; CHECK-NEXT: .LBB5_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB5_6: @ %for.body.preheader.new
	; CHECK-NEXT: sub.w r12, lr, r12			; CHECK-NEXT: sub.w r12, lr, r12
	; CHECK-NEXT: subs r4, r1, #3			; CHECK-NEXT: subs r4, r1, #3
	; CHECK-NEXT: subs r5, r0, #3			; CHECK-NEXT: subs r5, r0, #3
	; CHECK-NEXT: sub.w r7, r3, #16			; CHECK-NEXT: sub.w r7, r3, #16
	; CHECK-NEXT: mov.w r9, #0			; CHECK-NEXT: mov.w r9, #0
	▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: ldr.w r12, [sp, #8]			; CHECK-NEXT: ldr.w r12, [sp, #8]
	; CHECK-NEXT: cmp.w r12, #0			; CHECK-NEXT: cmp.w r12, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r4, pc}			; CHECK-NEXT: popeq {r4, pc}
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB6_1: @ %vector.body			; CHECK-NEXT: .LBB6_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.s32 q0, [r0]			; CHECK-NEXT: vldrh.s32 q0, [r0], #8
	; CHECK-NEXT: vldrh.s32 q1, [r1]			; CHECK-NEXT: vldrh.s32 q1, [r1], #8
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: adds r0, #8
	; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3]
	; CHECK-NEXT: adds r1, #8
	; CHECK-NEXT: adds r3, #16
	; CHECK-NEXT: sub.w r12, r12, #4			; CHECK-NEXT: sub.w r12, r12, #4
				; CHECK-NEXT: vadd.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB6_1			; CHECK-NEXT: letp lr, .LBB6_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB7_5: @ %vector.body			; CHECK-NEXT: .LBB7_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: adds r5, r0, r4			; CHECK-NEXT: adds r5, r0, r4
	; CHECK-NEXT: vldrb.u32 q0, [r5]			; CHECK-NEXT: vldrb.u32 q0, [r5]
	; CHECK-NEXT: adds r5, r1, r4			; CHECK-NEXT: adds r5, r1, r4
	; CHECK-NEXT: vldrb.u32 q1, [r5]			; CHECK-NEXT: vldrb.u32 q1, [r5]
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3]
	; CHECK-NEXT: adds r3, #16
	; CHECK-NEXT: adds r4, #4			; CHECK-NEXT: adds r4, #4
	; CHECK-NEXT: sub.w r12, r12, #4			; CHECK-NEXT: sub.w r12, r12, #4
				; CHECK-NEXT: vadd.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB7_5			; CHECK-NEXT: letp lr, .LBB7_5
	; CHECK-NEXT: b .LBB7_12			; CHECK-NEXT: b .LBB7_12
	; CHECK-NEXT: .LBB7_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB7_6: @ %for.body.preheader.new
	; CHECK-NEXT: sub.w r12, lr, r12			; CHECK-NEXT: sub.w r12, lr, r12
	; CHECK-NEXT: subs r4, r1, #3			; CHECK-NEXT: subs r4, r1, #3
	; CHECK-NEXT: subs r5, r0, #3			; CHECK-NEXT: subs r5, r0, #3
	; CHECK-NEXT: sub.w r7, r3, #16			; CHECK-NEXT: sub.w r7, r3, #16
	; CHECK-NEXT: mov.w r9, #0			; CHECK-NEXT: mov.w r9, #0
	▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: push {r4, lr}			; CHECK-NEXT: push {r4, lr}
	; CHECK-NEXT: ldr.w r12, [sp, #8]			; CHECK-NEXT: ldr.w r12, [sp, #8]
	; CHECK-NEXT: cmp.w r12, #0			; CHECK-NEXT: cmp.w r12, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r4, pc}			; CHECK-NEXT: popeq {r4, pc}
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB8_1: @ %vector.body			; CHECK-NEXT: .LBB8_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u32 q0, [r0]			; CHECK-NEXT: vldrh.u32 q0, [r0], #8
	; CHECK-NEXT: vldrh.u32 q1, [r1]			; CHECK-NEXT: vldrh.u32 q1, [r1], #8
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: adds r0, #8
	; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3]
	; CHECK-NEXT: adds r1, #8
	; CHECK-NEXT: adds r3, #16
	; CHECK-NEXT: sub.w r12, r12, #4			; CHECK-NEXT: sub.w r12, r12, #4
				; CHECK-NEXT: vadd.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB8_1			; CHECK-NEXT: letp lr, .LBB8_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	▲ Show 20 Lines • Show All 68 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: @ %bb.3:			; CHECK-NEXT: @ %bb.3:
	; CHECK-NEXT: mov r10, r5			; CHECK-NEXT: mov r10, r5
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: b .LBB9_8			; CHECK-NEXT: b .LBB9_8
	; CHECK-NEXT: .LBB9_4: @ %vector.ph			; CHECK-NEXT: .LBB9_4: @ %vector.ph
	; CHECK-NEXT: dlstp.32 lr, r12			; CHECK-NEXT: dlstp.32 lr, r12
	; CHECK-NEXT: .LBB9_5: @ %vector.body			; CHECK-NEXT: .LBB9_5: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: vldrw.u32 q1, [r1]			; CHECK-NEXT: vldrw.u32 q1, [r1], #16
	; CHECK-NEXT: vmul.i32 q0, q1, q0			; CHECK-NEXT: vmul.i32 q0, q1, q0
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r3]
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: adds r3, #16
	; CHECK-NEXT: sub.w r12, r12, #4			; CHECK-NEXT: sub.w r12, r12, #4
				; CHECK-NEXT: vadd.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r3], #16
	; CHECK-NEXT: letp lr, .LBB9_5			; CHECK-NEXT: letp lr, .LBB9_5
	; CHECK-NEXT: b .LBB9_11			; CHECK-NEXT: b .LBB9_11
	; CHECK-NEXT: .LBB9_6: @ %for.body.preheader.new			; CHECK-NEXT: .LBB9_6: @ %for.body.preheader.new
	; CHECK-NEXT: sub.w r7, r12, r5			; CHECK-NEXT: sub.w r7, r12, r5
	; CHECK-NEXT: mov r10, r5			; CHECK-NEXT: mov r10, r5
	; CHECK-NEXT: subs r7, #4			; CHECK-NEXT: subs r7, #4
	; CHECK-NEXT: movs r4, #0			; CHECK-NEXT: movs r4, #0
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	▲ Show 20 Lines • Show All 176 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: popeq {r4, pc}			; CHECK-NEXT: popeq {r4, pc}
	; CHECK-NEXT: mov.w r12, #0			; CHECK-NEXT: mov.w r12, #0
	; CHECK-NEXT: dlstp.16 lr, r3			; CHECK-NEXT: dlstp.16 lr, r3
	; CHECK-NEXT: .LBB10_1: @ %vector.body			; CHECK-NEXT: .LBB10_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: add.w r4, r1, r12			; CHECK-NEXT: add.w r4, r1, r12
	; CHECK-NEXT: vldrb.u16 q0, [r4]			; CHECK-NEXT: vldrb.u16 q0, [r4]
	; CHECK-NEXT: add.w r4, r2, r12			; CHECK-NEXT: add.w r4, r2, r12
	; CHECK-NEXT: vldrb.u16 q1, [r4]
	; CHECK-NEXT: vmul.i16 q0, q1, q0
	; CHECK-NEXT: vstrh.16 q0, [r0]
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: add.w r12, r12, #8			; CHECK-NEXT: add.w r12, r12, #8
	; CHECK-NEXT: subs r3, #8			; CHECK-NEXT: subs r3, #8
				; CHECK-NEXT: vldrb.u16 q1, [r4]
				; CHECK-NEXT: vmul.i16 q0, q1, q0
				; CHECK-NEXT: vstrh.16 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB10_1			; CHECK-NEXT: letp lr, .LBB10_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r4, pc}			; CHECK-NEXT: pop {r4, pc}
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	▲ Show 20 Lines • Show All 43 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vector-arith-codegen.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -mtriple=armv8.1m.main -mattr=+mve -enable-arm-maskedldst=true -disable-mve-tail-predication=false --verify-machineinstrs %s -o - \| FileCheck %s			; RUN: llc -mtriple=armv8.1m.main -mattr=+mve -enable-arm-maskedldst=true -disable-mve-tail-predication=false --verify-machineinstrs %s -o - \| FileCheck %s

	define dso_local i32 @mul_reduce_add(i32* noalias nocapture readonly %a, i32* noalias nocapture readonly %b, i32 %N) {			define dso_local i32 @mul_reduce_add(i32* noalias nocapture readonly %a, i32* noalias nocapture readonly %b, i32 %N) {
	; CHECK-LABEL: mul_reduce_add:			; CHECK-LABEL: mul_reduce_add:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: cmp r2, #0			; CHECK-NEXT: cmp r2, #0
	; CHECK-NEXT: itt eq			; CHECK-NEXT: itt eq
	; CHECK-NEXT: moveq r0, #0			; CHECK-NEXT: moveq r0, #0
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q1, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB0_1: @ %vector.body			; CHECK-NEXT: .LBB0_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q0, q1
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q1, [r0], #16
	; CHECK-NEXT: vldrw.u32 q2, [r1]			; CHECK-NEXT: vldrw.u32 q2, [r1], #16
	; CHECK-NEXT: mov r3, r2			; CHECK-NEXT: mov r3, r2
	; CHECK-NEXT: vmul.i32 q0, q2, q0			; CHECK-NEXT: vmul.i32 q1, q2, q1
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vadd.i32 q0, q0, q1			; CHECK-NEXT: vadd.i32 q1, q1, q0
	; CHECK-NEXT: letp lr, .LBB0_1			; CHECK-NEXT: letp lr, .LBB0_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r3			; CHECK-NEXT: vctp.32 r3
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q1, q0
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp8 = icmp eq i32 %N, 0			%cmp8 = icmp eq i32 %N, 0
	br i1 %cmp8, label %for.cond.cleanup, label %vector.ph			br i1 %cmp8, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	%n.rnd.up = add i32 %N, 3			%n.rnd.up = add i32 %N, 3
	▲ Show 20 Lines • Show All 41 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB1_1: @ %vector.body			; CHECK-NEXT: .LBB1_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: mov r1, r2			; CHECK-NEXT: mov r1, r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vadd.i32 q0, q0, q1			; CHECK-NEXT: vadd.i32 q0, q0, q1
	; CHECK-NEXT: letp lr, .LBB1_1			; CHECK-NEXT: letp lr, .LBB1_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r1			; CHECK-NEXT: vctp.32 r1
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	▲ Show 20 Lines • Show All 43 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: bxeq lr			; CHECK-NEXT: bxeq lr
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: vmov.i32 q0, #0x0			; CHECK-NEXT: vmov.i32 q0, #0x0
	; CHECK-NEXT: dlstp.32 lr, r2			; CHECK-NEXT: dlstp.32 lr, r2
	; CHECK-NEXT: .LBB2_1: @ %vector.body			; CHECK-NEXT: .LBB2_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: mov r1, r2			; CHECK-NEXT: mov r1, r2
	; CHECK-NEXT: vmov q1, q0			; CHECK-NEXT: vmov q1, q0
	; CHECK-NEXT: vldrw.u32 q0, [r0]			; CHECK-NEXT: vldrw.u32 q0, [r0], #16
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: subs r2, #4			; CHECK-NEXT: subs r2, #4
	; CHECK-NEXT: vadd.i32 q0, q0, q1			; CHECK-NEXT: vadd.i32 q0, q0, q1
	; CHECK-NEXT: letp lr, .LBB2_1			; CHECK-NEXT: letp lr, .LBB2_1
	; CHECK-NEXT: @ %bb.2: @ %middle.block			; CHECK-NEXT: @ %bb.2: @ %middle.block
	; CHECK-NEXT: vctp.32 r1			; CHECK-NEXT: vctp.32 r1
	; CHECK-NEXT: vpsel q0, q0, q1			; CHECK-NEXT: vpsel q0, q0, q1
	; CHECK-NEXT: vaddv.u32 r0, q0			; CHECK-NEXT: vaddv.u32 r0, q0
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	Show All 39 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB3_1: @ %vector.body			; CHECK-NEXT: .LBB3_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r1]			; CHECK-NEXT: vldrw.u32 q0, [r1], #16
	; CHECK-NEXT: vmul.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r0]
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
				; CHECK-NEXT: vmul.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB3_1			; CHECK-NEXT: letp lr, .LBB3_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp6 = icmp eq i32 %N, 0			%cmp6 = icmp eq i32 %N, 0
	br i1 %cmp6, label %for.cond.cleanup, label %vector.ph			br i1 %cmp6, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	Show All 32 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: dlstp.32 lr, r3			; CHECK-NEXT: dlstp.32 lr, r3
	; CHECK-NEXT: .LBB4_1: @ %vector.body			; CHECK-NEXT: .LBB4_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrw.u32 q0, [r1]			; CHECK-NEXT: vldrw.u32 q0, [r1], #16
	; CHECK-NEXT: vadd.i32 q0, q0, r2
	; CHECK-NEXT: vstrw.32 q0, [r0]
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: subs r3, #4			; CHECK-NEXT: subs r3, #4
				; CHECK-NEXT: vadd.i32 q0, q0, r2
				; CHECK-NEXT: vstrw.32 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB4_1			; CHECK-NEXT: letp lr, .LBB4_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp6 = icmp eq i32 %N, 0			%cmp6 = icmp eq i32 %N, 0
	br i1 %cmp6, label %for.cond.cleanup, label %vector.ph			br i1 %cmp6, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	▲ Show 20 Lines • Show All 92 Lines • ▼ Show 20 Lines
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: push {r7, lr}			; CHECK-NEXT: push {r7, lr}
	; CHECK-NEXT: cmp r3, #0			; CHECK-NEXT: cmp r3, #0
	; CHECK-NEXT: it eq			; CHECK-NEXT: it eq
	; CHECK-NEXT: popeq {r7, pc}			; CHECK-NEXT: popeq {r7, pc}
	; CHECK-NEXT: dlstp.16 lr, r3			; CHECK-NEXT: dlstp.16 lr, r3
	; CHECK-NEXT: .LBB6_1: @ %vector.body			; CHECK-NEXT: .LBB6_1: @ %vector.body
	; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1			; CHECK-NEXT: @ =>This Inner Loop Header: Depth=1
	; CHECK-NEXT: vldrh.u16 q0, [r1]			; CHECK-NEXT: vldrh.u16 q0, [r1], #16
	; CHECK-NEXT: vldrh.u16 q1, [r2]			; CHECK-NEXT: vldrh.u16 q1, [r2], #16
	; CHECK-NEXT: vmul.i16 q0, q1, q0
	; CHECK-NEXT: vstrh.16 q0, [r0]
	; CHECK-NEXT: adds r1, #16
	; CHECK-NEXT: adds r2, #16
	; CHECK-NEXT: adds r0, #16
	; CHECK-NEXT: subs r3, #8			; CHECK-NEXT: subs r3, #8
				; CHECK-NEXT: vmul.i16 q0, q1, q0
				; CHECK-NEXT: vstrh.16 q0, [r0], #16
	; CHECK-NEXT: letp lr, .LBB6_1			; CHECK-NEXT: letp lr, .LBB6_1
	; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup			; CHECK-NEXT: @ %bb.2: @ %for.cond.cleanup
	; CHECK-NEXT: pop {r7, pc}			; CHECK-NEXT: pop {r7, pc}
	entry:			entry:
	%cmp10 = icmp eq i32 %N, 0			%cmp10 = icmp eq i32 %N, 0
	br i1 %cmp10, label %for.cond.cleanup, label %vector.ph			br i1 %cmp10, label %for.cond.cleanup, label %vector.ph

	vector.ph: ; preds = %entry			vector.ph: ; preds = %entry
	Show All 39 Lines

llvm/test/CodeGen/Thumb2/mve-masked-ldst-postinc.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-LE		; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-LE
; RUN: llc -mtriple=thumbebv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-BE		; RUN: llc -mtriple=thumbebv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-BE

define i8* @ldrwu32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwu32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwu32_4:		; CHECK-LABEL: ldrwu32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0]		; CHECK-NEXT: vldrwt.u32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwu32_508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwu32_508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwu32_508:		; CHECK-LABEL: ldrwu32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0]		; CHECK-NEXT: vldrwt.u32 q0, [r0], #508
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 508		%z = getelementptr inbounds i8, i8* %x, i32 508
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwu32_m508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwu32_m508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwu32_m508:		; CHECK-LABEL: ldrwu32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0]		; CHECK-NEXT: vldrwt.u32 q0, [r0], #-508
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -508		%z = getelementptr inbounds i8, i8* %x, i32 -508
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_4:		; CHECK-LABEL: ldrhu32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0]		; CHECK-NEXT: vldrht.u32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_2:		; CHECK-LABEL: ldrhu32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0]		; CHECK-NEXT: vldrht.u32 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
%2 = zext <4 x i16> %1 to <4 x i32>		%2 = zext <4 x i16> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_254:		; CHECK-LABEL: ldrhu32_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0]		; CHECK-NEXT: vldrht.u32 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_m254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_m254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_m254:		; CHECK-LABEL: ldrhu32_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0]		; CHECK-NEXT: vldrht.u32 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_4:		; CHECK-LABEL: ldrhs32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0]		; CHECK-NEXT: vldrht.s32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_2:		; CHECK-LABEL: ldrhs32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0]		; CHECK-NEXT: vldrht.s32 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
%2 = sext <4 x i16> %1 to <4 x i32>		%2 = sext <4 x i16> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_254:		; CHECK-LABEL: ldrhs32_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0]		; CHECK-NEXT: vldrht.s32 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_m254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_m254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_m254:		; CHECK-LABEL: ldrhs32_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0]		; CHECK-NEXT: vldrht.s32 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_4:		; CHECK-LABEL: ldrhu16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_2:		; CHECK-LABEL: ldrhu16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %1, <8 x i16>* %2, align 2		store <8 x i16> %1, <8 x i16>* %2, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_254:		; CHECK-LABEL: ldrhu16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_m254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_m254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_m254:		; CHECK-LABEL: ldrhu16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_4:		; CHECK-LABEL: ldrbu32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0]		; CHECK-NEXT: vldrbt.u32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = zext <4 x i8> %1 to <4 x i32>		%2 = zext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_3(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_3(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_3:		; CHECK-LABEL: ldrbu32_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0]		; CHECK-NEXT: vldrbt.u32 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = zext <4 x i8> %1 to <4 x i32>		%2 = zext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_2:		; CHECK-LABEL: ldrbu32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0]		; CHECK-NEXT: vldrbt.u32 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = zext <4 x i8> %1 to <4 x i32>		%2 = zext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_127:		; CHECK-LABEL: ldrbu32_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0]		; CHECK-NEXT: vldrbt.u32 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_m127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_m127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_m127:		; CHECK-LABEL: ldrbu32_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0]		; CHECK-NEXT: vldrbt.u32 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_4:		; CHECK-LABEL: ldrbs32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0]		; CHECK-NEXT: vldrbt.s32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = sext <4 x i8> %1 to <4 x i32>		%2 = sext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_3(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_3(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_3:		; CHECK-LABEL: ldrbs32_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0]		; CHECK-NEXT: vldrbt.s32 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = sext <4 x i8> %1 to <4 x i32>		%2 = sext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_2:		; CHECK-LABEL: ldrbs32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0]		; CHECK-NEXT: vldrbt.s32 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = sext <4 x i8> %1 to <4 x i32>		%2 = sext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_127:		; CHECK-LABEL: ldrbs32_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0]		; CHECK-NEXT: vldrbt.s32 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_m127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_m127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_m127:		; CHECK-LABEL: ldrbs32_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0]		; CHECK-NEXT: vldrbt.s32 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_4:		; CHECK-LABEL: ldrbu16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0]		; CHECK-NEXT: vldrbt.u16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = zext <8 x i8> %1 to <8 x i16>		%2 = zext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_3(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_3(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_3:		; CHECK-LABEL: ldrbu16_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0]		; CHECK-NEXT: vldrbt.u16 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = zext <8 x i8> %1 to <8 x i16>		%2 = zext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_2:		; CHECK-LABEL: ldrbu16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0]		; CHECK-NEXT: vldrbt.u16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = zext <8 x i8> %1 to <8 x i16>		%2 = zext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_127:		; CHECK-LABEL: ldrbu16_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0]		; CHECK-NEXT: vldrbt.u16 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_m127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_m127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_m127:		; CHECK-LABEL: ldrbu16_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0]		; CHECK-NEXT: vldrbt.u16 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_4:		; CHECK-LABEL: ldrbs16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0]		; CHECK-NEXT: vldrbt.s16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = sext <8 x i8> %1 to <8 x i16>		%2 = sext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_3(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_3(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_3:		; CHECK-LABEL: ldrbs16_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0]		; CHECK-NEXT: vldrbt.s16 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = sext <8 x i8> %1 to <8 x i16>		%2 = sext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_2:		; CHECK-LABEL: ldrbs16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0]		; CHECK-NEXT: vldrbt.s16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = sext <8 x i8> %1 to <8 x i16>		%2 = sext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_127:		; CHECK-LABEL: ldrbs16_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0]		; CHECK-NEXT: vldrbt.s16 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_m127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_m127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_m127:		; CHECK-LABEL: ldrbs16_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0]		; CHECK-NEXT: vldrbt.s16 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_4(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_4(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_4:		; CHECK-LABEL: ldrbu8_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0]		; CHECK-NEXT: vldrbt.u8 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 1		store <16 x i8> %1, <16 x i8>* %2, align 1
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_3(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_3(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_3:		; CHECK-LABEL: ldrbu8_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0]		; CHECK-NEXT: vldrbt.u8 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 1		store <16 x i8> %1, <16 x i8>* %2, align 1
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_2(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_2(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_2:		; CHECK-LABEL: ldrbu8_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0]		; CHECK-NEXT: vldrbt.u8 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 1		store <16 x i8> %1, <16 x i8>* %2, align 1
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_127(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_127(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_127:		; CHECK-LABEL: ldrbu8_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0]		; CHECK-NEXT: vldrbt.u8 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_m127(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_m127(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_m127:		; CHECK-LABEL: ldrbu8_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0]		; CHECK-NEXT: vldrbt.u8 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwf32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwf32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwf32_4:		; CHECK-LABEL: ldrwf32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0]		; CHECK-NEXT: vldrwt.u32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwf32_508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwf32_508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwf32_508:		; CHECK-LABEL: ldrwf32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0]		; CHECK-NEXT: vldrwt.u32 q0, [r0], #508
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 508		%z = getelementptr inbounds i8, i8* %x, i32 508
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwf32_m508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwf32_m508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwf32_m508:		; CHECK-LABEL: ldrwf32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0]		; CHECK-NEXT: vldrwt.u32 q0, [r0], #-508
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -508		%z = getelementptr inbounds i8, i8* %x, i32 -508
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_4:		; CHECK-LABEL: ldrhf16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_2:		; CHECK-LABEL: ldrhf16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
store <8 x half> %1, <8 x half>* %2, align 2		store <8 x half> %1, <8 x half>* %2, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_254:		; CHECK-LABEL: ldrhf16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_m254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_m254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_m254:		; CHECK-LABEL: ldrhf16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0]		; CHECK-NEXT: vldrht.u16 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
Show All 26 Lines


define i8* @strw32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strw32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strw32_4:		; CHECK-LABEL: strw32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0]		; CHECK-NEXT: vstrwt.32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i32>, <4 x i32>* %0, align 4		%1 = load <4 x i32>, <4 x i32>* %0, align 4
%2 = bitcast i8* %y to <4 x i32>*		%2 = bitcast i8* %y to <4 x i32>*
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
}		}

define i8* @strw32_508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strw32_508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strw32_508:		; CHECK-LABEL: strw32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0]		; CHECK-NEXT: vstrwt.32 q0, [r0], #508
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 508		%z = getelementptr inbounds i8, i8* %y, i32 508
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i32>, <4 x i32>* %0, align 4		%1 = load <4 x i32>, <4 x i32>* %0, align 4
%2 = bitcast i8* %y to <4 x i32>*		%2 = bitcast i8* %y to <4 x i32>*
Show All 22 Lines
}		}

define i8* @strw32_m508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strw32_m508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strw32_m508:		; CHECK-LABEL: strw32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0]		; CHECK-NEXT: vstrwt.32 q0, [r0], #-508
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -508		%z = getelementptr inbounds i8, i8* %y, i32 -508
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i32>, <4 x i32>* %0, align 4		%1 = load <4 x i32>, <4 x i32>* %0, align 4
%2 = bitcast i8* %y to <4 x i32>*		%2 = bitcast i8* %y to <4 x i32>*
Show All 22 Lines
}		}

define i8* @strh32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_4:		; CHECK-LABEL: strh32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0]		; CHECK-NEXT: vstrht.32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %y to <4 x i16>*		%2 = bitcast i8* %y to <4 x i16>*
Show All 22 Lines
}		}

define i8* @strh32_2(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_2(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_2:		; CHECK-LABEL: strh32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0]		; CHECK-NEXT: vstrht.32 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %y to <4 x i16>*		%2 = bitcast i8* %y to <4 x i16>*
call void @llvm.masked.store.v4i16.p0v4i16(<4 x i16> %1, <4 x i16>* %2, i32 2, <4 x i1> %c)		call void @llvm.masked.store.v4i16.p0v4i16(<4 x i16> %1, <4 x i16>* %2, i32 2, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strh32_254(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_254(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_254:		; CHECK-LABEL: strh32_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0]		; CHECK-NEXT: vstrht.32 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 254		%z = getelementptr inbounds i8, i8* %y, i32 254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %y to <4 x i16>*		%2 = bitcast i8* %y to <4 x i16>*
Show All 22 Lines
}		}

define i8* @strh32_m254(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_m254(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_m254:		; CHECK-LABEL: strh32_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0]		; CHECK-NEXT: vstrht.32 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -254		%z = getelementptr inbounds i8, i8* %y, i32 -254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %y to <4 x i16>*		%2 = bitcast i8* %y to <4 x i16>*
Show All 22 Lines
}		}

define i8* @strh16_4(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_4(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_4:		; CHECK-LABEL: strh16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
Show All 22 Lines
}		}

define i8* @strh16_2(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_2(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_2:		; CHECK-LABEL: strh16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)		call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strh16_254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_254:		; CHECK-LABEL: strh16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 254		%z = getelementptr inbounds i8, i8* %y, i32 254
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
Show All 22 Lines
}		}

define i8* @strh16_m254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_m254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_m254:		; CHECK-LABEL: strh16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -254		%z = getelementptr inbounds i8, i8* %y, i32 -254
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
Show All 22 Lines
}		}

define i8* @strb32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_4:		; CHECK-LABEL: strb32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0]		; CHECK-NEXT: vstrbt.32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %y to <4 x i8>*		%2 = bitcast i8* %y to <4 x i8>*
call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)		call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb32_3(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_3(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_3:		; CHECK-LABEL: strb32_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0]		; CHECK-NEXT: vstrbt.32 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 3		%z = getelementptr inbounds i8, i8* %y, i32 3
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %y to <4 x i8>*		%2 = bitcast i8* %y to <4 x i8>*
call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)		call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb32_2(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_2(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_2:		; CHECK-LABEL: strb32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0]		; CHECK-NEXT: vstrbt.32 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %y to <4 x i8>*		%2 = bitcast i8* %y to <4 x i8>*
call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)		call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb32_127(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_127(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_127:		; CHECK-LABEL: strb32_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0]		; CHECK-NEXT: vstrbt.32 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 127		%z = getelementptr inbounds i8, i8* %y, i32 127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %y to <4 x i8>*		%2 = bitcast i8* %y to <4 x i8>*
Show All 22 Lines
}		}

define i8* @strb32_m127(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_m127(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_m127:		; CHECK-LABEL: strb32_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0]		; CHECK-NEXT: vstrbt.32 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -127		%z = getelementptr inbounds i8, i8* %y, i32 -127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %y to <4 x i8>*		%2 = bitcast i8* %y to <4 x i8>*
Show All 22 Lines
}		}

define i8* @strb16_4(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_4(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_4:		; CHECK-LABEL: strb16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0]		; CHECK-NEXT: vstrbt.16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %y to <8 x i8>*		%2 = bitcast i8* %y to <8 x i8>*
call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb16_3(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_3(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_3:		; CHECK-LABEL: strb16_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0]		; CHECK-NEXT: vstrbt.16 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 3		%z = getelementptr inbounds i8, i8* %y, i32 3
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %y to <8 x i8>*		%2 = bitcast i8* %y to <8 x i8>*
call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb16_2(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_2(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_2:		; CHECK-LABEL: strb16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0]		; CHECK-NEXT: vstrbt.16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %y to <8 x i8>*		%2 = bitcast i8* %y to <8 x i8>*
call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb16_127(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_127(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_127:		; CHECK-LABEL: strb16_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0]		; CHECK-NEXT: vstrbt.16 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 127		%z = getelementptr inbounds i8, i8* %y, i32 127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %y to <8 x i8>*		%2 = bitcast i8* %y to <8 x i8>*
Show All 22 Lines
}		}

define i8* @strb16_m127(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_m127(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_m127:		; CHECK-LABEL: strb16_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0]		; CHECK-NEXT: vstrbt.16 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -127		%z = getelementptr inbounds i8, i8* %y, i32 -127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %y to <8 x i8>*		%2 = bitcast i8* %y to <8 x i8>*
Show All 22 Lines
}		}

define i8* @strb8_4(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_4(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_4:		; CHECK-LABEL: strb8_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0]		; CHECK-NEXT: vstrbt.8 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb8_3(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_3(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_3:		; CHECK-LABEL: strb8_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0]		; CHECK-NEXT: vstrbt.8 q0, [r0], #3
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 3		%z = getelementptr inbounds i8, i8* %y, i32 3
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb8_2(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_2(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_2:		; CHECK-LABEL: strb8_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0]		; CHECK-NEXT: vstrbt.8 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb8_127(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_127(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_127:		; CHECK-LABEL: strb8_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0]		; CHECK-NEXT: vstrbt.8 q0, [r0], #127
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 127		%z = getelementptr inbounds i8, i8* %y, i32 127
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
Show All 22 Lines
}		}

define i8* @strb8_m127(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_m127(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_m127:		; CHECK-LABEL: strb8_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0]		; CHECK-NEXT: vstrbt.8 q0, [r0], #-127
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -127		%z = getelementptr inbounds i8, i8* %y, i32 -127
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
Show All 22 Lines
}		}

define i8* @strwf32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strwf32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strwf32_4:		; CHECK-LABEL: strwf32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0]		; CHECK-NEXT: vstrwt.32 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x float>, <4 x float>* %0, align 4		%1 = load <4 x float>, <4 x float>* %0, align 4
%2 = bitcast i8* %y to <4 x float>*		%2 = bitcast i8* %y to <4 x float>*
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
}		}

define i8* @strwf32_508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strwf32_508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strwf32_508:		; CHECK-LABEL: strwf32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0]		; CHECK-NEXT: vstrwt.32 q0, [r0], #508
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 508		%z = getelementptr inbounds i8, i8* %y, i32 508
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x float>, <4 x float>* %0, align 4		%1 = load <4 x float>, <4 x float>* %0, align 4
%2 = bitcast i8* %y to <4 x float>*		%2 = bitcast i8* %y to <4 x float>*
Show All 22 Lines
}		}

define i8* @strwf32_m508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strwf32_m508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strwf32_m508:		; CHECK-LABEL: strwf32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0]		; CHECK-NEXT: vstrwt.32 q0, [r0], #-508
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -508		%z = getelementptr inbounds i8, i8* %y, i32 -508
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x float>, <4 x float>* %0, align 4		%1 = load <4 x float>, <4 x float>* %0, align 4
%2 = bitcast i8* %y to <4 x float>*		%2 = bitcast i8* %y to <4 x float>*
Show All 22 Lines
}		}

define i8* @strhf16_4(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_4(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_4:		; CHECK-LABEL: strhf16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #4
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
Show All 22 Lines
}		}

define i8* @strhf16_2(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_2(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_2:		; CHECK-LABEL: strhf16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #2
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)		call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strhf16_254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_254:		; CHECK-LABEL: strhf16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #254
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 254		%z = getelementptr inbounds i8, i8* %y, i32 254
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
Show All 22 Lines
}		}

define i8* @strhf16_m254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_m254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_m254:		; CHECK-LABEL: strhf16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0]		; CHECK-NEXT: vstrht.16 q0, [r0], #-254
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -254		%z = getelementptr inbounds i8, i8* %y, i32 -254
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-masked-ldst-preinc.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-LE		; RUN: llc -mtriple=thumbv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-LE
; RUN: llc -mtriple=thumbebv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-BE		; RUN: llc -mtriple=thumbebv8.1m.main-arm-none-eabi -mattr=+mve -enable-arm-maskedldst -verify-machineinstrs %s -o - \| FileCheck %s --check-prefix=CHECK --check-prefix=CHECK-BE

define i8* @ldrwu32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwu32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwu32_4:		; CHECK-LABEL: ldrwu32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0, #4]		; CHECK-NEXT: vldrwt.u32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x i32>*		%0 = bitcast i8* %z to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwu32_508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwu32_508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwu32_508:		; CHECK-LABEL: ldrwu32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0, #508]		; CHECK-NEXT: vldrwt.u32 q0, [r0, #508]!
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 508		%z = getelementptr inbounds i8, i8* %x, i32 508
%0 = bitcast i8* %z to <4 x i32>*		%0 = bitcast i8* %z to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwu32_m508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwu32_m508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwu32_m508:		; CHECK-LABEL: ldrwu32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0, #-508]		; CHECK-NEXT: vldrwt.u32 q0, [r0, #-508]!
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -508		%z = getelementptr inbounds i8, i8* %x, i32 -508
%0 = bitcast i8* %z to <4 x i32>*		%0 = bitcast i8* %z to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_4:		; CHECK-LABEL: ldrhu32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0, #4]		; CHECK-NEXT: vldrht.u32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_2:		; CHECK-LABEL: ldrhu32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0, #2]		; CHECK-NEXT: vldrht.u32 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
%2 = zext <4 x i16> %1 to <4 x i32>		%2 = zext <4 x i16> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_254:		; CHECK-LABEL: ldrhu32_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0, #254]		; CHECK-NEXT: vldrht.u32 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu32_m254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhu32_m254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhu32_m254:		; CHECK-LABEL: ldrhu32_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.u32 q0, [r0, #-254]		; CHECK-NEXT: vldrht.u32 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_4:		; CHECK-LABEL: ldrhs32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0, #4]		; CHECK-NEXT: vldrht.s32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_2:		; CHECK-LABEL: ldrhs32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0, #2]		; CHECK-NEXT: vldrht.s32 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
%2 = sext <4 x i16> %1 to <4 x i32>		%2 = sext <4 x i16> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_254:		; CHECK-LABEL: ldrhs32_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0, #254]		; CHECK-NEXT: vldrht.s32 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhs32_m254(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrhs32_m254(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrhs32_m254:		; CHECK-LABEL: ldrhs32_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrht.s32 q0, [r0, #-254]		; CHECK-NEXT: vldrht.s32 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %z to <4 x i16>*		%0 = bitcast i8* %z to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)		%1 = call <4 x i16> @llvm.masked.load.v4i16.p0v4i16(<4 x i16>* %0, i32 2, <4 x i1> %c, <4 x i16> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_4:		; CHECK-LABEL: ldrhu16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #4]		; CHECK-NEXT: vldrht.u16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <8 x i16>*		%0 = bitcast i8* %z to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_2:		; CHECK-LABEL: ldrhu16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #2]		; CHECK-NEXT: vldrht.u16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <8 x i16>*		%0 = bitcast i8* %z to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %1, <8 x i16>* %2, align 2		store <8 x i16> %1, <8 x i16>* %2, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_254:		; CHECK-LABEL: ldrhu16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #254]		; CHECK-NEXT: vldrht.u16 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %z to <8 x i16>*		%0 = bitcast i8* %z to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhu16_m254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhu16_m254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhu16_m254:		; CHECK-LABEL: ldrhu16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #-254]		; CHECK-NEXT: vldrht.u16 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %z to <8 x i16>*		%0 = bitcast i8* %z to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 2, <8 x i1> %c, <8 x i16> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_4:		; CHECK-LABEL: ldrbu32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0, #4]		; CHECK-NEXT: vldrbt.u32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = zext <4 x i8> %1 to <4 x i32>		%2 = zext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_3(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_3(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_3:		; CHECK-LABEL: ldrbu32_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0, #3]		; CHECK-NEXT: vldrbt.u32 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = zext <4 x i8> %1 to <4 x i32>		%2 = zext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_2:		; CHECK-LABEL: ldrbu32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0, #2]		; CHECK-NEXT: vldrbt.u32 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = zext <4 x i8> %1 to <4 x i32>		%2 = zext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_127:		; CHECK-LABEL: ldrbu32_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0, #127]		; CHECK-NEXT: vldrbt.u32 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu32_m127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbu32_m127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbu32_m127:		; CHECK-LABEL: ldrbu32_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.u32 q0, [r0, #-127]		; CHECK-NEXT: vldrbt.u32 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_4:		; CHECK-LABEL: ldrbs32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0, #4]		; CHECK-NEXT: vldrbt.s32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = sext <4 x i8> %1 to <4 x i32>		%2 = sext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_3(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_3(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_3:		; CHECK-LABEL: ldrbs32_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0, #3]		; CHECK-NEXT: vldrbt.s32 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = sext <4 x i8> %1 to <4 x i32>		%2 = sext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_2(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_2(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_2:		; CHECK-LABEL: ldrbs32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0, #2]		; CHECK-NEXT: vldrbt.s32 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
%2 = sext <4 x i8> %1 to <4 x i32>		%2 = sext <4 x i8> %1 to <4 x i32>
%3 = bitcast i8* %y to <4 x i32>*		%3 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %2, <4 x i32>* %3, align 4		store <4 x i32> %2, <4 x i32>* %3, align 4
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_127:		; CHECK-LABEL: ldrbs32_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0, #127]		; CHECK-NEXT: vldrbt.s32 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs32_m127(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrbs32_m127(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrbs32_m127:		; CHECK-LABEL: ldrbs32_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrbt.s32 q0, [r0, #-127]		; CHECK-NEXT: vldrbt.s32 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %z to <4 x i8>*		%0 = bitcast i8* %z to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)		%1 = call <4 x i8> @llvm.masked.load.v4i8.p0v4i8(<4 x i8>* %0, i32 1, <4 x i1> %c, <4 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_4:		; CHECK-LABEL: ldrbu16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0, #4]		; CHECK-NEXT: vldrbt.u16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = zext <8 x i8> %1 to <8 x i16>		%2 = zext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_3(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_3(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_3:		; CHECK-LABEL: ldrbu16_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0, #3]		; CHECK-NEXT: vldrbt.u16 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = zext <8 x i8> %1 to <8 x i16>		%2 = zext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_2:		; CHECK-LABEL: ldrbu16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0, #2]		; CHECK-NEXT: vldrbt.u16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = zext <8 x i8> %1 to <8 x i16>		%2 = zext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_127:		; CHECK-LABEL: ldrbu16_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0, #127]		; CHECK-NEXT: vldrbt.u16 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu16_m127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbu16_m127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbu16_m127:		; CHECK-LABEL: ldrbu16_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.u16 q0, [r0, #-127]		; CHECK-NEXT: vldrbt.u16 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_4:		; CHECK-LABEL: ldrbs16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0, #4]		; CHECK-NEXT: vldrbt.s16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = sext <8 x i8> %1 to <8 x i16>		%2 = sext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_3(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_3(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_3:		; CHECK-LABEL: ldrbs16_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0, #3]		; CHECK-NEXT: vldrbt.s16 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = sext <8 x i8> %1 to <8 x i16>		%2 = sext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_2:		; CHECK-LABEL: ldrbs16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0, #2]		; CHECK-NEXT: vldrbt.s16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
%2 = sext <8 x i8> %1 to <8 x i16>		%2 = sext <8 x i8> %1 to <8 x i16>
%3 = bitcast i8* %y to <8 x i16>*		%3 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %2, <8 x i16>* %3, align 2		store <8 x i16> %2, <8 x i16>* %3, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_127:		; CHECK-LABEL: ldrbs16_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0, #127]		; CHECK-NEXT: vldrbt.s16 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbs16_m127(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrbs16_m127(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrbs16_m127:		; CHECK-LABEL: ldrbs16_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrbt.s16 q0, [r0, #-127]		; CHECK-NEXT: vldrbt.s16 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %z to <8 x i8>*		%0 = bitcast i8* %z to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)		%1 = call <8 x i8> @llvm.masked.load.v8i8.p0v8i8(<8 x i8>* %0, i32 1, <8 x i1> %c, <8 x i8> undef)
Show All 24 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_4(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_4(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_4:		; CHECK-LABEL: ldrbu8_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0, #4]		; CHECK-NEXT: vldrbt.u8 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <16 x i8>*		%0 = bitcast i8* %z to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 1		store <16 x i8> %1, <16 x i8>* %2, align 1
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_3(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_3(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_3:		; CHECK-LABEL: ldrbu8_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0, #3]		; CHECK-NEXT: vldrbt.u8 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 3		%z = getelementptr inbounds i8, i8* %x, i32 3
%0 = bitcast i8* %z to <16 x i8>*		%0 = bitcast i8* %z to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 1		store <16 x i8> %1, <16 x i8>* %2, align 1
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_2(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_2(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_2:		; CHECK-LABEL: ldrbu8_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0, #2]		; CHECK-NEXT: vldrbt.u8 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <16 x i8>*		%0 = bitcast i8* %z to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 1		store <16 x i8> %1, <16 x i8>* %2, align 1
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_127(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_127(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_127:		; CHECK-LABEL: ldrbu8_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0, #127]		; CHECK-NEXT: vldrbt.u8 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 127		%z = getelementptr inbounds i8, i8* %x, i32 127
%0 = bitcast i8* %z to <16 x i8>*		%0 = bitcast i8* %z to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrbu8_m127(i8* %x, i8* %y, <16 x i8> *%m) {		define i8* @ldrbu8_m127(i8* %x, i8* %y, <16 x i8> *%m) {
; CHECK-LABEL: ldrbu8_m127:		; CHECK-LABEL: ldrbu8_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r2]		; CHECK-NEXT: vldrb.u8 q0, [r2]
; CHECK-NEXT: vpt.i8 ne, q0, zr		; CHECK-NEXT: vpt.i8 ne, q0, zr
; CHECK-NEXT: vldrbt.u8 q0, [r0, #-127]		; CHECK-NEXT: vldrbt.u8 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: vstrb.8 q0, [r1]		; CHECK-NEXT: vstrb.8 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -127		%z = getelementptr inbounds i8, i8* %x, i32 -127
%0 = bitcast i8* %z to <16 x i8>*		%0 = bitcast i8* %z to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 1, <16 x i1> %c, <16 x i8> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwf32_4(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwf32_4(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwf32_4:		; CHECK-LABEL: ldrwf32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0, #4]		; CHECK-NEXT: vldrwt.u32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x float>*		%0 = bitcast i8* %z to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwf32_508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwf32_508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwf32_508:		; CHECK-LABEL: ldrwf32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0, #508]		; CHECK-NEXT: vldrwt.u32 q0, [r0, #508]!
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 508		%z = getelementptr inbounds i8, i8* %x, i32 508
%0 = bitcast i8* %z to <4 x float>*		%0 = bitcast i8* %z to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrwf32_m508(i8* %x, i8* %y, <4 x i32> *%m) {		define i8* @ldrwf32_m508(i8* %x, i8* %y, <4 x i32> *%m) {
; CHECK-LABEL: ldrwf32_m508:		; CHECK-LABEL: ldrwf32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r2]		; CHECK-NEXT: vldrw.u32 q0, [r2]
; CHECK-NEXT: vpt.i32 ne, q0, zr		; CHECK-NEXT: vpt.i32 ne, q0, zr
; CHECK-NEXT: vldrwt.u32 q0, [r0, #-508]		; CHECK-NEXT: vldrwt.u32 q0, [r0, #-508]!
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: vstrw.32 q0, [r1]		; CHECK-NEXT: vstrw.32 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -508		%z = getelementptr inbounds i8, i8* %x, i32 -508
%0 = bitcast i8* %z to <4 x float>*		%0 = bitcast i8* %z to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_4(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_4(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_4:		; CHECK-LABEL: ldrhf16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #4]		; CHECK-NEXT: vldrht.u16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <8 x half>*		%0 = bitcast i8* %z to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_2(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_2(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_2:		; CHECK-LABEL: ldrhf16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #2]		; CHECK-NEXT: vldrht.u16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 2		%z = getelementptr inbounds i8, i8* %x, i32 2
%0 = bitcast i8* %z to <8 x half>*		%0 = bitcast i8* %z to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
store <8 x half> %1, <8 x half>* %2, align 2		store <8 x half> %1, <8 x half>* %2, align 2
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_254:		; CHECK-LABEL: ldrhf16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #254]		; CHECK-NEXT: vldrht.u16 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 254		%z = getelementptr inbounds i8, i8* %x, i32 254
%0 = bitcast i8* %z to <8 x half>*		%0 = bitcast i8* %z to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
Show All 22 Lines	entry:
ret i8* %z		ret i8* %z
}		}

define i8* @ldrhf16_m254(i8* %x, i8* %y, <8 x i16> *%m) {		define i8* @ldrhf16_m254(i8* %x, i8* %y, <8 x i16> *%m) {
; CHECK-LABEL: ldrhf16_m254:		; CHECK-LABEL: ldrhf16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r2]		; CHECK-NEXT: vldrh.u16 q0, [r2]
; CHECK-NEXT: vpt.i16 ne, q0, zr		; CHECK-NEXT: vpt.i16 ne, q0, zr
; CHECK-NEXT: vldrht.u16 q0, [r0, #-254]		; CHECK-NEXT: vldrht.u16 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: vstrh.16 q0, [r1]		; CHECK-NEXT: vstrh.16 q0, [r1]
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 -254		%z = getelementptr inbounds i8, i8* %x, i32 -254
%0 = bitcast i8* %z to <8 x half>*		%0 = bitcast i8* %z to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 2, <8 x i1> %c, <8 x half> undef)
Show All 26 Lines


define i8* @strw32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strw32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strw32_4:		; CHECK-LABEL: strw32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0, #4]		; CHECK-NEXT: vstrwt.32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i32>, <4 x i32>* %0, align 4		%1 = load <4 x i32>, <4 x i32>* %0, align 4
%2 = bitcast i8* %z to <4 x i32>*		%2 = bitcast i8* %z to <4 x i32>*
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
}		}

define i8* @strw32_508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strw32_508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strw32_508:		; CHECK-LABEL: strw32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0, #508]		; CHECK-NEXT: vstrwt.32 q0, [r0, #508]!
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 508		%z = getelementptr inbounds i8, i8* %y, i32 508
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i32>, <4 x i32>* %0, align 4		%1 = load <4 x i32>, <4 x i32>* %0, align 4
%2 = bitcast i8* %z to <4 x i32>*		%2 = bitcast i8* %z to <4 x i32>*
Show All 22 Lines
}		}

define i8* @strw32_m508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strw32_m508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strw32_m508:		; CHECK-LABEL: strw32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0, #-508]		; CHECK-NEXT: vstrwt.32 q0, [r0, #-508]!
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -508		%z = getelementptr inbounds i8, i8* %y, i32 -508
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i32>, <4 x i32>* %0, align 4		%1 = load <4 x i32>, <4 x i32>* %0, align 4
%2 = bitcast i8* %z to <4 x i32>*		%2 = bitcast i8* %z to <4 x i32>*
Show All 22 Lines
}		}

define i8* @strh32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_4:		; CHECK-LABEL: strh32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0, #4]		; CHECK-NEXT: vstrht.32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %z to <4 x i16>*		%2 = bitcast i8* %z to <4 x i16>*
Show All 22 Lines
}		}

define i8* @strh32_2(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_2(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_2:		; CHECK-LABEL: strh32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0, #2]		; CHECK-NEXT: vstrht.32 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %z to <4 x i16>*		%2 = bitcast i8* %z to <4 x i16>*
call void @llvm.masked.store.v4i16.p0v4i16(<4 x i16> %1, <4 x i16>* %2, i32 2, <4 x i1> %c)		call void @llvm.masked.store.v4i16.p0v4i16(<4 x i16> %1, <4 x i16>* %2, i32 2, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strh32_254(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_254(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_254:		; CHECK-LABEL: strh32_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0, #254]		; CHECK-NEXT: vstrht.32 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 254		%z = getelementptr inbounds i8, i8* %y, i32 254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %z to <4 x i16>*		%2 = bitcast i8* %z to <4 x i16>*
Show All 22 Lines
}		}

define i8* @strh32_m254(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strh32_m254(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strh32_m254:		; CHECK-LABEL: strh32_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u32 q0, [r1]		; CHECK-NEXT: vldrh.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrht.32 q0, [r0, #-254]		; CHECK-NEXT: vstrht.32 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -254		%z = getelementptr inbounds i8, i8* %y, i32 -254
%0 = bitcast i8* %x to <4 x i16>*		%0 = bitcast i8* %x to <4 x i16>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i16>, <4 x i16>* %0, align 2		%1 = load <4 x i16>, <4 x i16>* %0, align 2
%2 = bitcast i8* %z to <4 x i16>*		%2 = bitcast i8* %z to <4 x i16>*
Show All 22 Lines
}		}

define i8* @strh16_4(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_4(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_4:		; CHECK-LABEL: strh16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #4]		; CHECK-NEXT: vstrht.16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %z to <8 x i16>*		%2 = bitcast i8* %z to <8 x i16>*
Show All 22 Lines
}		}

define i8* @strh16_2(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_2(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_2:		; CHECK-LABEL: strh16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #2]		; CHECK-NEXT: vstrht.16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %z to <8 x i16>*		%2 = bitcast i8* %z to <8 x i16>*
call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)		call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strh16_254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_254:		; CHECK-LABEL: strh16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #254]		; CHECK-NEXT: vstrht.16 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 254		%z = getelementptr inbounds i8, i8* %y, i32 254
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %z to <8 x i16>*		%2 = bitcast i8* %z to <8 x i16>*
Show All 22 Lines
}		}

define i8* @strh16_m254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strh16_m254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strh16_m254:		; CHECK-LABEL: strh16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #-254]		; CHECK-NEXT: vstrht.16 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -254		%z = getelementptr inbounds i8, i8* %y, i32 -254
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i16>, <8 x i16>* %0, align 2		%1 = load <8 x i16>, <8 x i16>* %0, align 2
%2 = bitcast i8* %z to <8 x i16>*		%2 = bitcast i8* %z to <8 x i16>*
Show All 22 Lines
}		}

define i8* @strb32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_4:		; CHECK-LABEL: strb32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0, #4]		; CHECK-NEXT: vstrbt.32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %z to <4 x i8>*		%2 = bitcast i8* %z to <4 x i8>*
call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)		call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb32_3(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_3(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_3:		; CHECK-LABEL: strb32_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0, #3]		; CHECK-NEXT: vstrbt.32 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 3		%z = getelementptr inbounds i8, i8* %y, i32 3
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %z to <4 x i8>*		%2 = bitcast i8* %z to <4 x i8>*
call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)		call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb32_2(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_2(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_2:		; CHECK-LABEL: strb32_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0, #2]		; CHECK-NEXT: vstrbt.32 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %z to <4 x i8>*		%2 = bitcast i8* %z to <4 x i8>*
call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)		call void @llvm.masked.store.v4i8.p0v4i8(<4 x i8> %1, <4 x i8>* %2, i32 1, <4 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb32_127(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_127(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_127:		; CHECK-LABEL: strb32_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0, #127]		; CHECK-NEXT: vstrbt.32 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 127		%z = getelementptr inbounds i8, i8* %y, i32 127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %z to <4 x i8>*		%2 = bitcast i8* %z to <4 x i8>*
Show All 22 Lines
}		}

define i8* @strb32_m127(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strb32_m127(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strb32_m127:		; CHECK-LABEL: strb32_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u32 q0, [r1]		; CHECK-NEXT: vldrb.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrbt.32 q0, [r0, #-127]		; CHECK-NEXT: vstrbt.32 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -127		%z = getelementptr inbounds i8, i8* %y, i32 -127
%0 = bitcast i8* %x to <4 x i8>*		%0 = bitcast i8* %x to <4 x i8>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x i8>, <4 x i8>* %0, align 1		%1 = load <4 x i8>, <4 x i8>* %0, align 1
%2 = bitcast i8* %z to <4 x i8>*		%2 = bitcast i8* %z to <4 x i8>*
Show All 22 Lines
}		}

define i8* @strb16_4(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_4(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_4:		; CHECK-LABEL: strb16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0, #4]		; CHECK-NEXT: vstrbt.16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %z to <8 x i8>*		%2 = bitcast i8* %z to <8 x i8>*
call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb16_3(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_3(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_3:		; CHECK-LABEL: strb16_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0, #3]		; CHECK-NEXT: vstrbt.16 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 3		%z = getelementptr inbounds i8, i8* %y, i32 3
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %z to <8 x i8>*		%2 = bitcast i8* %z to <8 x i8>*
call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb16_2(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_2(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_2:		; CHECK-LABEL: strb16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0, #2]		; CHECK-NEXT: vstrbt.16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %z to <8 x i8>*		%2 = bitcast i8* %z to <8 x i8>*
call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)		call void @llvm.masked.store.v8i8.p0v8i8(<8 x i8> %1, <8 x i8>* %2, i32 1, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb16_127(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_127(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_127:		; CHECK-LABEL: strb16_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0, #127]		; CHECK-NEXT: vstrbt.16 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 127		%z = getelementptr inbounds i8, i8* %y, i32 127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %z to <8 x i8>*		%2 = bitcast i8* %z to <8 x i8>*
Show All 22 Lines
}		}

define i8* @strb16_m127(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strb16_m127(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strb16_m127:		; CHECK-LABEL: strb16_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u16 q0, [r1]		; CHECK-NEXT: vldrb.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrbt.16 q0, [r0, #-127]		; CHECK-NEXT: vstrbt.16 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -127		%z = getelementptr inbounds i8, i8* %y, i32 -127
%0 = bitcast i8* %x to <8 x i8>*		%0 = bitcast i8* %x to <8 x i8>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x i8>, <8 x i8>* %0, align 1		%1 = load <8 x i8>, <8 x i8>* %0, align 1
%2 = bitcast i8* %z to <8 x i8>*		%2 = bitcast i8* %z to <8 x i8>*
Show All 22 Lines
}		}

define i8* @strb8_4(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_4(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_4:		; CHECK-LABEL: strb8_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0, #4]		; CHECK-NEXT: vstrbt.8 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %z to <16 x i8>*		%2 = bitcast i8* %z to <16 x i8>*
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb8_3(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_3(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_3:		; CHECK-LABEL: strb8_3:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0, #3]		; CHECK-NEXT: vstrbt.8 q0, [r0, #3]!
; CHECK-NEXT: adds r0, #3
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 3		%z = getelementptr inbounds i8, i8* %y, i32 3
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %z to <16 x i8>*		%2 = bitcast i8* %z to <16 x i8>*
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb8_2(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_2(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_2:		; CHECK-LABEL: strb8_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0, #2]		; CHECK-NEXT: vstrbt.8 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %z to <16 x i8>*		%2 = bitcast i8* %z to <16 x i8>*
call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)		call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strb8_127(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_127(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_127:		; CHECK-LABEL: strb8_127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0, #127]		; CHECK-NEXT: vstrbt.8 q0, [r0, #127]!
; CHECK-NEXT: adds r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 127		%z = getelementptr inbounds i8, i8* %y, i32 127
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %z to <16 x i8>*		%2 = bitcast i8* %z to <16 x i8>*
Show All 22 Lines
}		}

define i8* @strb8_m127(i8* %y, i8* %x, <16 x i8> *%m) {		define i8* @strb8_m127(i8* %y, i8* %x, <16 x i8> *%m) {
; CHECK-LABEL: strb8_m127:		; CHECK-LABEL: strb8_m127:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrb.u8 q0, [r1]		; CHECK-NEXT: vldrb.u8 q0, [r1]
; CHECK-NEXT: vldrb.u8 q1, [r2]		; CHECK-NEXT: vldrb.u8 q1, [r2]
; CHECK-NEXT: vpt.i8 ne, q1, zr		; CHECK-NEXT: vpt.i8 ne, q1, zr
; CHECK-NEXT: vstrbt.8 q0, [r0, #-127]		; CHECK-NEXT: vstrbt.8 q0, [r0, #-127]!
; CHECK-NEXT: subs r0, #127
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -127		%z = getelementptr inbounds i8, i8* %y, i32 -127
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%mask = load <16 x i8>, <16 x i8>* %m, align 1		%mask = load <16 x i8>, <16 x i8>* %m, align 1
%c = icmp ne <16 x i8> %mask, zeroinitializer		%c = icmp ne <16 x i8> %mask, zeroinitializer
%1 = load <16 x i8>, <16 x i8>* %0, align 1		%1 = load <16 x i8>, <16 x i8>* %0, align 1
%2 = bitcast i8* %z to <16 x i8>*		%2 = bitcast i8* %z to <16 x i8>*
Show All 22 Lines
}		}

define i8* @strwf32_4(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strwf32_4(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strwf32_4:		; CHECK-LABEL: strwf32_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0, #4]		; CHECK-NEXT: vstrwt.32 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x float>, <4 x float>* %0, align 4		%1 = load <4 x float>, <4 x float>* %0, align 4
%2 = bitcast i8* %z to <4 x float>*		%2 = bitcast i8* %z to <4 x float>*
▲ Show 20 Lines • Show All 42 Lines • ▼ Show 20 Lines
}		}

define i8* @strwf32_508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strwf32_508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strwf32_508:		; CHECK-LABEL: strwf32_508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0, #508]		; CHECK-NEXT: vstrwt.32 q0, [r0, #508]!
; CHECK-NEXT: add.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 508		%z = getelementptr inbounds i8, i8* %y, i32 508
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x float>, <4 x float>* %0, align 4		%1 = load <4 x float>, <4 x float>* %0, align 4
%2 = bitcast i8* %z to <4 x float>*		%2 = bitcast i8* %z to <4 x float>*
Show All 22 Lines
}		}

define i8* @strwf32_m508(i8* %y, i8* %x, <4 x i32> *%m) {		define i8* @strwf32_m508(i8* %y, i8* %x, <4 x i32> *%m) {
; CHECK-LABEL: strwf32_m508:		; CHECK-LABEL: strwf32_m508:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrw.u32 q0, [r1]		; CHECK-NEXT: vldrw.u32 q0, [r1]
; CHECK-NEXT: vldrw.u32 q1, [r2]		; CHECK-NEXT: vldrw.u32 q1, [r2]
; CHECK-NEXT: vpt.i32 ne, q1, zr		; CHECK-NEXT: vpt.i32 ne, q1, zr
; CHECK-NEXT: vstrwt.32 q0, [r0, #-508]		; CHECK-NEXT: vstrwt.32 q0, [r0, #-508]!
; CHECK-NEXT: sub.w r0, r0, #508
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -508		%z = getelementptr inbounds i8, i8* %y, i32 -508
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%mask = load <4 x i32>, <4 x i32>* %m, align 4		%mask = load <4 x i32>, <4 x i32>* %m, align 4
%c = icmp ne <4 x i32> %mask, zeroinitializer		%c = icmp ne <4 x i32> %mask, zeroinitializer
%1 = load <4 x float>, <4 x float>* %0, align 4		%1 = load <4 x float>, <4 x float>* %0, align 4
%2 = bitcast i8* %z to <4 x float>*		%2 = bitcast i8* %z to <4 x float>*
Show All 22 Lines
}		}

define i8* @strhf16_4(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_4(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_4:		; CHECK-LABEL: strhf16_4:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #4]		; CHECK-NEXT: vstrht.16 q0, [r0, #4]!
; CHECK-NEXT: adds r0, #4
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 4		%z = getelementptr inbounds i8, i8* %y, i32 4
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %z to <8 x half>*		%2 = bitcast i8* %z to <8 x half>*
Show All 22 Lines
}		}

define i8* @strhf16_2(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_2(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_2:		; CHECK-LABEL: strhf16_2:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #2]		; CHECK-NEXT: vstrht.16 q0, [r0, #2]!
; CHECK-NEXT: adds r0, #2
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 2		%z = getelementptr inbounds i8, i8* %y, i32 2
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %z to <8 x half>*		%2 = bitcast i8* %z to <8 x half>*
call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)		call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)
ret i8* %z		ret i8* %z
}		}

define i8* @strhf16_254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_254:		; CHECK-LABEL: strhf16_254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #254]		; CHECK-NEXT: vstrht.16 q0, [r0, #254]!
; CHECK-NEXT: adds r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 254		%z = getelementptr inbounds i8, i8* %y, i32 254
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %z to <8 x half>*		%2 = bitcast i8* %z to <8 x half>*
Show All 22 Lines
}		}

define i8* @strhf16_m254(i8* %y, i8* %x, <8 x i16> *%m) {		define i8* @strhf16_m254(i8* %y, i8* %x, <8 x i16> *%m) {
; CHECK-LABEL: strhf16_m254:		; CHECK-LABEL: strhf16_m254:
; CHECK: @ %bb.0: @ %entry		; CHECK: @ %bb.0: @ %entry
; CHECK-NEXT: vldrh.u16 q0, [r1]		; CHECK-NEXT: vldrh.u16 q0, [r1]
; CHECK-NEXT: vldrh.u16 q1, [r2]		; CHECK-NEXT: vldrh.u16 q1, [r2]
; CHECK-NEXT: vpt.i16 ne, q1, zr		; CHECK-NEXT: vpt.i16 ne, q1, zr
; CHECK-NEXT: vstrht.16 q0, [r0, #-254]		; CHECK-NEXT: vstrht.16 q0, [r0, #-254]!
; CHECK-NEXT: subs r0, #254
; CHECK-NEXT: bx lr		; CHECK-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %y, i32 -254		%z = getelementptr inbounds i8, i8* %y, i32 -254
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%mask = load <8 x i16>, <8 x i16>* %m, align 2		%mask = load <8 x i16>, <8 x i16>* %m, align 2
%c = icmp ne <8 x i16> %mask, zeroinitializer		%c = icmp ne <8 x i16> %mask, zeroinitializer
%1 = load <8 x half>, <8 x half>* %0, align 2		%1 = load <8 x half>, <8 x half>* %0, align 2
%2 = bitcast i8* %z to <8 x half>*		%2 = bitcast i8* %z to <8 x half>*
▲ Show 20 Lines • Show All 41 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-masked-load.ll

Show First 20 Lines • Show All 462 Lines • ▼ Show 20 Lines	entry:
%sext = sext <4 x i16> %l to <4 x i32>		%sext = sext <4 x i16> %l to <4 x i32>
ret <4 x i32> %sext		ret <4 x i32> %sext
}		}

define arm_aapcs_vfpcc i8* @masked_v4i32_preinc(i8* %x, i8* %y, <4 x i32> %a) {		define arm_aapcs_vfpcc i8* @masked_v4i32_preinc(i8* %x, i8* %y, <4 x i32> %a) {
; CHECK-LE-LABEL: masked_v4i32_preinc:		; CHECK-LE-LABEL: masked_v4i32_preinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s32 gt, q0, zr		; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
; CHECK-LE-NEXT: vldrwt.u32 q0, [r0, #4]		; CHECK-LE-NEXT: vldrwt.u32 q0, [r0, #4]!
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v4i32_preinc:		; CHECK-BE-LABEL: masked_v4i32_preinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.32 q1, q0		; CHECK-BE-NEXT: vrev64.32 q1, q0
; CHECK-BE-NEXT: vpt.s32 gt, q1, zr		; CHECK-BE-NEXT: vpt.s32 gt, q1, zr
; CHECK-BE-NEXT: vldrwt.u32 q0, [r0, #4]		; CHECK-BE-NEXT: vldrwt.u32 q0, [r0, #4]!
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrw.32 q0, [r1]		; CHECK-BE-NEXT: vstrw.32 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x i32>*		%0 = bitcast i8* %z to <4 x i32>*
%c = icmp sgt <4 x i32> %a, zeroinitializer		%c = icmp sgt <4 x i32> %a, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
%2 = bitcast i8* %y to <4 x i32>*		%2 = bitcast i8* %y to <4 x i32>*
store <4 x i32> %1, <4 x i32>* %2, align 4		store <4 x i32> %1, <4 x i32>* %2, align 4
ret i8* %z		ret i8* %z
}		}

define arm_aapcs_vfpcc i8* @masked_v4i32_postinc(i8* %x, i8* %y, <4 x i32> %a) {		define arm_aapcs_vfpcc i8* @masked_v4i32_postinc(i8* %x, i8* %y, <4 x i32> %a) {
; CHECK-LE-LABEL: masked_v4i32_postinc:		; CHECK-LE-LABEL: masked_v4i32_postinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s32 gt, q0, zr		; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
; CHECK-LE-NEXT: vldrwt.u32 q0, [r0]		; CHECK-LE-NEXT: vldrwt.u32 q0, [r0], #4
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v4i32_postinc:		; CHECK-BE-LABEL: masked_v4i32_postinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.32 q1, q0		; CHECK-BE-NEXT: vrev64.32 q1, q0
; CHECK-BE-NEXT: vpt.s32 gt, q1, zr		; CHECK-BE-NEXT: vpt.s32 gt, q1, zr
; CHECK-BE-NEXT: vldrwt.u32 q0, [r0]		; CHECK-BE-NEXT: vldrwt.u32 q0, [r0], #4
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrw.32 q0, [r1]		; CHECK-BE-NEXT: vstrw.32 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x i32>*		%0 = bitcast i8* %x to <4 x i32>*
%c = icmp sgt <4 x i32> %a, zeroinitializer		%c = icmp sgt <4 x i32> %a, zeroinitializer
%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)		%1 = call <4 x i32> @llvm.masked.load.v4i32.p0v4i32(<4 x i32>* %0, i32 4, <4 x i1> %c, <4 x i32> undef)
%2 = bitcast i8* %y to <4 x i32>*		%2 = bitcast i8* %y to <4 x i32>*
▲ Show 20 Lines • Show All 510 Lines • ▼ Show 20 Lines
}		}

define i8* @masked_v8i16_preinc(i8* %x, i8* %y, <8 x i16> %a) {		define i8* @masked_v8i16_preinc(i8* %x, i8* %y, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8i16_preinc:		; CHECK-LE-LABEL: masked_v8i16_preinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vldr d1, [sp]		; CHECK-LE-NEXT: vldr d1, [sp]
; CHECK-LE-NEXT: vmov d0, r2, r3		; CHECK-LE-NEXT: vmov d0, r2, r3
; CHECK-LE-NEXT: vpt.s16 gt, q0, zr		; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
; CHECK-LE-NEXT: vldrht.u16 q0, [r0, #4]		; CHECK-LE-NEXT: vldrht.u16 q0, [r0, #4]!
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8i16_preinc:		; CHECK-BE-LABEL: masked_v8i16_preinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vldr d1, [sp]		; CHECK-BE-NEXT: vldr d1, [sp]
; CHECK-BE-NEXT: vmov d0, r3, r2		; CHECK-BE-NEXT: vmov d0, r3, r2
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vpt.s16 gt, q1, zr		; CHECK-BE-NEXT: vpt.s16 gt, q1, zr
; CHECK-BE-NEXT: vldrht.u16 q0, [r0, #4]		; CHECK-BE-NEXT: vldrht.u16 q0, [r0, #4]!
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrh.16 q0, [r1]		; CHECK-BE-NEXT: vstrh.16 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <8 x i16>*		%0 = bitcast i8* %z to <8 x i16>*
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 4, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 4, <8 x i1> %c, <8 x i16> undef)
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
store <8 x i16> %1, <8 x i16>* %2, align 4		store <8 x i16> %1, <8 x i16>* %2, align 4
ret i8* %z		ret i8* %z
}		}

define arm_aapcs_vfpcc i8* @masked_v8i16_postinc(i8* %x, i8* %y, <8 x i16> %a) {		define arm_aapcs_vfpcc i8* @masked_v8i16_postinc(i8* %x, i8* %y, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8i16_postinc:		; CHECK-LE-LABEL: masked_v8i16_postinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s16 gt, q0, zr		; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
; CHECK-LE-NEXT: vldrht.u16 q0, [r0]		; CHECK-LE-NEXT: vldrht.u16 q0, [r0], #4
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8i16_postinc:		; CHECK-BE-LABEL: masked_v8i16_postinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vpt.s16 gt, q1, zr		; CHECK-BE-NEXT: vpt.s16 gt, q1, zr
; CHECK-BE-NEXT: vldrht.u16 q0, [r0]		; CHECK-BE-NEXT: vldrht.u16 q0, [r0], #4
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrh.16 q0, [r1]		; CHECK-BE-NEXT: vstrh.16 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <8 x i16>*		%0 = bitcast i8* %x to <8 x i16>*
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 4, <8 x i1> %c, <8 x i16> undef)		%1 = call <8 x i16> @llvm.masked.load.v8i16.p0v8i16(<8 x i16>* %0, i32 4, <8 x i1> %c, <8 x i16> undef)
%2 = bitcast i8* %y to <8 x i16>*		%2 = bitcast i8* %y to <8 x i16>*
▲ Show 20 Lines • Show All 63 Lines • ▼ Show 20 Lines	entry:
%l = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %dest, i32 1, <16 x i1> %c, <16 x i8> %a)		%l = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %dest, i32 1, <16 x i1> %c, <16 x i8> %a)
ret <16 x i8> %l		ret <16 x i8> %l
}		}

define arm_aapcs_vfpcc i8* @masked_v16i8_preinc(i8* %x, i8* %y, <16 x i8> %a) {		define arm_aapcs_vfpcc i8* @masked_v16i8_preinc(i8* %x, i8* %y, <16 x i8> %a) {
; CHECK-LE-LABEL: masked_v16i8_preinc:		; CHECK-LE-LABEL: masked_v16i8_preinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s8 gt, q0, zr		; CHECK-LE-NEXT: vpt.s8 gt, q0, zr
; CHECK-LE-NEXT: vldrbt.u8 q0, [r0, #4]		; CHECK-LE-NEXT: vldrbt.u8 q0, [r0, #4]!
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v16i8_preinc:		; CHECK-BE-LABEL: masked_v16i8_preinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.8 q1, q0		; CHECK-BE-NEXT: vrev64.8 q1, q0
; CHECK-BE-NEXT: vpt.s8 gt, q1, zr		; CHECK-BE-NEXT: vpt.s8 gt, q1, zr
; CHECK-BE-NEXT: vldrbt.u8 q0, [r0, #4]		; CHECK-BE-NEXT: vldrbt.u8 q0, [r0, #4]!
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrb.8 q0, [r1]		; CHECK-BE-NEXT: vstrb.8 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <16 x i8>*		%0 = bitcast i8* %z to <16 x i8>*
%c = icmp sgt <16 x i8> %a, zeroinitializer		%c = icmp sgt <16 x i8> %a, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 4, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 4, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
store <16 x i8> %1, <16 x i8>* %2, align 4		store <16 x i8> %1, <16 x i8>* %2, align 4
ret i8* %z		ret i8* %z
}		}

define arm_aapcs_vfpcc i8* @masked_v16i8_postinc(i8* %x, i8* %y, <16 x i8> %a) {		define arm_aapcs_vfpcc i8* @masked_v16i8_postinc(i8* %x, i8* %y, <16 x i8> %a) {
; CHECK-LE-LABEL: masked_v16i8_postinc:		; CHECK-LE-LABEL: masked_v16i8_postinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s8 gt, q0, zr		; CHECK-LE-NEXT: vpt.s8 gt, q0, zr
; CHECK-LE-NEXT: vldrbt.u8 q0, [r0]		; CHECK-LE-NEXT: vldrbt.u8 q0, [r0], #4
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v16i8_postinc:		; CHECK-BE-LABEL: masked_v16i8_postinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.8 q1, q0		; CHECK-BE-NEXT: vrev64.8 q1, q0
; CHECK-BE-NEXT: vpt.s8 gt, q1, zr		; CHECK-BE-NEXT: vpt.s8 gt, q1, zr
; CHECK-BE-NEXT: vldrbt.u8 q0, [r0]		; CHECK-BE-NEXT: vldrbt.u8 q0, [r0], #4
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrb.8 q0, [r1]		; CHECK-BE-NEXT: vstrb.8 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <16 x i8>*		%0 = bitcast i8* %x to <16 x i8>*
%c = icmp sgt <16 x i8> %a, zeroinitializer		%c = icmp sgt <16 x i8> %a, zeroinitializer
%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 4, <16 x i1> %c, <16 x i8> undef)		%1 = call <16 x i8> @llvm.masked.load.v16i8.p0v16i8(<16 x i8>* %0, i32 4, <16 x i1> %c, <16 x i8> undef)
%2 = bitcast i8* %y to <16 x i8>*		%2 = bitcast i8* %y to <16 x i8>*
▲ Show 20 Lines • Show All 150 Lines • ▼ Show 20 Lines	entry:
%l = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %dest, i32 4, <4 x i1> %c, <4 x float> %b)		%l = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %dest, i32 4, <4 x i1> %c, <4 x float> %b)
ret <4 x float> %l		ret <4 x float> %l
}		}

define arm_aapcs_vfpcc i8* @masked_v4f32_preinc(i8* %x, i8* %y, <4 x i32> %a) {		define arm_aapcs_vfpcc i8* @masked_v4f32_preinc(i8* %x, i8* %y, <4 x i32> %a) {
; CHECK-LE-LABEL: masked_v4f32_preinc:		; CHECK-LE-LABEL: masked_v4f32_preinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s32 gt, q0, zr		; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
; CHECK-LE-NEXT: vldrwt.u32 q0, [r0, #4]		; CHECK-LE-NEXT: vldrwt.u32 q0, [r0, #4]!
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v4f32_preinc:		; CHECK-BE-LABEL: masked_v4f32_preinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.32 q1, q0		; CHECK-BE-NEXT: vrev64.32 q1, q0
; CHECK-BE-NEXT: vpt.s32 gt, q1, zr		; CHECK-BE-NEXT: vpt.s32 gt, q1, zr
; CHECK-BE-NEXT: vldrwt.u32 q0, [r0, #4]		; CHECK-BE-NEXT: vldrwt.u32 q0, [r0, #4]!
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrw.32 q0, [r1]		; CHECK-BE-NEXT: vstrw.32 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <4 x float>*		%0 = bitcast i8* %z to <4 x float>*
%c = icmp sgt <4 x i32> %a, zeroinitializer		%c = icmp sgt <4 x i32> %a, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
%2 = bitcast i8* %y to <4 x float>*		%2 = bitcast i8* %y to <4 x float>*
store <4 x float> %1, <4 x float>* %2, align 4		store <4 x float> %1, <4 x float>* %2, align 4
ret i8* %z		ret i8* %z
}		}

define arm_aapcs_vfpcc i8* @masked_v4f32_postinc(i8* %x, i8* %y, <4 x i32> %a) {		define arm_aapcs_vfpcc i8* @masked_v4f32_postinc(i8* %x, i8* %y, <4 x i32> %a) {
; CHECK-LE-LABEL: masked_v4f32_postinc:		; CHECK-LE-LABEL: masked_v4f32_postinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s32 gt, q0, zr		; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
; CHECK-LE-NEXT: vldrwt.u32 q0, [r0]		; CHECK-LE-NEXT: vldrwt.u32 q0, [r0], #4
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v4f32_postinc:		; CHECK-BE-LABEL: masked_v4f32_postinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.32 q1, q0		; CHECK-BE-NEXT: vrev64.32 q1, q0
; CHECK-BE-NEXT: vpt.s32 gt, q1, zr		; CHECK-BE-NEXT: vpt.s32 gt, q1, zr
; CHECK-BE-NEXT: vldrwt.u32 q0, [r0]		; CHECK-BE-NEXT: vldrwt.u32 q0, [r0], #4
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrw.32 q0, [r1]		; CHECK-BE-NEXT: vstrw.32 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <4 x float>*		%0 = bitcast i8* %x to <4 x float>*
%c = icmp sgt <4 x i32> %a, zeroinitializer		%c = icmp sgt <4 x i32> %a, zeroinitializer
%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)		%1 = call <4 x float> @llvm.masked.load.v4f32.p0v4f32(<4 x float>* %0, i32 4, <4 x i1> %c, <4 x float> undef)
%2 = bitcast i8* %y to <4 x float>*		%2 = bitcast i8* %y to <4 x float>*
▲ Show 20 Lines • Show All 315 Lines • ▼ Show 20 Lines	entry:
%l = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %dest, i32 2, <8 x i1> %c, <8 x half> %b)		%l = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %dest, i32 2, <8 x i1> %c, <8 x half> %b)
ret <8 x half> %l		ret <8 x half> %l
}		}

define arm_aapcs_vfpcc i8* @masked_v8f16_preinc(i8* %x, i8* %y, <8 x i16> %a) {		define arm_aapcs_vfpcc i8* @masked_v8f16_preinc(i8* %x, i8* %y, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8f16_preinc:		; CHECK-LE-LABEL: masked_v8f16_preinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s16 gt, q0, zr		; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
; CHECK-LE-NEXT: vldrht.u16 q0, [r0, #4]		; CHECK-LE-NEXT: vldrht.u16 q0, [r0, #4]!
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8f16_preinc:		; CHECK-BE-LABEL: masked_v8f16_preinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vpt.s16 gt, q1, zr		; CHECK-BE-NEXT: vpt.s16 gt, q1, zr
; CHECK-BE-NEXT: vldrht.u16 q0, [r0, #4]		; CHECK-BE-NEXT: vldrht.u16 q0, [r0, #4]!
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrh.16 q0, [r1]		; CHECK-BE-NEXT: vstrh.16 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %z to <8 x half>*		%0 = bitcast i8* %z to <8 x half>*
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 4, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 4, <8 x i1> %c, <8 x half> undef)
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
store <8 x half> %1, <8 x half>* %2, align 4		store <8 x half> %1, <8 x half>* %2, align 4
ret i8* %z		ret i8* %z
}		}

define arm_aapcs_vfpcc i8* @masked_v8f16_postinc(i8* %x, i8* %y, <8 x i16> %a) {		define arm_aapcs_vfpcc i8* @masked_v8f16_postinc(i8* %x, i8* %y, <8 x i16> %a) {
; CHECK-LE-LABEL: masked_v8f16_postinc:		; CHECK-LE-LABEL: masked_v8f16_postinc:
; CHECK-LE: @ %bb.0: @ %entry		; CHECK-LE: @ %bb.0: @ %entry
; CHECK-LE-NEXT: vpt.s16 gt, q0, zr		; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
; CHECK-LE-NEXT: vldrht.u16 q0, [r0]		; CHECK-LE-NEXT: vldrht.u16 q0, [r0], #4
; CHECK-LE-NEXT: adds r0, #4
; CHECK-LE-NEXT: vstrw.32 q0, [r1]		; CHECK-LE-NEXT: vstrw.32 q0, [r1]
; CHECK-LE-NEXT: bx lr		; CHECK-LE-NEXT: bx lr
;		;
; CHECK-BE-LABEL: masked_v8f16_postinc:		; CHECK-BE-LABEL: masked_v8f16_postinc:
; CHECK-BE: @ %bb.0: @ %entry		; CHECK-BE: @ %bb.0: @ %entry
; CHECK-BE-NEXT: vrev64.16 q1, q0		; CHECK-BE-NEXT: vrev64.16 q1, q0
; CHECK-BE-NEXT: vpt.s16 gt, q1, zr		; CHECK-BE-NEXT: vpt.s16 gt, q1, zr
; CHECK-BE-NEXT: vldrht.u16 q0, [r0]		; CHECK-BE-NEXT: vldrht.u16 q0, [r0], #4
; CHECK-BE-NEXT: adds r0, #4
; CHECK-BE-NEXT: vstrh.16 q0, [r1]		; CHECK-BE-NEXT: vstrh.16 q0, [r1]
; CHECK-BE-NEXT: bx lr		; CHECK-BE-NEXT: bx lr
entry:		entry:
%z = getelementptr inbounds i8, i8* %x, i32 4		%z = getelementptr inbounds i8, i8* %x, i32 4
%0 = bitcast i8* %x to <8 x half>*		%0 = bitcast i8* %x to <8 x half>*
%c = icmp sgt <8 x i16> %a, zeroinitializer		%c = icmp sgt <8 x i16> %a, zeroinitializer
%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 4, <8 x i1> %c, <8 x half> undef)		%1 = call <8 x half> @llvm.masked.load.v8f16.p0v8f16(<8 x half>* %0, i32 4, <8 x i1> %c, <8 x half> undef)
%2 = bitcast i8* %y to <8 x half>*		%2 = bitcast i8* %y to <8 x half>*
▲ Show 20 Lines • Show All 444 Lines • Show Last 20 Lines

llvm/test/CodeGen/Thumb2/mve-masked-store.ll

	Show First 20 Lines • Show All 105 Lines • ▼ Show 20 Lines

	define i8* @masked_v4i32_pre(i8* %y, i8* %x, <4 x i32> %a) {			define i8* @masked_v4i32_pre(i8* %y, i8* %x, <4 x i32> %a) {
	; CHECK-LE-LABEL: masked_v4i32_pre:			; CHECK-LE-LABEL: masked_v4i32_pre:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s32 gt, q0, zr			; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
	; CHECK-LE-NEXT: vstrwt.32 q1, [r0, #4]			; CHECK-LE-NEXT: vstrwt.32 q1, [r0, #4]!
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v4i32_pre:			; CHECK-BE-LABEL: masked_v4i32_pre:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrw.u32 q1, [r1]			; CHECK-BE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.32 q2, q0			; CHECK-BE-NEXT: vrev64.32 q2, q0
	; CHECK-BE-NEXT: vpt.s32 gt, q2, zr			; CHECK-BE-NEXT: vpt.s32 gt, q2, zr
	; CHECK-BE-NEXT: vstrwt.32 q1, [r0, #4]			; CHECK-BE-NEXT: vstrwt.32 q1, [r0, #4]!
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <4 x i32>*			%0 = bitcast i8* %x to <4 x i32>*
	%1 = load <4 x i32>, <4 x i32>* %0, align 4			%1 = load <4 x i32>, <4 x i32>* %0, align 4
	%2 = bitcast i8* %z to <4 x i32>*			%2 = bitcast i8* %z to <4 x i32>*
	%c = icmp sgt <4 x i32> %a, zeroinitializer			%c = icmp sgt <4 x i32> %a, zeroinitializer
	call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %1, <4 x i32>* %2, i32 4, <4 x i1> %c)			call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %1, <4 x i32>* %2, i32 4, <4 x i1> %c)
	ret i8* %z			ret i8* %z
	}			}

	define i8* @masked_v4i32_post(i8* %y, i8* %x, <4 x i32> %a) {			define i8* @masked_v4i32_post(i8* %y, i8* %x, <4 x i32> %a) {
	; CHECK-LE-LABEL: masked_v4i32_post:			; CHECK-LE-LABEL: masked_v4i32_post:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s32 gt, q0, zr			; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
	; CHECK-LE-NEXT: vstrwt.32 q1, [r0]			; CHECK-LE-NEXT: vstrwt.32 q1, [r0], #4
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v4i32_post:			; CHECK-BE-LABEL: masked_v4i32_post:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrw.u32 q1, [r1]			; CHECK-BE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.32 q2, q0			; CHECK-BE-NEXT: vrev64.32 q2, q0
	; CHECK-BE-NEXT: vpt.s32 gt, q2, zr			; CHECK-BE-NEXT: vpt.s32 gt, q2, zr
	; CHECK-BE-NEXT: vstrwt.32 q1, [r0]			; CHECK-BE-NEXT: vstrwt.32 q1, [r0], #4
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <4 x i32>*			%0 = bitcast i8* %x to <4 x i32>*
	%1 = load <4 x i32>, <4 x i32>* %0, align 4			%1 = load <4 x i32>, <4 x i32>* %0, align 4
	%2 = bitcast i8* %y to <4 x i32>*			%2 = bitcast i8* %y to <4 x i32>*
	%c = icmp sgt <4 x i32> %a, zeroinitializer			%c = icmp sgt <4 x i32> %a, zeroinitializer
	call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %1, <4 x i32>* %2, i32 4, <4 x i1> %c)			call void @llvm.masked.store.v4i32.p0v4i32(<4 x i32> %1, <4 x i32>* %2, i32 4, <4 x i1> %c)
	▲ Show 20 Lines • Show All 163 Lines • ▼ Show 20 Lines

	define i8* @masked_v8i16_pre(i8* %y, i8* %x, <8 x i16> %a) {			define i8* @masked_v8i16_pre(i8* %y, i8* %x, <8 x i16> %a) {
	; CHECK-LE-LABEL: masked_v8i16_pre:			; CHECK-LE-LABEL: masked_v8i16_pre:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s16 gt, q0, zr			; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
	; CHECK-LE-NEXT: vstrht.16 q1, [r0, #4]			; CHECK-LE-NEXT: vstrht.16 q1, [r0, #4]!
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v8i16_pre:			; CHECK-BE-LABEL: masked_v8i16_pre:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrh.u16 q1, [r1]			; CHECK-BE-NEXT: vldrh.u16 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.16 q2, q0			; CHECK-BE-NEXT: vrev64.16 q2, q0
	; CHECK-BE-NEXT: vpt.s16 gt, q2, zr			; CHECK-BE-NEXT: vpt.s16 gt, q2, zr
	; CHECK-BE-NEXT: vstrht.16 q1, [r0, #4]			; CHECK-BE-NEXT: vstrht.16 q1, [r0, #4]!
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <8 x i16>*			%0 = bitcast i8* %x to <8 x i16>*
	%1 = load <8 x i16>, <8 x i16>* %0, align 4			%1 = load <8 x i16>, <8 x i16>* %0, align 4
	%2 = bitcast i8* %z to <8 x i16>*			%2 = bitcast i8* %z to <8 x i16>*
	%c = icmp sgt <8 x i16> %a, zeroinitializer			%c = icmp sgt <8 x i16> %a, zeroinitializer
	call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)			call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)
	ret i8* %z			ret i8* %z
	}			}

	define i8* @masked_v8i16_post(i8* %y, i8* %x, <8 x i16> %a) {			define i8* @masked_v8i16_post(i8* %y, i8* %x, <8 x i16> %a) {
	; CHECK-LE-LABEL: masked_v8i16_post:			; CHECK-LE-LABEL: masked_v8i16_post:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s16 gt, q0, zr			; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
	; CHECK-LE-NEXT: vstrht.16 q1, [r0]			; CHECK-LE-NEXT: vstrht.16 q1, [r0], #4
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v8i16_post:			; CHECK-BE-LABEL: masked_v8i16_post:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrh.u16 q1, [r1]			; CHECK-BE-NEXT: vldrh.u16 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.16 q2, q0			; CHECK-BE-NEXT: vrev64.16 q2, q0
	; CHECK-BE-NEXT: vpt.s16 gt, q2, zr			; CHECK-BE-NEXT: vpt.s16 gt, q2, zr
	; CHECK-BE-NEXT: vstrht.16 q1, [r0]			; CHECK-BE-NEXT: vstrht.16 q1, [r0], #4
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <8 x i16>*			%0 = bitcast i8* %x to <8 x i16>*
	%1 = load <8 x i16>, <8 x i16>* %0, align 4			%1 = load <8 x i16>, <8 x i16>* %0, align 4
	%2 = bitcast i8* %y to <8 x i16>*			%2 = bitcast i8* %y to <8 x i16>*
	%c = icmp sgt <8 x i16> %a, zeroinitializer			%c = icmp sgt <8 x i16> %a, zeroinitializer
	call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)			call void @llvm.masked.store.v8i16.p0v8i16(<8 x i16> %1, <8 x i16>* %2, i32 2, <8 x i1> %c)
	Show All 22 Lines

	define i8* @masked_v16i8_pre(i8* %y, i8* %x, <16 x i8> %a) {			define i8* @masked_v16i8_pre(i8* %y, i8* %x, <16 x i8> %a) {
	; CHECK-LE-LABEL: masked_v16i8_pre:			; CHECK-LE-LABEL: masked_v16i8_pre:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s8 gt, q0, zr			; CHECK-LE-NEXT: vpt.s8 gt, q0, zr
	; CHECK-LE-NEXT: vstrbt.8 q1, [r0, #4]			; CHECK-LE-NEXT: vstrbt.8 q1, [r0, #4]!
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v16i8_pre:			; CHECK-BE-LABEL: masked_v16i8_pre:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrb.u8 q1, [r1]			; CHECK-BE-NEXT: vldrb.u8 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.8 q2, q0			; CHECK-BE-NEXT: vrev64.8 q2, q0
	; CHECK-BE-NEXT: vpt.s8 gt, q2, zr			; CHECK-BE-NEXT: vpt.s8 gt, q2, zr
	; CHECK-BE-NEXT: vstrbt.8 q1, [r0, #4]			; CHECK-BE-NEXT: vstrbt.8 q1, [r0, #4]!
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <16 x i8>*			%0 = bitcast i8* %x to <16 x i8>*
	%1 = load <16 x i8>, <16 x i8>* %0, align 4			%1 = load <16 x i8>, <16 x i8>* %0, align 4
	%2 = bitcast i8* %z to <16 x i8>*			%2 = bitcast i8* %z to <16 x i8>*
	%c = icmp sgt <16 x i8> %a, zeroinitializer			%c = icmp sgt <16 x i8> %a, zeroinitializer
	call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)			call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
	ret i8* %z			ret i8* %z
	}			}

	define i8* @masked_v16i8_post(i8* %y, i8* %x, <16 x i8> %a) {			define i8* @masked_v16i8_post(i8* %y, i8* %x, <16 x i8> %a) {
	; CHECK-LE-LABEL: masked_v16i8_post:			; CHECK-LE-LABEL: masked_v16i8_post:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s8 gt, q0, zr			; CHECK-LE-NEXT: vpt.s8 gt, q0, zr
	; CHECK-LE-NEXT: vstrbt.8 q1, [r0]			; CHECK-LE-NEXT: vstrbt.8 q1, [r0], #4
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v16i8_post:			; CHECK-BE-LABEL: masked_v16i8_post:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrb.u8 q1, [r1]			; CHECK-BE-NEXT: vldrb.u8 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.8 q2, q0			; CHECK-BE-NEXT: vrev64.8 q2, q0
	; CHECK-BE-NEXT: vpt.s8 gt, q2, zr			; CHECK-BE-NEXT: vpt.s8 gt, q2, zr
	; CHECK-BE-NEXT: vstrbt.8 q1, [r0]			; CHECK-BE-NEXT: vstrbt.8 q1, [r0], #4
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <16 x i8>*			%0 = bitcast i8* %x to <16 x i8>*
	%1 = load <16 x i8>, <16 x i8>* %0, align 4			%1 = load <16 x i8>, <16 x i8>* %0, align 4
	%2 = bitcast i8* %y to <16 x i8>*			%2 = bitcast i8* %y to <16 x i8>*
	%c = icmp sgt <16 x i8> %a, zeroinitializer			%c = icmp sgt <16 x i8> %a, zeroinitializer
	call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)			call void @llvm.masked.store.v16i8.p0v16i8(<16 x i8> %1, <16 x i8>* %2, i32 1, <16 x i1> %c)
	▲ Show 20 Lines • Show All 115 Lines • ▼ Show 20 Lines

	define i8* @masked_v4f32_pre(i8* %y, i8* %x, <4 x i32> %a) {			define i8* @masked_v4f32_pre(i8* %y, i8* %x, <4 x i32> %a) {
	; CHECK-LE-LABEL: masked_v4f32_pre:			; CHECK-LE-LABEL: masked_v4f32_pre:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s32 gt, q0, zr			; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
	; CHECK-LE-NEXT: vstrwt.32 q1, [r0, #4]			; CHECK-LE-NEXT: vstrwt.32 q1, [r0, #4]!
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v4f32_pre:			; CHECK-BE-LABEL: masked_v4f32_pre:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrw.u32 q1, [r1]			; CHECK-BE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.32 q2, q0			; CHECK-BE-NEXT: vrev64.32 q2, q0
	; CHECK-BE-NEXT: vpt.s32 gt, q2, zr			; CHECK-BE-NEXT: vpt.s32 gt, q2, zr
	; CHECK-BE-NEXT: vstrwt.32 q1, [r0, #4]			; CHECK-BE-NEXT: vstrwt.32 q1, [r0, #4]!
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <4 x float>*			%0 = bitcast i8* %x to <4 x float>*
	%1 = load <4 x float>, <4 x float>* %0, align 4			%1 = load <4 x float>, <4 x float>* %0, align 4
	%2 = bitcast i8* %z to <4 x float>*			%2 = bitcast i8* %z to <4 x float>*
	%c = icmp sgt <4 x i32> %a, zeroinitializer			%c = icmp sgt <4 x i32> %a, zeroinitializer
	call void @llvm.masked.store.v4f32.p0v4f32(<4 x float> %1, <4 x float>* %2, i32 4, <4 x i1> %c)			call void @llvm.masked.store.v4f32.p0v4f32(<4 x float> %1, <4 x float>* %2, i32 4, <4 x i1> %c)
	ret i8* %z			ret i8* %z
	}			}

	define i8* @masked_v4f32_post(i8* %y, i8* %x, <4 x i32> %a) {			define i8* @masked_v4f32_post(i8* %y, i8* %x, <4 x i32> %a) {
	; CHECK-LE-LABEL: masked_v4f32_post:			; CHECK-LE-LABEL: masked_v4f32_post:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s32 gt, q0, zr			; CHECK-LE-NEXT: vpt.s32 gt, q0, zr
	; CHECK-LE-NEXT: vstrwt.32 q1, [r0]			; CHECK-LE-NEXT: vstrwt.32 q1, [r0], #4
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v4f32_post:			; CHECK-BE-LABEL: masked_v4f32_post:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrw.u32 q1, [r1]			; CHECK-BE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.32 q2, q0			; CHECK-BE-NEXT: vrev64.32 q2, q0
	; CHECK-BE-NEXT: vpt.s32 gt, q2, zr			; CHECK-BE-NEXT: vpt.s32 gt, q2, zr
	; CHECK-BE-NEXT: vstrwt.32 q1, [r0]			; CHECK-BE-NEXT: vstrwt.32 q1, [r0], #4
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <4 x float>*			%0 = bitcast i8* %x to <4 x float>*
	%1 = load <4 x float>, <4 x float>* %0, align 4			%1 = load <4 x float>, <4 x float>* %0, align 4
	%2 = bitcast i8* %y to <4 x float>*			%2 = bitcast i8* %y to <4 x float>*
	%c = icmp sgt <4 x i32> %a, zeroinitializer			%c = icmp sgt <4 x i32> %a, zeroinitializer
	call void @llvm.masked.store.v4f32.p0v4f32(<4 x float> %1, <4 x float>* %2, i32 4, <4 x i1> %c)			call void @llvm.masked.store.v4f32.p0v4f32(<4 x float> %1, <4 x float>* %2, i32 4, <4 x i1> %c)
	▲ Show 20 Lines • Show All 253 Lines • ▼ Show 20 Lines

	define i8* @masked_v8f16_pre(i8* %y, i8* %x, <8 x i16> %a) {			define i8* @masked_v8f16_pre(i8* %y, i8* %x, <8 x i16> %a) {
	; CHECK-LE-LABEL: masked_v8f16_pre:			; CHECK-LE-LABEL: masked_v8f16_pre:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s16 gt, q0, zr			; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
	; CHECK-LE-NEXT: vstrht.16 q1, [r0, #4]			; CHECK-LE-NEXT: vstrht.16 q1, [r0, #4]!
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v8f16_pre:			; CHECK-BE-LABEL: masked_v8f16_pre:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrh.u16 q1, [r1]			; CHECK-BE-NEXT: vldrh.u16 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.16 q2, q0			; CHECK-BE-NEXT: vrev64.16 q2, q0
	; CHECK-BE-NEXT: vpt.s16 gt, q2, zr			; CHECK-BE-NEXT: vpt.s16 gt, q2, zr
	; CHECK-BE-NEXT: vstrht.16 q1, [r0, #4]			; CHECK-BE-NEXT: vstrht.16 q1, [r0, #4]!
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <8 x half>*			%0 = bitcast i8* %x to <8 x half>*
	%1 = load <8 x half>, <8 x half>* %0, align 4			%1 = load <8 x half>, <8 x half>* %0, align 4
	%2 = bitcast i8* %z to <8 x half>*			%2 = bitcast i8* %z to <8 x half>*
	%c = icmp sgt <8 x i16> %a, zeroinitializer			%c = icmp sgt <8 x i16> %a, zeroinitializer
	call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)			call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)
	ret i8* %z			ret i8* %z
	}			}

	define i8* @masked_v8f16_post(i8* %y, i8* %x, <8 x i16> %a) {			define i8* @masked_v8f16_post(i8* %y, i8* %x, <8 x i16> %a) {
	; CHECK-LE-LABEL: masked_v8f16_post:			; CHECK-LE-LABEL: masked_v8f16_post:
	; CHECK-LE: @ %bb.0: @ %entry			; CHECK-LE: @ %bb.0: @ %entry
	; CHECK-LE-NEXT: vldr d1, [sp]			; CHECK-LE-NEXT: vldr d1, [sp]
	; CHECK-LE-NEXT: vldrw.u32 q1, [r1]			; CHECK-LE-NEXT: vldrw.u32 q1, [r1]
	; CHECK-LE-NEXT: vmov d0, r2, r3			; CHECK-LE-NEXT: vmov d0, r2, r3
	; CHECK-LE-NEXT: vpt.s16 gt, q0, zr			; CHECK-LE-NEXT: vpt.s16 gt, q0, zr
	; CHECK-LE-NEXT: vstrht.16 q1, [r0]			; CHECK-LE-NEXT: vstrht.16 q1, [r0], #4
	; CHECK-LE-NEXT: adds r0, #4
	; CHECK-LE-NEXT: bx lr			; CHECK-LE-NEXT: bx lr
	;			;
	; CHECK-BE-LABEL: masked_v8f16_post:			; CHECK-BE-LABEL: masked_v8f16_post:
	; CHECK-BE: @ %bb.0: @ %entry			; CHECK-BE: @ %bb.0: @ %entry
	; CHECK-BE-NEXT: vldr d1, [sp]			; CHECK-BE-NEXT: vldr d1, [sp]
	; CHECK-BE-NEXT: vldrh.u16 q1, [r1]			; CHECK-BE-NEXT: vldrh.u16 q1, [r1]
	; CHECK-BE-NEXT: vmov d0, r3, r2			; CHECK-BE-NEXT: vmov d0, r3, r2
	; CHECK-BE-NEXT: vrev64.16 q2, q0			; CHECK-BE-NEXT: vrev64.16 q2, q0
	; CHECK-BE-NEXT: vpt.s16 gt, q2, zr			; CHECK-BE-NEXT: vpt.s16 gt, q2, zr
	; CHECK-BE-NEXT: vstrht.16 q1, [r0]			; CHECK-BE-NEXT: vstrht.16 q1, [r0], #4
	; CHECK-BE-NEXT: adds r0, #4
	; CHECK-BE-NEXT: bx lr			; CHECK-BE-NEXT: bx lr
	entry:			entry:
	%z = getelementptr inbounds i8, i8* %y, i32 4			%z = getelementptr inbounds i8, i8* %y, i32 4
	%0 = bitcast i8* %x to <8 x half>*			%0 = bitcast i8* %x to <8 x half>*
	%1 = load <8 x half>, <8 x half>* %0, align 4			%1 = load <8 x half>, <8 x half>* %0, align 4
	%2 = bitcast i8* %y to <8 x half>*			%2 = bitcast i8* %y to <8 x half>*
	%c = icmp sgt <8 x i16> %a, zeroinitializer			%c = icmp sgt <8 x i16> %a, zeroinitializer
	call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)			call void @llvm.masked.store.v8f16.p0v8f16(<8 x half> %1, <8 x half>* %2, i32 2, <8 x i1> %c)
	▲ Show 20 Lines • Show All 881 Lines • Show Last 20 Lines

This is an archive of the discontinued LLVM Phabricator instance.

[Codegen][ARM] Add addressing modes from masked loads and storesClosedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 231080

llvm/include/llvm/CodeGen/SelectionDAG.h

llvm/include/llvm/CodeGen/SelectionDAGNodes.h

llvm/include/llvm/CodeGen/TargetLowering.h

llvm/include/llvm/Target/TargetSelectionDAG.td

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/lib/CodeGen/SelectionDAG/LegalizeIntegerTypes.cpp

llvm/lib/CodeGen/SelectionDAG/LegalizeVectorTypes.cpp

llvm/lib/CodeGen/SelectionDAG/SelectionDAG.cpp

llvm/lib/CodeGen/SelectionDAG/SelectionDAGBuilder.cpp

llvm/lib/CodeGen/SelectionDAG/SelectionDAGDumper.cpp

llvm/lib/CodeGen/TargetLoweringBase.cpp

llvm/lib/Target/AArch64/AArch64InstrInfo.td

llvm/lib/Target/ARM/ARMISelDAGToDAG.cpp

llvm/lib/Target/ARM/ARMISelLowering.cpp

llvm/lib/Target/ARM/ARMInstrMVE.td

llvm/lib/Target/X86/X86ISelLowering.cpp

llvm/lib/Target/X86/X86InstrFragmentsSIMD.td

llvm/test/CodeGen/Thumb2/LowOverheadLoops/cond-vector-reduce-mve-codegen.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/fast-fp-loops.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/mve-tail-data-types.ll

llvm/test/CodeGen/Thumb2/LowOverheadLoops/vector-arith-codegen.ll

llvm/test/CodeGen/Thumb2/mve-masked-ldst-postinc.ll

llvm/test/CodeGen/Thumb2/mve-masked-ldst-preinc.ll

llvm/test/CodeGen/Thumb2/mve-masked-load.ll

llvm/test/CodeGen/Thumb2/mve-masked-store.ll

[Codegen][ARM] Add addressing modes from masked loads and stores
ClosedPublic