This is an archive of the discontinued LLVM Phabricator instance.

I wanted to write a test here for different types of alignments as well as for a null pointer, which I expected to return true for 16-byte aligned and null pointer, and false for underaligned pointers (which is not what happened on either compiler).

Clang:
atomic_is_lock_free: emits libcalls with pointer, True with null pointer (same for __c11_is_atomic_lock_free).
atomic_always_lock_free: False with both pointers, True with null pointer. Should return True with 16-byte aligned pointer..?

GCC:
Returns True in all cases except for __c11_is_atomic_lock_free, which it does not seem to recognize.
Should return False/libcall for 8-byte aligned pointer..?

atomic-alignment.c

Clang: aligns to 16 bytes.
GCC: aligns to 8 bytes.

Per the above, I see these shortcomings in clang:

Not returning True for atomic_ is/always _lock_free in case of 16-byte aligned pointer (not sure if strictly needed for correctness).
Clang aligns the atomic int128 to 16 bytes, which is not what GCC is doing (only 8 bytes with GCC).

At least the alignment difference in the latter test case needs to be fixed, right?

Harbormaster completed remote builds in B220685: Diff 506928.Mar 21 2023, 7:05 AM

Reworked shouldCoalesce()

The code there for i128 was supposed to simply check for clobbered GR128 regs inside the small region of the two combined live ranges. This was limited to only allow coalescing in small regions (in a single MBB), as it seems (still does) that coalescing for there register pairs easily creates spilling.

As it seemed unacceptable to not coalesce away multiple copies inside a CDSG loop, this was at first attempt extended to allow coalescing in these loops specifically as well, but now this has been merged to simply scan the involved LiveIntervals for phys reg clobbers. This handles the register allocator problem still (to not run out of registers), and also enables a bit more coalescing, including the CDSG loops.

However, this "improved" coalescing now seems to create a bit more spilling again:

main <> patched

Spill|Reload   :               642820               643901    +1081
Copies         :              1010858              1010342     -516

In theory, of course it would have been very nice if the register allocator would not run out of registers (still does without this), and also if it could split ("uncoalesce") as needed to minimize spilling. It does unfortunately not, so there remains the option to try to avoid spilling in shouldCoalesce(). Should we keep it simple here, or should we experiment a little and try to at least not increase spilling compared to main? Not sure if there is a natural heuristic that includes the CDSG loop without explicitly checking for that case...

Comparing to GCC:

Both clang++ and g++ aligns this to 16 bytes:

std::atomic<__int128> Atomic_int128;         //C++

However, while clang aligns this also to 16 bytes, GCC aligns only to 8, which I suspect is an error by GCC(?):

Atomic __int128 Atomic_int128;                    //C

Harbormaster completed remote builds in B222966: Diff 509957.Mar 31 2023, 7:20 AM

@Andreas-Krebbel any comments on this discrepancy between C and C++ in GCC? Was this intentional?

Both clang++ and g++ aligns this to 16 bytes:
std::atomic<__int128> Atomic_int128; // C++

However, while clang aligns this also to 16 bytes, GCC aligns only to 8, which I suspect is an error by GCC(?):
Atomic __int128 Atomic_int128; // C

In theory, of course it would have been very nice if the register allocator would not run out of registers (still does without this), and also if it could split ("uncoalesce") as needed to minimize spilling. It does unfortunately not, so there remains the option to try to avoid spilling in shouldCoalesce(). Should we keep it simple here, or should we experiment a little and try to at least not increase spilling compared to main? Not sure if there is a natural heuristic that includes the CDSG loop without explicitly checking for that case...

While the raw spill counts give some indication, of course, it would be good to also look at actual performance impact of the change. A few inline comments about the heuristics ...

Also, shouldn't there be some generic heuristics of whether or not coalescing is worthwhile? It seems to me this would always be a tradeoff for any register class, not just for the 128-bit pairs?

llvm/lib/Target/SystemZ/SystemZRegisterInfo.cpp
397	Does it help tweaking this heuristic a bit? What if we use 4 or 2 instead of 3?
398	This introduces yet another weird heuristics. Is this even necessary at all? What are the compile-time impacts of just not doing this check?

In D146425#4237014, @uweigand wrote:

In theory, of course it would have been very nice if the register allocator would not run out of registers (still does without this), and also if it could split ("uncoalesce") as needed to minimize spilling. It does unfortunately not, so there remains the option to try to avoid spilling in shouldCoalesce(). Should we keep it simple here, or should we experiment a little and try to at least not increase spilling compared to main? Not sure if there is a natural heuristic that includes the CDSG loop without explicitly checking for that case...

While the raw spill counts give some indication, of course, it would be good to also look at actual performance impact of the change. A few inline comments about the heuristics ...

Also, shouldn't there be some generic heuristics of whether or not coalescing is worthwhile? It seems to me this would always be a tradeoff for any register class, not just for the 128-bit pairs?

Does it help tweaking this heuristic a bit? What if we use 4 or 2 instead of 3?
This introduces yet another weird heuristics. Is this even necessary at all? What are the compile-time impacts of just not doing this check?

I looked into the compile time with various settings, and found that it does not really seem to make much difference what we do in shouldCoalesce():

                                        Average Wall:    3 worst:
main                                    1.75%            38.3%, 20.4%, 19.3%
main, no SystemZ shouldCoalesce()       1.75%            38.0%, 20.2%, 19.4%
Patch (3 / 50)                          1.76%            38.6%, 20.6%, 19.4%
Patch (3 / nolim)                       1.76%            38.2%, 20.3%, 19.5%
Patch (2 / 50)                          1.75%            38.8%, 20.4%, 19.3%
Patch (6 / nolim)                       1.76%            38.3%, 20.3%, 19.4%
Patch (7 / nolim)                       1.76%            38.1%, 20.4%, 19.5%

So it is possible to not do the check for compile time concerns, it seems.

This however also affects the number of coalesces done, and thereby the spilling:

main <> "3 / 50"
Spill|Reload   :               635680               636698    +1018
Copies         :              1010870              1010271     -599

main <> "2 / 50":  Identical to "3 / 50"
main <> "4 / 50":  Identical to "3 / 50"
main <> "5 / 50":  Very little difference to "3 / 50": -41 Spill|Reload / +18 Copies.

main <> "3 / unlim"
Spill|Reload   :               635680               642379    +6699
Copies         :              1010870              1008390    -2480

main <> "6 / unlim"
Spill|Reload   :               635680               640658    +4978
Copies         :              1010870              1009061    -1809

main <> "7 / unlim"
Spill|Reload   :               635680               639023    +3343
Copies         :              1010870              1009719    -1151

It seems like the unlimited allows for more coalescing but also more spill/reload instructions. However, looking at the nightly benchmarking, I see:

Overall results (by average over benchmarks):
Build:                                                                    Average result
2017_D_6_unlim                                                            99.787 %
2017_E_7_unlim                                                            99.892 %
2017_B_3_50                                                               99.953 %
2017_C_3_unlim                                                            100.027 %

Improvements 2017_D_6_unlim:
0.976: i523.xalancbmk_r 
0.981: i502.gcc_r 
0.986: f526.blender_r 

Regressions 2017_D_6_unlim:
1.011: i505.mcf_r

The "3 / 50" is "ok, but there may be some improvement actually by doing something like just having a check against 1 or 2 GR128 clobbers (and no search limit), like "D". This is still preliminary though ("mini").

I did not find anything general per your suggestion about this, but looking at Hexagon, I saw they are doing something similar which I tried:

  const SlotIndexes &Indexes = *LIS.getSlotIndexes();
  auto HasCall = [&Indexes] (const LiveInterval::Segment &S) {
    for (SlotIndex I = S.start.getBaseIndex(), E = S.end.getBaseIndex();
         I != E; I = I.getNextIndex()) {
      if (const MachineInstr *MI = Indexes.getInstructionFromIndex(I))
        if (MI->isCall())
          return true;
    }
    return false;
  };

  LiveInterval &DstInterval = LIS.getInterval(MI->getOperand(0).getReg());
  LiveInterval &SrcInterval = LIS.getInterval(MI->getOperand(1).getReg());
  return !any_of(DstInterval, HasCall) && !any_of(SrcInterval, HasCall);
}

First, just for the i128 case, this gave:

Spill|Reload   :               635680               639026    +3346
Copies         :              1010870              1009736    -1134

This seems then pretty close to "7 / unlim".

Unfortunately however this doesn't help the regalloc enough on its own - it runs out of registers with an inline assembly (CodeGen/SystemZ/regalloc-GR128.ll).

Trying this on all register classes thinking maybe it would work out so that more COPYs remain, but the COPY hints in the regalloc helps enough? The answer is no:

Spill|Reload   :               635680               640701    +5021
Copies         :              1010870              1188763  +177893

Finally, trying the current main heuristic generally, meaning only coalescing intervals within the same MBB (which gives less spilling for GR128 compared to "3 / 50"):

Spill|Reload   :               635680               638633    +2953
Copies         :              1010870              1804531  +793661

As expected this is not a good idea. So the general aspects of this beyond GR128 remains unclear...

With full benchmark runs on a few tests I see:

Improvements "3/50":
0.994: i523.xalancbmk_r 

Regressions "3/50":
1.005: f526.blender_r 
1.004: i502.gcc_r 
1.003: i505.mcf_r 
1.002: f507.cactuBSSN_r

Improvements "no preg clobbers / no search lim":
1.000: i502.gcc_r 

Regressions "no preg clobbers / no search lim":
1.006: f526.blender_r 
1.005: f507.cactuBSSN_r 
1.005: i505.mcf_r 
1.004: i523.xalancbmk_r

These are small variations. Looking at the spill/COPY counts, it is a bit of surprise with 'blender', but generally increased spilling is of course not good:

main <> "no preg clobbers / no search lim"

f526.blender_r
Spill|Reload   :                90817                90761      -56
Copies         :               208906               208506     -400

f507.cactuBSSN_r
Spill|Reload   :               148023               148036      +13
Copies         :                59083                59083       +0

i505.mcf_r
Spill|Reload   :                  702                  706       +4
Copies         :                  562                  565       +3

i523.xalancbmk_r
Spill|Reload   :                14979                15029      +50
Copies         :               134345               134185     -160

So it seems that we may get a few very slight regressions by rewriting shouldCoalesce(). Being a little careful with a search limit (at 50) helps a little, but not much. We could:

keep it simple and accept the slight regressions above.
keep the original version with the special case handling for the CDSG loops added, which have intervals spanning multiple blocks.
constrain this new version further to get results closer to the unmodified version.

It depends a little on what behavior we think would be ideal. Normally coalescing is "good", but coalescing a GR128 live-range with a subreg will make the whole liverange 128bits, which costs a GR64 register. On the other hand, that GR64 subreg usage is typically just a short extension (at least per my old notes from 2017) of the live interval, so it may therefore still be better to avoid a register move.

To me, it seems that we probably want to coalesce away the COPY when it is just a matter of a use a few instructions later, which is the common case. We also want to coalesce the 4 COPYs inside the LSDG loop which result from the PHI lowering. Prolonging the GR128 interval any long distance is probably not worthwhile as it costs a full GR64 register. That is why the search limit is a good idea to me not only for the sake of a worst case compile time issue (which there is not on SPEC).

Revision Contents

Path

Size

clang/

lib/

Basic/

Targets/

SystemZ.h

2 lines

test/

CodeGen/

SystemZ/

atomic-alignment.c

9 lines

gnu-atomic-builtins-i128-16Al.c

274 lines

gnu-atomic-builtins-i128-8Al.c

288 lines

gnu-atomic-builtins-i16.c

219 lines

gnu-atomic-builtins-i32.c

219 lines

gnu-atomic-builtins-i64.c

219 lines

gnu-atomic-builtins-i8.c

219 lines

gnu-atomic_is_lock_free.c

71 lines

llvm/

lib/

Target/

SystemZ/

SystemZISelLowering.h

20 lines

SystemZISelLowering.cpp

2 lines

SystemZRegisterInfo.cpp

80 lines

SystemZTargetMachine.cpp

2 lines

test/

CodeGen/

SystemZ/

atomicrmw-ops-i128.ll

347 lines

Diff 509957

clang/lib/Basic/Targets/SystemZ.h

Show First 20 Lines • Show All 51 Lines • ▼ Show 20 Lines	if (Triple.isOSzOS()) {
MaxVectorAlign = 64;		MaxVectorAlign = 64;
// Compared to Linux/ELF, the data layout differs only in that name		// Compared to Linux/ELF, the data layout differs only in that name
// mangling is GOFF.		// mangling is GOFF.
resetDataLayout(		resetDataLayout(
"E-m:l-i1:8:16-i8:8:16-i64:64-f128:64-v128:64-a:8:16-n32:64");		"E-m:l-i1:8:16-i8:8:16-i64:64-f128:64-v128:64-a:8:16-n32:64");
} else		} else
resetDataLayout("E-m:e-i1:8:16-i8:8:16-i64:64-f128:64"		resetDataLayout("E-m:e-i1:8:16-i8:8:16-i64:64-f128:64"
"-v128:64-a:8:16-n32:64");		"-v128:64-a:8:16-n32:64");
MaxAtomicPromoteWidth = MaxAtomicInlineWidth = 64;		MaxAtomicPromoteWidth = MaxAtomicInlineWidth = 128;
HasStrictFP = true;		HasStrictFP = true;
}		}

void getTargetDefines(const LangOptions &Opts,		void getTargetDefines(const LangOptions &Opts,
MacroBuilder &Builder) const override;		MacroBuilder &Builder) const override;

ArrayRef<Builtin::Info> getTargetBuiltins() const override;		ArrayRef<Builtin::Info> getTargetBuiltins() const override;

▲ Show 20 Lines • Show All 147 Lines • Show Last 20 Lines

clang/test/CodeGen/SystemZ/atomic-alignment.c

This file was added.

				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test alignment of the Atomic __int128 type.

				// CHECK: @Atomic_int128 = local_unnamed_addr global i128 0, align 16

				#include <stdatomic.h>

				_Atomic __int128 Atomic_int128;

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i128-16Al.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test GNU atomic builtins for __int128 aligned to 16 bytes, which should be
				// expanded to LLVM I/R by the front end.

				#include <stdatomic.h>
				#include <stdint.h>

				__int128 Ptr __attribute__((aligned(16)));
				__int128 Ret __attribute__((aligned(16)));
				__int128 Val __attribute__((aligned(16)));
				__int128 Exp __attribute__((aligned(16)));
				__int128 Des __attribute__((aligned(16)));

				// CHECK-LABEL: @f1(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load atomic i128, ptr @Ptr seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2:![0-9]+]]
				// CHECK-NEXT: ret void
				//
				__int128 f1() {
				return __atomic_load_n(&Ptr, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f2(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load atomic i128, ptr @Ptr seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP0]], ptr @Ret, align 16
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f2() {
				__atomic_load(&Ptr, &Ret, memory_order_seq_cst);
				return Ret;
				}

				// CHECK-LABEL: @f3(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: store atomic i128 [[TMP0]], ptr @Ptr seq_cst, align 16
				// CHECK-NEXT: ret void
				//
				void f3() {
				__atomic_store_n(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f4(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16
				// CHECK-NEXT: store atomic i128 [[TMP0]], ptr @Ptr seq_cst, align 16
				// CHECK-NEXT: ret void
				//
				void f4() {
				__atomic_store(&Ptr, &Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f5(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw xchg ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f5() {
				return __atomic_exchange_n(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f6(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw xchg ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr @Ret, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f6() {
				__atomic_exchange(&Ptr, &Val, &Ret, memory_order_seq_cst);
				return Ret;
				}

				// CHECK-LABEL: @f7(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Des, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr @Exp, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = cmpxchg ptr @Ptr, i128 [[TMP1]], i128 [[TMP0]] seq_cst seq_cst, align 16
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i128, i1 } [[TMP2]], 1
				// CHECK-NEXT: br i1 [[TMP3]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP4:%.*]] = extractvalue { i128, i1 } [[TMP2]], 0
				// CHECK-NEXT: store i128 [[TMP4]], ptr @Exp, align 16
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP3]]
				//
				_Bool f7() {
				return __atomic_compare_exchange_n(&Ptr, &Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f8(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Exp, align 16
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr @Des, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = cmpxchg ptr @Ptr, i128 [[TMP0]], i128 [[TMP1]] seq_cst seq_cst, align 16
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i128, i1 } [[TMP2]], 1
				// CHECK-NEXT: br i1 [[TMP3]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP4:%.*]] = extractvalue { i128, i1 } [[TMP2]], 0
				// CHECK-NEXT: store i128 [[TMP4]], ptr @Exp, align 16
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP3]]
				//
				_Bool f8() {
				return __atomic_compare_exchange(&Ptr, &Exp, &Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f9(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw add ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = add i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f9() {
				return __atomic_add_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f10(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw sub ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = sub i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f10() {
				return __atomic_sub_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f11(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw and ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = and i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f11() {
				return __atomic_and_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f12(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw xor ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = xor i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f12() {
				return __atomic_xor_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f13(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw or ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = or i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f13() {
				return __atomic_or_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f14(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw nand ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: [[TMP2:%.*]] = and i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: [[TMP3:%.*]] = xor i128 [[TMP2]], -1
				// CHECK-NEXT: store i128 [[TMP3]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f14() {
				return __atomic_nand_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f15(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw add ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f15() {
				return __atomic_fetch_add(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw sub ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f16() {
				return __atomic_fetch_sub(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f17(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw and ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f17() {
				return __atomic_fetch_and(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f18(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw xor ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f18() {
				return __atomic_fetch_xor(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f19(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw or ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f19() {
				return __atomic_fetch_or(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f20(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 16, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP1:%.*]] = atomicrmw nand ptr @Ptr, i128 [[TMP0]] seq_cst, align 16
				// CHECK-NEXT: store i128 [[TMP1]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f20() {
				return __atomic_fetch_nand(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f21(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 false
				//
				_Bool f21() {
				return __atomic_always_lock_free(16, &Ptr);
				}

				// CHECK-LABEL: @f22(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[CALL:%.*]] = tail call zeroext i1 @__atomic_is_lock_free(i64 noundef 16, ptr noundef nonnull @Ptr) #[[ATTR4:[0-9]+]]
				// CHECK-NEXT: ret i1 [[CALL]]
				//
				_Bool f22() {
				return __atomic_is_lock_free(16, &Ptr);
				}

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i128-8Al.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test GNU atomic builtins for __int128 aligned to 8 bytes only, which should result in libcalls.

				#include <stdatomic.h>
				#include <stdint.h>

				__int128 Ptr __attribute__((aligned(8)));
				__int128 Ret __attribute__((aligned(8)));
				__int128 Val __attribute__((aligned(8)));
				__int128 Exp __attribute__((aligned(8)));
				__int128 Des __attribute__((aligned(8)));

				// CHECK-LABEL: @f1(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: tail call void @__atomic_load(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull [[AGG_RESULT:%.*]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f1() {
				return __atomic_load_n(&Ptr, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f2(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: tail call void @__atomic_load(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull @Ret, i32 noundef signext 5)
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Ret, align 8, !tbaa [[TBAA2:![0-9]+]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f2() {
				__atomic_load(&Ptr, &Ret, memory_order_seq_cst);
				return Ret;
				}

				// CHECK-LABEL: @f3(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[DOTATOMICTMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[DOTATOMICTMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_store(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull [[DOTATOMICTMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				void f3() {
				__atomic_store_n(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f4(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: tail call void @__atomic_store(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull @Val, i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				void f4() {
				__atomic_store(&Ptr, &Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f5(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[DOTATOMICTMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[DOTATOMICTMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_exchange(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull [[DOTATOMICTMP]], ptr noundef nonnull [[AGG_RESULT:%.*]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f5() {
				return __atomic_exchange_n(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f6(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: tail call void @__atomic_exchange(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull @Val, ptr noundef nonnull @Ret, i32 noundef signext 5)
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Ret, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f6() {
				__atomic_exchange(&Ptr, &Val, &Ret, memory_order_seq_cst);
				return Ret;
				}

				// CHECK-LABEL: @f7(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[DOTATOMICTMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Des, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[DOTATOMICTMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[CALL:%.*]] = call zeroext i1 @__atomic_compare_exchange(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull @Exp, ptr noundef nonnull [[DOTATOMICTMP]], i32 noundef signext 5, i32 noundef signext 5)
				// CHECK-NEXT: ret i1 [[CALL]]
				//
				_Bool f7() {
				return __atomic_compare_exchange_n(&Ptr, &Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f8(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[CALL:%.*]] = tail call zeroext i1 @__atomic_compare_exchange(i64 noundef 16, ptr noundef nonnull @Ptr, ptr noundef nonnull @Exp, ptr noundef nonnull @Des, i32 noundef signext 5, i32 noundef signext 5)
				// CHECK-NEXT: ret i1 [[CALL]]
				//
				_Bool f8() {
				return __atomic_compare_exchange(&Ptr, &Exp, &Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f9(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_add_16(ptr nonnull sret(i128) align 8 [[TMP]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr [[TMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP2:%.*]] = add i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f9() {
				return __atomic_add_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f10(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_sub_16(ptr nonnull sret(i128) align 8 [[TMP]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr [[TMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP2:%.*]] = sub i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f10() {
				return __atomic_sub_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f11(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_and_16(ptr nonnull sret(i128) align 8 [[TMP]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr [[TMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP2:%.*]] = and i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f11() {
				return __atomic_and_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f12(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_xor_16(ptr nonnull sret(i128) align 8 [[TMP]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr [[TMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP2:%.*]] = xor i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f12() {
				return __atomic_xor_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f13(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_or_16(ptr nonnull sret(i128) align 8 [[TMP]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr [[TMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP2:%.*]] = or i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: store i128 [[TMP2]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f13() {
				return __atomic_or_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f14(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_nand_16(ptr nonnull sret(i128) align 8 [[TMP]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: [[TMP1:%.*]] = load i128, ptr [[TMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: [[TMP2:%.*]] = and i128 [[TMP1]], [[TMP0]]
				// CHECK-NEXT: [[TMP3:%.*]] = xor i128 [[TMP2]], -1
				// CHECK-NEXT: store i128 [[TMP3]], ptr [[AGG_RESULT:%.*]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: ret void
				//
				__int128 f14() {
				return __atomic_nand_fetch(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f15(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_add_16(ptr nonnull sret(i128) align 8 [[AGG_RESULT:%.*]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f15() {
				return __atomic_fetch_add(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_sub_16(ptr nonnull sret(i128) align 8 [[AGG_RESULT:%.*]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f16() {
				return __atomic_fetch_sub(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f17(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_and_16(ptr nonnull sret(i128) align 8 [[AGG_RESULT:%.*]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f17() {
				return __atomic_fetch_and(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f18(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_xor_16(ptr nonnull sret(i128) align 8 [[AGG_RESULT:%.*]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f18() {
				return __atomic_fetch_xor(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f19(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_or_16(ptr nonnull sret(i128) align 8 [[AGG_RESULT:%.*]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f19() {
				return __atomic_fetch_or(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f20(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[INDIRECT_ARG_TEMP:%.*]] = alloca i128, align 8
				// CHECK-NEXT: [[TMP0:%.*]] = load i128, ptr @Val, align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: store i128 [[TMP0]], ptr [[INDIRECT_ARG_TEMP]], align 8, !tbaa [[TBAA2]]
				// CHECK-NEXT: call void @__atomic_fetch_nand_16(ptr nonnull sret(i128) align 8 [[AGG_RESULT:%.*]], ptr noundef nonnull @Ptr, ptr noundef nonnull [[INDIRECT_ARG_TEMP]], i32 noundef signext 5)
				// CHECK-NEXT: ret void
				//
				__int128 f20() {
				return __atomic_fetch_nand(&Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f21(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 false
				//
				_Bool f21() {
				return __atomic_always_lock_free(16, &Ptr);
				}

				// CHECK-LABEL: @f22(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[CALL:%.*]] = tail call zeroext i1 @__atomic_is_lock_free(i64 noundef 16, ptr noundef nonnull @Ptr) #[[ATTR6:[0-9]+]]
				// CHECK-NEXT: ret i1 [[CALL]]
				//
				_Bool f22() {
				return __atomic_is_lock_free(16, &Ptr);
				}

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i16.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test GNU atomic builtins for int16_t.

				#include <stdatomic.h>
				#include <stdint.h>

				// CHECK-LABEL: @f1(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i16, ptr [[PTR:%.]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f1(int16_t *Ptr) {
				return __atomic_load_n(Ptr, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f2(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i16, ptr [[PTR:%.]] seq_cst, align 2
				// CHECK-NEXT: store i16 [[TMP0]], ptr [[RET:%.*]], align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f2(int16_t Ptr, int16_t Ret) {
				__atomic_load(Ptr, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f3(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: store atomic i16 [[VAL:%.]], ptr [[PTR:%.]] seq_cst, align 2
				// CHECK-NEXT: ret void
				//
				void f3(int16_t *Ptr, int16_t Val) {
				__atomic_store_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f4(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i16, ptr [[VAL:%.]], align 2
				// CHECK-NEXT: store atomic i16 [[TMP0]], ptr [[PTR:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret void
				//
				void f4(int16_t Ptr, int16_t Val) {
				__atomic_store(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f5(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xchg ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f5(int16_t *Ptr, int16_t Val) {
				return __atomic_exchange_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f6(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i16, ptr [[VAL:%.]], align 2
				// CHECK-NEXT: [[TMP1:%.]] = atomicrmw xchg ptr [[PTR:%.]], i16 [[TMP0]] seq_cst, align 2
				// CHECK-NEXT: store i16 [[TMP1]], ptr [[RET:%.*]], align 2
				// CHECK-NEXT: ret i16 [[TMP1]]
				//
				int16_t f6(int16_t Ptr, int16_t Val, int16_t *Ret) {
				__atomic_exchange(Ptr, Val, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f7(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i16, ptr [[EXP:%.]], align 2
				// CHECK-NEXT: [[TMP1:%.]] = cmpxchg ptr [[PTR:%.]], i16 [[TMP0]], i16 [[DES:%.*]] seq_cst seq_cst, align 2
				// CHECK-NEXT: [[TMP2:%.*]] = extractvalue { i16, i1 } [[TMP1]], 1
				// CHECK-NEXT: br i1 [[TMP2]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i16, i1 } [[TMP1]], 0
				// CHECK-NEXT: store i16 [[TMP3]], ptr [[EXP]], align 2
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP2]]
				//
				_Bool f7(int16_t Ptr, int16_t Exp, int16_t Des) {
				return __atomic_compare_exchange_n(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f8(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i16, ptr [[EXP:%.]], align 2
				// CHECK-NEXT: [[TMP1:%.]] = load i16, ptr [[DES:%.]], align 2
				// CHECK-NEXT: [[TMP2:%.]] = cmpxchg ptr [[PTR:%.]], i16 [[TMP0]], i16 [[TMP1]] seq_cst seq_cst, align 2
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i16, i1 } [[TMP2]], 1
				// CHECK-NEXT: br i1 [[TMP3]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP4:%.*]] = extractvalue { i16, i1 } [[TMP2]], 0
				// CHECK-NEXT: store i16 [[TMP4]], ptr [[EXP]], align 2
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP3]]
				//
				_Bool f8(int16_t Ptr, int16_t Exp, int16_t *Des) {
				return __atomic_compare_exchange(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f9(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: [[TMP1:%.*]] = add i16 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i16 [[TMP1]]
				//
				int16_t f9(int16_t *Ptr, int16_t Val) {
				return __atomic_add_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f10(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: [[TMP1:%.*]] = sub i16 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i16 [[TMP1]]
				//
				int16_t f10(int16_t *Ptr, int16_t Val) {
				return __atomic_sub_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f11(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: [[TMP1:%.*]] = and i16 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i16 [[TMP1]]
				//
				int16_t f11(int16_t *Ptr, int16_t Val) {
				return __atomic_and_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f12(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: [[TMP1:%.*]] = xor i16 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i16 [[TMP1]]
				//
				int16_t f12(int16_t *Ptr, int16_t Val) {
				return __atomic_xor_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f13(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: [[TMP1:%.*]] = or i16 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i16 [[TMP1]]
				//
				int16_t f13(int16_t *Ptr, int16_t Val) {
				return __atomic_or_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f14(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: [[TMP1:%.*]] = and i16 [[TMP0]], [[VAL]]
				// CHECK-NEXT: [[TMP2:%.*]] = xor i16 [[TMP1]], -1
				// CHECK-NEXT: ret i16 [[TMP2]]
				//
				int16_t f14(int16_t *Ptr, int16_t Val) {
				return __atomic_nand_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f15(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f15(int16_t *Ptr, int16_t Val) {
				return __atomic_fetch_add(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f16(int16_t *Ptr, int16_t Val) {
				return __atomic_fetch_sub(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f17(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f17(int16_t *Ptr, int16_t Val) {
				return __atomic_fetch_and(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f18(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f18(int16_t *Ptr, int16_t Val) {
				return __atomic_fetch_xor(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f19(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f19(int16_t *Ptr, int16_t Val) {
				return __atomic_fetch_or(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f20(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i16 [[VAL:%.*]] seq_cst, align 2
				// CHECK-NEXT: ret i16 [[TMP0]]
				//
				int16_t f20(int16_t *Ptr, int16_t Val) {
				return __atomic_fetch_nand(Ptr, Val, memory_order_seq_cst);
				}

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i32.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test GNU atomic builtins for int32_t.

				#include <stdatomic.h>
				#include <stdint.h>

				// CHECK-LABEL: @f1(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i32, ptr [[PTR:%.]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f1(int32_t *Ptr) {
				return __atomic_load_n(Ptr, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f2(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i32, ptr [[PTR:%.]] seq_cst, align 4
				// CHECK-NEXT: store i32 [[TMP0]], ptr [[RET:%.*]], align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f2(int32_t Ptr, int32_t Ret) {
				__atomic_load(Ptr, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f3(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: store atomic i32 [[VAL:%.]], ptr [[PTR:%.]] seq_cst, align 4
				// CHECK-NEXT: ret void
				//
				void f3(int32_t *Ptr, int32_t Val) {
				__atomic_store_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f4(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i32, ptr [[VAL:%.]], align 4
				// CHECK-NEXT: store atomic i32 [[TMP0]], ptr [[PTR:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret void
				//
				void f4(int32_t Ptr, int32_t Val) {
				__atomic_store(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f5(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xchg ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f5(int32_t *Ptr, int32_t Val) {
				return __atomic_exchange_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f6(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i32, ptr [[VAL:%.]], align 4
				// CHECK-NEXT: [[TMP1:%.]] = atomicrmw xchg ptr [[PTR:%.]], i32 [[TMP0]] seq_cst, align 4
				// CHECK-NEXT: store i32 [[TMP1]], ptr [[RET:%.*]], align 4
				// CHECK-NEXT: ret i32 [[TMP1]]
				//
				int32_t f6(int32_t Ptr, int32_t Val, int32_t *Ret) {
				__atomic_exchange(Ptr, Val, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f7(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i32, ptr [[EXP:%.]], align 4
				// CHECK-NEXT: [[TMP1:%.]] = cmpxchg ptr [[PTR:%.]], i32 [[TMP0]], i32 [[DES:%.*]] seq_cst seq_cst, align 4
				// CHECK-NEXT: [[TMP2:%.*]] = extractvalue { i32, i1 } [[TMP1]], 1
				// CHECK-NEXT: br i1 [[TMP2]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i32, i1 } [[TMP1]], 0
				// CHECK-NEXT: store i32 [[TMP3]], ptr [[EXP]], align 4
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP2]]
				//
				_Bool f7(int32_t Ptr, int32_t Exp, int32_t Des) {
				return __atomic_compare_exchange_n(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f8(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i32, ptr [[EXP:%.]], align 4
				// CHECK-NEXT: [[TMP1:%.]] = load i32, ptr [[DES:%.]], align 4
				// CHECK-NEXT: [[TMP2:%.]] = cmpxchg ptr [[PTR:%.]], i32 [[TMP0]], i32 [[TMP1]] seq_cst seq_cst, align 4
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i32, i1 } [[TMP2]], 1
				// CHECK-NEXT: br i1 [[TMP3]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP4:%.*]] = extractvalue { i32, i1 } [[TMP2]], 0
				// CHECK-NEXT: store i32 [[TMP4]], ptr [[EXP]], align 4
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP3]]
				//
				_Bool f8(int32_t Ptr, int32_t Exp, int32_t *Des) {
				return __atomic_compare_exchange(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f9(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: [[TMP1:%.*]] = add i32 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i32 [[TMP1]]
				//
				int32_t f9(int32_t *Ptr, int32_t Val) {
				return __atomic_add_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f10(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: [[TMP1:%.*]] = sub i32 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i32 [[TMP1]]
				//
				int32_t f10(int32_t *Ptr, int32_t Val) {
				return __atomic_sub_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f11(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: [[TMP1:%.*]] = and i32 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i32 [[TMP1]]
				//
				int32_t f11(int32_t *Ptr, int32_t Val) {
				return __atomic_and_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f12(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: [[TMP1:%.*]] = xor i32 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i32 [[TMP1]]
				//
				int32_t f12(int32_t *Ptr, int32_t Val) {
				return __atomic_xor_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f13(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: [[TMP1:%.*]] = or i32 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i32 [[TMP1]]
				//
				int32_t f13(int32_t *Ptr, int32_t Val) {
				return __atomic_or_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f14(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: [[TMP1:%.*]] = and i32 [[TMP0]], [[VAL]]
				// CHECK-NEXT: [[TMP2:%.*]] = xor i32 [[TMP1]], -1
				// CHECK-NEXT: ret i32 [[TMP2]]
				//
				int32_t f14(int32_t *Ptr, int32_t Val) {
				return __atomic_nand_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f15(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f15(int32_t *Ptr, int32_t Val) {
				return __atomic_fetch_add(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f16(int32_t *Ptr, int32_t Val) {
				return __atomic_fetch_sub(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f17(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f17(int32_t *Ptr, int32_t Val) {
				return __atomic_fetch_and(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f18(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f18(int32_t *Ptr, int32_t Val) {
				return __atomic_fetch_xor(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f19(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f19(int32_t *Ptr, int32_t Val) {
				return __atomic_fetch_or(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f20(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i32 [[VAL:%.*]] seq_cst, align 4
				// CHECK-NEXT: ret i32 [[TMP0]]
				//
				int32_t f20(int32_t *Ptr, int32_t Val) {
				return __atomic_fetch_nand(Ptr, Val, memory_order_seq_cst);
				}

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i64.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test GNU atomic builtins for int64_t.

				#include <stdatomic.h>
				#include <stdint.h>

				// CHECK-LABEL: @f1(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i64, ptr [[PTR:%.]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f1(int64_t *Ptr) {
				return __atomic_load_n(Ptr, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f2(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i64, ptr [[PTR:%.]] seq_cst, align 8
				// CHECK-NEXT: store i64 [[TMP0]], ptr [[RET:%.*]], align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f2(int64_t Ptr, int64_t Ret) {
				__atomic_load(Ptr, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f3(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: store atomic i64 [[VAL:%.]], ptr [[PTR:%.]] seq_cst, align 8
				// CHECK-NEXT: ret void
				//
				void f3(int64_t *Ptr, int64_t Val) {
				__atomic_store_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f4(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i64, ptr [[VAL:%.]], align 8
				// CHECK-NEXT: store atomic i64 [[TMP0]], ptr [[PTR:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret void
				//
				void f4(int64_t Ptr, int64_t Val) {
				__atomic_store(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f5(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xchg ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f5(int64_t *Ptr, int64_t Val) {
				return __atomic_exchange_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f6(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i64, ptr [[VAL:%.]], align 8
				// CHECK-NEXT: [[TMP1:%.]] = atomicrmw xchg ptr [[PTR:%.]], i64 [[TMP0]] seq_cst, align 8
				// CHECK-NEXT: store i64 [[TMP1]], ptr [[RET:%.*]], align 8
				// CHECK-NEXT: ret i64 [[TMP1]]
				//
				int64_t f6(int64_t Ptr, int64_t Val, int64_t *Ret) {
				__atomic_exchange(Ptr, Val, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f7(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i64, ptr [[EXP:%.]], align 8
				// CHECK-NEXT: [[TMP1:%.]] = cmpxchg ptr [[PTR:%.]], i64 [[TMP0]], i64 [[DES:%.*]] seq_cst seq_cst, align 8
				// CHECK-NEXT: [[TMP2:%.*]] = extractvalue { i64, i1 } [[TMP1]], 1
				// CHECK-NEXT: br i1 [[TMP2]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i64, i1 } [[TMP1]], 0
				// CHECK-NEXT: store i64 [[TMP3]], ptr [[EXP]], align 8
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP2]]
				//
				_Bool f7(int64_t Ptr, int64_t Exp, int64_t Des) {
				return __atomic_compare_exchange_n(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f8(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i64, ptr [[EXP:%.]], align 8
				// CHECK-NEXT: [[TMP1:%.]] = load i64, ptr [[DES:%.]], align 8
				// CHECK-NEXT: [[TMP2:%.]] = cmpxchg ptr [[PTR:%.]], i64 [[TMP0]], i64 [[TMP1]] seq_cst seq_cst, align 8
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i64, i1 } [[TMP2]], 1
				// CHECK-NEXT: br i1 [[TMP3]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP4:%.*]] = extractvalue { i64, i1 } [[TMP2]], 0
				// CHECK-NEXT: store i64 [[TMP4]], ptr [[EXP]], align 8
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP3]]
				//
				_Bool f8(int64_t Ptr, int64_t Exp, int64_t *Des) {
				return __atomic_compare_exchange(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f9(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: [[TMP1:%.*]] = add i64 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i64 [[TMP1]]
				//
				int64_t f9(int64_t *Ptr, int64_t Val) {
				return __atomic_add_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f10(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: [[TMP1:%.*]] = sub i64 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i64 [[TMP1]]
				//
				int64_t f10(int64_t *Ptr, int64_t Val) {
				return __atomic_sub_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f11(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: [[TMP1:%.*]] = and i64 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i64 [[TMP1]]
				//
				int64_t f11(int64_t *Ptr, int64_t Val) {
				return __atomic_and_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f12(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: [[TMP1:%.*]] = xor i64 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i64 [[TMP1]]
				//
				int64_t f12(int64_t *Ptr, int64_t Val) {
				return __atomic_xor_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f13(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: [[TMP1:%.*]] = or i64 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i64 [[TMP1]]
				//
				int64_t f13(int64_t *Ptr, int64_t Val) {
				return __atomic_or_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f14(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: [[TMP1:%.*]] = and i64 [[TMP0]], [[VAL]]
				// CHECK-NEXT: [[TMP2:%.*]] = xor i64 [[TMP1]], -1
				// CHECK-NEXT: ret i64 [[TMP2]]
				//
				int64_t f14(int64_t *Ptr, int64_t Val) {
				return __atomic_nand_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f15(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f15(int64_t *Ptr, int64_t Val) {
				return __atomic_fetch_add(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f16(int64_t *Ptr, int64_t Val) {
				return __atomic_fetch_sub(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f17(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f17(int64_t *Ptr, int64_t Val) {
				return __atomic_fetch_and(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f18(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f18(int64_t *Ptr, int64_t Val) {
				return __atomic_fetch_xor(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f19(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f19(int64_t *Ptr, int64_t Val) {
				return __atomic_fetch_or(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f20(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i64 [[VAL:%.*]] seq_cst, align 8
				// CHECK-NEXT: ret i64 [[TMP0]]
				//
				int64_t f20(int64_t *Ptr, int64_t Val) {
				return __atomic_fetch_nand(Ptr, Val, memory_order_seq_cst);
				}

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i8.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test GNU atomic builtins for int8_t.

				#include <stdatomic.h>
				#include <stdint.h>

				// CHECK-LABEL: @f1(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i8, ptr [[PTR:%.]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f1(int8_t *Ptr) {
				return __atomic_load_n(Ptr, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f2(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load atomic i8, ptr [[PTR:%.]] seq_cst, align 1
				// CHECK-NEXT: store i8 [[TMP0]], ptr [[RET:%.*]], align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f2(int8_t Ptr, int8_t Ret) {
				__atomic_load(Ptr, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f3(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: store atomic i8 [[VAL:%.]], ptr [[PTR:%.]] seq_cst, align 1
				// CHECK-NEXT: ret void
				//
				void f3(int8_t *Ptr, int8_t Val) {
				__atomic_store_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f4(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i8, ptr [[VAL:%.]], align 1
				// CHECK-NEXT: store atomic i8 [[TMP0]], ptr [[PTR:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret void
				//
				void f4(int8_t Ptr, int8_t Val) {
				__atomic_store(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f5(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xchg ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f5(int8_t *Ptr, int8_t Val) {
				return __atomic_exchange_n(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f6(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i8, ptr [[VAL:%.]], align 1
				// CHECK-NEXT: [[TMP1:%.]] = atomicrmw xchg ptr [[PTR:%.]], i8 [[TMP0]] seq_cst, align 1
				// CHECK-NEXT: store i8 [[TMP1]], ptr [[RET:%.*]], align 1
				// CHECK-NEXT: ret i8 [[TMP1]]
				//
				int8_t f6(int8_t Ptr, int8_t Val, int8_t *Ret) {
				__atomic_exchange(Ptr, Val, Ret, memory_order_seq_cst);
				return *Ret;
				}

				// CHECK-LABEL: @f7(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i8, ptr [[EXP:%.]], align 1
				// CHECK-NEXT: [[TMP1:%.]] = cmpxchg ptr [[PTR:%.]], i8 [[TMP0]], i8 [[DES:%.*]] seq_cst seq_cst, align 1
				// CHECK-NEXT: [[TMP2:%.*]] = extractvalue { i8, i1 } [[TMP1]], 1
				// CHECK-NEXT: br i1 [[TMP2]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i8, i1 } [[TMP1]], 0
				// CHECK-NEXT: store i8 [[TMP3]], ptr [[EXP]], align 1
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP2]]
				//
				_Bool f7(int8_t Ptr, int8_t Exp, int8_t Des) {
				return __atomic_compare_exchange_n(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f8(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = load i8, ptr [[EXP:%.]], align 1
				// CHECK-NEXT: [[TMP1:%.]] = load i8, ptr [[DES:%.]], align 1
				// CHECK-NEXT: [[TMP2:%.]] = cmpxchg ptr [[PTR:%.]], i8 [[TMP0]], i8 [[TMP1]] seq_cst seq_cst, align 1
				// CHECK-NEXT: [[TMP3:%.*]] = extractvalue { i8, i1 } [[TMP2]], 1
				// CHECK-NEXT: br i1 [[TMP3]], label [[CMPXCHG_CONTINUE:%.]], label [[CMPXCHG_STORE_EXPECTED:%.]]
				// CHECK: cmpxchg.store_expected:
				// CHECK-NEXT: [[TMP4:%.*]] = extractvalue { i8, i1 } [[TMP2]], 0
				// CHECK-NEXT: store i8 [[TMP4]], ptr [[EXP]], align 1
				// CHECK-NEXT: br label [[CMPXCHG_CONTINUE]]
				// CHECK: cmpxchg.continue:
				// CHECK-NEXT: ret i1 [[TMP3]]
				//
				_Bool f8(int8_t Ptr, int8_t Exp, int8_t *Des) {
				return __atomic_compare_exchange(Ptr, Exp, Des, 0,
				memory_order_seq_cst, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f9(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: [[TMP1:%.*]] = add i8 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i8 [[TMP1]]
				//
				int8_t f9(int8_t *Ptr, int8_t Val) {
				return __atomic_add_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f10(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: [[TMP1:%.*]] = sub i8 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i8 [[TMP1]]
				//
				int8_t f10(int8_t *Ptr, int8_t Val) {
				return __atomic_sub_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f11(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: [[TMP1:%.*]] = and i8 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i8 [[TMP1]]
				//
				int8_t f11(int8_t *Ptr, int8_t Val) {
				return __atomic_and_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f12(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: [[TMP1:%.*]] = xor i8 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i8 [[TMP1]]
				//
				int8_t f12(int8_t *Ptr, int8_t Val) {
				return __atomic_xor_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f13(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: [[TMP1:%.*]] = or i8 [[TMP0]], [[VAL]]
				// CHECK-NEXT: ret i8 [[TMP1]]
				//
				int8_t f13(int8_t *Ptr, int8_t Val) {
				return __atomic_or_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f14(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: [[TMP1:%.*]] = and i8 [[TMP0]], [[VAL]]
				// CHECK-NEXT: [[TMP2:%.*]] = xor i8 [[TMP1]], -1
				// CHECK-NEXT: ret i8 [[TMP2]]
				//
				int8_t f14(int8_t *Ptr, int8_t Val) {
				return __atomic_nand_fetch(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f15(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw add ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f15(int8_t *Ptr, int8_t Val) {
				return __atomic_fetch_add(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f16(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw sub ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f16(int8_t *Ptr, int8_t Val) {
				return __atomic_fetch_sub(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f17(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw and ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f17(int8_t *Ptr, int8_t Val) {
				return __atomic_fetch_and(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f18(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw xor ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f18(int8_t *Ptr, int8_t Val) {
				return __atomic_fetch_xor(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f19(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw or ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f19(int8_t *Ptr, int8_t Val) {
				return __atomic_fetch_or(Ptr, Val, memory_order_seq_cst);
				}

				// CHECK-LABEL: @f20(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[TMP0:%.]] = atomicrmw nand ptr [[PTR:%.]], i8 [[VAL:%.*]] seq_cst, align 1
				// CHECK-NEXT: ret i8 [[TMP0]]
				//
				int8_t f20(int8_t *Ptr, int8_t Val) {
				return __atomic_fetch_nand(Ptr, Val, memory_order_seq_cst);
				}

clang/test/CodeGen/SystemZ/gnu-atomic_is_lock_free.c

This file was added.

				// NOTE: Assertions have been autogenerated by utils/update_cc_test_checks.py
				// RUN: %clang_cc1 -triple s390x-linux-gnu -O1 -emit-llvm %s -o - \| FileCheck %s
				//
				// Test __atomic_is_lock_free() for __int128 with default alignment (8
				// bytes), atomic alignment (16 bytes) and with a null pointer. Also test
				// __atomic_always_lock_free() and __c11_atomic_is_lock_free().

				#include <stdatomic.h>
				#include <stdint.h>

				__int128 Ptr_Al8 __attribute__((aligned(8)));
				__int128 Ptr_Al16 __attribute__((aligned(16)));

				// CHECK-LABEL: @fun_PtrAl8_is_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[CALL:%.*]] = tail call zeroext i1 @__atomic_is_lock_free(i64 noundef 16, ptr noundef nonnull @Ptr_Al8) #[[ATTR2:[0-9]+]]
				// CHECK-NEXT: ret i1 [[CALL]]
				//
				_Bool fun_PtrAl8_is_lock_free() {
				return __atomic_is_lock_free(16, &Ptr_Al8);
				}

				// CHECK-LABEL: @fun_PtrAl8_always_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 false
				//
				_Bool fun_PtrAl8_always_lock_free() {
				return __atomic_always_lock_free(16, &Ptr_Al8);
				}

				// CHECK-LABEL: @fun_PtrAl16_is_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: [[CALL:%.*]] = tail call zeroext i1 @__atomic_is_lock_free(i64 noundef 16, ptr noundef nonnull @Ptr_Al16) #[[ATTR2]]
				// CHECK-NEXT: ret i1 [[CALL]]
				//
				_Bool fun_PtrAl16_is_lock_free() {
				return __atomic_is_lock_free(16, &Ptr_Al16);
				}

				// CHECK-LABEL: @fun_PtrAl16_always_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 false
				//
				_Bool fun_PtrAl16_always_lock_free() {
				return __atomic_always_lock_free(16, &Ptr_Al16);
				}

				// CHECK-LABEL: @fun_noptr_is_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 true
				//
				_Bool fun_noptr_is_lock_free() {
				return __atomic_is_lock_free(16, 0);
				}

				// CHECK-LABEL: @fun_noptr_always_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 true
				//
				_Bool fun_noptr_always_lock_free() {
				return __atomic_always_lock_free(16, 0);
				}

				// CHECK-LABEL: @fun_c11_is_lock_free(
				// CHECK-NEXT: entry:
				// CHECK-NEXT: ret i1 true
				//
				_Bool fun_c11_is_lock_free() {
				return __c11_atomic_is_lock_free(16);
				}

llvm/lib/Target/SystemZ/SystemZISelLowering.h

Show First 20 Lines • Show All 595 Lines • ▼ Show 20 Lines	unsigned ComputeNumSignBitsForTargetNode(SDValue Op,
const APInt &DemandedElts,		const APInt &DemandedElts,
const SelectionDAG &DAG,		const SelectionDAG &DAG,
unsigned Depth) const override;		unsigned Depth) const override;

bool isGuaranteedNotToBeUndefOrPoisonForTargetNode(		bool isGuaranteedNotToBeUndefOrPoisonForTargetNode(
SDValue Op, const APInt &DemandedElts, const SelectionDAG &DAG,		SDValue Op, const APInt &DemandedElts, const SelectionDAG &DAG,
bool PoisonOnly, unsigned Depth) const override;		bool PoisonOnly, unsigned Depth) const override;

		AtomicExpansionKind shouldCastAtomicLoadInIR(LoadInst *LI) const override {
		return AtomicExpansionKind::None;
		}

		AtomicExpansionKind shouldCastAtomicStoreInIR(StoreInst *SI) const override {
		return AtomicExpansionKind::None;
		}

		AtomicExpansionKind shouldExpandAtomicRMWInIR(AtomicRMWInst *RMW) const override {
		// Expand i128 only as backend currently expands the rest on its
		// own. TODO: expand them all here instead of in backend.
		if (RMW->getType()->isIntegerTy(128))
		return AtomicExpansionKind::CmpXChg;
		return AtomicExpansionKind::None;
		}

		AtomicExpansionKind shouldCastAtomicRMWIInIR(AtomicRMWInst *RMWI) const override {
		return AtomicExpansionKind::None;
		}

ISD::NodeType getExtendForAtomicOps() const override {		ISD::NodeType getExtendForAtomicOps() const override {
return ISD::ANY_EXTEND;		return ISD::ANY_EXTEND;
}		}
ISD::NodeType getExtendForAtomicCmpSwapArg() const override {		ISD::NodeType getExtendForAtomicCmpSwapArg() const override {
return ISD::ZERO_EXTEND;		return ISD::ZERO_EXTEND;
}		}

bool supportSwiftError() const override {		bool supportSwiftError() const override {
▲ Show 20 Lines • Show All 180 Lines • Show Last 20 Lines

llvm/lib/Target/SystemZ/SystemZISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 123 Lines • ▼ Show 20 Lines	SystemZTargetLowering::SystemZTargetLowering(const TargetMachine &TM,
// LLVM's current latency-oriented scheduler can't handle physreg definitions		// LLVM's current latency-oriented scheduler can't handle physreg definitions
// such as SystemZ has with CC, so set this to the register-pressure		// such as SystemZ has with CC, so set this to the register-pressure
// scheduler, because it can.		// scheduler, because it can.
setSchedulingPreference(Sched::RegPressure);		setSchedulingPreference(Sched::RegPressure);

setBooleanContents(ZeroOrOneBooleanContent);		setBooleanContents(ZeroOrOneBooleanContent);
setBooleanVectorContents(ZeroOrNegativeOneBooleanContent);		setBooleanVectorContents(ZeroOrNegativeOneBooleanContent);

		setMaxAtomicSizeInBitsSupported(128);

// Instructions are strings of 2-byte aligned 2-byte values.		// Instructions are strings of 2-byte aligned 2-byte values.
setMinFunctionAlignment(Align(2));		setMinFunctionAlignment(Align(2));
// For performance reasons we prefer 16-byte alignment.		// For performance reasons we prefer 16-byte alignment.
setPrefFunctionAlignment(Align(16));		setPrefFunctionAlignment(Align(16));

// Handle operations that are handled in a similar way for all types.		// Handle operations that are handled in a similar way for all types.
for (unsigned I = MVT::FIRST_INTEGER_VALUETYPE;		for (unsigned I = MVT::FIRST_INTEGER_VALUETYPE;
I <= MVT::LAST_FP_VALUETYPE;		I <= MVT::LAST_FP_VALUETYPE;
▲ Show 20 Lines • Show All 8,958 Lines • Show Last 20 Lines

llvm/lib/Target/SystemZ/SystemZRegisterInfo.cpp

Show First 20 Lines • Show All 384 Lines • ▼ Show 20 Lines	bool SystemZRegisterInfo::shouldCoalesce(MachineInstr *MI,
LiveIntervals &LIS) const {		LiveIntervals &LIS) const {
assert (MI->isCopy() && "Only expecting COPY instructions");		assert (MI->isCopy() && "Only expecting COPY instructions");

// Coalesce anything which is not a COPY involving a subreg to/from GR128.		// Coalesce anything which is not a COPY involving a subreg to/from GR128.
if (!(NewRC->hasSuperClassEq(&SystemZ::GR128BitRegClass) &&		if (!(NewRC->hasSuperClassEq(&SystemZ::GR128BitRegClass) &&
(getRegSizeInBits(SrcRC) <= 64 \|\| getRegSizeInBits(DstRC) <= 64)))		(getRegSizeInBits(SrcRC) <= 64 \|\| getRegSizeInBits(DstRC) <= 64)))
return true;		return true;

// Allow coalescing of a GR128 subreg COPY only if the live ranges are small		// Allow coalescing of a GR128 subreg COPY only if the live ranges are
// and local to one MBB with not too much interferring registers. Otherwise		// small and don't have too much interferring phys reg clobbers. Otherwise
// regalloc may run out of registers.		// regalloc may run out of registers.

unsigned WideOpNo = (getRegSizeInBits(*SrcRC) == 128 ? 1 : 0);
Register GR128Reg = MI->getOperand(WideOpNo).getReg();
Register GRNarReg = MI->getOperand((WideOpNo == 1) ? 0 : 1).getReg();
LiveInterval &IntGR128 = LIS.getInterval(GR128Reg);
LiveInterval &IntGRNar = LIS.getInterval(GRNarReg);

// Check that the two virtual registers are local to MBB.
MachineBasicBlock *MBB = MI->getParent();
MachineInstr *FirstMI_GR128 =
LIS.getInstructionFromIndex(IntGR128.beginIndex());
MachineInstr *FirstMI_GRNar =
LIS.getInstructionFromIndex(IntGRNar.beginIndex());
MachineInstr *LastMI_GR128 = LIS.getInstructionFromIndex(IntGR128.endIndex());
MachineInstr *LastMI_GRNar = LIS.getInstructionFromIndex(IntGRNar.endIndex());
if ((!FirstMI_GR128 \|\| FirstMI_GR128->getParent() != MBB) \|\|
(!FirstMI_GRNar \|\| FirstMI_GRNar->getParent() != MBB) \|\|
(!LastMI_GR128 \|\| LastMI_GR128->getParent() != MBB) \|\|
(!LastMI_GRNar \|\| LastMI_GRNar->getParent() != MBB))
return false;

MachineBasicBlock::iterator MII = nullptr, MEE = nullptr;
if (WideOpNo == 1) {
MII = FirstMI_GR128;
MEE = LastMI_GRNar;
} else {
MII = FirstMI_GRNar;
MEE = LastMI_GR128;
}

// Check if coalescing seems safe by finding the set of clobbered physreg
// pairs in the region.
BitVector PhysClobbered(getNumRegs());		BitVector PhysClobbered(getNumRegs());
MEE++;		unsigned const AllowedClobbers = NewRC->getNumRegs() - 3;
		uweigandUnsubmitted Not Done Reply Inline Actions Does it help tweaking this heuristic a bit? What if we use 4 or 2 instead of 3? uweigand: Does it help tweaking this heuristic a bit? What if we use 4 or 2 instead of 3?
for (; MII != MEE; ++MII) {		unsigned const SearchLim = 50;
		uweigandUnsubmitted Not Done Reply Inline Actions This introduces yet another weird heuristics. Is this even necessary at all? What are the compile-time impacts of just not doing this check? uweigand: This introduces yet another weird heuristics. Is this even necessary at all? What are the…
for (const MachineOperand &MO : MII->operands())		unsigned Count = 0;
		auto countPRegs = [&](const LiveInterval &LI) -> bool {
		for (const auto &Seg : LI)
		for (SlotIndex Slot = Seg.start; Slot < Seg.end; Slot = Slot.getNextIndex())
		if (MachineInstr *SlotMI = LIS.getInstructionFromIndex(Slot)) {
		for (const MachineOperand &MO : SlotMI->operands())
if (MO.isReg() && MO.getReg().isPhysical()) {		if (MO.isReg() && MO.getReg().isPhysical()) {
for (MCSuperRegIterator SI(MO.getReg(), this, true/IncludeSelf/);		for (MCSuperRegIterator SI(MO.getReg(), this, true/IncludeSelf/);
SI.isValid(); ++SI)		SI.isValid(); ++SI)
if (NewRC->contains(*SI)) {		if (NewRC->contains(*SI)) {
PhysClobbered.set(*SI);		PhysClobbered.set(*SI);
		if (PhysClobbered.count() > AllowedClobbers)
		return false;
break;		break;
}		}
}		}
}		if (++Count == SearchLim)

// Demand an arbitrary margin of free regs.
unsigned const DemandedFreeGR128 = 3;
if (PhysClobbered.count() > (NewRC->getNumRegs() - DemandedFreeGR128))
return false;		return false;
		}
return true;		return true;
		};

		LiveInterval &DstInterval = LIS.getInterval(MI->getOperand(0).getReg());
		LiveInterval &SrcInterval = LIS.getInterval(MI->getOperand(1).getReg());
		return countPRegs(DstInterval) && countPRegs(SrcInterval);
}		}

Register		Register
SystemZRegisterInfo::getFrameRegister(const MachineFunction &MF) const {		SystemZRegisterInfo::getFrameRegister(const MachineFunction &MF) const {
const SystemZFrameLowering *TFI = getFrameLowering(MF);		const SystemZFrameLowering *TFI = getFrameLowering(MF);
const SystemZSubtarget *Subtarget = &MF.getSubtarget<SystemZSubtarget>();		const SystemZSubtarget *Subtarget = &MF.getSubtarget<SystemZSubtarget>();
SystemZCallingConventionRegisters *Regs = Subtarget->getSpecialRegisters();		SystemZCallingConventionRegisters *Regs = Subtarget->getSpecialRegisters();

Show All 11 Lines

llvm/lib/Target/SystemZ/SystemZTargetMachine.cpp

Show First 20 Lines • Show All 215 Lines • ▼ Show 20 Lines	public:
void addPostRegAlloc() override;		void addPostRegAlloc() override;
void addPreSched2() override;		void addPreSched2() override;
void addPreEmitPass() override;		void addPreEmitPass() override;
};		};

} // end anonymous namespace		} // end anonymous namespace

void SystemZPassConfig::addIRPasses() {		void SystemZPassConfig::addIRPasses() {
		addPass(createAtomicExpandPass());

if (getOptLevel() != CodeGenOpt::None) {		if (getOptLevel() != CodeGenOpt::None) {
addPass(createSystemZTDCPass());		addPass(createSystemZTDCPass());
addPass(createLoopDataPrefetchPass());		addPass(createLoopDataPrefetchPass());
}		}

TargetPassConfig::addIRPasses();		TargetPassConfig::addIRPasses();
}		}

▲ Show 20 Lines • Show All 90 Lines • Show Last 20 Lines

llvm/test/CodeGen/SystemZ/atomicrmw-ops-i128.ll

				; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py UTC_ARGS: --version 2
	; Test i128 atomicrmw operations.			; Test i128 atomicrmw operations.
	;			;
	; RUN: llc < %s -mtriple=s390x-linux-gnu -mcpu=z15 \| FileCheck %s			; RUN: llc < %s -mtriple=s390x-linux-gnu -mcpu=z15 \| FileCheck %s
				;
				; Test expansion of AtomicRMW instructions. The atomicrmw instructions
				; intrinsically always have a natural alignment, so it is up to the front end
				; to generate a libcall in cases of underalignment (AtomicExpandPass would
				; also generate the call in these cases if the AtomicRMW held the actual
				; (insufficient) alignment value).

	; Check register exchange.			; Check register exchange.
	define i128 @f1(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_xchg(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f1:			; CHECK-LABEL: atomicrmw_xchg:
	; CHECK: brasl %r14, __sync_lock_test_and_set_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r12, %r15, 96(%r15)
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r1, 8(%r5)
				; CHECK-NEXT: lg %r0, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB0_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: cdsg %r12, %r0, 0(%r4)
				; CHECK-NEXT: jl .LBB0_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r12, %r15, 96(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw xchg ptr %src, i128 %b seq_cst			%res = atomicrmw xchg ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check addition of a variable.			; Check addition of a variable.
	define i128 @f2(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_add(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f2:			; CHECK-LABEL: atomicrmw_add:
	; CHECK: brasl %r14, __sync_fetch_and_add_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB1_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: algrk %r11, %r13, %r0
				; CHECK-NEXT: lgr %r10, %r12
				; CHECK-NEXT: alcgr %r10, %r1
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB1_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw add ptr %src, i128 %b seq_cst			%res = atomicrmw add ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check subtraction of a variable.			; Check subtraction of a variable.
	define i128 @f3(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_sub(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f3:			; CHECK-LABEL: atomicrmw_sub:
	; CHECK: brasl %r14, __sync_fetch_and_sub_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB2_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: slgrk %r11, %r13, %r0
				; CHECK-NEXT: lgr %r10, %r12
				; CHECK-NEXT: slbgr %r10, %r1
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB2_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw sub ptr %src, i128 %b seq_cst			%res = atomicrmw sub ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check AND of a variable.			; Check AND of a variable.
	define i128 @f4(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_and(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f4:			; CHECK-LABEL: atomicrmw_and:
	; CHECK: brasl %r14, __sync_fetch_and_and_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB3_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: ngrk %r10, %r12, %r1
				; CHECK-NEXT: ngrk %r11, %r13, %r0
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB3_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw and ptr %src, i128 %b seq_cst			%res = atomicrmw and ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check NAND of a variable.			; Check NAND of a variable.
	define i128 @f5(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_nand(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f5:			; CHECK-LABEL: atomicrmw_nand:
	; CHECK: brasl %r14, __sync_fetch_and_nand_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB4_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: nngrk %r10, %r12, %r1
				; CHECK-NEXT: nngrk %r11, %r13, %r0
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB4_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw nand ptr %src, i128 %b seq_cst			%res = atomicrmw nand ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check OR of a variable.			; Check OR of a variable.
	define i128 @f6(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_or(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f6:			; CHECK-LABEL: atomicrmw_or:
	; CHECK: brasl %r14, __sync_fetch_and_or_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB5_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: ogrk %r10, %r12, %r1
				; CHECK-NEXT: ogrk %r11, %r13, %r0
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB5_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw or ptr %src, i128 %b seq_cst			%res = atomicrmw or ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check XOR of a variable.			; Check XOR of a variable.
	define i128 @f7(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_xor(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f7:			; CHECK-LABEL: atomicrmw_xor:
	; CHECK: brasl %r14, __sync_fetch_and_xor_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB6_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: xgrk %r10, %r12, %r1
				; CHECK-NEXT: xgrk %r11, %r13, %r0
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB6_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw xor ptr %src, i128 %b seq_cst			%res = atomicrmw xor ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check signed minimum.			; Check signed minimum.
	define i128 @f8(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_min(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f8:			; CHECK-LABEL: atomicrmw_min:
	; CHECK: brasl %r14, __sync_fetch_and_min_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB7_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: clgr %r13, %r0
				; CHECK-NEXT: lhi %r3, 0
				; CHECK-NEXT: lochile %r3, 1
				; CHECK-NEXT: cgr %r12, %r1
				; CHECK-NEXT: lhi %r5, 0
				; CHECK-NEXT: lochile %r5, 1
				; CHECK-NEXT: locrlh %r3, %r5
				; CHECK-NEXT: chi %r3, 0
				; CHECK-NEXT: selgrlh %r11, %r13, %r0
				; CHECK-NEXT: selgrlh %r10, %r12, %r1
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB7_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw min ptr %src, i128 %b seq_cst			%res = atomicrmw min ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check signed maximum.			; Check signed maximum.
	define i128 @f9(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_max(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f9:			; CHECK-LABEL: atomicrmw_max:
	; CHECK: brasl %r14, __sync_fetch_and_max_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB8_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: clgr %r13, %r0
				; CHECK-NEXT: lhi %r3, 0
				; CHECK-NEXT: lochih %r3, 1
				; CHECK-NEXT: cgr %r12, %r1
				; CHECK-NEXT: lhi %r5, 0
				; CHECK-NEXT: lochih %r5, 1
				; CHECK-NEXT: locrlh %r3, %r5
				; CHECK-NEXT: chi %r3, 0
				; CHECK-NEXT: selgrlh %r11, %r13, %r0
				; CHECK-NEXT: selgrlh %r10, %r12, %r1
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB8_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw max ptr %src, i128 %b seq_cst			%res = atomicrmw max ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check unsigned minimum.			; Check unsigned minimum.
	define i128 @f10(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_umin(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f10:			; CHECK-LABEL: atomicrmw_umin:
	; CHECK: brasl %r14, __sync_fetch_and_umin_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB9_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: clgr %r12, %r1
				; CHECK-NEXT: lhi %r3, 0
				; CHECK-NEXT: lochile %r3, 1
				; CHECK-NEXT: clgr %r13, %r0
				; CHECK-NEXT: lhi %r5, 0
				; CHECK-NEXT: lochile %r5, 1
				; CHECK-NEXT: cgr %r12, %r1
				; CHECK-NEXT: locre %r3, %r5
				; CHECK-NEXT: chi %r3, 0
				; CHECK-NEXT: selgrlh %r11, %r13, %r0
				; CHECK-NEXT: selgrlh %r10, %r12, %r1
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB9_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw umin ptr %src, i128 %b seq_cst			%res = atomicrmw umin ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

	; Check unsigned maximum.			; Check unsigned maximum.
	define i128 @f11(i128 %dummy, ptr %src, i128 %b) {			define i128 @atomicrmw_umax(i128 %dummy, ptr %src, i128 %b) {
	; CHECK-LABEL: f11:			; CHECK-LABEL: atomicrmw_umax:
	; CHECK: brasl %r14, __sync_fetch_and_umax_16@PLT			; CHECK: # %bb.0:
	; CHECK: br %r14			; CHECK-NEXT: stmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: .cfi_offset %r10, -80
				; CHECK-NEXT: .cfi_offset %r11, -72
				; CHECK-NEXT: .cfi_offset %r12, -64
				; CHECK-NEXT: .cfi_offset %r13, -56
				; CHECK-NEXT: .cfi_offset %r15, -40
				; CHECK-NEXT: lg %r0, 8(%r5)
				; CHECK-NEXT: lg %r1, 0(%r5)
				; CHECK-NEXT: lg %r13, 8(%r4)
				; CHECK-NEXT: lg %r12, 0(%r4)
				; CHECK-NEXT: .LBB10_1: # %atomicrmw.start
				; CHECK-NEXT: # =>This Inner Loop Header: Depth=1
				; CHECK-NEXT: clgr %r12, %r1
				; CHECK-NEXT: lhi %r3, 0
				; CHECK-NEXT: lochih %r3, 1
				; CHECK-NEXT: clgr %r13, %r0
				; CHECK-NEXT: lhi %r5, 0
				; CHECK-NEXT: lochih %r5, 1
				; CHECK-NEXT: cgr %r12, %r1
				; CHECK-NEXT: locre %r3, %r5
				; CHECK-NEXT: chi %r3, 0
				; CHECK-NEXT: selgrlh %r11, %r13, %r0
				; CHECK-NEXT: selgrlh %r10, %r12, %r1
				; CHECK-NEXT: cdsg %r12, %r10, 0(%r4)
				; CHECK-NEXT: jl .LBB10_1
				; CHECK-NEXT: # %bb.2: # %atomicrmw.end
				; CHECK-NEXT: stg %r12, 0(%r2)
				; CHECK-NEXT: stg %r13, 8(%r2)
				; CHECK-NEXT: lmg %r10, %r15, 80(%r15)
				; CHECK-NEXT: br %r14
	%res = atomicrmw umax ptr %src, i128 %b seq_cst			%res = atomicrmw umax ptr %src, i128 %b seq_cst
	ret i128 %res			ret i128 %res
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[SystemZ] Enable AtomicExpandPass for i128Needs ReviewPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 509957

clang/lib/Basic/Targets/SystemZ.h

clang/test/CodeGen/SystemZ/atomic-alignment.c

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i128-16Al.c

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i128-8Al.c

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i16.c

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i32.c

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i64.c

clang/test/CodeGen/SystemZ/gnu-atomic-builtins-i8.c

clang/test/CodeGen/SystemZ/gnu-atomic_is_lock_free.c

llvm/lib/Target/SystemZ/SystemZISelLowering.h

llvm/lib/Target/SystemZ/SystemZISelLowering.cpp

llvm/lib/Target/SystemZ/SystemZRegisterInfo.cpp

llvm/lib/Target/SystemZ/SystemZTargetMachine.cpp

llvm/test/CodeGen/SystemZ/atomicrmw-ops-i128.ll

[SystemZ] Enable AtomicExpandPass for i128
Needs ReviewPublic