This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
-
X86.td
-
X86ISelLowering.cpp
-
X86TargetTransformInfo.h
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
atomic-unordered.ll

Differential D129947

[X86] Prefer `lock or` over mfence.
AcceptedPublic

Authored by vchuravy on Jul 16 2022, 5:20 PM.

Download Raw Diff

Details

Reviewers

reames
craig.topper
loladiro

Summary

LLVM currently emits mfence for __atomic_thread_fence(seq_cst). On
modern CPUs lock or is more efficient and provides the same sequential
consistency. GCC 11 made this switch as well (see https://gcc.gnu.org/pipermail/gcc-cvs/2020-July/314418.html)
and https://reviews.llvm.org/D61863 and https://reviews.llvm.org/D58632
moved into this direction as well, but didn't touch fence seq_cst.

Diff Detail

Repository: rG LLVM Github Monorepo

Unit TestsFailed

	Time	Test
	60,090 ms	x64 debian > AddressSanitizer-x86_64-linux.TestCases::scariness_score_test.cpp
	610 ms	x64 debian > SanitizerCommon-asan-x86_64-Linux.Linux::decorate_proc_maps.cpp
	420 ms	x64 debian > SanitizerCommon-lsan-x86_64-Linux.Linux::decorate_proc_maps.cpp
	540 ms	x64 debian > SanitizerCommon-msan-x86_64-Linux.Linux::decorate_proc_maps.cpp
	790 ms	x64 debian > SanitizerCommon-tsan-x86_64-Linux.Linux::decorate_proc_maps.cpp

Event Timeline

vchuravy created this revision.Jul 16 2022, 5:20 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 16 2022, 5:20 PM

Herald added subscribers: jsji, pengfei, hiraditya. · View Herald Transcript

vchuravy requested review of this revision.Jul 16 2022, 5:20 PM

Herald added a project: Restricted Project. · View Herald TranscriptJul 16 2022, 5:20 PM

Herald added a subscriber: llvm-commits. · View Herald Transcript

vchuravy added a project: Restricted Project.Jul 16 2022, 5:20 PM

Harbormaster completed remote builds in B175858: Diff 445275.Jul 16 2022, 6:12 PM

I just looked at this again also, since this was requested in https://github.com/JuliaLang/julia/pull/48123 and came to the same conclusion, so LGTM, but it would be good to know from @craig.topper or @reames if there was any reason this wasn't done in D61863.

This revision is now accepted and ready to land.Jan 4 2023, 3:44 PM

Herald added a subscriber: StephenFan. · View Herald TranscriptJan 4 2023, 3:44 PM

We talked at LLVMdev and the reason why it wasn't done where non-temporal memory ops. The LLVM langref and the C standard says nothing about them, but currently this is the only way to obtain a fence operation that affects them.

They asked me to do a bit of canvasing to find out if folks rely on this and/or wait to see how the GCC change shake out.

gbedwell added a subscriber: gbedwell.Jan 5 2023, 4:58 AM

Hmm, both semantics seems reasonable, and I don't think we can just make that decision for the frontend here. Perhaps at the IR level, we need a different syncscope property that declares whether it's expected to synchronize with non-temporal operations or not and then in clang we set it properly to match GCC (potentially with a matching __builtin_nontemporal_fence()?). I can see that frontends that make use of !nontemporal would expect fence to synchronize it.

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86.td

40 lines

X86ISelLowering.cpp

2 lines

X86TargetTransformInfo.h

1 line

test/

CodeGen/

X86/

atomic-unordered.ll

52 lines

Diff 445275

llvm/lib/Target/X86/X86.td

Show First 20 Lines • Show All 627 Lines • ▼ Show 20 Lines
def TuningUseSLMArithCosts		def TuningUseSLMArithCosts
: SubtargetFeature<"use-slm-arith-costs", "UseSLMArithCosts", "true",		: SubtargetFeature<"use-slm-arith-costs", "UseSLMArithCosts", "true",
"Use Silvermont specific arithmetic costs">;		"Use Silvermont specific arithmetic costs">;

def TuningUseGLMDivSqrtCosts		def TuningUseGLMDivSqrtCosts
: SubtargetFeature<"use-glm-div-sqrt-costs", "UseGLMDivSqrtCosts", "true",		: SubtargetFeature<"use-glm-div-sqrt-costs", "UseGLMDivSqrtCosts", "true",
"Use Goldmont specific floating point div/sqrt costs">;		"Use Goldmont specific floating point div/sqrt costs">;

		def TuningAvoidMFENCE
		: SubtargetFeature<"avoid-mfence", "AvoidMFence", "true",
		"Avoid MFENCE for fence seq_cst, and instead use lock or">;

//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//
// X86 CPU Families		// X86 CPU Families
// TODO: Remove these - use general tuning features to determine codegen.		// TODO: Remove these - use general tuning features to determine codegen.
//===----------------------------------------------------------------------===//		//===----------------------------------------------------------------------===//

// Bonnell		// Bonnell
def ProcIntelAtom : SubtargetFeature<"", "IsAtom", "true", "Is Intel Atom processor">;		def ProcIntelAtom : SubtargetFeature<"", "IsAtom", "true", "Is Intel Atom processor">;

▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines	list<SubtargetFeature> X86_64V4Features = !listconcat(X86_64V3Features, [
FeatureCDI,		FeatureCDI,
FeatureDQI,		FeatureDQI,
FeatureVLX,		FeatureVLX,
]);		]);

// Nehalem		// Nehalem
list<SubtargetFeature> NHMFeatures = X86_64V2Features;		list<SubtargetFeature> NHMFeatures = X86_64V2Features;
list<SubtargetFeature> NHMTuning = [TuningMacroFusion,		list<SubtargetFeature> NHMTuning = [TuningMacroFusion,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];

// Westmere		// Westmere
list<SubtargetFeature> WSMAdditionalFeatures = [FeaturePCLMUL];		list<SubtargetFeature> WSMAdditionalFeatures = [FeaturePCLMUL];
list<SubtargetFeature> WSMTuning = NHMTuning;		list<SubtargetFeature> WSMTuning = NHMTuning;
list<SubtargetFeature> WSMFeatures =		list<SubtargetFeature> WSMFeatures =
!listconcat(NHMFeatures, WSMAdditionalFeatures);		!listconcat(NHMFeatures, WSMAdditionalFeatures);

// Sandybridge		// Sandybridge
list<SubtargetFeature> SNBAdditionalFeatures = [FeatureAVX,		list<SubtargetFeature> SNBAdditionalFeatures = [FeatureAVX,
FeatureXSAVE,		FeatureXSAVE,
FeatureXSAVEOPT];		FeatureXSAVEOPT];
list<SubtargetFeature> SNBTuning = [TuningMacroFusion,		list<SubtargetFeature> SNBTuning = [TuningMacroFusion,
TuningSlow3OpsLEA,		TuningSlow3OpsLEA,
TuningSlowDivide64,		TuningSlowDivide64,
TuningSlowUAMem32,		TuningSlowUAMem32,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastSHLDRotate,		TuningFastSHLDRotate,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningPOPCNTFalseDeps,		TuningPOPCNTFalseDeps,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> SNBFeatures =		list<SubtargetFeature> SNBFeatures =
!listconcat(WSMFeatures, SNBAdditionalFeatures);		!listconcat(WSMFeatures, SNBAdditionalFeatures);

// Ivybridge		// Ivybridge
list<SubtargetFeature> IVBAdditionalFeatures = [FeatureRDRAND,		list<SubtargetFeature> IVBAdditionalFeatures = [FeatureRDRAND,
FeatureF16C,		FeatureF16C,
FeatureFSGSBase];		FeatureFSGSBase];
list<SubtargetFeature> IVBTuning = SNBTuning;		list<SubtargetFeature> IVBTuning = SNBTuning;
Show All 14 Lines	list<SubtargetFeature> HSWTuning = [TuningMacroFusion,
TuningSlowDivide64,		TuningSlowDivide64,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastSHLDRotate,		TuningFastSHLDRotate,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPOPCNTFalseDeps,		TuningPOPCNTFalseDeps,
TuningLZCNTFalseDeps,		TuningLZCNTFalseDeps,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> HSWFeatures =		list<SubtargetFeature> HSWFeatures =
!listconcat(IVBFeatures, HSWAdditionalFeatures);		!listconcat(IVBFeatures, HSWAdditionalFeatures);

// Broadwell		// Broadwell
list<SubtargetFeature> BDWAdditionalFeatures = [FeatureADX,		list<SubtargetFeature> BDWAdditionalFeatures = [FeatureADX,
FeatureRDSEED,		FeatureRDSEED,
FeaturePRFCHW];		FeaturePRFCHW];
list<SubtargetFeature> BDWTuning = HSWTuning;		list<SubtargetFeature> BDWTuning = HSWTuning;
Show All 11 Lines	list<SubtargetFeature> SKLTuning = [TuningFastGather,
TuningSlowDivide64,		TuningSlowDivide64,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastVectorFSQRT,		TuningFastVectorFSQRT,
TuningFastSHLDRotate,		TuningFastSHLDRotate,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPOPCNTFalseDeps,		TuningPOPCNTFalseDeps,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> SKLFeatures =		list<SubtargetFeature> SKLFeatures =
!listconcat(BDWFeatures, SKLAdditionalFeatures);		!listconcat(BDWFeatures, SKLAdditionalFeatures);

// Skylake-AVX512		// Skylake-AVX512
list<SubtargetFeature> SKXAdditionalFeatures = [FeatureAES,		list<SubtargetFeature> SKXAdditionalFeatures = [FeatureAES,
FeatureXSAVEC,		FeatureXSAVEC,
FeatureXSAVES,		FeatureXSAVES,
FeatureCLFLUSHOPT,		FeatureCLFLUSHOPT,
Show All 11 Lines	list<SubtargetFeature> SKXTuning = [TuningFastGather,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastVectorFSQRT,		TuningFastVectorFSQRT,
TuningFastSHLDRotate,		TuningFastSHLDRotate,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPrefer256Bit,		TuningPrefer256Bit,
TuningPOPCNTFalseDeps,		TuningPOPCNTFalseDeps,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> SKXFeatures =		list<SubtargetFeature> SKXFeatures =
!listconcat(BDWFeatures, SKXAdditionalFeatures);		!listconcat(BDWFeatures, SKXAdditionalFeatures);

// Cascadelake		// Cascadelake
list<SubtargetFeature> CLXAdditionalFeatures = [FeatureVNNI];		list<SubtargetFeature> CLXAdditionalFeatures = [FeatureVNNI];
list<SubtargetFeature> CLXTuning = SKXTuning;		list<SubtargetFeature> CLXTuning = SKXTuning;
list<SubtargetFeature> CLXFeatures =		list<SubtargetFeature> CLXFeatures =
!listconcat(SKXFeatures, CLXAdditionalFeatures);		!listconcat(SKXFeatures, CLXAdditionalFeatures);
Show All 20 Lines	list<SubtargetFeature> CNLTuning = [TuningFastGather,
TuningSlowDivide64,		TuningSlowDivide64,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastVectorFSQRT,		TuningFastVectorFSQRT,
TuningFastSHLDRotate,		TuningFastSHLDRotate,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPrefer256Bit,		TuningPrefer256Bit,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> CNLFeatures =		list<SubtargetFeature> CNLFeatures =
!listconcat(SKLFeatures, CNLAdditionalFeatures);		!listconcat(SKLFeatures, CNLAdditionalFeatures);

// Icelake		// Icelake
list<SubtargetFeature> ICLAdditionalFeatures = [FeatureBITALG,		list<SubtargetFeature> ICLAdditionalFeatures = [FeatureBITALG,
FeatureVAES,		FeatureVAES,
FeatureVBMI2,		FeatureVBMI2,
FeatureVNNI,		FeatureVNNI,
FeatureVPCLMULQDQ,		FeatureVPCLMULQDQ,
FeatureVPOPCNTDQ,		FeatureVPOPCNTDQ,
FeatureGFNI,		FeatureGFNI,
FeatureRDPID,		FeatureRDPID,
FeatureFSRM];		FeatureFSRM];
list<SubtargetFeature> ICLTuning = [TuningFastGather,		list<SubtargetFeature> ICLTuning = [TuningFastGather,
TuningMacroFusion,		TuningMacroFusion,
TuningSlow3OpsLEA,		TuningSlow3OpsLEA,
TuningSlowDivide64,		TuningSlowDivide64,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastVectorFSQRT,		TuningFastVectorFSQRT,
TuningFastSHLDRotate,		TuningFastSHLDRotate,
TuningFast15ByteNOP,		TuningFast15ByteNOP,
TuningFastVariableCrossLaneShuffle,		TuningFastVariableCrossLaneShuffle,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningPrefer256Bit,		TuningPrefer256Bit,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> ICLFeatures =		list<SubtargetFeature> ICLFeatures =
!listconcat(CNLFeatures, ICLAdditionalFeatures);		!listconcat(CNLFeatures, ICLAdditionalFeatures);

// Icelake Server		// Icelake Server
list<SubtargetFeature> ICXAdditionalFeatures = [FeaturePCONFIG,		list<SubtargetFeature> ICXAdditionalFeatures = [FeaturePCONFIG,
FeatureCLWB,		FeatureCLWB,
FeatureWBNOINVD];		FeatureWBNOINVD];
list<SubtargetFeature> ICXTuning = ICLTuning;		list<SubtargetFeature> ICXTuning = ICLTuning;
▲ Show 20 Lines • Show All 109 Lines • ▼ Show 20 Lines	list<SubtargetFeature> GLPTuning = [TuningUseGLMDivSqrtCosts,
TuningFastMOVBE,		TuningFastMOVBE,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER];
list<SubtargetFeature> GLPFeatures =		list<SubtargetFeature> GLPFeatures =
!listconcat(GLMFeatures, GLPAdditionalFeatures);		!listconcat(GLMFeatures, GLPAdditionalFeatures);

// Tremont		// Tremont
list<SubtargetFeature> TRMAdditionalFeatures = [FeatureCLWB,		list<SubtargetFeature> TRMAdditionalFeatures = [FeatureCLWB,
FeatureGFNI];		FeatureGFNI];
list<SubtargetFeature> TRMTuning = GLPTuning;		list<SubtargetFeature> TRMAdditionalTuning = [TuningAvoidMFENCE];
		list<SubtargetFeature> TRMTuning = !listconcat(GLPTuning, TRMAdditionalTuning);
list<SubtargetFeature> TRMFeatures =		list<SubtargetFeature> TRMFeatures =
!listconcat(GLPFeatures, TRMAdditionalFeatures);		!listconcat(GLPFeatures, TRMAdditionalFeatures);

// Alderlake		// Alderlake
list<SubtargetFeature> ADLAdditionalFeatures = [FeatureSERIALIZE,		list<SubtargetFeature> ADLAdditionalFeatures = [FeatureSERIALIZE,
FeaturePCONFIG,		FeaturePCONFIG,
FeatureSHSTK,		FeatureSHSTK,
FeatureWIDEKL,		FeatureWIDEKL,
▲ Show 20 Lines • Show All 144 Lines • ▼ Show 20 Lines	list<SubtargetFeature> BdVer1Features = [FeatureX87,
FeatureXSAVE,		FeatureXSAVE,
FeatureLWP,		FeatureLWP,
FeatureLAHFSAHF64];		FeatureLAHFSAHF64];
list<SubtargetFeature> BdVer1Tuning = [TuningSlowSHLD,		list<SubtargetFeature> BdVer1Tuning = [TuningSlowSHLD,
TuningFast11ByteNOP,		TuningFast11ByteNOP,
TuningFastScalarShiftMasks,		TuningFastScalarShiftMasks,
TuningBranchFusion,		TuningBranchFusion,
TuningSBBDepBreaking,		TuningSBBDepBreaking,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];

// PileDriver		// PileDriver
list<SubtargetFeature> BdVer2AdditionalFeatures = [FeatureF16C,		list<SubtargetFeature> BdVer2AdditionalFeatures = [FeatureF16C,
FeatureBMI,		FeatureBMI,
FeatureTBM,		FeatureTBM,
FeatureFMA];		FeatureFMA];
list<SubtargetFeature> BdVer2AdditionalTuning = [TuningFastBEXTR,		list<SubtargetFeature> BdVer2AdditionalTuning = [TuningFastBEXTR,
TuningFastMOVBE];		TuningFastMOVBE];
▲ Show 20 Lines • Show All 60 Lines • ▼ Show 20 Lines	list<SubtargetFeature> ZNTuning = [TuningFastLZCNT,
TuningBranchFusion,		TuningBranchFusion,
TuningFastScalarFSQRT,		TuningFastScalarFSQRT,
TuningFastVectorFSQRT,		TuningFastVectorFSQRT,
TuningFastScalarShiftMasks,		TuningFastScalarShiftMasks,
TuningFastVariablePerLaneShuffle,		TuningFastVariablePerLaneShuffle,
TuningFastMOVBE,		TuningFastMOVBE,
TuningSlowSHLD,		TuningSlowSHLD,
TuningSBBDepBreaking,		TuningSBBDepBreaking,
TuningInsertVZEROUPPER];		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE];
list<SubtargetFeature> ZN2AdditionalFeatures = [FeatureCLWB,		list<SubtargetFeature> ZN2AdditionalFeatures = [FeatureCLWB,
FeatureRDPID,		FeatureRDPID,
FeatureRDPRU,		FeatureRDPRU,
FeatureWBNOINVD];		FeatureWBNOINVD];
list<SubtargetFeature> ZN2Tuning = ZNTuning;		list<SubtargetFeature> ZN2Tuning = ZNTuning;
list<SubtargetFeature> ZN2Features =		list<SubtargetFeature> ZN2Features =
!listconcat(ZNFeatures, ZN2AdditionalFeatures);		!listconcat(ZNFeatures, ZN2AdditionalFeatures);
list<SubtargetFeature> ZN3AdditionalFeatures = [FeatureFSRM,		list<SubtargetFeature> ZN3AdditionalFeatures = [FeatureFSRM,
▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines	def : ProcModel<"core2", SandyBridgeModel, [
FeatureNOPL,		FeatureNOPL,
FeatureX86_64,		FeatureX86_64,
FeatureCX16,		FeatureCX16,
FeatureLAHFSAHF64		FeatureLAHFSAHF64
],		],
[		[
TuningMacroFusion,		TuningMacroFusion,
TuningSlowUAMem16,		TuningSlowUAMem16,
TuningInsertVZEROUPPER		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE
]>;		]>;
def : ProcModel<"penryn", SandyBridgeModel, [		def : ProcModel<"penryn", SandyBridgeModel, [
FeatureX87,		FeatureX87,
FeatureCX8,		FeatureCX8,
FeatureCMOV,		FeatureCMOV,
FeatureMMX,		FeatureMMX,
FeatureSSE41,		FeatureSSE41,
FeatureFXSR,		FeatureFXSR,
FeatureNOPL,		FeatureNOPL,
FeatureX86_64,		FeatureX86_64,
FeatureCX16,		FeatureCX16,
FeatureLAHFSAHF64		FeatureLAHFSAHF64
],		],
[		[
TuningMacroFusion,		TuningMacroFusion,
TuningSlowUAMem16,		TuningSlowUAMem16,
TuningInsertVZEROUPPER		TuningInsertVZEROUPPER,
		TuningAvoidMFENCE
]>;		]>;

// Atom CPUs.		// Atom CPUs.
foreach P = ["bonnell", "atom"] in {		foreach P = ["bonnell", "atom"] in {
def : ProcModel<P, AtomModel, ProcessorFeatures.AtomFeatures,		def : ProcModel<P, AtomModel, ProcessorFeatures.AtomFeatures,
ProcessorFeatures.AtomTuning>;		ProcessorFeatures.AtomTuning>;
}		}

▲ Show 20 Lines • Show All 248 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 31,081 Lines • ▼ Show 20 Lines	AtomicOrdering FenceOrdering =
static_cast<AtomicOrdering>(Op.getConstantOperandVal(1));		static_cast<AtomicOrdering>(Op.getConstantOperandVal(1));
SyncScope::ID FenceSSID =		SyncScope::ID FenceSSID =
static_cast<SyncScope::ID>(Op.getConstantOperandVal(2));		static_cast<SyncScope::ID>(Op.getConstantOperandVal(2));

// The only fence that needs an instruction is a sequentially-consistent		// The only fence that needs an instruction is a sequentially-consistent
// cross-thread fence.		// cross-thread fence.
if (FenceOrdering == AtomicOrdering::SequentiallyConsistent &&		if (FenceOrdering == AtomicOrdering::SequentiallyConsistent &&
FenceSSID == SyncScope::System) {		FenceSSID == SyncScope::System) {
if (Subtarget.hasMFence())		if (!Subtarget.avoidMFence() && Subtarget.hasMFence())
return DAG.getNode(X86ISD::MFENCE, dl, MVT::Other, Op.getOperand(0));		return DAG.getNode(X86ISD::MFENCE, dl, MVT::Other, Op.getOperand(0));

SDValue Chain = Op.getOperand(0);		SDValue Chain = Op.getOperand(0);
return emitLockedStackOp(DAG, Subtarget, Chain, dl);		return emitLockedStackOp(DAG, Subtarget, Chain, dl);
}		}

// MEMBARRIER is a compiler barrier; it codegens to a no-op.		// MEMBARRIER is a compiler barrier; it codegens to a no-op.
return DAG.getNode(X86ISD::MEMBARRIER, dl, MVT::Other, Op.getOperand(0));		return DAG.getNode(X86ISD::MEMBARRIER, dl, MVT::Other, Op.getOperand(0));
▲ Show 20 Lines • Show All 25,276 Lines • Show Last 20 Lines

llvm/lib/Target/X86/X86TargetTransformInfo.h

Show First 20 Lines • Show All 81 Lines • ▼ Show 20 Lines	const FeatureBitset InlineFeatureIgnoreList = {
X86::TuningSlowPMULLD,		X86::TuningSlowPMULLD,
X86::TuningSlowSHLD,		X86::TuningSlowSHLD,
X86::TuningSlowTwoMemOps,		X86::TuningSlowTwoMemOps,
X86::TuningSlowUAMem16,		X86::TuningSlowUAMem16,
X86::TuningPreferMaskRegisters,		X86::TuningPreferMaskRegisters,
X86::TuningInsertVZEROUPPER,		X86::TuningInsertVZEROUPPER,
X86::TuningUseSLMArithCosts,		X86::TuningUseSLMArithCosts,
X86::TuningUseGLMDivSqrtCosts,		X86::TuningUseGLMDivSqrtCosts,
		X86::TuningAvoidMFENCE,

// Perf-tuning flags.		// Perf-tuning flags.
X86::TuningFastGather,		X86::TuningFastGather,
X86::TuningSlowUAMem32,		X86::TuningSlowUAMem32,

// Based on whether user set the -mprefer-vector-width command line.		// Based on whether user set the -mprefer-vector-width command line.
X86::TuningPrefer128Bit,		X86::TuningPrefer128Bit,
X86::TuningPrefer256Bit,		X86::TuningPrefer256Bit,
▲ Show 20 Lines • Show All 178 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/atomic-unordered.ll

Show First 20 Lines • Show All 2,324 Lines • ▼ Show 20 Lines
;; part of folding, but is technically legal to lift the add above the fence.		;; part of folding, but is technically legal to lift the add above the fence.
;; If that were to happen, please rewrite the test to ensure load movement		;; If that were to happen, please rewrite the test to ensure load movement
;; isn't violated.		;; isn't violated.

define i64 @nofold_fence(i64* %p) {		define i64 @nofold_fence(i64* %p) {
; CHECK-LABEL: nofold_fence:		; CHECK-LABEL: nofold_fence:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: movq (%rdi), %rax		; CHECK-NEXT: movq (%rdi), %rax
; CHECK-NEXT: mfence		; CHECK-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-NEXT: addq $15, %rax		; CHECK-NEXT: addq $15, %rax
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%v = load atomic i64, i64* %p unordered, align 8		%v = load atomic i64, i64* %p unordered, align 8
fence seq_cst		fence seq_cst
%ret = add i64 %v, 15		%ret = add i64 %v, 15
ret i64 %ret		ret i64 %ret
}		}

▲ Show 20 Lines • Show All 71 Lines • ▼ Show 20 Lines	; CHECK-O3-EX-NEXT: retq
%ret = add i64 %v, %arg		%ret = add i64 %v, %arg
ret i64 %ret		ret i64 %ret
}		}

define i64 @fold_constant_fence(i64 %arg) {		define i64 @fold_constant_fence(i64 %arg) {
; CHECK-O0-LABEL: fold_constant_fence:		; CHECK-O0-LABEL: fold_constant_fence:
; CHECK-O0: # %bb.0:		; CHECK-O0: # %bb.0:
; CHECK-O0-NEXT: movq Constant(%rip), %rax		; CHECK-O0-NEXT: movq Constant(%rip), %rax
; CHECK-O0-NEXT: mfence		; CHECK-O0-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O0-NEXT: addq %rdi, %rax		; CHECK-O0-NEXT: addq %rdi, %rax
; CHECK-O0-NEXT: retq		; CHECK-O0-NEXT: retq
;		;
; CHECK-O3-CUR-LABEL: fold_constant_fence:		; CHECK-O3-CUR-LABEL: fold_constant_fence:
; CHECK-O3-CUR: # %bb.0:		; CHECK-O3-CUR: # %bb.0:
; CHECK-O3-CUR-NEXT: movq Constant(%rip), %rax		; CHECK-O3-CUR-NEXT: movq Constant(%rip), %rax
; CHECK-O3-CUR-NEXT: mfence		; CHECK-O3-CUR-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O3-CUR-NEXT: addq %rdi, %rax		; CHECK-O3-CUR-NEXT: addq %rdi, %rax
; CHECK-O3-CUR-NEXT: retq		; CHECK-O3-CUR-NEXT: retq
;		;
; CHECK-O3-EX-LABEL: fold_constant_fence:		; CHECK-O3-EX-LABEL: fold_constant_fence:
; CHECK-O3-EX: # %bb.0:		; CHECK-O3-EX: # %bb.0:
; CHECK-O3-EX-NEXT: movq %rdi, %rax		; CHECK-O3-EX-NEXT: movq %rdi, %rax
; CHECK-O3-EX-NEXT: addq Constant(%rip), %rax		; CHECK-O3-EX-NEXT: addq Constant(%rip), %rax
; CHECK-O3-EX-NEXT: mfence		; CHECK-O3-EX-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O3-EX-NEXT: retq		; CHECK-O3-EX-NEXT: retq
%v = load atomic i64, i64* @Constant unordered, align 8		%v = load atomic i64, i64* @Constant unordered, align 8
fence seq_cst		fence seq_cst
%ret = add i64 %v, %arg		%ret = add i64 %v, %arg
ret i64 %ret		ret i64 %ret
}		}

define i64 @fold_invariant_clobber(i64* dereferenceable(8) %p, i64 %arg) {		define i64 @fold_invariant_clobber(i64* dereferenceable(8) %p, i64 %arg) {
Show All 23 Lines	; CHECK-O3-EX-NEXT: retq
ret i64 %ret		ret i64 %ret
}		}


define i64 @fold_invariant_fence(i64* dereferenceable(8) %p, i64 %arg) {		define i64 @fold_invariant_fence(i64* dereferenceable(8) %p, i64 %arg) {
; CHECK-O0-LABEL: fold_invariant_fence:		; CHECK-O0-LABEL: fold_invariant_fence:
; CHECK-O0: # %bb.0:		; CHECK-O0: # %bb.0:
; CHECK-O0-NEXT: movq (%rdi), %rax		; CHECK-O0-NEXT: movq (%rdi), %rax
; CHECK-O0-NEXT: mfence		; CHECK-O0-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O0-NEXT: addq %rsi, %rax		; CHECK-O0-NEXT: addq %rsi, %rax
; CHECK-O0-NEXT: retq		; CHECK-O0-NEXT: retq
;		;
; CHECK-O3-CUR-LABEL: fold_invariant_fence:		; CHECK-O3-CUR-LABEL: fold_invariant_fence:
; CHECK-O3-CUR: # %bb.0:		; CHECK-O3-CUR: # %bb.0:
; CHECK-O3-CUR-NEXT: movq (%rdi), %rax		; CHECK-O3-CUR-NEXT: movq (%rdi), %rax
; CHECK-O3-CUR-NEXT: mfence		; CHECK-O3-CUR-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O3-CUR-NEXT: addq %rsi, %rax		; CHECK-O3-CUR-NEXT: addq %rsi, %rax
; CHECK-O3-CUR-NEXT: retq		; CHECK-O3-CUR-NEXT: retq
;		;
; CHECK-O3-EX-LABEL: fold_invariant_fence:		; CHECK-O3-EX-LABEL: fold_invariant_fence:
; CHECK-O3-EX: # %bb.0:		; CHECK-O3-EX: # %bb.0:
; CHECK-O3-EX-NEXT: movq %rsi, %rax		; CHECK-O3-EX-NEXT: movq %rsi, %rax
; CHECK-O3-EX-NEXT: addq (%rdi), %rax		; CHECK-O3-EX-NEXT: addq (%rdi), %rax
; CHECK-O3-EX-NEXT: mfence		; CHECK-O3-EX-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O3-EX-NEXT: retq		; CHECK-O3-EX-NEXT: retq
%v = load atomic i64, i64* %p unordered, align 8, !invariant.load !{}		%v = load atomic i64, i64* %p unordered, align 8, !invariant.load !{}
fence seq_cst		fence seq_cst
%ret = add i64 %v, %arg		%ret = add i64 %v, %arg
ret i64 %ret		ret i64 %ret
}		}


▲ Show 20 Lines • Show All 156 Lines • ▼ Show 20 Lines	; CHECK-O3-NEXT: retq
%res = or i16 %v1.ext, %v2.sht		%res = or i16 %v1.ext, %v2.sht
ret i16 %res		ret i16 %res
}		}

define i1 @fold_cmp_over_fence(i32* %p, i32 %v1) {		define i1 @fold_cmp_over_fence(i32* %p, i32 %v1) {
; CHECK-O0-LABEL: fold_cmp_over_fence:		; CHECK-O0-LABEL: fold_cmp_over_fence:
; CHECK-O0: # %bb.0:		; CHECK-O0: # %bb.0:
; CHECK-O0-NEXT: movl (%rdi), %eax		; CHECK-O0-NEXT: movl (%rdi), %eax
; CHECK-O0-NEXT: mfence		; CHECK-O0-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O0-NEXT: cmpl %eax, %esi		; CHECK-O0-NEXT: cmpl %eax, %esi
; CHECK-O0-NEXT: jne .LBB116_2		; CHECK-O0-NEXT: jne .LBB116_2
; CHECK-O0-NEXT: # %bb.1: # %taken		; CHECK-O0-NEXT: # %bb.1: # %taken
; CHECK-O0-NEXT: movb $1, %al		; CHECK-O0-NEXT: movb $1, %al
; CHECK-O0-NEXT: retq		; CHECK-O0-NEXT: retq
; CHECK-O0-NEXT: .LBB116_2: # %untaken		; CHECK-O0-NEXT: .LBB116_2: # %untaken
; CHECK-O0-NEXT: xorl %eax, %eax		; CHECK-O0-NEXT: xorl %eax, %eax
; CHECK-O0-NEXT: # kill: def $al killed $al killed $eax		; CHECK-O0-NEXT: # kill: def $al killed $al killed $eax
; CHECK-O0-NEXT: retq		; CHECK-O0-NEXT: retq
;		;
; CHECK-O3-CUR-LABEL: fold_cmp_over_fence:		; CHECK-O3-LABEL: fold_cmp_over_fence:
; CHECK-O3-CUR: # %bb.0:		; CHECK-O3: # %bb.0:
; CHECK-O3-CUR-NEXT: movl (%rdi), %eax		; CHECK-O3-NEXT: movl (%rdi), %eax
; CHECK-O3-CUR-NEXT: mfence		; CHECK-O3-NEXT: lock orl $0, -{{[0-9]+}}(%rsp)
; CHECK-O3-CUR-NEXT: cmpl %eax, %esi		; CHECK-O3-NEXT: cmpl %eax, %esi
; CHECK-O3-CUR-NEXT: jne .LBB116_2		; CHECK-O3-NEXT: jne .LBB116_2
; CHECK-O3-CUR-NEXT: # %bb.1: # %taken		; CHECK-O3-NEXT: # %bb.1: # %taken
; CHECK-O3-CUR-NEXT: movb $1, %al		; CHECK-O3-NEXT: movb $1, %al
; CHECK-O3-CUR-NEXT: retq		; CHECK-O3-NEXT: retq
; CHECK-O3-CUR-NEXT: .LBB116_2: # %untaken		; CHECK-O3-NEXT: .LBB116_2: # %untaken
; CHECK-O3-CUR-NEXT: xorl %eax, %eax		; CHECK-O3-NEXT: xorl %eax, %eax
; CHECK-O3-CUR-NEXT: retq		; CHECK-O3-NEXT: retq
;
; CHECK-O3-EX-LABEL: fold_cmp_over_fence:
; CHECK-O3-EX: # %bb.0:
; CHECK-O3-EX-NEXT: cmpl (%rdi), %esi
; CHECK-O3-EX-NEXT: mfence
; CHECK-O3-EX-NEXT: jne .LBB116_2
; CHECK-O3-EX-NEXT: # %bb.1: # %taken
; CHECK-O3-EX-NEXT: movb $1, %al
; CHECK-O3-EX-NEXT: retq
; CHECK-O3-EX-NEXT: .LBB116_2: # %untaken
; CHECK-O3-EX-NEXT: xorl %eax, %eax
; CHECK-O3-EX-NEXT: retq
%v2 = load atomic i32, i32* %p unordered, align 4		%v2 = load atomic i32, i32* %p unordered, align 4
fence seq_cst		fence seq_cst
%cmp = icmp eq i32 %v1, %v2		%cmp = icmp eq i32 %v1, %v2
br i1 %cmp, label %taken, label %untaken		br i1 %cmp, label %taken, label %untaken
taken:		taken:
ret i1 true		ret i1 true
untaken:		untaken:
ret i1 false		ret i1 false
}		}