This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
lib/
-
Passes/
-
PassBuilder.cpp
-
Transforms/IPO/
-
IPO/
-
PassManagerBuilder.cpp
-
test/
-
CodeGen/AMDGPU/
-
AMDGPU/
-
simplify-libcalls.ll
-
Other/
-
new-pm-defaults.ll
-
new-pm-thinlto-defaults.ll
-
opt-O2-pipeline.ll
-
opt-O3-pipeline.ll
-
opt-Os-pipeline.ll
-
Transforms/
-
LoopVectorize/X86/
-
X86/
1/2
masked_load_store.ll
-
Reassociate/
1/2
reassociate-after-unroll.ll

Differential D61726

[Pass Pipeline] Run another round of reassociation after loop pipeline
AbandonedPublic

Authored by nemanjai on May 9 2019, 5:38 AM.

Download Raw Diff

Details

Reviewers

chandlerc
majnemer
spatel
echristo
tstellar
efriedma

Summary

Unrolling can create code that looks a little silly and InstCombine doesn't clean it up. The test case added in this patch ends up with a series of adds in the loop body rather than a shift and add. Reassociation cleans that type of code up, but we don't run it after unrolling.
This patch just adds another round of reassociation after loop unrolling (similarly to what we do with InstCombine).

Performance measurements on PPC show some improvements on a few benchmarks and no noticeable degradations.

Diff Detail

Repository: rL LLVM

Event Timeline

nemanjai created this revision.May 9 2019, 5:38 AM

Herald added a project: Restricted Project. · View Herald TranscriptMay 9 2019, 5:38 AM

Herald added subscribers: jsji, dexonsmith, steven_wu and 6 others. · View Herald Transcript

nemanjai added a reviewer: tstellar.May 9 2019, 5:39 AM

spatel mentioned this in rL360340: [LoopVectorizer] fix test file to not run the entire -O3 pipeline.May 9 2019, 6:43 AM

spatel mentioned this in rG012adfbb96cb: [LoopVectorizer] fix test file to not run the entire -O3 pipeline.

Whitney added a subscriber: Whitney.May 9 2019, 6:53 AM

The motivation makes sense to me, but someone else should also review this patch in case there's a better way.
We also need to know if there's a compile-time impact. Get data for building test-suite, clang itself, SPEC, or some other benchmarks?

test/Transforms/LoopVectorize/X86/masked_load_store.ll
2–4	Regardless of anything else, this test file was over-reaching, so I fixed that problem: rL360340 If you update/rebase, this should not wiggle with this patch now.
test/Transforms/Reassociate/reassociate-after-unroll.ll
1	This test file belongs in test/Transforms/PhaseOrdering. I prefer to have the baseline test with complete, auto-generated checks (utils/update_test_checks.py) committed as a preliminary step, so we can see the before/after diff in this review. If you're updating the new pass manager in this patch, this test should have another RUN line to exercise/verify that path.

Running reassociate after unroll probably makes sense. But I'd like to see compile-time numbers.

How carefully have you considered the exact placement? It looks like you're using different placement for the legacy vs. new pass manager. Do we want to run before the late LICM pass?

dexonsmith removed a subscriber: dexonsmith.May 9 2019, 11:47 AM

In D61726#1497009, @efriedma wrote:

Running reassociate after unroll probably makes sense. But I'd like to see compile-time numbers.

How carefully have you considered the exact placement? It looks like you're using different placement for the legacy vs. new pass manager. Do we want to run before the late LICM pass?

I will collect some compile time numbers with test-suite.
Regarding placement: I didn't really consider it very careful as I don't really know what the tradeoffs would be for various positions. The one thing that seems clear is that it needs to run after unrolling. However, where in the pipeline after unrolling... I am most certainly open to suggestions and can experiment with a few suggested options.

Thanks again for your feedback.

test/Transforms/LoopVectorize/X86/masked_load_store.ll
2–4	Will do, thank you.
test/Transforms/Reassociate/reassociate-after-unroll.ll
1	I will move it and add a RUN line for the NPM. Thanks for the suggestions.

nemanjai mentioned this in rL360426: [Pass Pipeline][NFC] Add a test prior to committing D61726.May 10 2019, 6:45 AM

nemanjai mentioned this in rGcfc89896e018: [Pass Pipeline][NFC] Add a test prior to committing D61726.

Move the newly added test case and update it to only show the different behaviour (after committing it to show the current behaviour in r360426)
Move the additional run of reassociation before the late LICM pass. I assumed that this is a good place for it in the pipeline since LICM might move things out of the loop and potentially take away some opportunities. This is just based on a weak hunch and I am very much open to suggestions for a better place for this in the pipeline.

I have also run CTMark with and without the patch and it shows a minimal increase in compile time. This was run on a quiet PPC (Power9) machine set up for performance measurements with -j1:

Tests: 10
Metric: compile_time

Program                                        results.base results.modified diff
 test-suite :: CTMark/kimwitu++/kc.test         37.41        37.67            0.7%
 test-suite...ark/tramp3d-v4/tramp3d-v4.test    76.74        77.09            0.4%
 test-suite :: CTMark/Bullet/bullet.test        90.14        90.48            0.4%
 test-suite :: CTMark/SPASS/SPASS.test          42.44        42.57            0.3%
 test-suite...:: CTMark/sqlite3/sqlite3.test    45.18        45.30            0.3%
 test-suite...Mark/mafft/pairlocalalign.test    40.60        40.67            0.2%
 test-suite :: CTMark/lencod/lencod.test        63.90        64.01            0.2%
 test-suite...TMark/7zip/7zip-benchmark.test   134.58       134.78            0.2%
 test-suite...-typeset/consumer-typeset.test    35.08        35.05           -0.1%
 test-suite...:: CTMark/ClamAV/clamscan.test    51.71        51.72            0.0%
 Geomean difference                                                           0.3%
       results.base  results.modified       diff
count  10.000000     10.000000         10.000000
mean   61.778200     61.933290         0.002511
std    31.338327     31.402827         0.002218
min    35.080900     35.050700        -0.000861
25%    41.058275     41.143850         0.001559
50%    48.446250     48.509000         0.002115
75%    73.530500     73.816250         0.003576
max    134.579000    134.781900        0.006955

Looks like the new test is failing: http://lab.llvm.org:8011/builders/clang-cmake-x86_64-avx2-linux/builds/9439/steps/ninja%20check%201/logs/FAIL%3A%20LLVM%3A%3Areassociate-after-unroll.ll

In D61726#1498006, @thakis wrote:

Looks like the new test is failing: http://lab.llvm.org:8011/builders/clang-cmake-x86_64-avx2-linux/builds/9439/steps/ninja%20check%201/logs/FAIL%3A%20LLVM%3A%3Areassociate-after-unroll.ll

Yeah, I pulled it out. I'm sorry about that. I'm not sure how to make this test case work across all targets. Adding the triple didn't seem to work. I'm looking into how to do this.

Adding the triple didn't seem to work

If you're dealing with certain passes like unrolling, they depend on the target actually being compiled, because we query the target for heuristics. You can write something like "REQUIRES: powerpc-registered-target" if necessary.

nemanjai mentioned this in rL360620: [Pass Pipeline][NFC] Add a test prior to committing D61726.May 13 2019, 2:15 PM

nemanjai mentioned this in rG1d662316cbff: [Pass Pipeline][NFC] Add a test prior to committing D61726.

Update the new test case. Thanks @efriedma for the tip.

Herald added a subscriber: kbarton. · View Herald TranscriptMay 13 2019, 6:35 PM

Remove an unrelated change that snuck in by accident.

In D61726#1497988, @nemanjai wrote:

I have also run CTMark with and without the patch and it shows a minimal increase in compile time. This was run on a quiet PPC (Power9) machine set up for performance measurements with -j1:
Geomean difference 0.3%

It would be interesting to see how that result translates on a more typical x86 build machine. Either way, I suspect we'll get different opinions about whether a 0.3% time increase is minimal and whether that cost is worth paying for the runtime perf gains. This might be a case for differentiating between -O2 and -O3?

It would be interesting to see how that result translates on a more typical x86 build machine. Either way, I suspect we'll get different opinions about whether a 0.3% time increase is minimal and whether that cost is worth paying for the runtime perf gains. This might be a case for differentiating between -O2 and -O3?

I don't really have access to a typical x86 server. I can get the numbers on my laptop but I'm not sure how typical that is. Would that suffice?
Also, I am happy to guard this with an -O3 requirement.

In D61726#1502041, @nemanjai wrote:

It would be interesting to see how that result translates on a more typical x86 build machine. Either way, I suspect we'll get different opinions about whether a 0.3% time increase is minimal and whether that cost is worth paying for the runtime perf gains. This might be a case for differentiating between -O2 and -O3?

I don't really have access to a typical x86 server. I can get the numbers on my laptop but I'm not sure how typical that is. Would that suffice?

IMO, it's not required for you to gather more data, but some form of x86 is the common case, so that would be a better data point for most people. If we don't get that experiment pre-commit, then I'd expect some x86 bot to flag this change if it's a problem.

Also, I am happy to guard this with an -O3 requirement.

That would remove potential controversy (again, just my opinion) because that's how we limited 'AggressiveInstCombine', but let's see if anyone else (@efriedma @echristo ?) has a different idea.

-O3 makes sense, probably. I mean, reassociate is unlikely to hurt performance, but a second reassociate pass is unlikely to help much unless some pass like unrolling generates new code after the first reassociate.

Can you post the actual performance results? It's hard to judge whether 0.3% cost across the entire compiler is acceptable without knowing the benefits.

fhahn added a subscriber: fhahn.May 21 2019, 6:06 AM

sidorovd mentioned this in rG80243d9f4eac: [LoopVectorizer] fix test file to not run the entire -O3 pipeline.May 30 2019, 8:57 AM

sidorovd mentioned this in rG98d4e287e73a: [Pass Pipeline][NFC] Add a test prior to committing D61726.May 30 2019, 9:04 AM

sidorovd mentioned this in rG7318ef91d48d: [Pass Pipeline][NFC] Add a test prior to committing D61726.May 30 2019, 9:16 AM

sidorovd mentioned this in rGfbfa5ecce2ac: [LoopVectorizer] fix test file to not run the entire -O3 pipeline.May 30 2019, 10:01 AM

sidorovd mentioned this in rGc1f9ee0e11aa: [Pass Pipeline][NFC] Add a test prior to committing D61726.May 30 2019, 10:06 AM

sidorovd mentioned this in rG94aeb61eeacc: [Pass Pipeline][NFC] Add a test prior to committing D61726.May 30 2019, 10:16 AM

This turns out not to be worth the added compile time.

Herald added subscribers: kerbowa, • wuzish, hiraditya. · View Herald TranscriptMay 22 2020, 3:19 AM

spatel mentioned this in rG2f7c24fe303f: [InstCombine] (A + B) + B --> A + (B << 1).May 22 2020, 9:06 AM

We get a bit of improvement with:
rG2f7c24fe303f
...but it's not ideal. It does provide another case where "early-cse" would help if it ran later.

Revision Contents

Path

Size

lib/

Passes/

PassBuilder.cpp

1 line

Transforms/

IPO/

PassManagerBuilder.cpp

1 line

test/

CodeGen/

AMDGPU/

simplify-libcalls.ll

22 lines

Other/

new-pm-defaults.ll

1 line

new-pm-thinlto-defaults.ll

1 line

opt-O2-pipeline.ll

2 lines

opt-O3-pipeline.ll

2 lines

opt-Os-pipeline.ll

2 lines

Transforms/

LoopVectorize/

X86/

masked_load_store.ll

222 lines

Reassociate/

reassociate-after-unroll.ll

55 lines

Diff 198800

lib/Passes/PassBuilder.cpp

Show First 20 Lines • Show All 925 Lines • ▼ Show 20 Lines	ModulePassManager PassBuilder::buildModuleOptimizationPipeline(
// LoopSink pass sinks instructions hoisted by LICM, which serves as a		// LoopSink pass sinks instructions hoisted by LICM, which serves as a
// canonicalization pass that enables other optimizations. As a result,		// canonicalization pass that enables other optimizations. As a result,
// LoopSink pass needs to be a very late IR pass to avoid undoing LICM		// LoopSink pass needs to be a very late IR pass to avoid undoing LICM
// result too early.		// result too early.
OptimizePM.addPass(LoopSinkPass());		OptimizePM.addPass(LoopSinkPass());

// And finally clean up LCSSA form before generating code.		// And finally clean up LCSSA form before generating code.
OptimizePM.addPass(InstSimplifyPass());		OptimizePM.addPass(InstSimplifyPass());
		OptimizePM.addPass(ReassociatePass());

// This hoists/decomposes div/rem ops. It should run after other sink/hoist		// This hoists/decomposes div/rem ops. It should run after other sink/hoist
// passes to avoid re-sinking, but before SimplifyCFG because it can allow		// passes to avoid re-sinking, but before SimplifyCFG because it can allow
// flattening of blocks.		// flattening of blocks.
OptimizePM.addPass(DivRemPairsPass());		OptimizePM.addPass(DivRemPairsPass());

// LoopSink (and other loop passes since the last simplifyCFG) might have		// LoopSink (and other loop passes since the last simplifyCFG) might have
// resulted in single-entry-single-exit or empty blocks. Clean up the CFG.		// resulted in single-entry-single-exit or empty blocks. Clean up the CFG.
▲ Show 20 Lines • Show All 1,347 Lines • Show Last 20 Lines

lib/Transforms/IPO/PassManagerBuilder.cpp

Show First 20 Lines • Show All 727 Lines • ▼ Show 20 Lines	if (!DisableUnrollLoops) {
// LoopUnroll may generate some redundency to cleanup.		// LoopUnroll may generate some redundency to cleanup.
addInstructionCombiningPass(MPM);		addInstructionCombiningPass(MPM);

// Runtime unrolling will introduce runtime check in loop prologue. If the		// Runtime unrolling will introduce runtime check in loop prologue. If the
// unrolled loop is a inner loop, then the prologue will be inside the		// unrolled loop is a inner loop, then the prologue will be inside the
// outer loop. LICM pass can help to promote the runtime check out if the		// outer loop. LICM pass can help to promote the runtime check out if the
// checked value is loop invariant.		// checked value is loop invariant.
MPM.add(createLICMPass(LicmMssaOptCap, LicmMssaNoAccForPromotionCap));		MPM.add(createLICMPass(LicmMssaOptCap, LicmMssaNoAccForPromotionCap));
		MPM.add(createReassociatePass());
}		}

MPM.add(createWarnMissedTransformationsPass());		MPM.add(createWarnMissedTransformationsPass());

// After vectorization and unrolling, assume intrinsics may tell us more		// After vectorization and unrolling, assume intrinsics may tell us more
// about pointer alignments.		// about pointer alignments.
MPM.add(createAlignmentFromAssumptionsPass());		MPM.add(createAlignmentFromAssumptionsPass());

▲ Show 20 Lines • Show All 384 Lines • Show Last 20 Lines

test/CodeGen/AMDGPU/simplify-libcalls.ll

Show First 20 Lines • Show All 292 Lines • ▼ Show 20 Lines	entry:
%call = tail call fast float @_Z3powff(float %tmp, float -5.000000e-01)		%call = tail call fast float @_Z3powff(float %tmp, float -5.000000e-01)
store float %call, float addrspace(1)* %a, align 4		store float %call, float addrspace(1)* %a, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow_c		; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow_c
; GCN: %__powx2 = fmul fast float %tmp, %tmp		; GCN: %__powx2 = fmul fast float %tmp, %tmp
; GCN: %__powx21 = fmul fast float %__powx2, %__powx2		; GCN: %__powx21 = fmul fast float %__powx2, %__powx2
; GCN: %__powx22 = fmul fast float %__powx2, %tmp		; GCN: %[[r0:.*]] = fmul fast float %__powx2, %tmp
; GCN: %[[r0:.*]] = fmul fast float %__powx21, %__powx21		; GCN: %__powx22 = fmul fast float %[[r0]], %__powx21
; GCN: %__powprod3 = fmul fast float %[[r0]], %__powx22		; GCN: %__powprod3 = fmul fast float %__powx22, %__powx21
define amdgpu_kernel void @test_pow_c(float addrspace(1)* nocapture %a) {		define amdgpu_kernel void @test_pow_c(float addrspace(1)* nocapture %a) {
entry:		entry:
%arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1		%arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1
%tmp = load float, float addrspace(1)* %arrayidx, align 4		%tmp = load float, float addrspace(1)* %arrayidx, align 4
%call = tail call fast float @_Z3powff(float %tmp, float 1.100000e+01)		%call = tail call fast float @_Z3powff(float %tmp, float 1.100000e+01)
store float %call, float addrspace(1)* %a, align 4		store float %call, float addrspace(1)* %a, align 4
ret void		ret void
}		}

; GCN-LABEL: {{^}}define amdgpu_kernel void @test_powr_c		; GCN-LABEL: {{^}}define amdgpu_kernel void @test_powr_c
; GCN: %__powx2 = fmul fast float %tmp, %tmp		; GCN: %__powx2 = fmul fast float %tmp, %tmp
; GCN: %__powx21 = fmul fast float %__powx2, %__powx2		; GCN: %__powx21 = fmul fast float %__powx2, %__powx2
; GCN: %__powx22 = fmul fast float %__powx2, %tmp		; GCN: %[[r0:.*]] = fmul fast float %__powx2, %tmp
; GCN: %[[r0:.*]] = fmul fast float %__powx21, %__powx21		; GCN: %__powx22 = fmul fast float %[[r0]], %__powx21
; GCN: %__powprod3 = fmul fast float %[[r0]], %__powx22		; GCN: %__powprod3 = fmul fast float %__powx22, %__powx21
define amdgpu_kernel void @test_powr_c(float addrspace(1)* nocapture %a) {		define amdgpu_kernel void @test_powr_c(float addrspace(1)* nocapture %a) {
entry:		entry:
%arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1		%arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1
%tmp = load float, float addrspace(1)* %arrayidx, align 4		%tmp = load float, float addrspace(1)* %arrayidx, align 4
%call = tail call fast float @_Z4powrff(float %tmp, float 1.100000e+01)		%call = tail call fast float @_Z4powrff(float %tmp, float 1.100000e+01)
store float %call, float addrspace(1)* %a, align 4		store float %call, float addrspace(1)* %a, align 4
ret void		ret void
}		}

declare float @_Z4powrff(float, float)		declare float @_Z4powrff(float, float)

; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pown_c		; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pown_c
; GCN: %__powx2 = fmul fast float %tmp, %tmp		; GCN: %__powx2 = fmul fast float %tmp, %tmp
; GCN: %__powx21 = fmul fast float %__powx2, %__powx2		; GCN: %__powx21 = fmul fast float %__powx2, %__powx2
; GCN: %__powx22 = fmul fast float %__powx2, %tmp		; GCN: %[[r0:.*]] = fmul fast float %__powx2, %tmp
; GCN: %[[r0:.*]] = fmul fast float %__powx21, %__powx21		; GCN: %__powx22 = fmul fast float %[[r0]], %__powx21
; GCN: %__powprod3 = fmul fast float %[[r0]], %__powx22		; GCN: %__powprod3 = fmul fast float %__powx22, %__powx21
define amdgpu_kernel void @test_pown_c(float addrspace(1)* nocapture %a) {		define amdgpu_kernel void @test_pown_c(float addrspace(1)* nocapture %a) {
entry:		entry:
%arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1		%arrayidx = getelementptr inbounds float, float addrspace(1)* %a, i64 1
%tmp = load float, float addrspace(1)* %arrayidx, align 4		%tmp = load float, float addrspace(1)* %arrayidx, align 4
%call = tail call fast float @_Z4pownfi(float %tmp, i32 11)		%call = tail call fast float @_Z4pownfi(float %tmp, i32 11)
store float %call, float addrspace(1)* %a, align 4		store float %call, float addrspace(1)* %a, align 4
ret void		ret void
}		}

declare float @_Z4pownfi(float, i32)		declare float @_Z4pownfi(float, i32)

; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow		; GCN-LABEL: {{^}}define amdgpu_kernel void @test_pow
; GCN-POSTLINK: tail call fast float @_Z3powff(float %tmp, float 1.013000e+03)		; GCN-POSTLINK: tail call fast float @_Z3powff(float %tmp, float 1.013000e+03)
; GCN-PRELINK: %__fabs = tail call fast float @_Z4fabsf(float %tmp)		; GCN-PRELINK: %__fabs = tail call fast float @_Z4fabsf(float %tmp)
; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %__fabs)		; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %__fabs)
; GCN-PRELINK: %__ylogx = fmul fast float %__log2, 1.013000e+03		; GCN-PRELINK: %__ylogx = fmul fast float %__log2, 1.013000e+03
; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)		; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)
; GCN-PRELINK: %[[r0:.*]] = bitcast float %tmp to i32		; GCN-PRELINK: %[[r0:.*]] = bitcast float %tmp to i32
; GCN-PRELINK: %__pow_sign = and i32 %[[r0]], -2147483648		; GCN-PRELINK: %__pow_sign = and i32 %[[r0]], -2147483648
; GCN-PRELINK: %[[r1:.*]] = bitcast float %__exp2 to i32		; GCN-PRELINK: %[[r1:.*]] = bitcast float %__exp2 to i32
; GCN-PRELINK: %[[r2:.*]] = or i32 %__pow_sign, %[[r1]]		; GCN-PRELINK: %[[r2:.*]] = or i32 %[[r1]], %__pow_sign
; GCN-PRELINK: %[[r3:.]] = bitcast float addrspace(1) %a to i32 addrspace(1)*		; GCN-PRELINK: %[[r3:.]] = bitcast float addrspace(1) %a to i32 addrspace(1)*
; GCN-PRELINK: store i32 %[[r2]], i32 addrspace(1)* %[[r3]], align 4		; GCN-PRELINK: store i32 %[[r2]], i32 addrspace(1)* %[[r3]], align 4
define amdgpu_kernel void @test_pow(float addrspace(1)* nocapture %a) {		define amdgpu_kernel void @test_pow(float addrspace(1)* nocapture %a) {
entry:		entry:
%tmp = load float, float addrspace(1)* %a, align 4		%tmp = load float, float addrspace(1)* %a, align 4
%call = tail call fast float @_Z3powff(float %tmp, float 1.013000e+03)		%call = tail call fast float @_Z3powff(float %tmp, float 1.013000e+03)
store float %call, float addrspace(1)* %a, align 4		store float %call, float addrspace(1)* %a, align 4
ret void		ret void
Show All 26 Lines
; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %__fabs)		; GCN-PRELINK: %__log2 = tail call fast float @_Z4log2f(float %__fabs)
; GCN-PRELINK: %pownI2F = sitofp i32 %conv to float		; GCN-PRELINK: %pownI2F = sitofp i32 %conv to float
; GCN-PRELINK: %__ylogx = fmul fast float %__log2, %pownI2F		; GCN-PRELINK: %__ylogx = fmul fast float %__log2, %pownI2F
; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)		; GCN-PRELINK: %__exp2 = tail call fast float @_Z4exp2f(float %__ylogx)
; GCN-PRELINK: %__yeven = shl i32 %conv, 31		; GCN-PRELINK: %__yeven = shl i32 %conv, 31
; GCN-PRELINK: %[[r0:.*]] = bitcast float %tmp to i32		; GCN-PRELINK: %[[r0:.*]] = bitcast float %tmp to i32
; GCN-PRELINK: %__pow_sign = and i32 %__yeven, %[[r0]]		; GCN-PRELINK: %__pow_sign = and i32 %__yeven, %[[r0]]
; GCN-PRELINK: %[[r1:.*]] = bitcast float %__exp2 to i32		; GCN-PRELINK: %[[r1:.*]] = bitcast float %__exp2 to i32
; GCN-PRELINK: %[[r2:.*]] = or i32 %__pow_sign, %[[r1]]		; GCN-PRELINK: %[[r2:.*]] = or i32 %[[r1]], %__pow_sign
; GCN-PRELINK: %[[r3:.]] = bitcast float addrspace(1) %a to i32 addrspace(1)*		; GCN-PRELINK: %[[r3:.]] = bitcast float addrspace(1) %a to i32 addrspace(1)*
; GCN-PRELINK: store i32 %[[r2]], i32 addrspace(1)* %[[r3]], align 4		; GCN-PRELINK: store i32 %[[r2]], i32 addrspace(1)* %[[r3]], align 4
define amdgpu_kernel void @test_pown(float addrspace(1)* nocapture %a) {		define amdgpu_kernel void @test_pown(float addrspace(1)* nocapture %a) {
entry:		entry:
%tmp = load float, float addrspace(1)* %a, align 4		%tmp = load float, float addrspace(1)* %a, align 4
%arrayidx1 = getelementptr inbounds float, float addrspace(1)* %a, i64 1		%arrayidx1 = getelementptr inbounds float, float addrspace(1)* %a, i64 1
%tmp1 = load float, float addrspace(1)* %arrayidx1, align 4		%tmp1 = load float, float addrspace(1)* %arrayidx1, align 4
%conv = fptosi float %tmp1 to i32		%conv = fptosi float %tmp1 to i32
▲ Show 20 Lines • Show All 385 Lines • Show Last 20 Lines

test/Other/new-pm-defaults.ll

	Show First 20 Lines • Show All 251 Lines • ▼ Show 20 Lines
	; CHECK-O-NEXT: Running pass: FunctionToLoopPassAdaptor<{{.*}}LICMPass			; CHECK-O-NEXT: Running pass: FunctionToLoopPassAdaptor<{{.*}}LICMPass
	; CHECK-O-NEXT: Starting llvm::Function pass manager run.			; CHECK-O-NEXT: Starting llvm::Function pass manager run.
	; CHECK-O-NEXT: Running pass: LoopSimplifyPass			; CHECK-O-NEXT: Running pass: LoopSimplifyPass
	; CHECK-O-NEXT: Running pass: LCSSAPass			; CHECK-O-NEXT: Running pass: LCSSAPass
	; CHECK-O-NEXT: Finished llvm::Function pass manager run.			; CHECK-O-NEXT: Finished llvm::Function pass manager run.
	; CHECK-O-NEXT: Running pass: AlignmentFromAssumptionsPass			; CHECK-O-NEXT: Running pass: AlignmentFromAssumptionsPass
	; CHECK-O-NEXT: Running pass: LoopSinkPass			; CHECK-O-NEXT: Running pass: LoopSinkPass
	; CHECK-O-NEXT: Running pass: InstSimplifyPass			; CHECK-O-NEXT: Running pass: InstSimplifyPass
				; CHECK-O-NEXT: Running pass: ReassociatePass on foo
	; CHECK-O-NEXT: Running pass: DivRemPairsPass			; CHECK-O-NEXT: Running pass: DivRemPairsPass
	; CHECK-O-NEXT: Running pass: SimplifyCFGPass			; CHECK-O-NEXT: Running pass: SimplifyCFGPass
	; CHECK-O-NEXT: Running pass: SpeculateAroundPHIsPass			; CHECK-O-NEXT: Running pass: SpeculateAroundPHIsPass
	; CHECK-EP-OPTIMIZER-LAST: Running pass: NoOpFunctionPass			; CHECK-EP-OPTIMIZER-LAST: Running pass: NoOpFunctionPass
	; CHECK-O-NEXT: Finished llvm::Function pass manager run.			; CHECK-O-NEXT: Finished llvm::Function pass manager run.
	; CHECK-O-NEXT: Running pass: CGProfilePass			; CHECK-O-NEXT: Running pass: CGProfilePass
	; CHECK-O-NEXT: Running pass: GlobalDCEPass			; CHECK-O-NEXT: Running pass: GlobalDCEPass
	; CHECK-O-NEXT: Running pass: ConstantMergePass			; CHECK-O-NEXT: Running pass: ConstantMergePass
	Show All 34 Lines

test/Other/new-pm-thinlto-defaults.ll

	Show First 20 Lines • Show All 225 Lines • ▼ Show 20 Lines
	; CHECK-POSTLINK-O-NEXT: Running pass: FunctionToLoopPassAdaptor<{{.*}}LICMPass			; CHECK-POSTLINK-O-NEXT: Running pass: FunctionToLoopPassAdaptor<{{.*}}LICMPass
	; CHECK-POSTLINK-O-NEXT: Starting llvm::Function pass manager run			; CHECK-POSTLINK-O-NEXT: Starting llvm::Function pass manager run
	; CHECK-POSTLINK-O-NEXT: Running pass: LoopSimplifyPass			; CHECK-POSTLINK-O-NEXT: Running pass: LoopSimplifyPass
	; CHECK-POSTLINK-O-NEXT: Running pass: LCSSAPass			; CHECK-POSTLINK-O-NEXT: Running pass: LCSSAPass
	; CHECK-POSTLINK-O-NEXT: Finished llvm::Function pass manager run			; CHECK-POSTLINK-O-NEXT: Finished llvm::Function pass manager run
	; CHECK-POSTLINK-O-NEXT: Running pass: AlignmentFromAssumptionsPass			; CHECK-POSTLINK-O-NEXT: Running pass: AlignmentFromAssumptionsPass
	; CHECK-POSTLINK-O-NEXT: Running pass: LoopSinkPass			; CHECK-POSTLINK-O-NEXT: Running pass: LoopSinkPass
	; CHECK-POSTLINK-O-NEXT: Running pass: InstSimplifyPass			; CHECK-POSTLINK-O-NEXT: Running pass: InstSimplifyPass
				; CHECK-POSTLINK-O-NEXT: Running pass: ReassociatePass
	; CHECK-POSTLINK-O-NEXT: Running pass: DivRemPairsPass			; CHECK-POSTLINK-O-NEXT: Running pass: DivRemPairsPass
	; CHECK-POSTLINK-O-NEXT: Running pass: SimplifyCFGPass			; CHECK-POSTLINK-O-NEXT: Running pass: SimplifyCFGPass
	; CHECK-POSTLINK-O-NEXT: Running pass: SpeculateAroundPHIsPass			; CHECK-POSTLINK-O-NEXT: Running pass: SpeculateAroundPHIsPass
	; CHECK-POSTLINK-O-NEXT: Finished llvm::Function pass manager run.			; CHECK-POSTLINK-O-NEXT: Finished llvm::Function pass manager run.
	; CHECK-POSTLINK-O-NEXT: Running pass: CGProfilePass			; CHECK-POSTLINK-O-NEXT: Running pass: CGProfilePass
	; CHECK-POSTLINK-O-NEXT: Running pass: GlobalDCEPass			; CHECK-POSTLINK-O-NEXT: Running pass: GlobalDCEPass
	; CHECK-POSTLINK-O-NEXT: Running pass: ConstantMergePass			; CHECK-POSTLINK-O-NEXT: Running pass: ConstantMergePass
	; CHECK-POSTLINK-O-NEXT: Finished llvm::Module pass manager run.			; CHECK-POSTLINK-O-NEXT: Finished llvm::Module pass manager run.
	Show All 34 Lines

test/Other/opt-O2-pipeline.ll

	Show First 20 Lines • Show All 246 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Optimization Remark Emitter			; CHECK-NEXT: Optimization Remark Emitter
	; CHECK-NEXT: Combine redundant instructions			; CHECK-NEXT: Combine redundant instructions
	; CHECK-NEXT: Canonicalize natural loops			; CHECK-NEXT: Canonicalize natural loops
	; CHECK-NEXT: LCSSA Verifier			; CHECK-NEXT: LCSSA Verifier
	; CHECK-NEXT: Loop-Closed SSA Form Pass			; CHECK-NEXT: Loop-Closed SSA Form Pass
	; CHECK-NEXT: Scalar Evolution Analysis			; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Loop Pass Manager			; CHECK-NEXT: Loop Pass Manager
	; CHECK-NEXT: Loop Invariant Code Motion			; CHECK-NEXT: Loop Invariant Code Motion
				; CHECK-NEXT: Reassociate expressions
	; CHECK-NEXT: Lazy Branch Probability Analysis			; CHECK-NEXT: Lazy Branch Probability Analysis
	; CHECK-NEXT: Lazy Block Frequency Analysis			; CHECK-NEXT: Lazy Block Frequency Analysis
	; CHECK-NEXT: Optimization Remark Emitter			; CHECK-NEXT: Optimization Remark Emitter
	; CHECK-NEXT: Warn about non-applied transformations			; CHECK-NEXT: Warn about non-applied transformations
				; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Alignment from assumptions			; CHECK-NEXT: Alignment from assumptions
	; CHECK-NEXT: Strip Unused Function Prototypes			; CHECK-NEXT: Strip Unused Function Prototypes
	; CHECK-NEXT: Dead Global Elimination			; CHECK-NEXT: Dead Global Elimination
	; CHECK-NEXT: Merge Duplicate Global Constants			; CHECK-NEXT: Merge Duplicate Global Constants
	; CHECK-NEXT: FunctionPass Manager			; CHECK-NEXT: FunctionPass Manager
	; CHECK-NEXT: Dominator Tree Construction			; CHECK-NEXT: Dominator Tree Construction
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Branch Probability Analysis			; CHECK-NEXT: Branch Probability Analysis
	Show All 39 Lines

test/Other/opt-O3-pipeline.ll

	Show First 20 Lines • Show All 251 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Optimization Remark Emitter			; CHECK-NEXT: Optimization Remark Emitter
	; CHECK-NEXT: Combine redundant instructions			; CHECK-NEXT: Combine redundant instructions
	; CHECK-NEXT: Canonicalize natural loops			; CHECK-NEXT: Canonicalize natural loops
	; CHECK-NEXT: LCSSA Verifier			; CHECK-NEXT: LCSSA Verifier
	; CHECK-NEXT: Loop-Closed SSA Form Pass			; CHECK-NEXT: Loop-Closed SSA Form Pass
	; CHECK-NEXT: Scalar Evolution Analysis			; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Loop Pass Manager			; CHECK-NEXT: Loop Pass Manager
	; CHECK-NEXT: Loop Invariant Code Motion			; CHECK-NEXT: Loop Invariant Code Motion
				; CHECK-NEXT: Reassociate expressions
	; CHECK-NEXT: Lazy Branch Probability Analysis			; CHECK-NEXT: Lazy Branch Probability Analysis
	; CHECK-NEXT: Lazy Block Frequency Analysis			; CHECK-NEXT: Lazy Block Frequency Analysis
	; CHECK-NEXT: Optimization Remark Emitter			; CHECK-NEXT: Optimization Remark Emitter
	; CHECK-NEXT: Warn about non-applied transformations			; CHECK-NEXT: Warn about non-applied transformations
				; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Alignment from assumptions			; CHECK-NEXT: Alignment from assumptions
	; CHECK-NEXT: Strip Unused Function Prototypes			; CHECK-NEXT: Strip Unused Function Prototypes
	; CHECK-NEXT: Dead Global Elimination			; CHECK-NEXT: Dead Global Elimination
	; CHECK-NEXT: Merge Duplicate Global Constants			; CHECK-NEXT: Merge Duplicate Global Constants
	; CHECK-NEXT: FunctionPass Manager			; CHECK-NEXT: FunctionPass Manager
	; CHECK-NEXT: Dominator Tree Construction			; CHECK-NEXT: Dominator Tree Construction
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Branch Probability Analysis			; CHECK-NEXT: Branch Probability Analysis
	Show All 39 Lines

test/Other/opt-Os-pipeline.ll

	Show First 20 Lines • Show All 233 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: Optimization Remark Emitter			; CHECK-NEXT: Optimization Remark Emitter
	; CHECK-NEXT: Combine redundant instructions			; CHECK-NEXT: Combine redundant instructions
	; CHECK-NEXT: Canonicalize natural loops			; CHECK-NEXT: Canonicalize natural loops
	; CHECK-NEXT: LCSSA Verifier			; CHECK-NEXT: LCSSA Verifier
	; CHECK-NEXT: Loop-Closed SSA Form Pass			; CHECK-NEXT: Loop-Closed SSA Form Pass
	; CHECK-NEXT: Scalar Evolution Analysis			; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Loop Pass Manager			; CHECK-NEXT: Loop Pass Manager
	; CHECK-NEXT: Loop Invariant Code Motion			; CHECK-NEXT: Loop Invariant Code Motion
				; CHECK-NEXT: Reassociate expressions
	; CHECK-NEXT: Lazy Branch Probability Analysis			; CHECK-NEXT: Lazy Branch Probability Analysis
	; CHECK-NEXT: Lazy Block Frequency Analysis			; CHECK-NEXT: Lazy Block Frequency Analysis
	; CHECK-NEXT: Optimization Remark Emitter			; CHECK-NEXT: Optimization Remark Emitter
	; CHECK-NEXT: Warn about non-applied transformations			; CHECK-NEXT: Warn about non-applied transformations
				; CHECK-NEXT: Scalar Evolution Analysis
	; CHECK-NEXT: Alignment from assumptions			; CHECK-NEXT: Alignment from assumptions
	; CHECK-NEXT: Strip Unused Function Prototypes			; CHECK-NEXT: Strip Unused Function Prototypes
	; CHECK-NEXT: Dead Global Elimination			; CHECK-NEXT: Dead Global Elimination
	; CHECK-NEXT: Merge Duplicate Global Constants			; CHECK-NEXT: Merge Duplicate Global Constants
	; CHECK-NEXT: FunctionPass Manager			; CHECK-NEXT: FunctionPass Manager
	; CHECK-NEXT: Dominator Tree Construction			; CHECK-NEXT: Dominator Tree Construction
	; CHECK-NEXT: Natural Loop Information			; CHECK-NEXT: Natural Loop Information
	; CHECK-NEXT: Branch Probability Analysis			; CHECK-NEXT: Branch Probability Analysis
	Show All 39 Lines

test/Transforms/LoopVectorize/X86/masked_load_store.ll

	; NOTE: Assertions have been autogenerated by utils/update_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_test_checks.py
	; RUN: opt < %s -O3 -mcpu=corei7-avx -S \| FileCheck %s -check-prefix=AVX -check-prefix=AVX1			; RUN: opt < %s -O3 -mcpu=corei7-avx -S \| FileCheck %s -check-prefix=AVX -check-prefix=AVX1
	; RUN: opt < %s -O3 -mcpu=core-avx2 -S \| FileCheck %s -check-prefix=AVX -check-prefix=AVX2			; RUN: opt < %s -O3 -mcpu=core-avx2 -S \| FileCheck %s -check-prefix=AVX -check-prefix=AVX2
	; RUN: opt < %s -O3 -mcpu=knl -S \| FileCheck %s -check-prefix=AVX512			; RUN: opt < %s -O3 -mcpu=knl -S \| FileCheck %s -check-prefix=AVX512
				spatelUnsubmitted Not Done Reply Inline Actions Regardless of anything else, this test file was over-reaching, so I fixed that problem: rL360340 If you update/rebase, this should not wiggle with this patch now. spatel: Regardless of anything else, this test file was over-reaching, so I fixed that problem…
				nemanjaiAuthorUnsubmitted Done Reply Inline Actions Will do, thank you. nemanjai: Will do, thank you.

	target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"			target datalayout = "e-m:e-i64:64-f80:128-n8:16:32:64-S128"
	target triple = "x86_64-pc_linux"			target triple = "x86_64-pc_linux"

	; The source code:			; The source code:
	;			;
	;void foo1(int A, int B, int *trigger) {			;void foo1(int A, int B, int *trigger) {
	;			;
	; for (int i=0; i<10000; i++) {			; for (int i=0; i<10000; i++) {
	; if (trigger[i] < 100) {			; if (trigger[i] < 100) {
	; A[i] = B[i] + trigger[i];			; A[i] = B[i] + trigger[i];
	; }			; }
	; }			; }
	;}			;}

	; Function Attrs: nounwind uwtable			; Function Attrs: nounwind uwtable
	define void @foo1(i32* %A, i32* %B, i32* %trigger) {			define void @foo1(i32* %A, i32* %B, i32* %trigger) {
	; AVX1-LABEL: @foo1(			; AVX1-LABEL: @foo1(
	; AVX1-NEXT: entry:			; AVX1-NEXT: entry:
	; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 [[A:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 [[A:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 [[B:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 [[B:%.*]], i64 10000
	; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt i32 [[SCEVGEP11]], [[A]]			; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt i32 [[SCEVGEP11]], [[A]]
	; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[SCEVGEP]], [[TRIGGER]]			; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[SCEVGEP]], [[TRIGGER]]
	; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt i32 [[SCEVGEP14]], [[A]]			; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt i32 [[SCEVGEP14]], [[A]]
	; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt i32 [[SCEVGEP]], [[B]]			; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt i32 [[SCEVGEP]], [[B]]
	; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX1: vector.body:			; AVX1: vector.body:
	; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX1-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX1-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to <8 x i32>*			; AVX1-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to <8 x i32>*
	; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP1]], align 4, !alias.scope !0			; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP1]], align 4, !alias.scope !0
	; AVX1-NEXT: [[TMP2:%.*]] = icmp slt <8 x i32> [[WIDE_LOAD]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>			; AVX1-NEXT: [[TMP2:%.*]] = icmp slt <8 x i32> [[WIDE_LOAD]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>
	; AVX1-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[B]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[B]], i64 [[INDEX]]
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; AVX2-LABEL: @foo1(			; AVX2-LABEL: @foo1(
	; AVX2-NEXT: entry:			; AVX2-NEXT: entry:
	; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 [[A:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 [[A:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 [[B:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 [[B:%.*]], i64 10000
	; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt i32 [[SCEVGEP11]], [[A]]			; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt i32 [[SCEVGEP11]], [[A]]
	; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[SCEVGEP]], [[TRIGGER]]			; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[SCEVGEP]], [[TRIGGER]]
	; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt i32 [[SCEVGEP14]], [[A]]			; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt i32 [[SCEVGEP14]], [[A]]
	; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt i32 [[SCEVGEP]], [[B]]			; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt i32 [[SCEVGEP]], [[B]]
	; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX2: vector.body:			; AVX2: vector.body:
	; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX2-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX2-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX2-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to <8 x i32>*			; AVX2-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to <8 x i32>*
	; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP1]], align 4, !alias.scope !0			; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP1]], align 4, !alias.scope !0
	; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TMP0]], i64 8			; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TMP0]], i64 8
	; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*			; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	;			;
	; AVX512-LABEL: @foo1(			; AVX512-LABEL: @foo1(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 [[A:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 [[A:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 [[B:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 [[B:%.*]], i64 10000
	; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt i32 [[SCEVGEP11]], [[A]]			; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt i32 [[SCEVGEP11]], [[A]]
	; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[SCEVGEP]], [[TRIGGER]]			; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[SCEVGEP]], [[TRIGGER]]
	; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt i32 [[SCEVGEP14]], [[A]]			; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt i32 [[SCEVGEP14]], [[A]]
	; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt i32 [[SCEVGEP]], [[B]]			; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt i32 [[SCEVGEP]], [[B]]
	; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX512: vector.body:			; AVX512: vector.body:
	; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX512-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX512-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX512-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to <16 x i32>*			; AVX512-NEXT: [[TMP1:%.]] = bitcast i32 [[TMP0]] to <16 x i32>*
	; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <16 x i32>, <16 x i32> [[TMP1]], align 4, !alias.scope !0			; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <16 x i32>, <16 x i32> [[TMP1]], align 4, !alias.scope !0
	; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TMP0]], i64 16			; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TMP0]], i64 16
	; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <16 x i32>*			; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <16 x i32>*
	▲ Show 20 Lines • Show All 209 Lines • ▼ Show 20 Lines
	define void @foo1_addrspace1(i32 addrspace(1)* %A, i32 addrspace(1)* %B, i32 addrspace(1)* %trigger) {			define void @foo1_addrspace1(i32 addrspace(1)* %A, i32 addrspace(1)* %B, i32 addrspace(1)* %trigger) {
	; AVX1-LABEL: @foo1_addrspace1(			; AVX1-LABEL: @foo1_addrspace1(
	; AVX1-NEXT: entry:			; AVX1-NEXT: entry:
	; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 addrspace(1) [[A:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 addrspace(1) [[A:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 addrspace(1) [[TRIGGER:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 addrspace(1) [[TRIGGER:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 addrspace(1) [[B:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 addrspace(1) [[B:%.*]], i64 10000
	; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP11]], [[A]]			; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP11]], [[A]]
	; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[TRIGGER]]			; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[TRIGGER]]
	; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP14]], [[A]]			; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP14]], [[A]]
	; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[B]]			; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[B]]
	; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX1: vector.body:			; AVX1: vector.body:
	; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX1-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TRIGGER]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TRIGGER]], i64 [[INDEX]]
	; AVX1-NEXT: [[TMP1:%.]] = bitcast i32 addrspace(1) [[TMP0]] to <8 x i32> addrspace(1)*			; AVX1-NEXT: [[TMP1:%.]] = bitcast i32 addrspace(1) [[TMP0]] to <8 x i32> addrspace(1)*
	; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> addrspace(1) [[TMP1]], align 4, !alias.scope !11			; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> addrspace(1) [[TMP1]], align 4, !alias.scope !11
	; AVX1-NEXT: [[TMP2:%.*]] = icmp slt <8 x i32> [[WIDE_LOAD]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>			; AVX1-NEXT: [[TMP2:%.*]] = icmp slt <8 x i32> [[WIDE_LOAD]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>
	; AVX1-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[B]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[B]], i64 [[INDEX]]
	▲ Show 20 Lines • Show All 53 Lines • ▼ Show 20 Lines
	;			;
	; AVX2-LABEL: @foo1_addrspace1(			; AVX2-LABEL: @foo1_addrspace1(
	; AVX2-NEXT: entry:			; AVX2-NEXT: entry:
	; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 addrspace(1) [[A:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 addrspace(1) [[A:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 addrspace(1) [[TRIGGER:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 addrspace(1) [[TRIGGER:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 addrspace(1) [[B:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 addrspace(1) [[B:%.*]], i64 10000
	; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP11]], [[A]]			; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP11]], [[A]]
	; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[TRIGGER]]			; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[TRIGGER]]
	; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP14]], [[A]]			; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP14]], [[A]]
	; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[B]]			; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[B]]
	; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX2: vector.body:			; AVX2: vector.body:
	; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX2-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TRIGGER]], i64 [[INDEX]]			; AVX2-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TRIGGER]], i64 [[INDEX]]
	; AVX2-NEXT: [[TMP1:%.]] = bitcast i32 addrspace(1) [[TMP0]] to <8 x i32> addrspace(1)*			; AVX2-NEXT: [[TMP1:%.]] = bitcast i32 addrspace(1) [[TMP0]] to <8 x i32> addrspace(1)*
	; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> addrspace(1) [[TMP1]], align 4, !alias.scope !11			; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> addrspace(1) [[TMP1]], align 4, !alias.scope !11
	; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TMP0]], i64 8			; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TMP0]], i64 8
	; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 addrspace(1) [[TMP2]] to <8 x i32> addrspace(1)*			; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 addrspace(1) [[TMP2]] to <8 x i32> addrspace(1)*
	▲ Show 20 Lines • Show All 148 Lines • ▼ Show 20 Lines
	;			;
	; AVX512-LABEL: @foo1_addrspace1(			; AVX512-LABEL: @foo1_addrspace1(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 addrspace(1) [[A:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr i32, i32 addrspace(1) [[A:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 addrspace(1) [[TRIGGER:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 addrspace(1) [[TRIGGER:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 addrspace(1) [[B:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr i32, i32 addrspace(1) [[B:%.*]], i64 10000
	; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP11]], [[A]]			; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP11]], [[A]]
	; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[TRIGGER]]			; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[TRIGGER]]
	; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP14]], [[A]]			; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP14]], [[A]]
	; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[B]]			; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt i32 addrspace(1) [[SCEVGEP]], [[B]]
	; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX512: vector.body:			; AVX512: vector.body:
	; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_1:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX512-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TRIGGER]], i64 [[INDEX]]			; AVX512-NEXT: [[TMP0:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TRIGGER]], i64 [[INDEX]]
	; AVX512-NEXT: [[TMP1:%.]] = bitcast i32 addrspace(1) [[TMP0]] to <16 x i32> addrspace(1)*			; AVX512-NEXT: [[TMP1:%.]] = bitcast i32 addrspace(1) [[TMP0]] to <16 x i32> addrspace(1)*
	; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <16 x i32>, <16 x i32> addrspace(1) [[TMP1]], align 4, !alias.scope !11			; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <16 x i32>, <16 x i32> addrspace(1) [[TMP1]], align 4, !alias.scope !11
	; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TMP0]], i64 16			; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 addrspace(1) [[TMP0]], i64 16
	; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 addrspace(1) [[TMP2]] to <16 x i32> addrspace(1)*			; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 addrspace(1) [[TMP2]] to <16 x i32> addrspace(1)*
	▲ Show 20 Lines • Show All 220 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: entry:			; AVX1-NEXT: entry:
	; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr float, float [[A:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr float, float [[A:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr float, float [[B:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr float, float [[B:%.*]], i64 10000
	; AVX1-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to float*			; AVX1-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to float*
	; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt float [[TMP0]], [[A]]			; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt float [[TMP0]], [[A]]
	; AVX1-NEXT: [[TMP1:%.]] = bitcast float [[SCEVGEP]] to i32*			; AVX1-NEXT: [[TMP1:%.]] = bitcast float [[SCEVGEP]] to i32*
	; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt float [[SCEVGEP14]], [[A]]			; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt float [[SCEVGEP14]], [[A]]
	; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt float [[SCEVGEP]], [[B]]			; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt float [[SCEVGEP]], [[B]]
	; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX1: vector.body:			; AVX1: vector.body:
	; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX1-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX1-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*			; AVX1-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*
	; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP3]], align 4, !alias.scope !21			; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP3]], align 4, !alias.scope !21
	; AVX1-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 8			; AVX1-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 8
	; AVX1-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <8 x i32>*			; AVX1-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <8 x i32>*
	Show All 19 Lines
	; AVX1-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP19]], i32 4, <8 x i1> [[TMP12]], <8 x float> undef), !alias.scope !24			; AVX1-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP19]], i32 4, <8 x i1> [[TMP12]], <8 x float> undef), !alias.scope !24
	; AVX1-NEXT: [[TMP20:%.]] = getelementptr inbounds float, float [[TMP14]], i64 24			; AVX1-NEXT: [[TMP20:%.]] = getelementptr inbounds float, float [[TMP14]], i64 24
	; AVX1-NEXT: [[TMP21:%.]] = bitcast float [[TMP20]] to <8 x float>*			; AVX1-NEXT: [[TMP21:%.]] = bitcast float [[TMP20]] to <8 x float>*
	; AVX1-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP21]], i32 4, <8 x i1> [[TMP13]], <8 x float> undef), !alias.scope !24			; AVX1-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP21]], i32 4, <8 x i1> [[TMP13]], <8 x float> undef), !alias.scope !24
	; AVX1-NEXT: [[TMP22:%.*]] = sitofp <8 x i32> [[WIDE_LOAD]] to <8 x float>			; AVX1-NEXT: [[TMP22:%.*]] = sitofp <8 x i32> [[WIDE_LOAD]] to <8 x float>
	; AVX1-NEXT: [[TMP23:%.*]] = sitofp <8 x i32> [[WIDE_LOAD22]] to <8 x float>			; AVX1-NEXT: [[TMP23:%.*]] = sitofp <8 x i32> [[WIDE_LOAD22]] to <8 x float>
	; AVX1-NEXT: [[TMP24:%.*]] = sitofp <8 x i32> [[WIDE_LOAD23]] to <8 x float>			; AVX1-NEXT: [[TMP24:%.*]] = sitofp <8 x i32> [[WIDE_LOAD23]] to <8 x float>
	; AVX1-NEXT: [[TMP25:%.*]] = sitofp <8 x i32> [[WIDE_LOAD24]] to <8 x float>			; AVX1-NEXT: [[TMP25:%.*]] = sitofp <8 x i32> [[WIDE_LOAD24]] to <8 x float>
	; AVX1-NEXT: [[TMP26:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD]], [[TMP22]]			; AVX1-NEXT: [[TMP26:%.*]] = fadd <8 x float> [[TMP22]], [[WIDE_MASKED_LOAD]]
	; AVX1-NEXT: [[TMP27:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD25]], [[TMP23]]			; AVX1-NEXT: [[TMP27:%.*]] = fadd <8 x float> [[TMP23]], [[WIDE_MASKED_LOAD25]]
	; AVX1-NEXT: [[TMP28:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD26]], [[TMP24]]			; AVX1-NEXT: [[TMP28:%.*]] = fadd <8 x float> [[TMP24]], [[WIDE_MASKED_LOAD26]]
	; AVX1-NEXT: [[TMP29:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD27]], [[TMP25]]			; AVX1-NEXT: [[TMP29:%.*]] = fadd <8 x float> [[TMP25]], [[WIDE_MASKED_LOAD27]]
	; AVX1-NEXT: [[TMP30:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP30:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDEX]]
	; AVX1-NEXT: [[TMP31:%.]] = bitcast float [[TMP30]] to <8 x float>*			; AVX1-NEXT: [[TMP31:%.]] = bitcast float [[TMP30]] to <8 x float>*
	; AVX1-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP26]], <8 x float>* [[TMP31]], i32 4, <8 x i1> [[TMP10]]), !alias.scope !26, !noalias !28			; AVX1-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP26]], <8 x float>* [[TMP31]], i32 4, <8 x i1> [[TMP10]]), !alias.scope !26, !noalias !28
	; AVX1-NEXT: [[TMP32:%.]] = getelementptr inbounds float, float [[TMP30]], i64 8			; AVX1-NEXT: [[TMP32:%.]] = getelementptr inbounds float, float [[TMP30]], i64 8
	; AVX1-NEXT: [[TMP33:%.]] = bitcast float [[TMP32]] to <8 x float>*			; AVX1-NEXT: [[TMP33:%.]] = bitcast float [[TMP32]] to <8 x float>*
	; AVX1-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP27]], <8 x float>* [[TMP33]], i32 4, <8 x i1> [[TMP11]]), !alias.scope !26, !noalias !28			; AVX1-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP27]], <8 x float>* [[TMP33]], i32 4, <8 x i1> [[TMP11]]), !alias.scope !26, !noalias !28
	; AVX1-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP30]], i64 16			; AVX1-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP30]], i64 16
	; AVX1-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <8 x float>*			; AVX1-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <8 x float>*
	Show All 12 Lines
	; AVX1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX1-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX1-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100			; AVX1-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100
	; AVX1-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX1-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX1: if.then:			; AVX1: if.then:
	; AVX1-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: [[TMP40:%.]] = load float, float [[ARRAYIDX3]], align 4			; AVX1-NEXT: [[TMP40:%.]] = load float, float [[ARRAYIDX3]], align 4
	; AVX1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to float			; AVX1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to float
	; AVX1-NEXT: [[ADD:%.*]] = fadd float [[TMP40]], [[CONV]]			; AVX1-NEXT: [[ADD:%.*]] = fadd float [[CONV]], [[TMP40]]
	; AVX1-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: store float [[ADD]], float* [[ARRAYIDX7]], align 4			; AVX1-NEXT: store float [[ADD]], float* [[ARRAYIDX7]], align 4
	; AVX1-NEXT: br label [[FOR_INC]]			; AVX1-NEXT: br label [[FOR_INC]]
	; AVX1: for.inc:			; AVX1: for.inc:
	; AVX1-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1			; AVX1-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1
	; AVX1-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX1-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX1-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100			; AVX1-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100
	; AVX1-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.*]], label [[FOR_INC_1]]			; AVX1-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.*]], label [[FOR_INC_1]]
	; AVX1: for.end:			; AVX1: for.end:
	; AVX1-NEXT: ret void			; AVX1-NEXT: ret void
	; AVX1: if.then.1:			; AVX1: if.then.1:
	; AVX1-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: [[TMP42:%.]] = load float, float [[ARRAYIDX3_1]], align 4			; AVX1-NEXT: [[TMP42:%.]] = load float, float [[ARRAYIDX3_1]], align 4
	; AVX1-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to float			; AVX1-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to float
	; AVX1-NEXT: [[ADD_1:%.*]] = fadd float [[TMP42]], [[CONV_1]]			; AVX1-NEXT: [[ADD_1:%.*]] = fadd float [[CONV_1]], [[TMP42]]
	; AVX1-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: store float [[ADD_1]], float* [[ARRAYIDX7_1]], align 4			; AVX1-NEXT: store float [[ADD_1]], float* [[ARRAYIDX7_1]], align 4
	; AVX1-NEXT: br label [[FOR_INC_1]]			; AVX1-NEXT: br label [[FOR_INC_1]]
	; AVX1: for.inc.1:			; AVX1: for.inc.1:
	; AVX1-NEXT: [[INDVARS_IV_NEXT_1]] = add nuw nsw i64 [[INDVARS_IV]], 2			; AVX1-NEXT: [[INDVARS_IV_NEXT_1]] = add nuw nsw i64 [[INDVARS_IV]], 2
	; AVX1-NEXT: [[EXITCOND_1:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_1]], 10000			; AVX1-NEXT: [[EXITCOND_1:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_1]], 10000
	; AVX1-NEXT: br i1 [[EXITCOND_1]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !30			; AVX1-NEXT: br i1 [[EXITCOND_1]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !30
	;			;
	; AVX2-LABEL: @foo2(			; AVX2-LABEL: @foo2(
	; AVX2-NEXT: entry:			; AVX2-NEXT: entry:
	; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr float, float [[A:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr float, float [[A:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr float, float [[B:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr float, float [[B:%.*]], i64 10000
	; AVX2-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to float*			; AVX2-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to float*
	; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt float [[TMP0]], [[A]]			; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt float [[TMP0]], [[A]]
	; AVX2-NEXT: [[TMP1:%.]] = bitcast float [[SCEVGEP]] to i32*			; AVX2-NEXT: [[TMP1:%.]] = bitcast float [[SCEVGEP]] to i32*
	; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt float [[SCEVGEP14]], [[A]]			; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt float [[SCEVGEP14]], [[A]]
	; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt float [[SCEVGEP]], [[B]]			; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt float [[SCEVGEP]], [[B]]
	; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX2: vector.body:			; AVX2: vector.body:
	; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*			; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*
	; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP3]], align 4, !alias.scope !21			; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP3]], align 4, !alias.scope !21
	; AVX2-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 8			; AVX2-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 8
	; AVX2-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <8 x i32>*			; AVX2-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <8 x i32>*
	Show All 19 Lines
	; AVX2-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP19]], i32 4, <8 x i1> [[TMP12]], <8 x float> undef), !alias.scope !24			; AVX2-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP19]], i32 4, <8 x i1> [[TMP12]], <8 x float> undef), !alias.scope !24
	; AVX2-NEXT: [[TMP20:%.]] = getelementptr inbounds float, float [[TMP14]], i64 24			; AVX2-NEXT: [[TMP20:%.]] = getelementptr inbounds float, float [[TMP14]], i64 24
	; AVX2-NEXT: [[TMP21:%.]] = bitcast float [[TMP20]] to <8 x float>*			; AVX2-NEXT: [[TMP21:%.]] = bitcast float [[TMP20]] to <8 x float>*
	; AVX2-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP21]], i32 4, <8 x i1> [[TMP13]], <8 x float> undef), !alias.scope !24			; AVX2-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <8 x float> @llvm.masked.load.v8f32.p0v8f32(<8 x float> nonnull [[TMP21]], i32 4, <8 x i1> [[TMP13]], <8 x float> undef), !alias.scope !24
	; AVX2-NEXT: [[TMP22:%.*]] = sitofp <8 x i32> [[WIDE_LOAD]] to <8 x float>			; AVX2-NEXT: [[TMP22:%.*]] = sitofp <8 x i32> [[WIDE_LOAD]] to <8 x float>
	; AVX2-NEXT: [[TMP23:%.*]] = sitofp <8 x i32> [[WIDE_LOAD22]] to <8 x float>			; AVX2-NEXT: [[TMP23:%.*]] = sitofp <8 x i32> [[WIDE_LOAD22]] to <8 x float>
	; AVX2-NEXT: [[TMP24:%.*]] = sitofp <8 x i32> [[WIDE_LOAD23]] to <8 x float>			; AVX2-NEXT: [[TMP24:%.*]] = sitofp <8 x i32> [[WIDE_LOAD23]] to <8 x float>
	; AVX2-NEXT: [[TMP25:%.*]] = sitofp <8 x i32> [[WIDE_LOAD24]] to <8 x float>			; AVX2-NEXT: [[TMP25:%.*]] = sitofp <8 x i32> [[WIDE_LOAD24]] to <8 x float>
	; AVX2-NEXT: [[TMP26:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD]], [[TMP22]]			; AVX2-NEXT: [[TMP26:%.*]] = fadd <8 x float> [[TMP22]], [[WIDE_MASKED_LOAD]]
	; AVX2-NEXT: [[TMP27:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD25]], [[TMP23]]			; AVX2-NEXT: [[TMP27:%.*]] = fadd <8 x float> [[TMP23]], [[WIDE_MASKED_LOAD25]]
	; AVX2-NEXT: [[TMP28:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD26]], [[TMP24]]			; AVX2-NEXT: [[TMP28:%.*]] = fadd <8 x float> [[TMP24]], [[WIDE_MASKED_LOAD26]]
	; AVX2-NEXT: [[TMP29:%.*]] = fadd <8 x float> [[WIDE_MASKED_LOAD27]], [[TMP25]]			; AVX2-NEXT: [[TMP29:%.*]] = fadd <8 x float> [[TMP25]], [[WIDE_MASKED_LOAD27]]
	; AVX2-NEXT: [[TMP30:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDEX]]			; AVX2-NEXT: [[TMP30:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDEX]]
	; AVX2-NEXT: [[TMP31:%.]] = bitcast float [[TMP30]] to <8 x float>*			; AVX2-NEXT: [[TMP31:%.]] = bitcast float [[TMP30]] to <8 x float>*
	; AVX2-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP26]], <8 x float>* [[TMP31]], i32 4, <8 x i1> [[TMP10]]), !alias.scope !26, !noalias !28			; AVX2-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP26]], <8 x float>* [[TMP31]], i32 4, <8 x i1> [[TMP10]]), !alias.scope !26, !noalias !28
	; AVX2-NEXT: [[TMP32:%.]] = getelementptr inbounds float, float [[TMP30]], i64 8			; AVX2-NEXT: [[TMP32:%.]] = getelementptr inbounds float, float [[TMP30]], i64 8
	; AVX2-NEXT: [[TMP33:%.]] = bitcast float [[TMP32]] to <8 x float>*			; AVX2-NEXT: [[TMP33:%.]] = bitcast float [[TMP32]] to <8 x float>*
	; AVX2-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP27]], <8 x float>* [[TMP33]], i32 4, <8 x i1> [[TMP11]]), !alias.scope !26, !noalias !28			; AVX2-NEXT: call void @llvm.masked.store.v8f32.p0v8f32(<8 x float> [[TMP27]], <8 x float>* [[TMP33]], i32 4, <8 x i1> [[TMP11]]), !alias.scope !26, !noalias !28
	; AVX2-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP30]], i64 16			; AVX2-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP30]], i64 16
	; AVX2-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <8 x float>*			; AVX2-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <8 x float>*
	Show All 12 Lines
	; AVX2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX2-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX2-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100			; AVX2-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100
	; AVX2-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX2-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX2: if.then:			; AVX2: if.then:
	; AVX2-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: [[TMP40:%.]] = load float, float [[ARRAYIDX3]], align 4			; AVX2-NEXT: [[TMP40:%.]] = load float, float [[ARRAYIDX3]], align 4
	; AVX2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to float			; AVX2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to float
	; AVX2-NEXT: [[ADD:%.*]] = fadd float [[TMP40]], [[CONV]]			; AVX2-NEXT: [[ADD:%.*]] = fadd float [[CONV]], [[TMP40]]
	; AVX2-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: store float [[ADD]], float* [[ARRAYIDX7]], align 4			; AVX2-NEXT: store float [[ADD]], float* [[ARRAYIDX7]], align 4
	; AVX2-NEXT: br label [[FOR_INC]]			; AVX2-NEXT: br label [[FOR_INC]]
	; AVX2: for.inc:			; AVX2: for.inc:
	; AVX2-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1			; AVX2-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1
	; AVX2-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX2-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX2-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100			; AVX2-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100
	; AVX2-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]			; AVX2-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]
	; AVX2: for.end:			; AVX2: for.end:
	; AVX2-NEXT: ret void			; AVX2-NEXT: ret void
	; AVX2: if.then.1:			; AVX2: if.then.1:
	; AVX2-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: [[TMP42:%.]] = load float, float [[ARRAYIDX3_1]], align 4			; AVX2-NEXT: [[TMP42:%.]] = load float, float [[ARRAYIDX3_1]], align 4
	; AVX2-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to float			; AVX2-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to float
	; AVX2-NEXT: [[ADD_1:%.*]] = fadd float [[TMP42]], [[CONV_1]]			; AVX2-NEXT: [[ADD_1:%.*]] = fadd float [[CONV_1]], [[TMP42]]
	; AVX2-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: store float [[ADD_1]], float* [[ARRAYIDX7_1]], align 4			; AVX2-NEXT: store float [[ADD_1]], float* [[ARRAYIDX7_1]], align 4
	; AVX2-NEXT: br label [[FOR_INC_1]]			; AVX2-NEXT: br label [[FOR_INC_1]]
	; AVX2: for.inc.1:			; AVX2: for.inc.1:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2			; AVX2-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2
	; AVX2-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4			; AVX2-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4
	; AVX2-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100			; AVX2-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100
	; AVX2-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]			; AVX2-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]
	; AVX2: if.then.2:			; AVX2: if.then.2:
	; AVX2-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: [[TMP44:%.]] = load float, float [[ARRAYIDX3_2]], align 4			; AVX2-NEXT: [[TMP44:%.]] = load float, float [[ARRAYIDX3_2]], align 4
	; AVX2-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to float			; AVX2-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to float
	; AVX2-NEXT: [[ADD_2:%.*]] = fadd float [[TMP44]], [[CONV_2]]			; AVX2-NEXT: [[ADD_2:%.*]] = fadd float [[CONV_2]], [[TMP44]]
	; AVX2-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: store float [[ADD_2]], float* [[ARRAYIDX7_2]], align 4			; AVX2-NEXT: store float [[ADD_2]], float* [[ARRAYIDX7_2]], align 4
	; AVX2-NEXT: br label [[FOR_INC_2]]			; AVX2-NEXT: br label [[FOR_INC_2]]
	; AVX2: for.inc.2:			; AVX2: for.inc.2:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3			; AVX2-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3
	; AVX2-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4			; AVX2-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4
	; AVX2-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100			; AVX2-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100
	; AVX2-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]			; AVX2-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]
	; AVX2: if.then.3:			; AVX2: if.then.3:
	; AVX2-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: [[TMP46:%.]] = load float, float [[ARRAYIDX3_3]], align 4			; AVX2-NEXT: [[TMP46:%.]] = load float, float [[ARRAYIDX3_3]], align 4
	; AVX2-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to float			; AVX2-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to float
	; AVX2-NEXT: [[ADD_3:%.*]] = fadd float [[TMP46]], [[CONV_3]]			; AVX2-NEXT: [[ADD_3:%.*]] = fadd float [[CONV_3]], [[TMP46]]
	; AVX2-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: store float [[ADD_3]], float* [[ARRAYIDX7_3]], align 4			; AVX2-NEXT: store float [[ADD_3]], float* [[ARRAYIDX7_3]], align 4
	; AVX2-NEXT: br label [[FOR_INC_3]]			; AVX2-NEXT: br label [[FOR_INC_3]]
	; AVX2: for.inc.3:			; AVX2: for.inc.3:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4			; AVX2-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4
	; AVX2-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000			; AVX2-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000
	; AVX2-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !30			; AVX2-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !30
	;			;
	; AVX512-LABEL: @foo2(			; AVX512-LABEL: @foo2(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr float, float [[A:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr float, float [[A:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr float, float [[B:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr float, float [[B:%.*]], i64 10000
	; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to float*			; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to float*
	; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt float [[TMP0]], [[A]]			; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt float [[TMP0]], [[A]]
	; AVX512-NEXT: [[TMP1:%.]] = bitcast float [[SCEVGEP]] to i32*			; AVX512-NEXT: [[TMP1:%.]] = bitcast float [[SCEVGEP]] to i32*
	; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt float [[SCEVGEP14]], [[A]]			; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt float [[SCEVGEP14]], [[A]]
	; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt float [[SCEVGEP]], [[B]]			; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt float [[SCEVGEP]], [[B]]
	; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX512: vector.body:			; AVX512: vector.body:
	; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <16 x i32>*			; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <16 x i32>*
	; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <16 x i32>, <16 x i32> [[TMP3]], align 4, !alias.scope !21			; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <16 x i32>, <16 x i32> [[TMP3]], align 4, !alias.scope !21
	; AVX512-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 16			; AVX512-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 16
	; AVX512-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <16 x i32>*			; AVX512-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <16 x i32>*
	Show All 19 Lines
	; AVX512-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float> nonnull [[TMP19]], i32 4, <16 x i1> [[TMP12]], <16 x float> undef), !alias.scope !24			; AVX512-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float> nonnull [[TMP19]], i32 4, <16 x i1> [[TMP12]], <16 x float> undef), !alias.scope !24
	; AVX512-NEXT: [[TMP20:%.]] = getelementptr inbounds float, float [[TMP14]], i64 48			; AVX512-NEXT: [[TMP20:%.]] = getelementptr inbounds float, float [[TMP14]], i64 48
	; AVX512-NEXT: [[TMP21:%.]] = bitcast float [[TMP20]] to <16 x float>*			; AVX512-NEXT: [[TMP21:%.]] = bitcast float [[TMP20]] to <16 x float>*
	; AVX512-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float> nonnull [[TMP21]], i32 4, <16 x i1> [[TMP13]], <16 x float> undef), !alias.scope !24			; AVX512-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <16 x float> @llvm.masked.load.v16f32.p0v16f32(<16 x float> nonnull [[TMP21]], i32 4, <16 x i1> [[TMP13]], <16 x float> undef), !alias.scope !24
	; AVX512-NEXT: [[TMP22:%.*]] = sitofp <16 x i32> [[WIDE_LOAD]] to <16 x float>			; AVX512-NEXT: [[TMP22:%.*]] = sitofp <16 x i32> [[WIDE_LOAD]] to <16 x float>
	; AVX512-NEXT: [[TMP23:%.*]] = sitofp <16 x i32> [[WIDE_LOAD22]] to <16 x float>			; AVX512-NEXT: [[TMP23:%.*]] = sitofp <16 x i32> [[WIDE_LOAD22]] to <16 x float>
	; AVX512-NEXT: [[TMP24:%.*]] = sitofp <16 x i32> [[WIDE_LOAD23]] to <16 x float>			; AVX512-NEXT: [[TMP24:%.*]] = sitofp <16 x i32> [[WIDE_LOAD23]] to <16 x float>
	; AVX512-NEXT: [[TMP25:%.*]] = sitofp <16 x i32> [[WIDE_LOAD24]] to <16 x float>			; AVX512-NEXT: [[TMP25:%.*]] = sitofp <16 x i32> [[WIDE_LOAD24]] to <16 x float>
	; AVX512-NEXT: [[TMP26:%.*]] = fadd <16 x float> [[WIDE_MASKED_LOAD]], [[TMP22]]			; AVX512-NEXT: [[TMP26:%.*]] = fadd <16 x float> [[TMP22]], [[WIDE_MASKED_LOAD]]
	; AVX512-NEXT: [[TMP27:%.*]] = fadd <16 x float> [[WIDE_MASKED_LOAD25]], [[TMP23]]			; AVX512-NEXT: [[TMP27:%.*]] = fadd <16 x float> [[TMP23]], [[WIDE_MASKED_LOAD25]]
	; AVX512-NEXT: [[TMP28:%.*]] = fadd <16 x float> [[WIDE_MASKED_LOAD26]], [[TMP24]]			; AVX512-NEXT: [[TMP28:%.*]] = fadd <16 x float> [[TMP24]], [[WIDE_MASKED_LOAD26]]
	; AVX512-NEXT: [[TMP29:%.*]] = fadd <16 x float> [[WIDE_MASKED_LOAD27]], [[TMP25]]			; AVX512-NEXT: [[TMP29:%.*]] = fadd <16 x float> [[TMP25]], [[WIDE_MASKED_LOAD27]]
	; AVX512-NEXT: [[TMP30:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDEX]]			; AVX512-NEXT: [[TMP30:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDEX]]
	; AVX512-NEXT: [[TMP31:%.]] = bitcast float [[TMP30]] to <16 x float>*			; AVX512-NEXT: [[TMP31:%.]] = bitcast float [[TMP30]] to <16 x float>*
	; AVX512-NEXT: call void @llvm.masked.store.v16f32.p0v16f32(<16 x float> [[TMP26]], <16 x float>* [[TMP31]], i32 4, <16 x i1> [[TMP10]]), !alias.scope !26, !noalias !28			; AVX512-NEXT: call void @llvm.masked.store.v16f32.p0v16f32(<16 x float> [[TMP26]], <16 x float>* [[TMP31]], i32 4, <16 x i1> [[TMP10]]), !alias.scope !26, !noalias !28
	; AVX512-NEXT: [[TMP32:%.]] = getelementptr inbounds float, float [[TMP30]], i64 16			; AVX512-NEXT: [[TMP32:%.]] = getelementptr inbounds float, float [[TMP30]], i64 16
	; AVX512-NEXT: [[TMP33:%.]] = bitcast float [[TMP32]] to <16 x float>*			; AVX512-NEXT: [[TMP33:%.]] = bitcast float [[TMP32]] to <16 x float>*
	; AVX512-NEXT: call void @llvm.masked.store.v16f32.p0v16f32(<16 x float> [[TMP27]], <16 x float>* [[TMP33]], i32 4, <16 x i1> [[TMP11]]), !alias.scope !26, !noalias !28			; AVX512-NEXT: call void @llvm.masked.store.v16f32.p0v16f32(<16 x float> [[TMP27]], <16 x float>* [[TMP33]], i32 4, <16 x i1> [[TMP11]]), !alias.scope !26, !noalias !28
	; AVX512-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP30]], i64 32			; AVX512-NEXT: [[TMP34:%.]] = getelementptr inbounds float, float [[TMP30]], i64 32
	; AVX512-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <16 x float>*			; AVX512-NEXT: [[TMP35:%.]] = bitcast float [[TMP34]] to <16 x float>*
	Show All 12 Lines
	; AVX512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX512-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX512-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100			; AVX512-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100
	; AVX512-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX512-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX512: if.then:			; AVX512: if.then:
	; AVX512-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: [[TMP40:%.]] = load float, float [[ARRAYIDX3]], align 4			; AVX512-NEXT: [[TMP40:%.]] = load float, float [[ARRAYIDX3]], align 4
	; AVX512-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to float			; AVX512-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to float
	; AVX512-NEXT: [[ADD:%.*]] = fadd float [[TMP40]], [[CONV]]			; AVX512-NEXT: [[ADD:%.*]] = fadd float [[CONV]], [[TMP40]]
	; AVX512-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: store float [[ADD]], float* [[ARRAYIDX7]], align 4			; AVX512-NEXT: store float [[ADD]], float* [[ARRAYIDX7]], align 4
	; AVX512-NEXT: br label [[FOR_INC]]			; AVX512-NEXT: br label [[FOR_INC]]
	; AVX512: for.inc:			; AVX512: for.inc:
	; AVX512-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1			; AVX512-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1
	; AVX512-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX512-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX512-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100			; AVX512-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100
	; AVX512-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]			; AVX512-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]
	; AVX512: for.end:			; AVX512: for.end:
	; AVX512-NEXT: ret void			; AVX512-NEXT: ret void
	; AVX512: if.then.1:			; AVX512: if.then.1:
	; AVX512-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: [[TMP42:%.]] = load float, float [[ARRAYIDX3_1]], align 4			; AVX512-NEXT: [[TMP42:%.]] = load float, float [[ARRAYIDX3_1]], align 4
	; AVX512-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to float			; AVX512-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to float
	; AVX512-NEXT: [[ADD_1:%.*]] = fadd float [[TMP42]], [[CONV_1]]			; AVX512-NEXT: [[ADD_1:%.*]] = fadd float [[CONV_1]], [[TMP42]]
	; AVX512-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: store float [[ADD_1]], float* [[ARRAYIDX7_1]], align 4			; AVX512-NEXT: store float [[ADD_1]], float* [[ARRAYIDX7_1]], align 4
	; AVX512-NEXT: br label [[FOR_INC_1]]			; AVX512-NEXT: br label [[FOR_INC_1]]
	; AVX512: for.inc.1:			; AVX512: for.inc.1:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2			; AVX512-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2
	; AVX512-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4			; AVX512-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4
	; AVX512-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100			; AVX512-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100
	; AVX512-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]			; AVX512-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]
	; AVX512: if.then.2:			; AVX512: if.then.2:
	; AVX512-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: [[TMP44:%.]] = load float, float [[ARRAYIDX3_2]], align 4			; AVX512-NEXT: [[TMP44:%.]] = load float, float [[ARRAYIDX3_2]], align 4
	; AVX512-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to float			; AVX512-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to float
	; AVX512-NEXT: [[ADD_2:%.*]] = fadd float [[TMP44]], [[CONV_2]]			; AVX512-NEXT: [[ADD_2:%.*]] = fadd float [[CONV_2]], [[TMP44]]
	; AVX512-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: store float [[ADD_2]], float* [[ARRAYIDX7_2]], align 4			; AVX512-NEXT: store float [[ADD_2]], float* [[ARRAYIDX7_2]], align 4
	; AVX512-NEXT: br label [[FOR_INC_2]]			; AVX512-NEXT: br label [[FOR_INC_2]]
	; AVX512: for.inc.2:			; AVX512: for.inc.2:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3			; AVX512-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3
	; AVX512-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4			; AVX512-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4
	; AVX512-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100			; AVX512-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100
	; AVX512-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]			; AVX512-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]
	; AVX512: if.then.3:			; AVX512: if.then.3:
	; AVX512-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds float, float [[B]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: [[TMP46:%.]] = load float, float [[ARRAYIDX3_3]], align 4			; AVX512-NEXT: [[TMP46:%.]] = load float, float [[ARRAYIDX3_3]], align 4
	; AVX512-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to float			; AVX512-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to float
	; AVX512-NEXT: [[ADD_3:%.*]] = fadd float [[TMP46]], [[CONV_3]]			; AVX512-NEXT: [[ADD_3:%.*]] = fadd float [[CONV_3]], [[TMP46]]
	; AVX512-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds float, float [[A]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: store float [[ADD_3]], float* [[ARRAYIDX7_3]], align 4			; AVX512-NEXT: store float [[ADD_3]], float* [[ARRAYIDX7_3]], align 4
	; AVX512-NEXT: br label [[FOR_INC_3]]			; AVX512-NEXT: br label [[FOR_INC_3]]
	; AVX512: for.inc.3:			; AVX512: for.inc.3:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4			; AVX512-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4
	; AVX512-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000			; AVX512-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000
	; AVX512-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !30			; AVX512-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !30
	;			;
	▲ Show 20 Lines • Show All 72 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: entry:			; AVX1-NEXT: entry:
	; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr double, double [[B:%.*]], i64 10000			; AVX1-NEXT: [[SCEVGEP14:%.]] = getelementptr double, double [[B:%.*]], i64 10000
	; AVX1-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to double*			; AVX1-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to double*
	; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]			; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]
	; AVX1-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX1-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt double [[SCEVGEP14]], [[A]]			; AVX1-NEXT: [[BOUND016:%.]] = icmp ugt double [[SCEVGEP14]], [[A]]
	; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt double [[SCEVGEP]], [[B]]			; AVX1-NEXT: [[BOUND117:%.]] = icmp ugt double [[SCEVGEP]], [[B]]
	; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX1-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX1: vector.body:			; AVX1: vector.body:
	; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX1-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX1-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <4 x i32>*			; AVX1-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <4 x i32>*
	; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP3]], align 4, !alias.scope !31			; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP3]], align 4, !alias.scope !31
	; AVX1-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 4			; AVX1-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 4
	; AVX1-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <4 x i32>*			; AVX1-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <4 x i32>*
	Show All 19 Lines
	; AVX1-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP19]], i32 8, <4 x i1> [[TMP12]], <4 x double> undef), !alias.scope !34			; AVX1-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP19]], i32 8, <4 x i1> [[TMP12]], <4 x double> undef), !alias.scope !34
	; AVX1-NEXT: [[TMP20:%.]] = getelementptr inbounds double, double [[TMP14]], i64 12			; AVX1-NEXT: [[TMP20:%.]] = getelementptr inbounds double, double [[TMP14]], i64 12
	; AVX1-NEXT: [[TMP21:%.]] = bitcast double [[TMP20]] to <4 x double>*			; AVX1-NEXT: [[TMP21:%.]] = bitcast double [[TMP20]] to <4 x double>*
	; AVX1-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP21]], i32 8, <4 x i1> [[TMP13]], <4 x double> undef), !alias.scope !34			; AVX1-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP21]], i32 8, <4 x i1> [[TMP13]], <4 x double> undef), !alias.scope !34
	; AVX1-NEXT: [[TMP22:%.*]] = sitofp <4 x i32> [[WIDE_LOAD]] to <4 x double>			; AVX1-NEXT: [[TMP22:%.*]] = sitofp <4 x i32> [[WIDE_LOAD]] to <4 x double>
	; AVX1-NEXT: [[TMP23:%.*]] = sitofp <4 x i32> [[WIDE_LOAD22]] to <4 x double>			; AVX1-NEXT: [[TMP23:%.*]] = sitofp <4 x i32> [[WIDE_LOAD22]] to <4 x double>
	; AVX1-NEXT: [[TMP24:%.*]] = sitofp <4 x i32> [[WIDE_LOAD23]] to <4 x double>			; AVX1-NEXT: [[TMP24:%.*]] = sitofp <4 x i32> [[WIDE_LOAD23]] to <4 x double>
	; AVX1-NEXT: [[TMP25:%.*]] = sitofp <4 x i32> [[WIDE_LOAD24]] to <4 x double>			; AVX1-NEXT: [[TMP25:%.*]] = sitofp <4 x i32> [[WIDE_LOAD24]] to <4 x double>
	; AVX1-NEXT: [[TMP26:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD]], [[TMP22]]			; AVX1-NEXT: [[TMP26:%.*]] = fadd <4 x double> [[TMP22]], [[WIDE_MASKED_LOAD]]
	; AVX1-NEXT: [[TMP27:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD25]], [[TMP23]]			; AVX1-NEXT: [[TMP27:%.*]] = fadd <4 x double> [[TMP23]], [[WIDE_MASKED_LOAD25]]
	; AVX1-NEXT: [[TMP28:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD26]], [[TMP24]]			; AVX1-NEXT: [[TMP28:%.*]] = fadd <4 x double> [[TMP24]], [[WIDE_MASKED_LOAD26]]
	; AVX1-NEXT: [[TMP29:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD27]], [[TMP25]]			; AVX1-NEXT: [[TMP29:%.*]] = fadd <4 x double> [[TMP25]], [[WIDE_MASKED_LOAD27]]
	; AVX1-NEXT: [[TMP30:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDEX]]			; AVX1-NEXT: [[TMP30:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDEX]]
	; AVX1-NEXT: [[TMP31:%.]] = bitcast double [[TMP30]] to <4 x double>*			; AVX1-NEXT: [[TMP31:%.]] = bitcast double [[TMP30]] to <4 x double>*
	; AVX1-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP26]], <4 x double>* [[TMP31]], i32 8, <4 x i1> [[TMP10]]), !alias.scope !36, !noalias !38			; AVX1-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP26]], <4 x double>* [[TMP31]], i32 8, <4 x i1> [[TMP10]]), !alias.scope !36, !noalias !38
	; AVX1-NEXT: [[TMP32:%.]] = getelementptr inbounds double, double [[TMP30]], i64 4			; AVX1-NEXT: [[TMP32:%.]] = getelementptr inbounds double, double [[TMP30]], i64 4
	; AVX1-NEXT: [[TMP33:%.]] = bitcast double [[TMP32]] to <4 x double>*			; AVX1-NEXT: [[TMP33:%.]] = bitcast double [[TMP32]] to <4 x double>*
	; AVX1-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP27]], <4 x double>* [[TMP33]], i32 8, <4 x i1> [[TMP11]]), !alias.scope !36, !noalias !38			; AVX1-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP27]], <4 x double>* [[TMP33]], i32 8, <4 x i1> [[TMP11]]), !alias.scope !36, !noalias !38
	; AVX1-NEXT: [[TMP34:%.]] = getelementptr inbounds double, double [[TMP30]], i64 8			; AVX1-NEXT: [[TMP34:%.]] = getelementptr inbounds double, double [[TMP30]], i64 8
	; AVX1-NEXT: [[TMP35:%.]] = bitcast double [[TMP34]] to <4 x double>*			; AVX1-NEXT: [[TMP35:%.]] = bitcast double [[TMP34]] to <4 x double>*
	Show All 9 Lines
	; AVX1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX1-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX1-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100			; AVX1-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100
	; AVX1-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX1-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX1: if.then:			; AVX1: if.then:
	; AVX1-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3]], align 8			; AVX1-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3]], align 8
	; AVX1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to double			; AVX1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to double
	; AVX1-NEXT: [[ADD:%.*]] = fadd double [[TMP40]], [[CONV]]			; AVX1-NEXT: [[ADD:%.*]] = fadd double [[CONV]], [[TMP40]]
	; AVX1-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8			; AVX1-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8
	; AVX1-NEXT: br label [[FOR_INC]]			; AVX1-NEXT: br label [[FOR_INC]]
	; AVX1: for.inc:			; AVX1: for.inc:
	; AVX1-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1			; AVX1-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1
	; AVX1-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX1-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX1-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100			; AVX1-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100
	; AVX1-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.*]], label [[FOR_INC_1]]			; AVX1-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.*]], label [[FOR_INC_1]]
	; AVX1: for.end:			; AVX1: for.end:
	; AVX1-NEXT: ret void			; AVX1-NEXT: ret void
	; AVX1: if.then.1:			; AVX1: if.then.1:
	; AVX1-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: [[TMP42:%.]] = load double, double [[ARRAYIDX3_1]], align 8			; AVX1-NEXT: [[TMP42:%.]] = load double, double [[ARRAYIDX3_1]], align 8
	; AVX1-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to double			; AVX1-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to double
	; AVX1-NEXT: [[ADD_1:%.*]] = fadd double [[TMP42]], [[CONV_1]]			; AVX1-NEXT: [[ADD_1:%.*]] = fadd double [[CONV_1]], [[TMP42]]
	; AVX1-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8			; AVX1-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8
	; AVX1-NEXT: br label [[FOR_INC_1]]			; AVX1-NEXT: br label [[FOR_INC_1]]
	; AVX1: for.inc.1:			; AVX1: for.inc.1:
	; AVX1-NEXT: [[INDVARS_IV_NEXT_1]] = add nuw nsw i64 [[INDVARS_IV]], 2			; AVX1-NEXT: [[INDVARS_IV_NEXT_1]] = add nuw nsw i64 [[INDVARS_IV]], 2
	; AVX1-NEXT: [[EXITCOND_1:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_1]], 10000			; AVX1-NEXT: [[EXITCOND_1:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_1]], 10000
	; AVX1-NEXT: br i1 [[EXITCOND_1]], label [[FOR_END]], label [[FOR_BODY]], !llvm.loop !40			; AVX1-NEXT: br i1 [[EXITCOND_1]], label [[FOR_END]], label [[FOR_BODY]], !llvm.loop !40
	;			;
	; AVX2-LABEL: @foo3(			; AVX2-LABEL: @foo3(
	; AVX2-NEXT: entry:			; AVX2-NEXT: entry:
	; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr double, double [[B:%.*]], i64 10000			; AVX2-NEXT: [[SCEVGEP14:%.]] = getelementptr double, double [[B:%.*]], i64 10000
	; AVX2-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to double*			; AVX2-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to double*
	; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]			; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]
	; AVX2-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX2-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt double [[SCEVGEP14]], [[A]]			; AVX2-NEXT: [[BOUND016:%.]] = icmp ugt double [[SCEVGEP14]], [[A]]
	; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt double [[SCEVGEP]], [[B]]			; AVX2-NEXT: [[BOUND117:%.]] = icmp ugt double [[SCEVGEP]], [[B]]
	; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX2-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX2: vector.body:			; AVX2: vector.body:
	; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <4 x i32>*			; AVX2-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <4 x i32>*
	; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP3]], align 4, !alias.scope !31			; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP3]], align 4, !alias.scope !31
	; AVX2-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 4			; AVX2-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 4
	; AVX2-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <4 x i32>*			; AVX2-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <4 x i32>*
	Show All 19 Lines
	; AVX2-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP19]], i32 8, <4 x i1> [[TMP12]], <4 x double> undef), !alias.scope !34			; AVX2-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP19]], i32 8, <4 x i1> [[TMP12]], <4 x double> undef), !alias.scope !34
	; AVX2-NEXT: [[TMP20:%.]] = getelementptr inbounds double, double [[TMP14]], i64 12			; AVX2-NEXT: [[TMP20:%.]] = getelementptr inbounds double, double [[TMP14]], i64 12
	; AVX2-NEXT: [[TMP21:%.]] = bitcast double [[TMP20]] to <4 x double>*			; AVX2-NEXT: [[TMP21:%.]] = bitcast double [[TMP20]] to <4 x double>*
	; AVX2-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP21]], i32 8, <4 x i1> [[TMP13]], <4 x double> undef), !alias.scope !34			; AVX2-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <4 x double> @llvm.masked.load.v4f64.p0v4f64(<4 x double> nonnull [[TMP21]], i32 8, <4 x i1> [[TMP13]], <4 x double> undef), !alias.scope !34
	; AVX2-NEXT: [[TMP22:%.*]] = sitofp <4 x i32> [[WIDE_LOAD]] to <4 x double>			; AVX2-NEXT: [[TMP22:%.*]] = sitofp <4 x i32> [[WIDE_LOAD]] to <4 x double>
	; AVX2-NEXT: [[TMP23:%.*]] = sitofp <4 x i32> [[WIDE_LOAD22]] to <4 x double>			; AVX2-NEXT: [[TMP23:%.*]] = sitofp <4 x i32> [[WIDE_LOAD22]] to <4 x double>
	; AVX2-NEXT: [[TMP24:%.*]] = sitofp <4 x i32> [[WIDE_LOAD23]] to <4 x double>			; AVX2-NEXT: [[TMP24:%.*]] = sitofp <4 x i32> [[WIDE_LOAD23]] to <4 x double>
	; AVX2-NEXT: [[TMP25:%.*]] = sitofp <4 x i32> [[WIDE_LOAD24]] to <4 x double>			; AVX2-NEXT: [[TMP25:%.*]] = sitofp <4 x i32> [[WIDE_LOAD24]] to <4 x double>
	; AVX2-NEXT: [[TMP26:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD]], [[TMP22]]			; AVX2-NEXT: [[TMP26:%.*]] = fadd <4 x double> [[TMP22]], [[WIDE_MASKED_LOAD]]
	; AVX2-NEXT: [[TMP27:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD25]], [[TMP23]]			; AVX2-NEXT: [[TMP27:%.*]] = fadd <4 x double> [[TMP23]], [[WIDE_MASKED_LOAD25]]
	; AVX2-NEXT: [[TMP28:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD26]], [[TMP24]]			; AVX2-NEXT: [[TMP28:%.*]] = fadd <4 x double> [[TMP24]], [[WIDE_MASKED_LOAD26]]
	; AVX2-NEXT: [[TMP29:%.*]] = fadd <4 x double> [[WIDE_MASKED_LOAD27]], [[TMP25]]			; AVX2-NEXT: [[TMP29:%.*]] = fadd <4 x double> [[TMP25]], [[WIDE_MASKED_LOAD27]]
	; AVX2-NEXT: [[TMP30:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDEX]]			; AVX2-NEXT: [[TMP30:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDEX]]
	; AVX2-NEXT: [[TMP31:%.]] = bitcast double [[TMP30]] to <4 x double>*			; AVX2-NEXT: [[TMP31:%.]] = bitcast double [[TMP30]] to <4 x double>*
	; AVX2-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP26]], <4 x double>* [[TMP31]], i32 8, <4 x i1> [[TMP10]]), !alias.scope !36, !noalias !38			; AVX2-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP26]], <4 x double>* [[TMP31]], i32 8, <4 x i1> [[TMP10]]), !alias.scope !36, !noalias !38
	; AVX2-NEXT: [[TMP32:%.]] = getelementptr inbounds double, double [[TMP30]], i64 4			; AVX2-NEXT: [[TMP32:%.]] = getelementptr inbounds double, double [[TMP30]], i64 4
	; AVX2-NEXT: [[TMP33:%.]] = bitcast double [[TMP32]] to <4 x double>*			; AVX2-NEXT: [[TMP33:%.]] = bitcast double [[TMP32]] to <4 x double>*
	; AVX2-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP27]], <4 x double>* [[TMP33]], i32 8, <4 x i1> [[TMP11]]), !alias.scope !36, !noalias !38			; AVX2-NEXT: call void @llvm.masked.store.v4f64.p0v4f64(<4 x double> [[TMP27]], <4 x double>* [[TMP33]], i32 8, <4 x i1> [[TMP11]]), !alias.scope !36, !noalias !38
	; AVX2-NEXT: [[TMP34:%.]] = getelementptr inbounds double, double [[TMP30]], i64 8			; AVX2-NEXT: [[TMP34:%.]] = getelementptr inbounds double, double [[TMP30]], i64 8
	; AVX2-NEXT: [[TMP35:%.]] = bitcast double [[TMP34]] to <4 x double>*			; AVX2-NEXT: [[TMP35:%.]] = bitcast double [[TMP34]] to <4 x double>*
	Show All 9 Lines
	; AVX2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX2-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX2-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100			; AVX2-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100
	; AVX2-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX2-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX2: if.then:			; AVX2: if.then:
	; AVX2-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3]], align 8			; AVX2-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3]], align 8
	; AVX2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to double			; AVX2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to double
	; AVX2-NEXT: [[ADD:%.*]] = fadd double [[TMP40]], [[CONV]]			; AVX2-NEXT: [[ADD:%.*]] = fadd double [[CONV]], [[TMP40]]
	; AVX2-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8			; AVX2-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8
	; AVX2-NEXT: br label [[FOR_INC]]			; AVX2-NEXT: br label [[FOR_INC]]
	; AVX2: for.inc:			; AVX2: for.inc:
	; AVX2-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1			; AVX2-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1
	; AVX2-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX2-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX2-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100			; AVX2-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100
	; AVX2-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]			; AVX2-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]
	; AVX2: for.end:			; AVX2: for.end:
	; AVX2-NEXT: ret void			; AVX2-NEXT: ret void
	; AVX2: if.then.1:			; AVX2: if.then.1:
	; AVX2-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: [[TMP42:%.]] = load double, double [[ARRAYIDX3_1]], align 8			; AVX2-NEXT: [[TMP42:%.]] = load double, double [[ARRAYIDX3_1]], align 8
	; AVX2-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to double			; AVX2-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to double
	; AVX2-NEXT: [[ADD_1:%.*]] = fadd double [[TMP42]], [[CONV_1]]			; AVX2-NEXT: [[ADD_1:%.*]] = fadd double [[CONV_1]], [[TMP42]]
	; AVX2-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8			; AVX2-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8
	; AVX2-NEXT: br label [[FOR_INC_1]]			; AVX2-NEXT: br label [[FOR_INC_1]]
	; AVX2: for.inc.1:			; AVX2: for.inc.1:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2			; AVX2-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2
	; AVX2-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4			; AVX2-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4
	; AVX2-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100			; AVX2-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100
	; AVX2-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]			; AVX2-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]
	; AVX2: if.then.2:			; AVX2: if.then.2:
	; AVX2-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: [[TMP44:%.]] = load double, double [[ARRAYIDX3_2]], align 8			; AVX2-NEXT: [[TMP44:%.]] = load double, double [[ARRAYIDX3_2]], align 8
	; AVX2-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to double			; AVX2-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to double
	; AVX2-NEXT: [[ADD_2:%.*]] = fadd double [[TMP44]], [[CONV_2]]			; AVX2-NEXT: [[ADD_2:%.*]] = fadd double [[CONV_2]], [[TMP44]]
	; AVX2-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8			; AVX2-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8
	; AVX2-NEXT: br label [[FOR_INC_2]]			; AVX2-NEXT: br label [[FOR_INC_2]]
	; AVX2: for.inc.2:			; AVX2: for.inc.2:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3			; AVX2-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3
	; AVX2-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4			; AVX2-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4
	; AVX2-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100			; AVX2-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100
	; AVX2-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]			; AVX2-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]
	; AVX2: if.then.3:			; AVX2: if.then.3:
	; AVX2-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: [[TMP46:%.]] = load double, double [[ARRAYIDX3_3]], align 8			; AVX2-NEXT: [[TMP46:%.]] = load double, double [[ARRAYIDX3_3]], align 8
	; AVX2-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to double			; AVX2-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to double
	; AVX2-NEXT: [[ADD_3:%.*]] = fadd double [[TMP46]], [[CONV_3]]			; AVX2-NEXT: [[ADD_3:%.*]] = fadd double [[CONV_3]], [[TMP46]]
	; AVX2-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8			; AVX2-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8
	; AVX2-NEXT: br label [[FOR_INC_3]]			; AVX2-NEXT: br label [[FOR_INC_3]]
	; AVX2: for.inc.3:			; AVX2: for.inc.3:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4			; AVX2-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4
	; AVX2-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000			; AVX2-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000
	; AVX2-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END]], label [[FOR_BODY]], !llvm.loop !40			; AVX2-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END]], label [[FOR_BODY]], !llvm.loop !40
	;			;
	; AVX512-LABEL: @foo3(			; AVX512-LABEL: @foo3(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP11:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 10000
	; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr double, double [[B:%.*]], i64 10000			; AVX512-NEXT: [[SCEVGEP14:%.]] = getelementptr double, double [[B:%.*]], i64 10000
	; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to double*			; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP11]] to double*
	; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]			; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]
	; AVX512-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX512-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt double [[SCEVGEP14]], [[A]]			; AVX512-NEXT: [[BOUND016:%.]] = icmp ugt double [[SCEVGEP14]], [[A]]
	; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt double [[SCEVGEP]], [[B]]			; AVX512-NEXT: [[BOUND117:%.]] = icmp ugt double [[SCEVGEP]], [[B]]
	; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND016]], [[BOUND117]]			; AVX512-NEXT: [[FOUND_CONFLICT18:%.*]] = and i1 [[BOUND117]], [[BOUND016]]
	; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT18]]			; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT18]], [[FOUND_CONFLICT]]
	; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX512: vector.body:			; AVX512: vector.body:
	; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]			; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDEX]]
	; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*			; AVX512-NEXT: [[TMP3:%.]] = bitcast i32 [[TMP2]] to <8 x i32>*
	; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP3]], align 4, !alias.scope !31			; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP3]], align 4, !alias.scope !31
	; AVX512-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 8			; AVX512-NEXT: [[TMP4:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 8
	; AVX512-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <8 x i32>*			; AVX512-NEXT: [[TMP5:%.]] = bitcast i32 [[TMP4]] to <8 x i32>*
	Show All 19 Lines
	; AVX512-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double> nonnull [[TMP19]], i32 8, <8 x i1> [[TMP12]], <8 x double> undef), !alias.scope !34			; AVX512-NEXT: [[WIDE_MASKED_LOAD26:%.]] = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double> nonnull [[TMP19]], i32 8, <8 x i1> [[TMP12]], <8 x double> undef), !alias.scope !34
	; AVX512-NEXT: [[TMP20:%.]] = getelementptr inbounds double, double [[TMP14]], i64 24			; AVX512-NEXT: [[TMP20:%.]] = getelementptr inbounds double, double [[TMP14]], i64 24
	; AVX512-NEXT: [[TMP21:%.]] = bitcast double [[TMP20]] to <8 x double>*			; AVX512-NEXT: [[TMP21:%.]] = bitcast double [[TMP20]] to <8 x double>*
	; AVX512-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double> nonnull [[TMP21]], i32 8, <8 x i1> [[TMP13]], <8 x double> undef), !alias.scope !34			; AVX512-NEXT: [[WIDE_MASKED_LOAD27:%.]] = call <8 x double> @llvm.masked.load.v8f64.p0v8f64(<8 x double> nonnull [[TMP21]], i32 8, <8 x i1> [[TMP13]], <8 x double> undef), !alias.scope !34
	; AVX512-NEXT: [[TMP22:%.*]] = sitofp <8 x i32> [[WIDE_LOAD]] to <8 x double>			; AVX512-NEXT: [[TMP22:%.*]] = sitofp <8 x i32> [[WIDE_LOAD]] to <8 x double>
	; AVX512-NEXT: [[TMP23:%.*]] = sitofp <8 x i32> [[WIDE_LOAD22]] to <8 x double>			; AVX512-NEXT: [[TMP23:%.*]] = sitofp <8 x i32> [[WIDE_LOAD22]] to <8 x double>
	; AVX512-NEXT: [[TMP24:%.*]] = sitofp <8 x i32> [[WIDE_LOAD23]] to <8 x double>			; AVX512-NEXT: [[TMP24:%.*]] = sitofp <8 x i32> [[WIDE_LOAD23]] to <8 x double>
	; AVX512-NEXT: [[TMP25:%.*]] = sitofp <8 x i32> [[WIDE_LOAD24]] to <8 x double>			; AVX512-NEXT: [[TMP25:%.*]] = sitofp <8 x i32> [[WIDE_LOAD24]] to <8 x double>
	; AVX512-NEXT: [[TMP26:%.*]] = fadd <8 x double> [[WIDE_MASKED_LOAD]], [[TMP22]]			; AVX512-NEXT: [[TMP26:%.*]] = fadd <8 x double> [[TMP22]], [[WIDE_MASKED_LOAD]]
	; AVX512-NEXT: [[TMP27:%.*]] = fadd <8 x double> [[WIDE_MASKED_LOAD25]], [[TMP23]]			; AVX512-NEXT: [[TMP27:%.*]] = fadd <8 x double> [[TMP23]], [[WIDE_MASKED_LOAD25]]
	; AVX512-NEXT: [[TMP28:%.*]] = fadd <8 x double> [[WIDE_MASKED_LOAD26]], [[TMP24]]			; AVX512-NEXT: [[TMP28:%.*]] = fadd <8 x double> [[TMP24]], [[WIDE_MASKED_LOAD26]]
	; AVX512-NEXT: [[TMP29:%.*]] = fadd <8 x double> [[WIDE_MASKED_LOAD27]], [[TMP25]]			; AVX512-NEXT: [[TMP29:%.*]] = fadd <8 x double> [[TMP25]], [[WIDE_MASKED_LOAD27]]
	; AVX512-NEXT: [[TMP30:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDEX]]			; AVX512-NEXT: [[TMP30:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDEX]]
	; AVX512-NEXT: [[TMP31:%.]] = bitcast double [[TMP30]] to <8 x double>*			; AVX512-NEXT: [[TMP31:%.]] = bitcast double [[TMP30]] to <8 x double>*
	; AVX512-NEXT: call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> [[TMP26]], <8 x double>* [[TMP31]], i32 8, <8 x i1> [[TMP10]]), !alias.scope !36, !noalias !38			; AVX512-NEXT: call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> [[TMP26]], <8 x double>* [[TMP31]], i32 8, <8 x i1> [[TMP10]]), !alias.scope !36, !noalias !38
	; AVX512-NEXT: [[TMP32:%.]] = getelementptr inbounds double, double [[TMP30]], i64 8			; AVX512-NEXT: [[TMP32:%.]] = getelementptr inbounds double, double [[TMP30]], i64 8
	; AVX512-NEXT: [[TMP33:%.]] = bitcast double [[TMP32]] to <8 x double>*			; AVX512-NEXT: [[TMP33:%.]] = bitcast double [[TMP32]] to <8 x double>*
	; AVX512-NEXT: call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> [[TMP27]], <8 x double>* [[TMP33]], i32 8, <8 x i1> [[TMP11]]), !alias.scope !36, !noalias !38			; AVX512-NEXT: call void @llvm.masked.store.v8f64.p0v8f64(<8 x double> [[TMP27]], <8 x double>* [[TMP33]], i32 8, <8 x i1> [[TMP11]]), !alias.scope !36, !noalias !38
	; AVX512-NEXT: [[TMP34:%.]] = getelementptr inbounds double, double [[TMP30]], i64 16			; AVX512-NEXT: [[TMP34:%.]] = getelementptr inbounds double, double [[TMP30]], i64 16
	; AVX512-NEXT: [[TMP35:%.]] = bitcast double [[TMP34]] to <8 x double>*			; AVX512-NEXT: [[TMP35:%.]] = bitcast double [[TMP34]] to <8 x double>*
	Show All 12 Lines
	; AVX512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX512-NEXT: [[TMP39:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX512-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100			; AVX512-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP39]], 100
	; AVX512-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX512-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX512: if.then:			; AVX512: if.then:
	; AVX512-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3]], align 8			; AVX512-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3]], align 8
	; AVX512-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to double			; AVX512-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP39]] to double
	; AVX512-NEXT: [[ADD:%.*]] = fadd double [[TMP40]], [[CONV]]			; AVX512-NEXT: [[ADD:%.*]] = fadd double [[CONV]], [[TMP40]]
	; AVX512-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8			; AVX512-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8
	; AVX512-NEXT: br label [[FOR_INC]]			; AVX512-NEXT: br label [[FOR_INC]]
	; AVX512: for.inc:			; AVX512: for.inc:
	; AVX512-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1			; AVX512-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 1
	; AVX512-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX512-NEXT: [[TMP41:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX512-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100			; AVX512-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP41]], 100
	; AVX512-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]			; AVX512-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]
	; AVX512: for.end:			; AVX512: for.end:
	; AVX512-NEXT: ret void			; AVX512-NEXT: ret void
	; AVX512: if.then.1:			; AVX512: if.then.1:
	; AVX512-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: [[TMP42:%.]] = load double, double [[ARRAYIDX3_1]], align 8			; AVX512-NEXT: [[TMP42:%.]] = load double, double [[ARRAYIDX3_1]], align 8
	; AVX512-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to double			; AVX512-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP41]] to double
	; AVX512-NEXT: [[ADD_1:%.*]] = fadd double [[TMP42]], [[CONV_1]]			; AVX512-NEXT: [[ADD_1:%.*]] = fadd double [[CONV_1]], [[TMP42]]
	; AVX512-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8			; AVX512-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8
	; AVX512-NEXT: br label [[FOR_INC_1]]			; AVX512-NEXT: br label [[FOR_INC_1]]
	; AVX512: for.inc.1:			; AVX512: for.inc.1:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2			; AVX512-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 2
	; AVX512-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4			; AVX512-NEXT: [[TMP43:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4
	; AVX512-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100			; AVX512-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP43]], 100
	; AVX512-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]			; AVX512-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]
	; AVX512: if.then.2:			; AVX512: if.then.2:
	; AVX512-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: [[TMP44:%.]] = load double, double [[ARRAYIDX3_2]], align 8			; AVX512-NEXT: [[TMP44:%.]] = load double, double [[ARRAYIDX3_2]], align 8
	; AVX512-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to double			; AVX512-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP43]] to double
	; AVX512-NEXT: [[ADD_2:%.*]] = fadd double [[TMP44]], [[CONV_2]]			; AVX512-NEXT: [[ADD_2:%.*]] = fadd double [[CONV_2]], [[TMP44]]
	; AVX512-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8			; AVX512-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8
	; AVX512-NEXT: br label [[FOR_INC_2]]			; AVX512-NEXT: br label [[FOR_INC_2]]
	; AVX512: for.inc.2:			; AVX512: for.inc.2:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3			; AVX512-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 3
	; AVX512-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4			; AVX512-NEXT: [[TMP45:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4
	; AVX512-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100			; AVX512-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP45]], 100
	; AVX512-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]			; AVX512-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]
	; AVX512: if.then.3:			; AVX512: if.then.3:
	; AVX512-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: [[TMP46:%.]] = load double, double [[ARRAYIDX3_3]], align 8			; AVX512-NEXT: [[TMP46:%.]] = load double, double [[ARRAYIDX3_3]], align 8
	; AVX512-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to double			; AVX512-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP45]] to double
	; AVX512-NEXT: [[ADD_3:%.*]] = fadd double [[TMP46]], [[CONV_3]]			; AVX512-NEXT: [[ADD_3:%.*]] = fadd double [[CONV_3]], [[TMP46]]
	; AVX512-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8			; AVX512-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8
	; AVX512-NEXT: br label [[FOR_INC_3]]			; AVX512-NEXT: br label [[FOR_INC_3]]
	; AVX512: for.inc.3:			; AVX512: for.inc.3:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4			; AVX512-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 4
	; AVX512-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000			; AVX512-NEXT: [[EXITCOND_3:%.*]] = icmp eq i64 [[INDVARS_IV_NEXT_3]], 10000
	; AVX512-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !40			; AVX512-NEXT: br i1 [[EXITCOND_3]], label [[FOR_END:%.*]], label [[FOR_BODY]], !llvm.loop !40
	;			;
	▲ Show 20 Lines • Show All 77 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: [[TMP0:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX1-NEXT: [[TMP0:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX1-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP0]], 100			; AVX1-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP0]], 100
	; AVX1-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX1-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX1: if.then:			; AVX1: if.then:
	; AVX1-NEXT: [[TMP1:%.*]] = shl nuw nsw i64 [[INDVARS_IV]], 1			; AVX1-NEXT: [[TMP1:%.*]] = shl nuw nsw i64 [[INDVARS_IV]], 1
	; AVX1-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B:%.*]], i64 [[TMP1]]			; AVX1-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B:%.*]], i64 [[TMP1]]
	; AVX1-NEXT: [[TMP2:%.]] = load double, double [[ARRAYIDX3]], align 8			; AVX1-NEXT: [[TMP2:%.]] = load double, double [[ARRAYIDX3]], align 8
	; AVX1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP0]] to double			; AVX1-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP0]] to double
	; AVX1-NEXT: [[ADD:%.*]] = fadd double [[TMP2]], [[CONV]]			; AVX1-NEXT: [[ADD:%.*]] = fadd double [[CONV]], [[TMP2]]
	; AVX1-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A:%.*]], i64 [[INDVARS_IV]]			; AVX1-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A:%.*]], i64 [[INDVARS_IV]]
	; AVX1-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8			; AVX1-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8
	; AVX1-NEXT: br label [[FOR_INC]]			; AVX1-NEXT: br label [[FOR_INC]]
	; AVX1: for.inc:			; AVX1: for.inc:
	; AVX1-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 16			; AVX1-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 16
	; AVX1-NEXT: [[CMP:%.*]] = icmp ult i64 [[INDVARS_IV_NEXT]], 10000			; AVX1-NEXT: [[CMP:%.*]] = icmp ult i64 [[INDVARS_IV_NEXT]], 10000
	; AVX1-NEXT: br i1 [[CMP]], label [[FOR_BODY_1:%.]], label [[FOR_END:%.]]			; AVX1-NEXT: br i1 [[CMP]], label [[FOR_BODY_1:%.]], label [[FOR_END:%.]]
	; AVX1: for.end:			; AVX1: for.end:
	; AVX1-NEXT: ret void			; AVX1-NEXT: ret void
	; AVX1: for.body.1:			; AVX1: for.body.1:
	; AVX1-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: [[TMP3:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX1-NEXT: [[TMP3:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX1-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP3]], 100			; AVX1-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP3]], 100
	; AVX1-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.*]], label [[FOR_INC_1]]			; AVX1-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.*]], label [[FOR_INC_1]]
	; AVX1: if.then.1:			; AVX1: if.then.1:
	; AVX1-NEXT: [[TMP4:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT]], 1			; AVX1-NEXT: [[TMP4:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT]], 1
	; AVX1-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP4]]			; AVX1-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP4]]
	; AVX1-NEXT: [[TMP5:%.]] = load double, double [[ARRAYIDX3_1]], align 8			; AVX1-NEXT: [[TMP5:%.]] = load double, double [[ARRAYIDX3_1]], align 8
	; AVX1-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP3]] to double			; AVX1-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP3]] to double
	; AVX1-NEXT: [[ADD_1:%.*]] = fadd double [[TMP5]], [[CONV_1]]			; AVX1-NEXT: [[ADD_1:%.*]] = fadd double [[CONV_1]], [[TMP5]]
	; AVX1-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX1-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX1-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8			; AVX1-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8
	; AVX1-NEXT: br label [[FOR_INC_1]]			; AVX1-NEXT: br label [[FOR_INC_1]]
	; AVX1: for.inc.1:			; AVX1: for.inc.1:
	; AVX1-NEXT: [[INDVARS_IV_NEXT_1]] = add nuw nsw i64 [[INDVARS_IV]], 32			; AVX1-NEXT: [[INDVARS_IV_NEXT_1]] = add nuw nsw i64 [[INDVARS_IV]], 32
	; AVX1-NEXT: br label [[FOR_BODY]]			; AVX1-NEXT: br label [[FOR_BODY]]
	;			;
	; AVX2-LABEL: @foo4(			; AVX2-LABEL: @foo4(
	; AVX2-NEXT: entry:			; AVX2-NEXT: entry:
	; AVX2-NEXT: br label [[FOR_BODY:%.*]]			; AVX2-NEXT: br label [[FOR_BODY:%.*]]
	; AVX2: for.body:			; AVX2: for.body:
	; AVX2-NEXT: [[INDVARS_IV:%.]] = phi i64 [ 0, [[ENTRY:%.]] ], [ [[INDVARS_IV_NEXT_3:%.]], [[FOR_INC_3:%.]] ]			; AVX2-NEXT: [[INDVARS_IV:%.]] = phi i64 [ 0, [[ENTRY:%.]] ], [ [[INDVARS_IV_NEXT_3:%.]], [[FOR_INC_3:%.]] ]
	; AVX2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER:%.*]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER:%.*]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: [[TMP0:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX2-NEXT: [[TMP0:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX2-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP0]], 100			; AVX2-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP0]], 100
	; AVX2-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX2-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX2: if.then:			; AVX2: if.then:
	; AVX2-NEXT: [[TMP1:%.*]] = shl nuw nsw i64 [[INDVARS_IV]], 1			; AVX2-NEXT: [[TMP1:%.*]] = shl nuw nsw i64 [[INDVARS_IV]], 1
	; AVX2-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B:%.*]], i64 [[TMP1]]			; AVX2-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B:%.*]], i64 [[TMP1]]
	; AVX2-NEXT: [[TMP2:%.]] = load double, double [[ARRAYIDX3]], align 8			; AVX2-NEXT: [[TMP2:%.]] = load double, double [[ARRAYIDX3]], align 8
	; AVX2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP0]] to double			; AVX2-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP0]] to double
	; AVX2-NEXT: [[ADD:%.*]] = fadd double [[TMP2]], [[CONV]]			; AVX2-NEXT: [[ADD:%.*]] = fadd double [[CONV]], [[TMP2]]
	; AVX2-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A:%.*]], i64 [[INDVARS_IV]]			; AVX2-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A:%.*]], i64 [[INDVARS_IV]]
	; AVX2-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8			; AVX2-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8
	; AVX2-NEXT: br label [[FOR_INC]]			; AVX2-NEXT: br label [[FOR_INC]]
	; AVX2: for.inc:			; AVX2: for.inc:
	; AVX2-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 16			; AVX2-NEXT: [[INDVARS_IV_NEXT:%.*]] = or i64 [[INDVARS_IV]], 16
	; AVX2-NEXT: [[CMP:%.*]] = icmp ult i64 [[INDVARS_IV_NEXT]], 10000			; AVX2-NEXT: [[CMP:%.*]] = icmp ult i64 [[INDVARS_IV_NEXT]], 10000
	; AVX2-NEXT: br i1 [[CMP]], label [[FOR_BODY_1:%.]], label [[FOR_END:%.]]			; AVX2-NEXT: br i1 [[CMP]], label [[FOR_BODY_1:%.]], label [[FOR_END:%.]]
	; AVX2: for.end:			; AVX2: for.end:
	; AVX2-NEXT: ret void			; AVX2-NEXT: ret void
	; AVX2: for.body.1:			; AVX2: for.body.1:
	; AVX2-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: [[TMP3:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX2-NEXT: [[TMP3:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX2-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP3]], 100			; AVX2-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP3]], 100
	; AVX2-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]			; AVX2-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]
	; AVX2: if.then.1:			; AVX2: if.then.1:
	; AVX2-NEXT: [[TMP4:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT]], 1			; AVX2-NEXT: [[TMP4:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT]], 1
	; AVX2-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP4]]			; AVX2-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP4]]
	; AVX2-NEXT: [[TMP5:%.]] = load double, double [[ARRAYIDX3_1]], align 8			; AVX2-NEXT: [[TMP5:%.]] = load double, double [[ARRAYIDX3_1]], align 8
	; AVX2-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP3]] to double			; AVX2-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP3]] to double
	; AVX2-NEXT: [[ADD_1:%.*]] = fadd double [[TMP5]], [[CONV_1]]			; AVX2-NEXT: [[ADD_1:%.*]] = fadd double [[CONV_1]], [[TMP5]]
	; AVX2-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX2-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX2-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8			; AVX2-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8
	; AVX2-NEXT: br label [[FOR_INC_1]]			; AVX2-NEXT: br label [[FOR_INC_1]]
	; AVX2: for.inc.1:			; AVX2: for.inc.1:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 32			; AVX2-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = or i64 [[INDVARS_IV]], 32
	; AVX2-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: [[TMP6:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4			; AVX2-NEXT: [[TMP6:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4
	; AVX2-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP6]], 100			; AVX2-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP6]], 100
	; AVX2-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]			; AVX2-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]
	; AVX2: if.then.2:			; AVX2: if.then.2:
	; AVX2-NEXT: [[TMP7:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_1]], 1			; AVX2-NEXT: [[TMP7:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_1]], 1
	; AVX2-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP7]]			; AVX2-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP7]]
	; AVX2-NEXT: [[TMP8:%.]] = load double, double [[ARRAYIDX3_2]], align 8			; AVX2-NEXT: [[TMP8:%.]] = load double, double [[ARRAYIDX3_2]], align 8
	; AVX2-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP6]] to double			; AVX2-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP6]] to double
	; AVX2-NEXT: [[ADD_2:%.*]] = fadd double [[TMP8]], [[CONV_2]]			; AVX2-NEXT: [[ADD_2:%.*]] = fadd double [[CONV_2]], [[TMP8]]
	; AVX2-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]			; AVX2-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX2-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8			; AVX2-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8
	; AVX2-NEXT: br label [[FOR_INC_2]]			; AVX2-NEXT: br label [[FOR_INC_2]]
	; AVX2: for.inc.2:			; AVX2: for.inc.2:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 48			; AVX2-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = or i64 [[INDVARS_IV]], 48
	; AVX2-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: [[TMP9:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4			; AVX2-NEXT: [[TMP9:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4
	; AVX2-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP9]], 100			; AVX2-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP9]], 100
	; AVX2-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]			; AVX2-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]
	; AVX2: if.then.3:			; AVX2: if.then.3:
	; AVX2-NEXT: [[TMP10:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_2]], 1			; AVX2-NEXT: [[TMP10:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_2]], 1
	; AVX2-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP10]]			; AVX2-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP10]]
	; AVX2-NEXT: [[TMP11:%.]] = load double, double [[ARRAYIDX3_3]], align 8			; AVX2-NEXT: [[TMP11:%.]] = load double, double [[ARRAYIDX3_3]], align 8
	; AVX2-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP9]] to double			; AVX2-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP9]] to double
	; AVX2-NEXT: [[ADD_3:%.*]] = fadd double [[TMP11]], [[CONV_3]]			; AVX2-NEXT: [[ADD_3:%.*]] = fadd double [[CONV_3]], [[TMP11]]
	; AVX2-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]			; AVX2-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX2-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8			; AVX2-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8
	; AVX2-NEXT: br label [[FOR_INC_3]]			; AVX2-NEXT: br label [[FOR_INC_3]]
	; AVX2: for.inc.3:			; AVX2: for.inc.3:
	; AVX2-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 64			; AVX2-NEXT: [[INDVARS_IV_NEXT_3]] = add nuw nsw i64 [[INDVARS_IV]], 64
	; AVX2-NEXT: br label [[FOR_BODY]]			; AVX2-NEXT: br label [[FOR_BODY]]
	;			;
	; AVX512-LABEL: @foo4(			; AVX512-LABEL: @foo4(
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 9985			; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[A:%.*]], i64 9985
	; AVX512-NEXT: [[SCEVGEP12:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 9985			; AVX512-NEXT: [[SCEVGEP13:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 9985
	; AVX512-NEXT: [[SCEVGEP15:%.]] = getelementptr double, double [[B:%.*]], i64 19969			; AVX512-NEXT: [[SCEVGEP16:%.]] = getelementptr double, double [[B:%.*]], i64 19969
	; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP12]] to double*			; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP13]] to double*
	; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]			; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[A]]
	; AVX512-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX512-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX512-NEXT: [[BOUND017:%.]] = icmp ugt double [[SCEVGEP15]], [[A]]			; AVX512-NEXT: [[BOUND018:%.]] = icmp ugt double [[SCEVGEP16]], [[A]]
	; AVX512-NEXT: [[BOUND118:%.]] = icmp ugt double [[SCEVGEP]], [[B]]			; AVX512-NEXT: [[BOUND119:%.]] = icmp ugt double [[SCEVGEP]], [[B]]
	; AVX512-NEXT: [[FOUND_CONFLICT19:%.*]] = and i1 [[BOUND017]], [[BOUND118]]			; AVX512-NEXT: [[FOUND_CONFLICT20:%.*]] = and i1 [[BOUND119]], [[BOUND018]]
	; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT19]]			; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT20]], [[FOUND_CONFLICT]]
	; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]			; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY_PREHEADER:%.]], label [[VECTOR_BODY:%.]]
	; AVX512: vector.body:			; AVX512: vector.body:
	; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_2:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT_2:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX512-NEXT: [[VEC_IND:%.]] = phi <8 x i64> [ [[VEC_IND_NEXT_2:%.]], [[VECTOR_BODY]] ], [ <i64 0, i64 16, i64 32, i64 48, i64 64, i64 80, i64 96, i64 112>, [[ENTRY]] ]			; AVX512-NEXT: [[VEC_IND:%.]] = phi <8 x i64> [ [[VEC_IND_NEXT_2:%.]], [[VECTOR_BODY]] ], [ <i64 0, i64 16, i64 32, i64 48, i64 64, i64 80, i64 96, i64 112>, [[ENTRY]] ]
	; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], <8 x i64> [[VEC_IND]]			; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], <8 x i64> [[VEC_IND]]
	; AVX512-NEXT: [[WIDE_MASKED_GATHER:%.]] = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32> [[TMP2]], i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef), !alias.scope !41			; AVX512-NEXT: [[WIDE_MASKED_GATHER:%.]] = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32> [[TMP2]], i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef), !alias.scope !41
	; AVX512-NEXT: [[TMP3:%.*]] = icmp slt <8 x i32> [[WIDE_MASKED_GATHER]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>			; AVX512-NEXT: [[TMP3:%.*]] = icmp slt <8 x i32> [[WIDE_MASKED_GATHER]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>
	; AVX512-NEXT: [[TMP4:%.*]] = shl nuw nsw <8 x i64> [[VEC_IND]], <i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1>			; AVX512-NEXT: [[TMP4:%.*]] = shl nuw nsw <8 x i64> [[VEC_IND]], <i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1>
	; AVX512-NEXT: [[TMP5:%.]] = getelementptr inbounds double, double [[B]], <8 x i64> [[TMP4]]			; AVX512-NEXT: [[TMP5:%.]] = getelementptr inbounds double, double [[B]], <8 x i64> [[TMP4]]
	; AVX512-NEXT: [[WIDE_MASKED_GATHER20:%.]] = call <8 x double> @llvm.masked.gather.v8f64.v8p0f64(<8 x double> [[TMP5]], i32 8, <8 x i1> [[TMP3]], <8 x double> undef), !alias.scope !44			; AVX512-NEXT: [[WIDE_MASKED_GATHER21:%.]] = call <8 x double> @llvm.masked.gather.v8f64.v8p0f64(<8 x double> [[TMP5]], i32 8, <8 x i1> [[TMP3]], <8 x double> undef), !alias.scope !44
	; AVX512-NEXT: [[TMP6:%.*]] = sitofp <8 x i32> [[WIDE_MASKED_GATHER]] to <8 x double>			; AVX512-NEXT: [[TMP6:%.*]] = sitofp <8 x i32> [[WIDE_MASKED_GATHER]] to <8 x double>
	; AVX512-NEXT: [[TMP7:%.*]] = fadd <8 x double> [[WIDE_MASKED_GATHER20]], [[TMP6]]			; AVX512-NEXT: [[TMP7:%.*]] = fadd <8 x double> [[WIDE_MASKED_GATHER21]], [[TMP6]]
	; AVX512-NEXT: [[TMP8:%.]] = getelementptr inbounds double, double [[A]], <8 x i64> [[VEC_IND]]			; AVX512-NEXT: [[TMP8:%.]] = getelementptr inbounds double, double [[A]], <8 x i64> [[VEC_IND]]
	; AVX512-NEXT: call void @llvm.masked.scatter.v8f64.v8p0f64(<8 x double> [[TMP7]], <8 x double*> [[TMP8]], i32 8, <8 x i1> [[TMP3]]), !alias.scope !46, !noalias !48			; AVX512-NEXT: call void @llvm.masked.scatter.v8f64.v8p0f64(<8 x double> [[TMP7]], <8 x double*> [[TMP8]], i32 8, <8 x i1> [[TMP3]]), !alias.scope !46, !noalias !48
	; AVX512-NEXT: [[VEC_IND_NEXT:%.*]] = add <8 x i64> [[VEC_IND]], <i64 128, i64 128, i64 128, i64 128, i64 128, i64 128, i64 128, i64 128>			; AVX512-NEXT: [[VEC_IND_NEXT:%.*]] = add <8 x i64> [[VEC_IND]], <i64 128, i64 128, i64 128, i64 128, i64 128, i64 128, i64 128, i64 128>
	; AVX512-NEXT: [[TMP9:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], <8 x i64> [[VEC_IND_NEXT]]			; AVX512-NEXT: [[TMP9:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], <8 x i64> [[VEC_IND_NEXT]]
	; AVX512-NEXT: [[WIDE_MASKED_GATHER_1:%.]] = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32> [[TMP9]], i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef), !alias.scope !41			; AVX512-NEXT: [[WIDE_MASKED_GATHER_1:%.]] = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32> [[TMP9]], i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef), !alias.scope !41
	; AVX512-NEXT: [[TMP10:%.*]] = icmp slt <8 x i32> [[WIDE_MASKED_GATHER_1]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>			; AVX512-NEXT: [[TMP10:%.*]] = icmp slt <8 x i32> [[WIDE_MASKED_GATHER_1]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>
	; AVX512-NEXT: [[TMP11:%.*]] = shl nuw nsw <8 x i64> [[VEC_IND_NEXT]], <i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1>			; AVX512-NEXT: [[TMP11:%.*]] = shl nuw nsw <8 x i64> [[VEC_IND_NEXT]], <i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1>
	; AVX512-NEXT: [[TMP12:%.]] = getelementptr inbounds double, double [[B]], <8 x i64> [[TMP11]]			; AVX512-NEXT: [[TMP12:%.]] = getelementptr inbounds double, double [[B]], <8 x i64> [[TMP11]]
	; AVX512-NEXT: [[WIDE_MASKED_GATHER20_1:%.]] = call <8 x double> @llvm.masked.gather.v8f64.v8p0f64(<8 x double> [[TMP12]], i32 8, <8 x i1> [[TMP10]], <8 x double> undef), !alias.scope !44			; AVX512-NEXT: [[WIDE_MASKED_GATHER21_1:%.]] = call <8 x double> @llvm.masked.gather.v8f64.v8p0f64(<8 x double> [[TMP12]], i32 8, <8 x i1> [[TMP10]], <8 x double> undef), !alias.scope !44
	; AVX512-NEXT: [[TMP13:%.*]] = sitofp <8 x i32> [[WIDE_MASKED_GATHER_1]] to <8 x double>			; AVX512-NEXT: [[TMP13:%.*]] = sitofp <8 x i32> [[WIDE_MASKED_GATHER_1]] to <8 x double>
	; AVX512-NEXT: [[TMP14:%.*]] = fadd <8 x double> [[WIDE_MASKED_GATHER20_1]], [[TMP13]]			; AVX512-NEXT: [[TMP14:%.*]] = fadd <8 x double> [[WIDE_MASKED_GATHER21_1]], [[TMP13]]
	; AVX512-NEXT: [[TMP15:%.]] = getelementptr inbounds double, double [[A]], <8 x i64> [[VEC_IND_NEXT]]			; AVX512-NEXT: [[TMP15:%.]] = getelementptr inbounds double, double [[A]], <8 x i64> [[VEC_IND_NEXT]]
	; AVX512-NEXT: call void @llvm.masked.scatter.v8f64.v8p0f64(<8 x double> [[TMP14]], <8 x double*> [[TMP15]], i32 8, <8 x i1> [[TMP10]]), !alias.scope !46, !noalias !48			; AVX512-NEXT: call void @llvm.masked.scatter.v8f64.v8p0f64(<8 x double> [[TMP14]], <8 x double*> [[TMP15]], i32 8, <8 x i1> [[TMP10]]), !alias.scope !46, !noalias !48
	; AVX512-NEXT: [[VEC_IND_NEXT_1:%.*]] = add <8 x i64> [[VEC_IND]], <i64 256, i64 256, i64 256, i64 256, i64 256, i64 256, i64 256, i64 256>			; AVX512-NEXT: [[VEC_IND_NEXT_1:%.*]] = add <8 x i64> [[VEC_IND]], <i64 256, i64 256, i64 256, i64 256, i64 256, i64 256, i64 256, i64 256>
	; AVX512-NEXT: [[TMP16:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], <8 x i64> [[VEC_IND_NEXT_1]]			; AVX512-NEXT: [[TMP16:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], <8 x i64> [[VEC_IND_NEXT_1]]
	; AVX512-NEXT: [[WIDE_MASKED_GATHER_2:%.]] = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32> [[TMP16]], i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef), !alias.scope !41			; AVX512-NEXT: [[WIDE_MASKED_GATHER_2:%.]] = call <8 x i32> @llvm.masked.gather.v8i32.v8p0i32(<8 x i32> [[TMP16]], i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef), !alias.scope !41
	; AVX512-NEXT: [[TMP17:%.*]] = icmp slt <8 x i32> [[WIDE_MASKED_GATHER_2]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>			; AVX512-NEXT: [[TMP17:%.*]] = icmp slt <8 x i32> [[WIDE_MASKED_GATHER_2]], <i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100, i32 100>
	; AVX512-NEXT: [[TMP18:%.*]] = shl nuw nsw <8 x i64> [[VEC_IND_NEXT_1]], <i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1>			; AVX512-NEXT: [[TMP18:%.*]] = shl nuw nsw <8 x i64> [[VEC_IND_NEXT_1]], <i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1, i64 1>
	; AVX512-NEXT: [[TMP19:%.]] = getelementptr inbounds double, double [[B]], <8 x i64> [[TMP18]]			; AVX512-NEXT: [[TMP19:%.]] = getelementptr inbounds double, double [[B]], <8 x i64> [[TMP18]]
	; AVX512-NEXT: [[WIDE_MASKED_GATHER20_2:%.]] = call <8 x double> @llvm.masked.gather.v8f64.v8p0f64(<8 x double> [[TMP19]], i32 8, <8 x i1> [[TMP17]], <8 x double> undef), !alias.scope !44			; AVX512-NEXT: [[WIDE_MASKED_GATHER21_2:%.]] = call <8 x double> @llvm.masked.gather.v8f64.v8p0f64(<8 x double> [[TMP19]], i32 8, <8 x i1> [[TMP17]], <8 x double> undef), !alias.scope !44
	; AVX512-NEXT: [[TMP20:%.*]] = sitofp <8 x i32> [[WIDE_MASKED_GATHER_2]] to <8 x double>			; AVX512-NEXT: [[TMP20:%.*]] = sitofp <8 x i32> [[WIDE_MASKED_GATHER_2]] to <8 x double>
	; AVX512-NEXT: [[TMP21:%.*]] = fadd <8 x double> [[WIDE_MASKED_GATHER20_2]], [[TMP20]]			; AVX512-NEXT: [[TMP21:%.*]] = fadd <8 x double> [[WIDE_MASKED_GATHER21_2]], [[TMP20]]
	; AVX512-NEXT: [[TMP22:%.]] = getelementptr inbounds double, double [[A]], <8 x i64> [[VEC_IND_NEXT_1]]			; AVX512-NEXT: [[TMP22:%.]] = getelementptr inbounds double, double [[A]], <8 x i64> [[VEC_IND_NEXT_1]]
	; AVX512-NEXT: call void @llvm.masked.scatter.v8f64.v8p0f64(<8 x double> [[TMP21]], <8 x double*> [[TMP22]], i32 8, <8 x i1> [[TMP17]]), !alias.scope !46, !noalias !48			; AVX512-NEXT: call void @llvm.masked.scatter.v8f64.v8p0f64(<8 x double> [[TMP21]], <8 x double*> [[TMP22]], i32 8, <8 x i1> [[TMP17]]), !alias.scope !46, !noalias !48
	; AVX512-NEXT: [[INDEX_NEXT_2]] = add nuw nsw i64 [[INDEX]], 24			; AVX512-NEXT: [[INDEX_NEXT_2]] = add nuw nsw i64 [[INDEX]], 24
	; AVX512-NEXT: [[VEC_IND_NEXT_2]] = add <8 x i64> [[VEC_IND]], <i64 384, i64 384, i64 384, i64 384, i64 384, i64 384, i64 384, i64 384>			; AVX512-NEXT: [[VEC_IND_NEXT_2]] = add <8 x i64> [[VEC_IND]], <i64 384, i64 384, i64 384, i64 384, i64 384, i64 384, i64 384, i64 384>
	; AVX512-NEXT: [[TMP23:%.*]] = icmp eq i64 [[INDEX_NEXT_2]], 624			; AVX512-NEXT: [[TMP23:%.*]] = icmp eq i64 [[INDEX_NEXT_2]], 624
	; AVX512-NEXT: br i1 [[TMP23]], label [[FOR_BODY_PREHEADER]], label [[VECTOR_BODY]], !llvm.loop !49			; AVX512-NEXT: br i1 [[TMP23]], label [[FOR_BODY_PREHEADER]], label [[VECTOR_BODY]], !llvm.loop !49
	; AVX512: for.body.preheader:			; AVX512: for.body.preheader:
	; AVX512-NEXT: [[INDVARS_IV_PH:%.*]] = phi i64 [ 0, [[ENTRY]] ], [ 9984, [[VECTOR_BODY]] ]			; AVX512-NEXT: [[INDVARS_IV_PH:%.*]] = phi i64 [ 0, [[ENTRY]] ], [ 9984, [[VECTOR_BODY]] ]
	; AVX512-NEXT: [[TMP24:%.*]] = sub nuw nsw i64 9999, [[INDVARS_IV_PH]]			; AVX512-NEXT: [[TMP24:%.*]] = sub nuw nsw i64 9999, [[INDVARS_IV_PH]]
	; AVX512-NEXT: br label [[FOR_BODY_PROL:%.*]]			; AVX512-NEXT: br label [[FOR_BODY_PROL:%.*]]
	; AVX512: for.body.prol:			; AVX512: for.body.prol:
	; AVX512-NEXT: [[INDVARS_IV_PROL:%.]] = phi i64 [ [[INDVARS_IV_NEXT_PROL:%.]], [[FOR_INC_PROL:%.*]] ], [ [[INDVARS_IV_PH]], [[FOR_BODY_PREHEADER]] ]			; AVX512-NEXT: [[INDVARS_IV_PROL:%.]] = phi i64 [ [[INDVARS_IV_NEXT_PROL:%.]], [[FOR_INC_PROL:%.*]] ], [ [[INDVARS_IV_PH]], [[FOR_BODY_PREHEADER]] ]
	; AVX512-NEXT: [[PROL_ITER:%.]] = phi i64 [ [[PROL_ITER_SUB:%.]], [[FOR_INC_PROL]] ], [ 1, [[FOR_BODY_PREHEADER]] ]			; AVX512-NEXT: [[PROL_ITER:%.]] = phi i64 [ [[PROL_ITER_SUB:%.]], [[FOR_INC_PROL]] ], [ 1, [[FOR_BODY_PREHEADER]] ]
	; AVX512-NEXT: [[ARRAYIDX_PROL:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_PROL]]			; AVX512-NEXT: [[ARRAYIDX_PROL:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_PROL]]
	; AVX512-NEXT: [[TMP25:%.]] = load i32, i32 [[ARRAYIDX_PROL]], align 4			; AVX512-NEXT: [[TMP25:%.]] = load i32, i32 [[ARRAYIDX_PROL]], align 4
	; AVX512-NEXT: [[CMP1_PROL:%.*]] = icmp slt i32 [[TMP25]], 100			; AVX512-NEXT: [[CMP1_PROL:%.*]] = icmp slt i32 [[TMP25]], 100
	; AVX512-NEXT: br i1 [[CMP1_PROL]], label [[IF_THEN_PROL:%.*]], label [[FOR_INC_PROL]]			; AVX512-NEXT: br i1 [[CMP1_PROL]], label [[IF_THEN_PROL:%.*]], label [[FOR_INC_PROL]]
	; AVX512: if.then.prol:			; AVX512: if.then.prol:
	; AVX512-NEXT: [[TMP26:%.*]] = shl nuw nsw i64 [[INDVARS_IV_PROL]], 1			; AVX512-NEXT: [[TMP26:%.*]] = shl nuw nsw i64 [[INDVARS_IV_PROL]], 1
	; AVX512-NEXT: [[ARRAYIDX3_PROL:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP26]]			; AVX512-NEXT: [[ARRAYIDX3_PROL:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP26]]
	; AVX512-NEXT: [[TMP27:%.]] = load double, double [[ARRAYIDX3_PROL]], align 8			; AVX512-NEXT: [[TMP27:%.]] = load double, double [[ARRAYIDX3_PROL]], align 8
	; AVX512-NEXT: [[CONV_PROL:%.*]] = sitofp i32 [[TMP25]] to double			; AVX512-NEXT: [[CONV_PROL:%.*]] = sitofp i32 [[TMP25]] to double
	; AVX512-NEXT: [[ADD_PROL:%.*]] = fadd double [[TMP27]], [[CONV_PROL]]			; AVX512-NEXT: [[ADD_PROL:%.*]] = fadd double [[CONV_PROL]], [[TMP27]]
	; AVX512-NEXT: [[ARRAYIDX7_PROL:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_PROL]]			; AVX512-NEXT: [[ARRAYIDX7_PROL:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_PROL]]
	; AVX512-NEXT: store double [[ADD_PROL]], double* [[ARRAYIDX7_PROL]], align 8			; AVX512-NEXT: store double [[ADD_PROL]], double* [[ARRAYIDX7_PROL]], align 8
	; AVX512-NEXT: br label [[FOR_INC_PROL]]			; AVX512-NEXT: br label [[FOR_INC_PROL]]
	; AVX512: for.inc.prol:			; AVX512: for.inc.prol:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_PROL]] = add nuw nsw i64 [[INDVARS_IV_PROL]], 16			; AVX512-NEXT: [[INDVARS_IV_NEXT_PROL]] = add nuw nsw i64 [[INDVARS_IV_PROL]], 16
	; AVX512-NEXT: [[PROL_ITER_SUB]] = add i64 [[PROL_ITER]], -1			; AVX512-NEXT: [[PROL_ITER_SUB]] = add i64 [[PROL_ITER]], -1
	; AVX512-NEXT: [[PROL_ITER_CMP:%.*]] = icmp eq i64 [[PROL_ITER_SUB]], 0			; AVX512-NEXT: [[PROL_ITER_CMP:%.*]] = icmp eq i64 [[PROL_ITER_SUB]], 0
	; AVX512-NEXT: br i1 [[PROL_ITER_CMP]], label [[FOR_BODY_PROL_LOOPEXIT:%.*]], label [[FOR_BODY_PROL]], !llvm.loop !50			; AVX512-NEXT: br i1 [[PROL_ITER_CMP]], label [[FOR_BODY_PROL_LOOPEXIT:%.*]], label [[FOR_BODY_PROL]], !llvm.loop !50
	; AVX512: for.body.prol.loopexit:			; AVX512: for.body.prol.loopexit:
	; AVX512-NEXT: [[DOTMASK:%.*]] = and i64 [[TMP24]], 9984			; AVX512-NEXT: [[DOTMASK:%.*]] = and i64 [[TMP24]], 9984
	; AVX512-NEXT: [[TMP28:%.*]] = icmp eq i64 [[DOTMASK]], 0			; AVX512-NEXT: [[TMP28:%.*]] = icmp eq i64 [[DOTMASK]], 0
	; AVX512-NEXT: br i1 [[TMP28]], label [[FOR_END:%.]], label [[FOR_BODY:%.]]			; AVX512-NEXT: br i1 [[TMP28]], label [[FOR_END:%.]], label [[FOR_BODY:%.]]
	; AVX512: for.body:			; AVX512: for.body:
	; AVX512-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT_3:%.]], [[FOR_INC_3:%.*]] ], [ [[INDVARS_IV_NEXT_PROL]], [[FOR_BODY_PROL_LOOPEXIT]] ]			; AVX512-NEXT: [[INDVARS_IV:%.]] = phi i64 [ [[INDVARS_IV_NEXT_3:%.]], [[FOR_INC_3:%.*]] ], [ [[INDVARS_IV_NEXT_PROL]], [[FOR_BODY_PROL_LOOPEXIT]] ]
	; AVX512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: [[TMP29:%.]] = load i32, i32 [[ARRAYIDX]], align 4			; AVX512-NEXT: [[TMP29:%.]] = load i32, i32 [[ARRAYIDX]], align 4
	; AVX512-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP29]], 100			; AVX512-NEXT: [[CMP1:%.*]] = icmp slt i32 [[TMP29]], 100
	; AVX512-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]			; AVX512-NEXT: br i1 [[CMP1]], label [[IF_THEN:%.]], label [[FOR_INC:%.]]
	; AVX512: if.then:			; AVX512: if.then:
	; AVX512-NEXT: [[TMP30:%.*]] = shl nuw nsw i64 [[INDVARS_IV]], 1			; AVX512-NEXT: [[TMP30:%.*]] = shl nuw nsw i64 [[INDVARS_IV]], 1
	; AVX512-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP30]]			; AVX512-NEXT: [[ARRAYIDX3:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP30]]
	; AVX512-NEXT: [[TMP31:%.]] = load double, double [[ARRAYIDX3]], align 8			; AVX512-NEXT: [[TMP31:%.]] = load double, double [[ARRAYIDX3]], align 8
	; AVX512-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP29]] to double			; AVX512-NEXT: [[CONV:%.*]] = sitofp i32 [[TMP29]] to double
	; AVX512-NEXT: [[ADD:%.*]] = fadd double [[TMP31]], [[CONV]]			; AVX512-NEXT: [[ADD:%.*]] = fadd double [[CONV]], [[TMP31]]
	; AVX512-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]			; AVX512-NEXT: [[ARRAYIDX7:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV]]
	; AVX512-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8			; AVX512-NEXT: store double [[ADD]], double* [[ARRAYIDX7]], align 8
	; AVX512-NEXT: br label [[FOR_INC]]			; AVX512-NEXT: br label [[FOR_INC]]
	; AVX512: for.inc:			; AVX512: for.inc:
	; AVX512-NEXT: [[INDVARS_IV_NEXT:%.*]] = add nuw nsw i64 [[INDVARS_IV]], 16			; AVX512-NEXT: [[INDVARS_IV_NEXT:%.*]] = add nuw nsw i64 [[INDVARS_IV]], 16
	; AVX512-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX_1:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: [[TMP32:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4			; AVX512-NEXT: [[TMP32:%.]] = load i32, i32 [[ARRAYIDX_1]], align 4
	; AVX512-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP32]], 100			; AVX512-NEXT: [[CMP1_1:%.*]] = icmp slt i32 [[TMP32]], 100
	; AVX512-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]			; AVX512-NEXT: br i1 [[CMP1_1]], label [[IF_THEN_1:%.]], label [[FOR_INC_1:%.]]
	; AVX512: for.end:			; AVX512: for.end:
	; AVX512-NEXT: ret void			; AVX512-NEXT: ret void
	; AVX512: if.then.1:			; AVX512: if.then.1:
	; AVX512-NEXT: [[TMP33:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT]], 1			; AVX512-NEXT: [[TMP33:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT]], 1
	; AVX512-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP33]]			; AVX512-NEXT: [[ARRAYIDX3_1:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP33]]
	; AVX512-NEXT: [[TMP34:%.]] = load double, double [[ARRAYIDX3_1]], align 8			; AVX512-NEXT: [[TMP34:%.]] = load double, double [[ARRAYIDX3_1]], align 8
	; AVX512-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP32]] to double			; AVX512-NEXT: [[CONV_1:%.*]] = sitofp i32 [[TMP32]] to double
	; AVX512-NEXT: [[ADD_1:%.*]] = fadd double [[TMP34]], [[CONV_1]]			; AVX512-NEXT: [[ADD_1:%.*]] = fadd double [[CONV_1]], [[TMP34]]
	; AVX512-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]			; AVX512-NEXT: [[ARRAYIDX7_1:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT]]
	; AVX512-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8			; AVX512-NEXT: store double [[ADD_1]], double* [[ARRAYIDX7_1]], align 8
	; AVX512-NEXT: br label [[FOR_INC_1]]			; AVX512-NEXT: br label [[FOR_INC_1]]
	; AVX512: for.inc.1:			; AVX512: for.inc.1:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = add nsw i64 [[INDVARS_IV]], 32			; AVX512-NEXT: [[INDVARS_IV_NEXT_1:%.*]] = add nsw i64 [[INDVARS_IV]], 32
	; AVX512-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX_2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: [[TMP35:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4			; AVX512-NEXT: [[TMP35:%.]] = load i32, i32 [[ARRAYIDX_2]], align 4
	; AVX512-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP35]], 100			; AVX512-NEXT: [[CMP1_2:%.*]] = icmp slt i32 [[TMP35]], 100
	; AVX512-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]			; AVX512-NEXT: br i1 [[CMP1_2]], label [[IF_THEN_2:%.]], label [[FOR_INC_2:%.]]
	; AVX512: if.then.2:			; AVX512: if.then.2:
	; AVX512-NEXT: [[TMP36:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_1]], 1			; AVX512-NEXT: [[TMP36:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_1]], 1
	; AVX512-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP36]]			; AVX512-NEXT: [[ARRAYIDX3_2:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP36]]
	; AVX512-NEXT: [[TMP37:%.]] = load double, double [[ARRAYIDX3_2]], align 8			; AVX512-NEXT: [[TMP37:%.]] = load double, double [[ARRAYIDX3_2]], align 8
	; AVX512-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP35]] to double			; AVX512-NEXT: [[CONV_2:%.*]] = sitofp i32 [[TMP35]] to double
	; AVX512-NEXT: [[ADD_2:%.*]] = fadd double [[TMP37]], [[CONV_2]]			; AVX512-NEXT: [[ADD_2:%.*]] = fadd double [[CONV_2]], [[TMP37]]
	; AVX512-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]			; AVX512-NEXT: [[ARRAYIDX7_2:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_1]]
	; AVX512-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8			; AVX512-NEXT: store double [[ADD_2]], double* [[ARRAYIDX7_2]], align 8
	; AVX512-NEXT: br label [[FOR_INC_2]]			; AVX512-NEXT: br label [[FOR_INC_2]]
	; AVX512: for.inc.2:			; AVX512: for.inc.2:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = add nsw i64 [[INDVARS_IV]], 48			; AVX512-NEXT: [[INDVARS_IV_NEXT_2:%.*]] = add nsw i64 [[INDVARS_IV]], 48
	; AVX512-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX_3:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: [[TMP38:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4			; AVX512-NEXT: [[TMP38:%.]] = load i32, i32 [[ARRAYIDX_3]], align 4
	; AVX512-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP38]], 100			; AVX512-NEXT: [[CMP1_3:%.*]] = icmp slt i32 [[TMP38]], 100
	; AVX512-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]			; AVX512-NEXT: br i1 [[CMP1_3]], label [[IF_THEN_3:%.*]], label [[FOR_INC_3]]
	; AVX512: if.then.3:			; AVX512: if.then.3:
	; AVX512-NEXT: [[TMP39:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_2]], 1			; AVX512-NEXT: [[TMP39:%.*]] = shl nuw nsw i64 [[INDVARS_IV_NEXT_2]], 1
	; AVX512-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP39]]			; AVX512-NEXT: [[ARRAYIDX3_3:%.]] = getelementptr inbounds double, double [[B]], i64 [[TMP39]]
	; AVX512-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3_3]], align 8			; AVX512-NEXT: [[TMP40:%.]] = load double, double [[ARRAYIDX3_3]], align 8
	; AVX512-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP38]] to double			; AVX512-NEXT: [[CONV_3:%.*]] = sitofp i32 [[TMP38]] to double
	; AVX512-NEXT: [[ADD_3:%.*]] = fadd double [[TMP40]], [[CONV_3]]			; AVX512-NEXT: [[ADD_3:%.*]] = fadd double [[CONV_3]], [[TMP40]]
	; AVX512-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]			; AVX512-NEXT: [[ARRAYIDX7_3:%.]] = getelementptr inbounds double, double [[A]], i64 [[INDVARS_IV_NEXT_2]]
	; AVX512-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8			; AVX512-NEXT: store double [[ADD_3]], double* [[ARRAYIDX7_3]], align 8
	; AVX512-NEXT: br label [[FOR_INC_3]]			; AVX512-NEXT: br label [[FOR_INC_3]]
	; AVX512: for.inc.3:			; AVX512: for.inc.3:
	; AVX512-NEXT: [[INDVARS_IV_NEXT_3]] = add nsw i64 [[INDVARS_IV]], 64			; AVX512-NEXT: [[INDVARS_IV_NEXT_3]] = add nsw i64 [[INDVARS_IV]], 64
	; AVX512-NEXT: [[CMP_3:%.*]] = icmp ult i64 [[INDVARS_IV_NEXT_3]], 10000			; AVX512-NEXT: [[CMP_3:%.*]] = icmp ult i64 [[INDVARS_IV_NEXT_3]], 10000
	; AVX512-NEXT: br i1 [[CMP_3]], label [[FOR_BODY]], label [[FOR_END]], !llvm.loop !52			; AVX512-NEXT: br i1 [[CMP_3]], label [[FOR_BODY]], label [[FOR_END]], !llvm.loop !52
	;			;
	▲ Show 20 Lines • Show All 286 Lines • ▼ Show 20 Lines
	; AVX1-NEXT: entry:			; AVX1-NEXT: entry:
	; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[OUT:%.*]], i64 4096			; AVX1-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[OUT:%.*]], i64 4096
	; AVX1-NEXT: [[SCEVGEP9:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 4096			; AVX1-NEXT: [[SCEVGEP9:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 4096
	; AVX1-NEXT: [[SCEVGEP12:%.]] = getelementptr double, double [[IN:%.*]], i64 4096			; AVX1-NEXT: [[SCEVGEP12:%.]] = getelementptr double, double [[IN:%.*]], i64 4096
	; AVX1-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP9]] to double*			; AVX1-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP9]] to double*
	; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[OUT]]			; AVX1-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[OUT]]
	; AVX1-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX1-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX1-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX1-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX1-NEXT: [[BOUND014:%.]] = icmp ugt double [[SCEVGEP12]], [[OUT]]			; AVX1-NEXT: [[BOUND014:%.]] = icmp ugt double [[SCEVGEP12]], [[OUT]]
	; AVX1-NEXT: [[BOUND115:%.]] = icmp ugt double [[SCEVGEP]], [[IN]]			; AVX1-NEXT: [[BOUND115:%.]] = icmp ugt double [[SCEVGEP]], [[IN]]
	; AVX1-NEXT: [[FOUND_CONFLICT16:%.*]] = and i1 [[BOUND014]], [[BOUND115]]			; AVX1-NEXT: [[FOUND_CONFLICT16:%.*]] = and i1 [[BOUND014]], [[BOUND115]]
	; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT16]]			; AVX1-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT16]], [[FOUND_CONFLICT]]
	; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX1-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX1: vector.body:			; AVX1: vector.body:
	; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX1-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX1-NEXT: [[OFFSET_IDX:%.*]] = sub i64 4095, [[INDEX]]			; AVX1-NEXT: [[OFFSET_IDX:%.*]] = sub i64 4095, [[INDEX]]
	; AVX1-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[OFFSET_IDX]]			; AVX1-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[OFFSET_IDX]]
	; AVX1-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 -3			; AVX1-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 -3
	; AVX1-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP3]] to <4 x i32>*			; AVX1-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP3]] to <4 x i32>*
	; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP4]], align 4, !alias.scope !41			; AVX1-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP4]], align 4, !alias.scope !41
	▲ Show 20 Lines • Show All 97 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: entry:			; AVX2-NEXT: entry:
	; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[OUT:%.*]], i64 4096			; AVX2-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[OUT:%.*]], i64 4096
	; AVX2-NEXT: [[SCEVGEP9:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 4096			; AVX2-NEXT: [[SCEVGEP9:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 4096
	; AVX2-NEXT: [[SCEVGEP12:%.]] = getelementptr double, double [[IN:%.*]], i64 4096			; AVX2-NEXT: [[SCEVGEP12:%.]] = getelementptr double, double [[IN:%.*]], i64 4096
	; AVX2-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP9]] to double*			; AVX2-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP9]] to double*
	; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[OUT]]			; AVX2-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[OUT]]
	; AVX2-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX2-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX2-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX2-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX2-NEXT: [[BOUND014:%.]] = icmp ugt double [[SCEVGEP12]], [[OUT]]			; AVX2-NEXT: [[BOUND014:%.]] = icmp ugt double [[SCEVGEP12]], [[OUT]]
	; AVX2-NEXT: [[BOUND115:%.]] = icmp ugt double [[SCEVGEP]], [[IN]]			; AVX2-NEXT: [[BOUND115:%.]] = icmp ugt double [[SCEVGEP]], [[IN]]
	; AVX2-NEXT: [[FOUND_CONFLICT16:%.*]] = and i1 [[BOUND014]], [[BOUND115]]			; AVX2-NEXT: [[FOUND_CONFLICT16:%.*]] = and i1 [[BOUND014]], [[BOUND115]]
	; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT16]]			; AVX2-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT16]], [[FOUND_CONFLICT]]
	; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX2-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX2: vector.body:			; AVX2: vector.body:
	; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX2-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX2-NEXT: [[OFFSET_IDX:%.*]] = sub i64 4095, [[INDEX]]			; AVX2-NEXT: [[OFFSET_IDX:%.*]] = sub i64 4095, [[INDEX]]
	; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[OFFSET_IDX]]			; AVX2-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[OFFSET_IDX]]
	; AVX2-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 -3			; AVX2-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 -3
	; AVX2-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP3]] to <4 x i32>*			; AVX2-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP3]] to <4 x i32>*
	; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP4]], align 4, !alias.scope !41			; AVX2-NEXT: [[WIDE_LOAD:%.]] = load <4 x i32>, <4 x i32> [[TMP4]], align 4, !alias.scope !41
	▲ Show 20 Lines • Show All 123 Lines • ▼ Show 20 Lines
	; AVX512-NEXT: entry:			; AVX512-NEXT: entry:
	; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[OUT:%.*]], i64 4096			; AVX512-NEXT: [[SCEVGEP:%.]] = getelementptr double, double [[OUT:%.*]], i64 4096
	; AVX512-NEXT: [[SCEVGEP9:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 4096			; AVX512-NEXT: [[SCEVGEP9:%.]] = getelementptr i32, i32 [[TRIGGER:%.*]], i64 4096
	; AVX512-NEXT: [[SCEVGEP12:%.]] = getelementptr double, double [[IN:%.*]], i64 4096			; AVX512-NEXT: [[SCEVGEP12:%.]] = getelementptr double, double [[IN:%.*]], i64 4096
	; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP9]] to double*			; AVX512-NEXT: [[TMP0:%.]] = bitcast i32 [[SCEVGEP9]] to double*
	; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[OUT]]			; AVX512-NEXT: [[BOUND0:%.]] = icmp ugt double [[TMP0]], [[OUT]]
	; AVX512-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*			; AVX512-NEXT: [[TMP1:%.]] = bitcast double [[SCEVGEP]] to i32*
	; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]			; AVX512-NEXT: [[BOUND1:%.]] = icmp ugt i32 [[TMP1]], [[TRIGGER]]
	; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND0]], [[BOUND1]]			; AVX512-NEXT: [[FOUND_CONFLICT:%.*]] = and i1 [[BOUND1]], [[BOUND0]]
	; AVX512-NEXT: [[BOUND014:%.]] = icmp ugt double [[SCEVGEP12]], [[OUT]]			; AVX512-NEXT: [[BOUND014:%.]] = icmp ugt double [[SCEVGEP12]], [[OUT]]
	; AVX512-NEXT: [[BOUND115:%.]] = icmp ugt double [[SCEVGEP]], [[IN]]			; AVX512-NEXT: [[BOUND115:%.]] = icmp ugt double [[SCEVGEP]], [[IN]]
	; AVX512-NEXT: [[FOUND_CONFLICT16:%.*]] = and i1 [[BOUND014]], [[BOUND115]]			; AVX512-NEXT: [[FOUND_CONFLICT16:%.*]] = and i1 [[BOUND014]], [[BOUND115]]
	; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT]], [[FOUND_CONFLICT16]]			; AVX512-NEXT: [[CONFLICT_RDX:%.*]] = or i1 [[FOUND_CONFLICT16]], [[FOUND_CONFLICT]]
	; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]			; AVX512-NEXT: br i1 [[CONFLICT_RDX]], label [[FOR_BODY:%.]], label [[VECTOR_BODY:%.]]
	; AVX512: vector.body:			; AVX512: vector.body:
	; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]			; AVX512-NEXT: [[INDEX:%.]] = phi i64 [ [[INDEX_NEXT:%.]], [[VECTOR_BODY]] ], [ 0, [[ENTRY:%.*]] ]
	; AVX512-NEXT: [[OFFSET_IDX:%.*]] = sub i64 4095, [[INDEX]]			; AVX512-NEXT: [[OFFSET_IDX:%.*]] = sub i64 4095, [[INDEX]]
	; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[OFFSET_IDX]]			; AVX512-NEXT: [[TMP2:%.]] = getelementptr inbounds i32, i32 [[TRIGGER]], i64 [[OFFSET_IDX]]
	; AVX512-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 -7			; AVX512-NEXT: [[TMP3:%.]] = getelementptr inbounds i32, i32 [[TMP2]], i64 -7
	; AVX512-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP3]] to <8 x i32>*			; AVX512-NEXT: [[TMP4:%.]] = bitcast i32 [[TMP3]] to <8 x i32>*
	; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP4]], align 4, !alias.scope !53			; AVX512-NEXT: [[WIDE_LOAD:%.]] = load <8 x i32>, <8 x i32> [[TMP4]], align 4, !alias.scope !53
	▲ Show 20 Lines • Show All 681 Lines • Show Last 20 Lines

test/Transforms/Reassociate/reassociate-after-unroll.ll

				; RUN: opt -O2 -S < %s \| FileCheck %s
				spatelUnsubmitted Not Done Reply Inline Actions This test file belongs in test/Transforms/PhaseOrdering. I prefer to have the baseline test with complete, auto-generated checks (utils/update_test_checks.py) committed as a preliminary step, so we can see the before/after diff in this review. If you're updating the new pass manager in this patch, this test should have another RUN line to exercise/verify that path. spatel: This test file belongs in test/Transforms/PhaseOrdering. I prefer to have the baseline test…
				nemanjaiAuthorUnsubmitted Done Reply Inline Actions I will move it and add a RUN line for the NPM. Thanks for the suggestions. nemanjai: I will move it and add a RUN line for the NPM. Thanks for the suggestions.
				target datalayout = "e-m:e-i64:64-n32:64"
				target triple = "powerpc64le-unknown-linux-gnu"

				define dso_local i64 @func(i64 %blah, i64 %limit) #0 {
				entry:
				%blah.addr = alloca i64, align 8
				%limit.addr = alloca i64, align 8
				%k = alloca i32, align 4
				%g = alloca i64, align 8
				%i = alloca i64, align 8
				store i64 %blah, i64* %blah.addr, align 8
				store i64 %limit, i64* %limit.addr, align 8
				store i32 1, i32* %k, align 4
				store i64 0, i64* %i, align 8
				br label %for.cond

				for.cond: ; preds = %for.body, %entry
				%0 = load i64, i64* %i, align 8
				%1 = load i64, i64* %limit.addr, align 8
				%cmp = icmp ult i64 %0, %1
				br i1 %cmp, label %for.body, label %for.cond.cleanup

				for.cond.cleanup: ; preds = %for.cond
				%2 = load i64, i64* %g, align 8
				ret i64 %2

				; CHECK: for.body:
				; CHECK: mul i64 %{{.*}}, 8
				for.body: ; preds = %for.cond
				%3 = load i64, i64* %blah.addr, align 8
				%4 = load i32, i32* %k, align 4
				%conv = zext i32 %4 to i64
				%and = and i64 %conv, %3
				%conv1 = trunc i64 %and to i32
				store i32 %conv1, i32* %k, align 4
				%5 = load i32, i32* %k, align 4
				%conv2 = zext i32 %5 to i64
				%6 = load i64, i64* %g, align 8
				%add = add i64 %6, %conv2
				store i64 %add, i64* %g, align 8
				%7 = load i64, i64* %i, align 8
				%inc = add i64 %7, 1
				store i64 %inc, i64* %i, align 8
				br label %for.cond
				}

				; Function Attrs: argmemonly nounwind
				declare void @llvm.lifetime.start.p0i8(i64 immarg, i8* nocapture) #1

				; Function Attrs: argmemonly nounwind
				declare void @llvm.lifetime.end.p0i8(i64 immarg, i8* nocapture) #1

				attributes #0 = { "use-soft-float"="false" }
				attributes #1 = { argmemonly nounwind }

This is an archive of the discontinued LLVM Phabricator instance.

[Pass Pipeline] Run another round of reassociation after loop pipelineAbandonedPublic

Details

Diff Detail

Event Timeline

Revision Contents

Diff 198800

lib/Passes/PassBuilder.cpp

lib/Transforms/IPO/PassManagerBuilder.cpp

test/CodeGen/AMDGPU/simplify-libcalls.ll

test/Other/new-pm-defaults.ll

test/Other/new-pm-thinlto-defaults.ll

test/Other/opt-O2-pipeline.ll

test/Other/opt-O3-pipeline.ll

test/Other/opt-Os-pipeline.ll

test/Transforms/LoopVectorize/X86/masked_load_store.ll

test/Transforms/Reassociate/reassociate-after-unroll.ll

[Pass Pipeline] Run another round of reassociation after loop pipeline
AbandonedPublic