This is an archive of the discontinued LLVM Phabricator instance.

AVX-512: Kreg set 0/1 optimization
ClosedPublic

Authored by delena on Dec 22 2015, 11:14 PM.

Download Raw Diff

Details

Reviewers

Commits

rG9e225a2f52a3: AVX-512: Kreg set 0/1 optimization The patterns that set a mask register to 0/1…
rL256365: AVX-512: Kreg set 0/1 optimization

Summary

The pattern that sets a mask register to all-ones
KXNOR %kn, %kn, %kn
is replaced with
KXNOR %k0, %k0, %kn - KNL optimization.

Diff Detail

Repository: rL LLVM

Event Timeline

delena updated this revision to Diff 43510.Dec 22 2015, 11:14 PM

delena retitled this revision from to AVX-512: Kreg set 0/1 optimization.

delena updated this object.

delena added a reviewer: DavidKreitzer.

delena added a subscriber: llvm-commits.

DavidKreitzer added inline comments.Dec 23 2015, 6:49 AM

../lib/Target/X86/X86InstrInfo.cpp
5287	It would be a good idea to explain why it is preferable to read %k0 here, e.g. "KNL does not recognize dependency-breaking idioms for mask registers, so kxnor %k1, %k1, %k2 has a RAW dependence on %k1. Using %k0 as the undef input register is a performance heuristic based on the assumption that %k0 is used less frequently than the other mask registers, since it is not usable as a write mask. FIXME: A more advanced approach would be to choose the best input mask register based on context."
5418–5420	These SET0 opcodes should also call Expand2AddrKreg with %k0, as KNL doesn't recognize kxor as an idiom either.

Updated according to David's comments.

Added comments

Closed by commit rL256365: AVX-512: Kreg set 0/1 optimization (authored by delena). · Explain WhyDec 24 2015, 12:15 AM

This revision was automatically updated to reflect the committed changes.

Thanks, Elena! This looks good.

Revision Contents

Path

Size

../

lib/

Target/

X86/

X86InstrInfo.cpp

26 lines

test/

CodeGen/

X86/

avx512-gather-scatter-intrin.ll

60 lines

avx512-mask-op.ll

2 lines

masked_gather_scatter.ll

58 lines

Diff 43584

../lib/Target/X86/X86InstrInfo.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 5,273 Lines • ▼ Show 20 Lines	static bool Expand2AddrUndef(MachineInstrBuilder &MIB,
// implicit operands.		// implicit operands.
MIB.addReg(Reg, RegState::Undef).addReg(Reg, RegState::Undef);		MIB.addReg(Reg, RegState::Undef).addReg(Reg, RegState::Undef);
// But we don't trust that.		// But we don't trust that.
assert(MIB->getOperand(1).getReg() == Reg &&		assert(MIB->getOperand(1).getReg() == Reg &&
MIB->getOperand(2).getReg() == Reg && "Misplaced operand");		MIB->getOperand(2).getReg() == Reg && "Misplaced operand");
return true;		return true;
}		}

		/// Expand a single-def pseudo instruction to a two-addr
		/// instruction with two %k0 reads.
		/// This is used for mapping:
		/// %k4 = K_SET1
		/// to:
		/// %k4 = KXNORrr %k0, %k0
		DavidKreitzerUnsubmitted Not Done Reply Inline Actions It would be a good idea to explain why it is preferable to read %k0 here, e.g. "KNL does not recognize dependency-breaking idioms for mask registers, so kxnor %k1, %k1, %k2 has a RAW dependence on %k1. Using %k0 as the undef input register is a performance heuristic based on the assumption that %k0 is used less frequently than the other mask registers, since it is not usable as a write mask. FIXME: A more advanced approach would be to choose the best input mask register based on context." DavidKreitzer: It would be a good idea to explain why it is preferable to read %k0 here, e.g. "KNL does not…
		static bool Expand2AddrKreg(MachineInstrBuilder &MIB,
		const MCInstrDesc &Desc, unsigned Reg) {
		assert(Desc.getNumOperands() == 3 && "Expected two-addr instruction.");
		MIB->setDesc(Desc);
		MIB.addReg(Reg, RegState::Undef).addReg(Reg, RegState::Undef);
		return true;
		}

static bool expandMOV32r1(MachineInstrBuilder &MIB, const TargetInstrInfo &TII,		static bool expandMOV32r1(MachineInstrBuilder &MIB, const TargetInstrInfo &TII,
bool MinusOne) {		bool MinusOne) {
MachineBasicBlock &MBB = *MIB->getParent();		MachineBasicBlock &MBB = *MIB->getParent();
DebugLoc DL = MIB->getDebugLoc();		DebugLoc DL = MIB->getDebugLoc();
unsigned Reg = MIB->getOperand(0).getReg();		unsigned Reg = MIB->getOperand(0).getReg();

// Insert the XOR.		// Insert the XOR.
BuildMI(MBB, MIB.getInstr(), DL, TII.get(X86::XOR32rr), Reg)		BuildMI(MBB, MIB.getInstr(), DL, TII.get(X86::XOR32rr), Reg)
▲ Show 20 Lines • Show All 106 Lines • ▼ Show 20 Lines	bool X86InstrInfo::expandPostRAPseudo(MachineBasicBlock::iterator MI) const {
case X86::V_SETALLONES:		case X86::V_SETALLONES:
return Expand2AddrUndef(MIB, get(HasAVX ? X86::VPCMPEQDrr : X86::PCMPEQDrr));		return Expand2AddrUndef(MIB, get(HasAVX ? X86::VPCMPEQDrr : X86::PCMPEQDrr));
case X86::AVX2_SETALLONES:		case X86::AVX2_SETALLONES:
return Expand2AddrUndef(MIB, get(X86::VPCMPEQDYrr));		return Expand2AddrUndef(MIB, get(X86::VPCMPEQDYrr));
case X86::TEST8ri_NOREX:		case X86::TEST8ri_NOREX:
MI->setDesc(get(X86::TEST8ri));		MI->setDesc(get(X86::TEST8ri));
return true;		return true;
case X86::KSET0B:		case X86::KSET0B:
case X86::KSET0W: return Expand2AddrUndef(MIB, get(X86::KXORWrr));		case X86::KSET0W: return Expand2AddrKreg(MIB, get(X86::KXORWrr), X86::K0);
case X86::KSET0D: return Expand2AddrUndef(MIB, get(X86::KXORDrr));		case X86::KSET0D: return Expand2AddrKreg(MIB, get(X86::KXORDrr), X86::K0);
case X86::KSET0Q: return Expand2AddrUndef(MIB, get(X86::KXORQrr));		case X86::KSET0Q: return Expand2AddrKreg(MIB, get(X86::KXORQrr), X86::K0);
		DavidKreitzerUnsubmitted Not Done Reply Inline Actions These SET0 opcodes should also call Expand2AddrKreg with %k0, as KNL doesn't recognize kxor as an idiom either. DavidKreitzer: These SET0 opcodes should also call Expand2AddrKreg with %k0, as KNL doesn't recognize kxor as…
case X86::KSET1B:		case X86::KSET1B:
case X86::KSET1W: return Expand2AddrUndef(MIB, get(X86::KXNORWrr));		case X86::KSET1W: return Expand2AddrKreg(MIB, get(X86::KXNORWrr), X86::K0);
case X86::KSET1D: return Expand2AddrUndef(MIB, get(X86::KXNORDrr));		case X86::KSET1D: return Expand2AddrKreg(MIB, get(X86::KXNORDrr), X86::K0);
case X86::KSET1Q: return Expand2AddrUndef(MIB, get(X86::KXNORQrr));		case X86::KSET1Q: return Expand2AddrKreg(MIB, get(X86::KXNORQrr), X86::K0);
case TargetOpcode::LOAD_STACK_GUARD:		case TargetOpcode::LOAD_STACK_GUARD:
expandLoadStackGuard(MIB, *this);		expandLoadStackGuard(MIB, *this);
return true;		return true;
}		}
return false;		return false;
}		}

static void addOperands(MachineInstrBuilder &MIB, ArrayRef<MachineOperand> MOs,		static void addOperands(MachineInstrBuilder &MIB, ArrayRef<MachineOperand> MOs,
▲ Show 20 Lines • Show All 1,932 Lines • Show Last 20 Lines

../test/CodeGen/X86/avx512-gather-scatter-intrin.ll

Show First 20 Lines • Show All 234 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%x = load <8 x float>, <8 x float>* %src, align 32		%x = load <8 x float>, <8 x float>* %src, align 32
call void @llvm.x86.avx512.scatter.qps.512 (i8* %stbuf, i8 %mask, <8 x i64>%ind, <8 x float> %x, i32 4)		call void @llvm.x86.avx512.scatter.qps.512 (i8* %stbuf, i8 %mask, <8 x i64>%ind, <8 x float> %x, i32 4)
ret void		ret void
}		}

define void @gather_qps(<8 x i64> %ind, <8 x float> %src, i8* %base, i8* %stbuf) {		define void @gather_qps(<8 x i64> %ind, <8 x float> %src, i8* %base, i8* %stbuf) {
; CHECK-LABEL: gather_qps:		; CHECK-LABEL: gather_qps:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vgatherqps (%rdi,%zmm0,4), %ymm1 {%k2}		; CHECK-NEXT: vgatherqps (%rdi,%zmm0,4), %ymm1 {%k2}
; CHECK-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0		; CHECK-NEXT: vpaddq {{.*}}(%rip), %zmm0, %zmm0
; CHECK-NEXT: vscatterqps %ymm1, (%rsi,%zmm0,4) {%k1}		; CHECK-NEXT: vscatterqps %ymm1, (%rsi,%zmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%x = call <8 x float> @llvm.x86.avx512.gather.qps.512 (<8 x float> %src, i8* %base, <8 x i64>%ind, i8 -1, i32 4)		%x = call <8 x float> @llvm.x86.avx512.gather.qps.512 (<8 x float> %src, i8* %base, <8 x i64>%ind, i8 -1, i32 4)
%ind2 = add <8 x i64> %ind, <i64 0, i64 1, i64 2, i64 3, i64 0, i64 1, i64 2, i64 3>		%ind2 = add <8 x i64> %ind, <i64 0, i64 1, i64 2, i64 3, i64 0, i64 1, i64 2, i64 3>
call void @llvm.x86.avx512.scatter.qps.512 (i8* %stbuf, i8 -1, <8 x i64>%ind2, <8 x float> %x, i32 4)		call void @llvm.x86.avx512.scatter.qps.512 (i8* %stbuf, i8 -1, <8 x i64>%ind2, <8 x float> %x, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.gatherpf.qps.512(i8, <8 x i64>, i8* , i32, i32);		declare void @llvm.x86.avx512.gatherpf.qps.512(i8, <8 x i64>, i8* , i32, i32);
declare void @llvm.x86.avx512.scatterpf.qps.512(i8, <8 x i64>, i8* , i32, i32);		declare void @llvm.x86.avx512.scatterpf.qps.512(i8, <8 x i64>, i8* , i32, i32);
define void @prefetch(<8 x i64> %ind, i8* %base) {		define void @prefetch(<8 x i64> %ind, i8* %base) {
; CHECK-LABEL: prefetch:		; CHECK-LABEL: prefetch:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherpf0qps (%rdi,%zmm0,4) {%k1}		; CHECK-NEXT: vgatherpf0qps (%rdi,%zmm0,4) {%k1}
; CHECK-NEXT: vgatherpf1qps (%rdi,%zmm0,4) {%k1}		; CHECK-NEXT: vgatherpf1qps (%rdi,%zmm0,4) {%k1}
; CHECK-NEXT: vscatterpf0qps (%rdi,%zmm0,2) {%k1}		; CHECK-NEXT: vscatterpf0qps (%rdi,%zmm0,2) {%k1}
; CHECK-NEXT: vscatterpf1qps (%rdi,%zmm0,2) {%k1}		; CHECK-NEXT: vscatterpf1qps (%rdi,%zmm0,2) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.gatherpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 4, i32 0)		call void @llvm.x86.avx512.gatherpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 4, i32 0)
call void @llvm.x86.avx512.gatherpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 4, i32 1)		call void @llvm.x86.avx512.gatherpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 4, i32 1)
call void @llvm.x86.avx512.scatterpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 2, i32 0)		call void @llvm.x86.avx512.scatterpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 2, i32 0)
call void @llvm.x86.avx512.scatterpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 2, i32 1)		call void @llvm.x86.avx512.scatterpf.qps.512(i8 -1, <8 x i64> %ind, i8* %base, i32 2, i32 1)
ret void		ret void
}		}


declare <2 x double> @llvm.x86.avx512.gather3div2.df(<2 x double>, i8*, <2 x i64>, i8, i32)		declare <2 x double> @llvm.x86.avx512.gather3div2.df(<2 x double>, i8*, <2 x i64>, i8, i32)

define <2 x double>@test_int_x86_avx512_gather3div2_df(<2 x double> %x0, i8* %x1, <2 x i64> %x2, i8 %x3) {		define <2 x double>@test_int_x86_avx512_gather3div2_df(<2 x double> %x0, i8* %x1, <2 x i64> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3div2_df:		; CHECK-LABEL: test_int_x86_avx512_gather3div2_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherqpd (%rdi,%xmm1,4), %xmm2 {%k1}		; CHECK-NEXT: vgatherqpd (%rdi,%xmm1,4), %xmm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherqpd (%rdi,%xmm1,2), %xmm0 {%k1}		; CHECK-NEXT: vgatherqpd (%rdi,%xmm1,2), %xmm0 {%k1}
; CHECK-NEXT: vaddpd %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vaddpd %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <2 x double> @llvm.x86.avx512.gather3div2.df(<2 x double> %x0, i8* %x1, <2 x i64> %x2, i8 %x3, i32 4)		%res = call <2 x double> @llvm.x86.avx512.gather3div2.df(<2 x double> %x0, i8* %x1, <2 x i64> %x2, i8 %x3, i32 4)
%res1 = call <2 x double> @llvm.x86.avx512.gather3div2.df(<2 x double> %x0, i8* %x1, <2 x i64> %x2, i8 -1, i32 2)		%res1 = call <2 x double> @llvm.x86.avx512.gather3div2.df(<2 x double> %x0, i8* %x1, <2 x i64> %x2, i8 -1, i32 2)
%res2 = fadd <2 x double> %res, %res1		%res2 = fadd <2 x double> %res, %res1
ret <2 x double> %res2		ret <2 x double> %res2
}		}
Show All 16 Lines
declare <4 x double> @llvm.x86.avx512.gather3div4.df(<4 x double>, i8*, <4 x i64>, i8, i32)		declare <4 x double> @llvm.x86.avx512.gather3div4.df(<4 x double>, i8*, <4 x i64>, i8, i32)

define <4 x double>@test_int_x86_avx512_gather3div4_df(<4 x double> %x0, i8* %x1, <4 x i64> %x2, i8 %x3) {		define <4 x double>@test_int_x86_avx512_gather3div4_df(<4 x double> %x0, i8* %x1, <4 x i64> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3div4_df:		; CHECK-LABEL: test_int_x86_avx512_gather3div4_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherqpd (%rdi,%ymm1,4), %ymm2 {%k1}		; CHECK-NEXT: vgatherqpd (%rdi,%ymm1,4), %ymm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherqpd (%rdi,%ymm1,2), %ymm0 {%k1}		; CHECK-NEXT: vgatherqpd (%rdi,%ymm1,2), %ymm0 {%k1}
; CHECK-NEXT: vaddpd %ymm0, %ymm2, %ymm0		; CHECK-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x double> @llvm.x86.avx512.gather3div4.df(<4 x double> %x0, i8* %x1, <4 x i64> %x2, i8 %x3, i32 4)		%res = call <4 x double> @llvm.x86.avx512.gather3div4.df(<4 x double> %x0, i8* %x1, <4 x i64> %x2, i8 %x3, i32 4)
%res1 = call <4 x double> @llvm.x86.avx512.gather3div4.df(<4 x double> %x0, i8* %x1, <4 x i64> %x2, i8 -1, i32 2)		%res1 = call <4 x double> @llvm.x86.avx512.gather3div4.df(<4 x double> %x0, i8* %x1, <4 x i64> %x2, i8 -1, i32 2)
%res2 = fadd <4 x double> %res, %res1		%res2 = fadd <4 x double> %res, %res1
ret <4 x double> %res2		ret <4 x double> %res2
}		}

declare <8 x i32> @llvm.x86.avx512.gather3div4.di(<4 x i64>, i8*, <4 x i64>, i8, i32)		declare <8 x i32> @llvm.x86.avx512.gather3div4.di(<4 x i64>, i8*, <4 x i64>, i8, i32)

define <8 x i32>@test_int_x86_avx512_gather3div4_di(<4 x i64> %x0, i8* %x1, <4 x i64> %x2, i8 %x3) {		define <8 x i32>@test_int_x86_avx512_gather3div4_di(<4 x i64> %x0, i8* %x1, <4 x i64> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3div4_di:		; CHECK-LABEL: test_int_x86_avx512_gather3div4_di:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vpgatherqq (%rdi,%ymm1,8), %ymm2 {%k1}		; CHECK-NEXT: vpgatherqq (%rdi,%ymm1,8), %ymm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vpgatherqq (%rdi,%ymm1,8), %ymm0 {%k1}		; CHECK-NEXT: vpgatherqq (%rdi,%ymm1,8), %ymm0 {%k1}
; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0		; CHECK-NEXT: vpaddd %ymm0, %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <8 x i32> @llvm.x86.avx512.gather3div4.di(<4 x i64> %x0, i8* %x1, <4 x i64> %x2, i8 %x3, i32 8)		%res = call <8 x i32> @llvm.x86.avx512.gather3div4.di(<4 x i64> %x0, i8* %x1, <4 x i64> %x2, i8 %x3, i32 8)
%res1 = call <8 x i32> @llvm.x86.avx512.gather3div4.di(<4 x i64> %x0, i8* %x1, <4 x i64> %x2, i8 -1, i32 8)		%res1 = call <8 x i32> @llvm.x86.avx512.gather3div4.di(<4 x i64> %x0, i8* %x1, <4 x i64> %x2, i8 -1, i32 8)
%res2 = add <8 x i32> %res, %res1		%res2 = add <8 x i32> %res, %res1
ret <8 x i32> %res2		ret <8 x i32> %res2
}		}

declare <4 x float> @llvm.x86.avx512.gather3div4.sf(<4 x float>, i8*, <2 x i64>, i8, i32)		declare <4 x float> @llvm.x86.avx512.gather3div4.sf(<4 x float>, i8*, <2 x i64>, i8, i32)

define <4 x float>@test_int_x86_avx512_gather3div4_sf(<4 x float> %x0, i8* %x1, <2 x i64> %x2, i8 %x3) {		define <4 x float>@test_int_x86_avx512_gather3div4_sf(<4 x float> %x0, i8* %x1, <2 x i64> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3div4_sf:		; CHECK-LABEL: test_int_x86_avx512_gather3div4_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherqps (%rdi,%xmm1,4), %xmm2 {%k1}		; CHECK-NEXT: vgatherqps (%rdi,%xmm1,4), %xmm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherqps (%rdi,%xmm1,2), %xmm0 {%k1}		; CHECK-NEXT: vgatherqps (%rdi,%xmm1,2), %xmm0 {%k1}
; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512.gather3div4.sf(<4 x float> %x0, i8* %x1, <2 x i64> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512.gather3div4.sf(<4 x float> %x0, i8* %x1, <2 x i64> %x2, i8 %x3, i32 4)
%res1 = call <4 x float> @llvm.x86.avx512.gather3div4.sf(<4 x float> %x0, i8* %x1, <2 x i64> %x2, i8 -1, i32 2)		%res1 = call <4 x float> @llvm.x86.avx512.gather3div4.sf(<4 x float> %x0, i8* %x1, <2 x i64> %x2, i8 -1, i32 2)
%res2 = fadd <4 x float> %res, %res1		%res2 = fadd <4 x float> %res, %res1
ret <4 x float> %res2		ret <4 x float> %res2
}		}

declare <4 x i32> @llvm.x86.avx512.gather3div4.si(<4 x i32>, i8*, <2 x i64>, i8, i32)		declare <4 x i32> @llvm.x86.avx512.gather3div4.si(<4 x i32>, i8*, <2 x i64>, i8, i32)

define <4 x i32>@test_int_x86_avx512_gather3div4_si(<4 x i32> %x0, i8* %x1, <2 x i64> %x2, i8 %x3) {		define <4 x i32>@test_int_x86_avx512_gather3div4_si(<4 x i32> %x0, i8* %x1, <2 x i64> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3div4_si:		; CHECK-LABEL: test_int_x86_avx512_gather3div4_si:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vpgatherqd (%rdi,%xmm1,4), %xmm2 {%k2}		; CHECK-NEXT: vpgatherqd (%rdi,%xmm1,4), %xmm2 {%k2}
; CHECK-NEXT: vpgatherqd (%rdi,%xmm1,4), %xmm0 {%k1}		; CHECK-NEXT: vpgatherqd (%rdi,%xmm1,4), %xmm0 {%k1}
; CHECK-NEXT: vpaddd %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vpaddd %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x i32> @llvm.x86.avx512.gather3div4.si(<4 x i32> %x0, i8* %x1, <2 x i64> %x2, i8 -1, i32 4)		%res = call <4 x i32> @llvm.x86.avx512.gather3div4.si(<4 x i32> %x0, i8* %x1, <2 x i64> %x2, i8 -1, i32 4)
%res1 = call <4 x i32> @llvm.x86.avx512.gather3div4.si(<4 x i32> %x0, i8* %x1, <2 x i64> %x2, i8 %x3, i32 4)		%res1 = call <4 x i32> @llvm.x86.avx512.gather3div4.si(<4 x i32> %x0, i8* %x1, <2 x i64> %x2, i8 %x3, i32 4)
%res2 = add <4 x i32> %res, %res1		%res2 = add <4 x i32> %res, %res1
ret <4 x i32> %res2		ret <4 x i32> %res2
}		}

declare <4 x float> @llvm.x86.avx512.gather3div8.sf(<4 x float>, i8*, <4 x i64>, i8, i32)		declare <4 x float> @llvm.x86.avx512.gather3div8.sf(<4 x float>, i8*, <4 x i64>, i8, i32)

define <4 x float>@test_int_x86_avx512_gather3div8_sf(<4 x float> %x0, i8* %x1, <4 x i64> %x2, i8 %x3) {		define <4 x float>@test_int_x86_avx512_gather3div8_sf(<4 x float> %x0, i8* %x1, <4 x i64> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3div8_sf:		; CHECK-LABEL: test_int_x86_avx512_gather3div8_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherqps (%rdi,%ymm1,4), %xmm2 {%k1}		; CHECK-NEXT: vgatherqps (%rdi,%ymm1,4), %xmm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherqps (%rdi,%ymm1,2), %xmm0 {%k1}		; CHECK-NEXT: vgatherqps (%rdi,%ymm1,2), %xmm0 {%k1}
; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512.gather3div8.sf(<4 x float> %x0, i8* %x1, <4 x i64> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512.gather3div8.sf(<4 x float> %x0, i8* %x1, <4 x i64> %x2, i8 %x3, i32 4)
%res1 = call <4 x float> @llvm.x86.avx512.gather3div8.sf(<4 x float> %x0, i8* %x1, <4 x i64> %x2, i8 -1, i32 2)		%res1 = call <4 x float> @llvm.x86.avx512.gather3div8.sf(<4 x float> %x0, i8* %x1, <4 x i64> %x2, i8 -1, i32 2)
%res2 = fadd <4 x float> %res, %res1		%res2 = fadd <4 x float> %res, %res1
ret <4 x float> %res2		ret <4 x float> %res2
}		}
Show All 19 Lines
declare <2 x double> @llvm.x86.avx512.gather3siv2.df(<2 x double>, i8*, <4 x i32>, i8, i32)		declare <2 x double> @llvm.x86.avx512.gather3siv2.df(<2 x double>, i8*, <4 x i32>, i8, i32)

define <2 x double>@test_int_x86_avx512_gather3siv2_df(<2 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {		define <2 x double>@test_int_x86_avx512_gather3siv2_df(<2 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3siv2_df:		; CHECK-LABEL: test_int_x86_avx512_gather3siv2_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,4), %xmm2 {%k1}		; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,4), %xmm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,2), %xmm0 {%k1}		; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,2), %xmm0 {%k1}
; CHECK-NEXT: vaddpd %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vaddpd %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <2 x double> @llvm.x86.avx512.gather3siv2.df(<2 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 4)		%res = call <2 x double> @llvm.x86.avx512.gather3siv2.df(<2 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 4)
%res1 = call <2 x double> @llvm.x86.avx512.gather3siv2.df(<2 x double> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 2)		%res1 = call <2 x double> @llvm.x86.avx512.gather3siv2.df(<2 x double> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 2)
%res2 = fadd <2 x double> %res, %res1		%res2 = fadd <2 x double> %res, %res1
ret <2 x double> %res2		ret <2 x double> %res2
}		}
Show All 16 Lines
declare <4 x double> @llvm.x86.avx512.gather3siv4.df(<4 x double>, i8*, <4 x i32>, i8, i32)		declare <4 x double> @llvm.x86.avx512.gather3siv4.df(<4 x double>, i8*, <4 x i32>, i8, i32)

define <4 x double>@test_int_x86_avx512_gather3siv4_df(<4 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {		define <4 x double>@test_int_x86_avx512_gather3siv4_df(<4 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3siv4_df:		; CHECK-LABEL: test_int_x86_avx512_gather3siv4_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,4), %ymm2 {%k1}		; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,4), %ymm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,2), %ymm0 {%k1}		; CHECK-NEXT: vgatherdpd (%rdi,%xmm1,2), %ymm0 {%k1}
; CHECK-NEXT: vaddpd %ymm0, %ymm2, %ymm0		; CHECK-NEXT: vaddpd %ymm0, %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x double> @llvm.x86.avx512.gather3siv4.df(<4 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 4)		%res = call <4 x double> @llvm.x86.avx512.gather3siv4.df(<4 x double> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 4)
%res1 = call <4 x double> @llvm.x86.avx512.gather3siv4.df(<4 x double> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 2)		%res1 = call <4 x double> @llvm.x86.avx512.gather3siv4.df(<4 x double> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 2)
%res2 = fadd <4 x double> %res, %res1		%res2 = fadd <4 x double> %res, %res1
ret <4 x double> %res2		ret <4 x double> %res2
}		}
Show All 16 Lines
declare <4 x float> @llvm.x86.avx512.gather3siv4.sf(<4 x float>, i8*, <4 x i32>, i8, i32)		declare <4 x float> @llvm.x86.avx512.gather3siv4.sf(<4 x float>, i8*, <4 x i32>, i8, i32)

define <4 x float>@test_int_x86_avx512_gather3siv4_sf(<4 x float> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {		define <4 x float>@test_int_x86_avx512_gather3siv4_sf(<4 x float> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3siv4_sf:		; CHECK-LABEL: test_int_x86_avx512_gather3siv4_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherdps (%rdi,%xmm1,4), %xmm2 {%k1}		; CHECK-NEXT: vgatherdps (%rdi,%xmm1,4), %xmm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherdps (%rdi,%xmm1,2), %xmm0 {%k1}		; CHECK-NEXT: vgatherdps (%rdi,%xmm1,2), %xmm0 {%k1}
; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vaddps %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x float> @llvm.x86.avx512.gather3siv4.sf(<4 x float> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 4)		%res = call <4 x float> @llvm.x86.avx512.gather3siv4.sf(<4 x float> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 4)
%res1 = call <4 x float> @llvm.x86.avx512.gather3siv4.sf(<4 x float> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 2)		%res1 = call <4 x float> @llvm.x86.avx512.gather3siv4.sf(<4 x float> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 2)
%res2 = fadd <4 x float> %res, %res1		%res2 = fadd <4 x float> %res, %res1
ret <4 x float> %res2		ret <4 x float> %res2
}		}

declare <4 x i32> @llvm.x86.avx512.gather3siv4.si(<4 x i32>, i8*, <4 x i32>, i8, i32)		declare <4 x i32> @llvm.x86.avx512.gather3siv4.si(<4 x i32>, i8*, <4 x i32>, i8, i32)

define <4 x i32>@test_int_x86_avx512_gather3siv4_si(<4 x i32> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {		define <4 x i32>@test_int_x86_avx512_gather3siv4_si(<4 x i32> %x0, i8* %x1, <4 x i32> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3siv4_si:		; CHECK-LABEL: test_int_x86_avx512_gather3siv4_si:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vpgatherdd (%rdi,%xmm1,4), %xmm2 {%k2}		; CHECK-NEXT: vpgatherdd (%rdi,%xmm1,4), %xmm2 {%k2}
; CHECK-NEXT: vpgatherdd (%rdi,%xmm1,2), %xmm0 {%k1}		; CHECK-NEXT: vpgatherdd (%rdi,%xmm1,2), %xmm0 {%k1}
; CHECK-NEXT: vpaddd %xmm0, %xmm2, %xmm0		; CHECK-NEXT: vpaddd %xmm0, %xmm2, %xmm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <4 x i32> @llvm.x86.avx512.gather3siv4.si(<4 x i32> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 4)		%res = call <4 x i32> @llvm.x86.avx512.gather3siv4.si(<4 x i32> %x0, i8* %x1, <4 x i32> %x2, i8 -1, i32 4)
%res1 = call <4 x i32> @llvm.x86.avx512.gather3siv4.si(<4 x i32> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 2)		%res1 = call <4 x i32> @llvm.x86.avx512.gather3siv4.si(<4 x i32> %x0, i8* %x1, <4 x i32> %x2, i8 %x3, i32 2)
%res2 = add <4 x i32> %res, %res1		%res2 = add <4 x i32> %res, %res1
ret <4 x i32> %res2		ret <4 x i32> %res2
}		}

declare <8 x float> @llvm.x86.avx512.gather3siv8.sf(<8 x float>, i8*, <8 x i32>, i8, i32)		declare <8 x float> @llvm.x86.avx512.gather3siv8.sf(<8 x float>, i8*, <8 x i32>, i8, i32)

define <8 x float>@test_int_x86_avx512_gather3siv8_sf(<8 x float> %x0, i8* %x1, <8 x i32> %x2, i8 %x3) {		define <8 x float>@test_int_x86_avx512_gather3siv8_sf(<8 x float> %x0, i8* %x1, <8 x i32> %x2, i8 %x3) {
; CHECK-LABEL: test_int_x86_avx512_gather3siv8_sf:		; CHECK-LABEL: test_int_x86_avx512_gather3siv8_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vmovaps %zmm0, %zmm2		; CHECK-NEXT: vmovaps %zmm0, %zmm2
; CHECK-NEXT: vgatherdps (%rdi,%ymm1,4), %ymm2 {%k1}		; CHECK-NEXT: vgatherdps (%rdi,%ymm1,4), %ymm2 {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vgatherdps (%rdi,%ymm1,2), %ymm0 {%k1}		; CHECK-NEXT: vgatherdps (%rdi,%ymm1,2), %ymm0 {%k1}
; CHECK-NEXT: vaddps %ymm0, %ymm2, %ymm0		; CHECK-NEXT: vaddps %ymm0, %ymm2, %ymm0
; CHECK-NEXT: retq		; CHECK-NEXT: retq
%res = call <8 x float> @llvm.x86.avx512.gather3siv8.sf(<8 x float> %x0, i8* %x1, <8 x i32> %x2, i8 %x3, i32 4)		%res = call <8 x float> @llvm.x86.avx512.gather3siv8.sf(<8 x float> %x0, i8* %x1, <8 x i32> %x2, i8 %x3, i32 4)
%res1 = call <8 x float> @llvm.x86.avx512.gather3siv8.sf(<8 x float> %x0, i8* %x1, <8 x i32> %x2, i8 -1, i32 2)		%res1 = call <8 x float> @llvm.x86.avx512.gather3siv8.sf(<8 x float> %x0, i8* %x1, <8 x i32> %x2, i8 -1, i32 2)
%res2 = fadd <8 x float> %res, %res1		%res2 = fadd <8 x float> %res, %res1
ret <8 x float> %res2		ret <8 x float> %res2
}		}
Show All 17 Lines
}		}

declare void @llvm.x86.avx512.scatterdiv2.df(i8*, i8, <2 x i64>, <2 x double>, i32)		declare void @llvm.x86.avx512.scatterdiv2.df(i8*, i8, <2 x i64>, <2 x double>, i32)

define void@test_int_x86_avx512_scatterdiv2_df(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x double> %x3) {		define void@test_int_x86_avx512_scatterdiv2_df(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x double> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv2_df:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv2_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vscatterqpd %xmm1, (%rdi,%xmm0,2) {%k2}		; CHECK-NEXT: vscatterqpd %xmm1, (%rdi,%xmm0,2) {%k2}
; CHECK-NEXT: vscatterqpd %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vscatterqpd %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv2.df(i8* %x0, i8 -1, <2 x i64> %x2, <2 x double> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv2.df(i8* %x0, i8 -1, <2 x i64> %x2, <2 x double> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv2.df(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x double> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv2.df(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x double> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv2.di(i8*, i8, <2 x i64>, <2 x i64>, i32)		declare void @llvm.x86.avx512.scatterdiv2.di(i8*, i8, <2 x i64>, <2 x i64>, i32)

define void@test_int_x86_avx512_scatterdiv2_di(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x i64> %x3) {		define void@test_int_x86_avx512_scatterdiv2_di(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x i64> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv2_di:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv2_di:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vpscatterqq %xmm1, (%rdi,%xmm0,2) {%k1}		; CHECK-NEXT: vpscatterqq %xmm1, (%rdi,%xmm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vpscatterqq %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vpscatterqq %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv2.di(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x i64> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv2.di(i8* %x0, i8 %x1, <2 x i64> %x2, <2 x i64> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv2.di(i8* %x0, i8 -1, <2 x i64> %x2, <2 x i64> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv2.di(i8* %x0, i8 -1, <2 x i64> %x2, <2 x i64> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv4.df(i8*, i8, <4 x i64>, <4 x double>, i32)		declare void @llvm.x86.avx512.scatterdiv4.df(i8*, i8, <4 x i64>, <4 x double>, i32)

define void@test_int_x86_avx512_scatterdiv4_df(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x double> %x3) {		define void@test_int_x86_avx512_scatterdiv4_df(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x double> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_df:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vscatterqpd %ymm1, (%rdi,%ymm0,2) {%k1}		; CHECK-NEXT: vscatterqpd %ymm1, (%rdi,%ymm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vscatterqpd %ymm1, (%rdi,%ymm0,4) {%k1}		; CHECK-NEXT: vscatterqpd %ymm1, (%rdi,%ymm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv4.df(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x double> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv4.df(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x double> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv4.df(i8* %x0, i8 -1, <4 x i64> %x2, <4 x double> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv4.df(i8* %x0, i8 -1, <4 x i64> %x2, <4 x double> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv4.di(i8*, i8, <4 x i64>, <4 x i64>, i32)		declare void @llvm.x86.avx512.scatterdiv4.di(i8*, i8, <4 x i64>, <4 x i64>, i32)

define void@test_int_x86_avx512_scatterdiv4_di(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i64> %x3) {		define void@test_int_x86_avx512_scatterdiv4_di(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i64> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_di:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_di:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vpscatterqq %ymm1, (%rdi,%ymm0,2) {%k1}		; CHECK-NEXT: vpscatterqq %ymm1, (%rdi,%ymm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vpscatterqq %ymm1, (%rdi,%ymm0,4) {%k1}		; CHECK-NEXT: vpscatterqq %ymm1, (%rdi,%ymm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv4.di(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i64> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv4.di(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i64> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv4.di(i8* %x0, i8 -1, <4 x i64> %x2, <4 x i64> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv4.di(i8* %x0, i8 -1, <4 x i64> %x2, <4 x i64> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv4.sf(i8*, i8, <2 x i64>, <4 x float>, i32)		declare void @llvm.x86.avx512.scatterdiv4.sf(i8*, i8, <2 x i64>, <4 x float>, i32)

define void@test_int_x86_avx512_scatterdiv4_sf(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x float> %x3) {		define void@test_int_x86_avx512_scatterdiv4_sf(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x float> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_sf:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%xmm0,2) {%k1}		; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%xmm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv4.sf(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x float> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv4.sf(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x float> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv4.sf(i8* %x0, i8 -1, <2 x i64> %x2, <4 x float> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv4.sf(i8* %x0, i8 -1, <2 x i64> %x2, <4 x float> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv4.si(i8*, i8, <2 x i64>, <4 x i32>, i32)		declare void @llvm.x86.avx512.scatterdiv4.si(i8*, i8, <2 x i64>, <4 x i32>, i32)

define void@test_int_x86_avx512_scatterdiv4_si(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x i32> %x3) {		define void@test_int_x86_avx512_scatterdiv4_si(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x i32> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_si:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv4_si:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%xmm0,2) {%k2}		; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%xmm0,2) {%k2}
; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv4.si(i8* %x0, i8 -1, <2 x i64> %x2, <4 x i32> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv4.si(i8* %x0, i8 -1, <2 x i64> %x2, <4 x i32> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv4.si(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x i32> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv4.si(i8* %x0, i8 %x1, <2 x i64> %x2, <4 x i32> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv8.sf(i8*, i8, <4 x i64>, <4 x float>, i32)		declare void @llvm.x86.avx512.scatterdiv8.sf(i8*, i8, <4 x i64>, <4 x float>, i32)

define void@test_int_x86_avx512_scatterdiv8_sf(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x float> %x3) {		define void@test_int_x86_avx512_scatterdiv8_sf(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x float> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv8_sf:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv8_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%ymm0,2) {%k1}		; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%ymm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%ymm0,4) {%k1}		; CHECK-NEXT: vscatterqps %xmm1, (%rdi,%ymm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv8.sf(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x float> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv8.sf(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x float> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv8.sf(i8* %x0, i8 -1, <4 x i64> %x2, <4 x float> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv8.sf(i8* %x0, i8 -1, <4 x i64> %x2, <4 x float> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scatterdiv8.si(i8*, i8, <4 x i64>, <4 x i32>, i32)		declare void @llvm.x86.avx512.scatterdiv8.si(i8*, i8, <4 x i64>, <4 x i32>, i32)

define void@test_int_x86_avx512_scatterdiv8_si(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i32> %x3) {		define void@test_int_x86_avx512_scatterdiv8_si(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i32> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scatterdiv8_si:		; CHECK-LABEL: test_int_x86_avx512_scatterdiv8_si:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%ymm0,2) {%k1}		; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%ymm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%ymm0,4) {%k1}		; CHECK-NEXT: vpscatterqd %xmm1, (%rdi,%ymm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scatterdiv8.si(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i32> %x3, i32 2)		call void @llvm.x86.avx512.scatterdiv8.si(i8* %x0, i8 %x1, <4 x i64> %x2, <4 x i32> %x3, i32 2)
call void @llvm.x86.avx512.scatterdiv8.si(i8* %x0, i8 -1, <4 x i64> %x2, <4 x i32> %x3, i32 4)		call void @llvm.x86.avx512.scatterdiv8.si(i8* %x0, i8 -1, <4 x i64> %x2, <4 x i32> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv2.df(i8*, i8, <4 x i32>, <2 x double>, i32)		declare void @llvm.x86.avx512.scattersiv2.df(i8*, i8, <4 x i32>, <2 x double>, i32)

define void@test_int_x86_avx512_scattersiv2_df(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x double> %x3) {		define void@test_int_x86_avx512_scattersiv2_df(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x double> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv2_df:		; CHECK-LABEL: test_int_x86_avx512_scattersiv2_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vscatterdpd %xmm1, (%rdi,%xmm0,2) {%k2}		; CHECK-NEXT: vscatterdpd %xmm1, (%rdi,%xmm0,2) {%k2}
; CHECK-NEXT: vscatterdpd %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vscatterdpd %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv2.df(i8* %x0, i8 -1, <4 x i32> %x2, <2 x double> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv2.df(i8* %x0, i8 -1, <4 x i32> %x2, <2 x double> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv2.df(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x double> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv2.df(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x double> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv2.di(i8*, i8, <4 x i32>, <2 x i64>, i32)		declare void @llvm.x86.avx512.scattersiv2.di(i8*, i8, <4 x i32>, <2 x i64>, i32)

define void@test_int_x86_avx512_scattersiv2_di(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x i64> %x3) {		define void@test_int_x86_avx512_scattersiv2_di(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x i64> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv2_di:		; CHECK-LABEL: test_int_x86_avx512_scattersiv2_di:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vpscatterdq %xmm1, (%rdi,%xmm0,2) {%k2}		; CHECK-NEXT: vpscatterdq %xmm1, (%rdi,%xmm0,2) {%k2}
; CHECK-NEXT: vpscatterdq %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vpscatterdq %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv2.di(i8* %x0, i8 -1, <4 x i32> %x2, <2 x i64> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv2.di(i8* %x0, i8 -1, <4 x i32> %x2, <2 x i64> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv2.di(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x i64> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv2.di(i8* %x0, i8 %x1, <4 x i32> %x2, <2 x i64> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv4.df(i8*, i8, <4 x i32>, <4 x double>, i32)		declare void @llvm.x86.avx512.scattersiv4.df(i8*, i8, <4 x i32>, <4 x double>, i32)

define void@test_int_x86_avx512_scattersiv4_df(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x double> %x3) {		define void@test_int_x86_avx512_scattersiv4_df(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x double> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv4_df:		; CHECK-LABEL: test_int_x86_avx512_scattersiv4_df:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vscatterdpd %ymm1, (%rdi,%xmm0,2) {%k1}		; CHECK-NEXT: vscatterdpd %ymm1, (%rdi,%xmm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vscatterdpd %ymm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vscatterdpd %ymm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv4.df(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x double> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv4.df(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x double> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv4.df(i8* %x0, i8 -1, <4 x i32> %x2, <4 x double> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv4.df(i8* %x0, i8 -1, <4 x i32> %x2, <4 x double> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv4.di(i8*, i8, <4 x i32>, <4 x i64>, i32)		declare void @llvm.x86.avx512.scattersiv4.di(i8*, i8, <4 x i32>, <4 x i64>, i32)

define void@test_int_x86_avx512_scattersiv4_di(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i64> %x3) {		define void@test_int_x86_avx512_scattersiv4_di(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i64> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv4_di:		; CHECK-LABEL: test_int_x86_avx512_scattersiv4_di:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: kxnorw %k2, %k2, %k2		; CHECK-NEXT: kxnorw %k0, %k0, %k2
; CHECK-NEXT: vpscatterdq %ymm1, (%rdi,%xmm0,2) {%k2}		; CHECK-NEXT: vpscatterdq %ymm1, (%rdi,%xmm0,2) {%k2}
; CHECK-NEXT: vpscatterdq %ymm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vpscatterdq %ymm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv4.di(i8* %x0, i8 -1, <4 x i32> %x2, <4 x i64> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv4.di(i8* %x0, i8 -1, <4 x i32> %x2, <4 x i64> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv4.di(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i64> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv4.di(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i64> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv4.sf(i8*, i8, <4 x i32>, <4 x float>, i32)		declare void @llvm.x86.avx512.scattersiv4.sf(i8*, i8, <4 x i32>, <4 x float>, i32)

define void@test_int_x86_avx512_scattersiv4_sf(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x float> %x3) {		define void@test_int_x86_avx512_scattersiv4_sf(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x float> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv4_sf:		; CHECK-LABEL: test_int_x86_avx512_scattersiv4_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vscatterdps %xmm1, (%rdi,%xmm0,2) {%k1}		; CHECK-NEXT: vscatterdps %xmm1, (%rdi,%xmm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vscatterdps %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vscatterdps %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv4.sf(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x float> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv4.sf(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x float> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv4.sf(i8* %x0, i8 -1, <4 x i32> %x2, <4 x float> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv4.sf(i8* %x0, i8 -1, <4 x i32> %x2, <4 x float> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv4.si(i8*, i8, <4 x i32>, <4 x i32>, i32)		declare void @llvm.x86.avx512.scattersiv4.si(i8*, i8, <4 x i32>, <4 x i32>, i32)

define void@test_int_x86_avx512_scattersiv4_si(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i32> %x3) {		define void@test_int_x86_avx512_scattersiv4_si(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i32> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv4_si:		; CHECK-LABEL: test_int_x86_avx512_scattersiv4_si:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vpscatterdd %xmm1, (%rdi,%xmm0,2) {%k1}		; CHECK-NEXT: vpscatterdd %xmm1, (%rdi,%xmm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vpscatterdd %xmm1, (%rdi,%xmm0,4) {%k1}		; CHECK-NEXT: vpscatterdd %xmm1, (%rdi,%xmm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv4.si(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i32> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv4.si(i8* %x0, i8 %x1, <4 x i32> %x2, <4 x i32> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv4.si(i8* %x0, i8 -1, <4 x i32> %x2, <4 x i32> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv4.si(i8* %x0, i8 -1, <4 x i32> %x2, <4 x i32> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv8.sf(i8*, i8, <8 x i32>, <8 x float>, i32)		declare void @llvm.x86.avx512.scattersiv8.sf(i8*, i8, <8 x i32>, <8 x float>, i32)

define void@test_int_x86_avx512_scattersiv8_sf(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x float> %x3) {		define void@test_int_x86_avx512_scattersiv8_sf(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x float> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv8_sf:		; CHECK-LABEL: test_int_x86_avx512_scattersiv8_sf:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vscatterdps %ymm1, (%rdi,%ymm0,2) {%k1}		; CHECK-NEXT: vscatterdps %ymm1, (%rdi,%ymm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vscatterdps %ymm1, (%rdi,%ymm0,4) {%k1}		; CHECK-NEXT: vscatterdps %ymm1, (%rdi,%ymm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv8.sf(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x float> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv8.sf(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x float> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv8.sf(i8* %x0, i8 -1, <8 x i32> %x2, <8 x float> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv8.sf(i8* %x0, i8 -1, <8 x i32> %x2, <8 x float> %x3, i32 4)
ret void		ret void
}		}

declare void @llvm.x86.avx512.scattersiv8.si(i8*, i8, <8 x i32>, <8 x i32>, i32)		declare void @llvm.x86.avx512.scattersiv8.si(i8*, i8, <8 x i32>, <8 x i32>, i32)

define void@test_int_x86_avx512_scattersiv8_si(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x i32> %x3) {		define void@test_int_x86_avx512_scattersiv8_si(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x i32> %x3) {
; CHECK-LABEL: test_int_x86_avx512_scattersiv8_si:		; CHECK-LABEL: test_int_x86_avx512_scattersiv8_si:
; CHECK: ## BB#0:		; CHECK: ## BB#0:
; CHECK-NEXT: kmovb %esi, %k1		; CHECK-NEXT: kmovb %esi, %k1
; CHECK-NEXT: vpscatterdd %ymm1, (%rdi,%ymm0,2) {%k1}		; CHECK-NEXT: vpscatterdd %ymm1, (%rdi,%ymm0,2) {%k1}
; CHECK-NEXT: kxnorw %k1, %k1, %k1		; CHECK-NEXT: kxnorw %k0, %k0, %k1
; CHECK-NEXT: vpscatterdd %ymm1, (%rdi,%ymm0,4) {%k1}		; CHECK-NEXT: vpscatterdd %ymm1, (%rdi,%ymm0,4) {%k1}
; CHECK-NEXT: retq		; CHECK-NEXT: retq
call void @llvm.x86.avx512.scattersiv8.si(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x i32> %x3, i32 2)		call void @llvm.x86.avx512.scattersiv8.si(i8* %x0, i8 %x1, <8 x i32> %x2, <8 x i32> %x3, i32 2)
call void @llvm.x86.avx512.scattersiv8.si(i8* %x0, i8 -1, <8 x i32> %x2, <8 x i32> %x3, i32 4)		call void @llvm.x86.avx512.scattersiv8.si(i8* %x0, i8 -1, <8 x i32> %x2, <8 x i32> %x3, i32 4)
ret void		ret void
}		}

../test/CodeGen/X86/avx512-mask-op.ll

Show First 20 Lines • Show All 317 Lines • ▼ Show 20 Lines	define <16 x i1> @test15(i32 %x, i32 %y) {
%a = bitcast i16 21845 to <16 x i1>		%a = bitcast i16 21845 to <16 x i1>
%b = bitcast i16 1 to <16 x i1>		%b = bitcast i16 1 to <16 x i1>
%mask = icmp sgt i32 %x, %y		%mask = icmp sgt i32 %x, %y
%c = select i1 %mask, <16 x i1> %a, <16 x i1> %b		%c = select i1 %mask, <16 x i1> %a, <16 x i1> %b
ret <16 x i1> %c		ret <16 x i1> %c
}		}

; SKX-LABEL: test16		; SKX-LABEL: test16
; SKX: kxnorw %k1, %k1, %k1		; SKX: kxnorw %k0, %k0, %k1
; SKX: kshiftrw $15, %k1, %k1		; SKX: kshiftrw $15, %k1, %k1
; SKX: kshiftlq $5, %k1, %k1		; SKX: kshiftlq $5, %k1, %k1
; SKX: korq %k1, %k0, %k0		; SKX: korq %k1, %k0, %k0
; SKX: vpmovm2b %k0, %zmm0		; SKX: vpmovm2b %k0, %zmm0
define <64 x i8> @test16(i64 %x) {		define <64 x i8> @test16(i64 %x) {
%a = bitcast i64 %x to <64 x i1>		%a = bitcast i64 %x to <64 x i1>
%b = insertelement <64 x i1>%a, i1 true, i32 5		%b = insertelement <64 x i1>%a, i1 true, i32 5
%c = sext <64 x i1>%b to <64 x i8>		%c = sext <64 x i1>%b to <64 x i8>
▲ Show 20 Lines • Show All 56 Lines • Show Last 20 Lines

../test/CodeGen/X86/masked_gather_scatter.ll

	Show All 14 Lines
	; SCALAR-NEXT: load float			; SCALAR-NEXT: load float
	; SCALAR-NEXT: insertelement <16 x float>			; SCALAR-NEXT: insertelement <16 x float>
	; SCALAR-NEXT: extractelement <16 x float*>			; SCALAR-NEXT: extractelement <16 x float*>
	; SCALAR-NEXT: load float			; SCALAR-NEXT: load float

	define <16 x float> @test1(float* %base, <16 x i32> %ind) {			define <16 x float> @test1(float* %base, <16 x i32> %ind) {
	; KNL_64-LABEL: test1:			; KNL_64-LABEL: test1:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}			; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}
	; KNL_64-NEXT: vmovaps %zmm1, %zmm0			; KNL_64-NEXT: vmovaps %zmm1, %zmm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test1:			; KNL_32-LABEL: test1:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm1 {%k1}			; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm1 {%k1}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm0			; KNL_32-NEXT: vmovaps %zmm1, %zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test1:			; SKX-LABEL: test1:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}			; SKX-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}
	; SKX-NEXT: vmovaps %zmm1, %zmm0			; SKX-NEXT: vmovaps %zmm1, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq

	%broadcast.splatinsert = insertelement <16 x float> undef, float %base, i32 0			%broadcast.splatinsert = insertelement <16 x float> undef, float %base, i32 0
	%broadcast.splat = shufflevector <16 x float> %broadcast.splatinsert, <16 x float> undef, <16 x i32> zeroinitializer			%broadcast.splat = shufflevector <16 x float> %broadcast.splatinsert, <16 x float> undef, <16 x i32> zeroinitializer

	%sext_ind = sext <16 x i32> %ind to <16 x i64>			%sext_ind = sext <16 x i32> %ind to <16 x i64>
	▲ Show 20 Lines • Show All 191 Lines • ▼ Show 20 Lines
	; SCALAR-NEXT: store i32 %Elt1, i32* %Ptr12, align 4			; SCALAR-NEXT: store i32 %Elt1, i32* %Ptr12, align 4
	; SCALAR-NEXT: %Elt2 = extractelement <8 x i32> %a1, i32 2			; SCALAR-NEXT: %Elt2 = extractelement <8 x i32> %a1, i32 2
	; SCALAR-NEXT: %Ptr23 = extractelement <8 x i32*> %ptr, i32 2			; SCALAR-NEXT: %Ptr23 = extractelement <8 x i32*> %ptr, i32 2
	; SCALAR-NEXT: store i32 %Elt2, i32* %Ptr23, align 4			; SCALAR-NEXT: store i32 %Elt2, i32* %Ptr23, align 4

	define <8 x i32> @test6(<8 x i32>%a1, <8 x i32*> %ptr) {			define <8 x i32> @test6(<8 x i32>%a1, <8 x i32*> %ptr) {
	; KNL_64-LABEL: test6:			; KNL_64-LABEL: test6:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: kxnorw %k2, %k2, %k2			; KNL_64-NEXT: kxnorw %k0, %k0, %k2
	; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm2 {%k2}			; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm2 {%k2}
	; KNL_64-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}			; KNL_64-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}
	; KNL_64-NEXT: vmovaps %zmm2, %zmm0			; KNL_64-NEXT: vmovaps %zmm2, %zmm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test6:			; KNL_32-LABEL: test6:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vpmovsxdq %ymm1, %zmm2			; KNL_32-NEXT: vpmovsxdq %ymm1, %zmm2
	; KNL_32-NEXT: kxnorw %k2, %k2, %k2			; KNL_32-NEXT: kxnorw %k0, %k0, %k2
	; KNL_32-NEXT: vpgatherqd (,%zmm2), %ymm1 {%k2}			; KNL_32-NEXT: vpgatherqd (,%zmm2), %ymm1 {%k2}
	; KNL_32-NEXT: vpscatterqd %ymm0, (,%zmm2) {%k1}			; KNL_32-NEXT: vpscatterqd %ymm0, (,%zmm2) {%k1}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm0			; KNL_32-NEXT: vmovaps %zmm1, %zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test6:			; SKX-LABEL: test6:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: kxnorw %k2, %k2, %k2			; SKX-NEXT: kxnorw %k0, %k0, %k2
	; SKX-NEXT: vpgatherqd (,%zmm1), %ymm2 {%k2}			; SKX-NEXT: vpgatherqd (,%zmm1), %ymm2 {%k2}
	; SKX-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}			; SKX-NEXT: vpscatterqd %ymm0, (,%zmm1) {%k1}
	; SKX-NEXT: vmovaps %zmm2, %zmm0			; SKX-NEXT: vmovaps %zmm2, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq

	%a = call <8 x i32> @llvm.masked.gather.v8i32(<8 x i32*> %ptr, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)			%a = call <8 x i32> @llvm.masked.gather.v8i32(<8 x i32*> %ptr, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)

	call void @llvm.masked.scatter.v8i32(<8 x i32> %a1, <8 x i32*> %ptr, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)			call void @llvm.masked.scatter.v8i32(<8 x i32> %a1, <8 x i32*> %ptr, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>)
	▲ Show 20 Lines • Show All 129 Lines • ▼ Show 20 Lines
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
	; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
	; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0			; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
	; KNL_64-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; KNL_64-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test9:			; KNL_32-LABEL: test9:
	; KNL_32: # BB#0: # %entry			; KNL_32: # BB#0: # %entry
	; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2			; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2
	; KNL_32-NEXT: vpbroadcastd .LCPI8_0, %ymm3			; KNL_32-NEXT: vpbroadcastd .LCPI8_0, %ymm3
	; KNL_32-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; KNL_32-NEXT: vpmulld %ymm3, %ymm1, %ymm1
	; KNL_32-NEXT: vpmovqd %zmm0, %ymm0			; KNL_32-NEXT: vpmovqd %zmm0, %ymm0
	; KNL_32-NEXT: vpbroadcastd .LCPI8_1, %ymm3			; KNL_32-NEXT: vpbroadcastd .LCPI8_1, %ymm3
	; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0			; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0
	; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; KNL_32-NEXT: vpbroadcastd .LCPI8_2, %ymm1			; KNL_32-NEXT: vpbroadcastd .LCPI8_2, %ymm1
	; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1			; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test9:			; SKX-LABEL: test9:
	; SKX: # BB#0: # %entry			; SKX: # BB#0: # %entry
	; SKX-NEXT: vpbroadcastq %rdi, %zmm2			; SKX-NEXT: vpbroadcastq %rdi, %zmm2
	; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0			; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0
	; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; SKX-NEXT: vpmovsxdq %ymm1, %zmm1			; SKX-NEXT: vpmovsxdq %ymm1, %zmm1
	; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm1, %zmm1			; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm1, %zmm1
	; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	entry:			entry:
	%broadcast.splatinsert = insertelement <8 x %struct.ST> undef, %struct.ST %base, i32 0			%broadcast.splatinsert = insertelement <8 x %struct.ST> undef, %struct.ST %base, i32 0
	%broadcast.splat = shufflevector <8 x %struct.ST> %broadcast.splatinsert, <8 x %struct.ST> undef, <8 x i32> zeroinitializer			%broadcast.splat = shufflevector <8 x %struct.ST> %broadcast.splatinsert, <8 x %struct.ST> undef, <8 x i32> zeroinitializer

	%arrayidx = getelementptr %struct.ST, <8 x %struct.ST*> %broadcast.splat, <8 x i64> %ind1, <8 x i32> <i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>, <8 x i32><i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>, <8 x i32> %ind5, <8 x i64> <i64 13, i64 13, i64 13, i64 13, i64 13, i64 13, i64 13, i64 13>			%arrayidx = getelementptr %struct.ST, <8 x %struct.ST*> %broadcast.splat, <8 x i64> %ind1, <8 x i32> <i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2, i32 2>, <8 x i32><i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1, i32 1>, <8 x i32> %ind5, <8 x i64> <i64 13, i64 13, i64 13, i64 13, i64 13, i64 13, i64 13, i64 13>
	%res = call <8 x i32 > @llvm.masked.gather.v8i32(<8 x i32*>%arrayidx, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)			%res = call <8 x i32 > @llvm.masked.gather.v8i32(<8 x i32*>%arrayidx, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)
	Show All 15 Lines
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm4
	; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsrlq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0			; KNL_64-NEXT: vpmuludq %zmm3, %zmm0, %zmm0
	; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0			; KNL_64-NEXT: vpsllq $32, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0			; KNL_64-NEXT: vpaddq %zmm0, %zmm4, %zmm0
	; KNL_64-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; KNL_64-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; KNL_64-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; KNL_64-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; KNL_64-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test10:			; KNL_32-LABEL: test10:
	; KNL_32: # BB#0: # %entry			; KNL_32: # BB#0: # %entry
	; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2			; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %ymm2
	; KNL_32-NEXT: vpbroadcastd .LCPI9_0, %ymm3			; KNL_32-NEXT: vpbroadcastd .LCPI9_0, %ymm3
	; KNL_32-NEXT: vpmulld %ymm3, %ymm1, %ymm1			; KNL_32-NEXT: vpmulld %ymm3, %ymm1, %ymm1
	; KNL_32-NEXT: vpmovqd %zmm0, %ymm0			; KNL_32-NEXT: vpmovqd %zmm0, %ymm0
	; KNL_32-NEXT: vpbroadcastd .LCPI9_1, %ymm3			; KNL_32-NEXT: vpbroadcastd .LCPI9_1, %ymm3
	; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0			; KNL_32-NEXT: vpmulld %ymm3, %ymm0, %ymm0
	; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0			; KNL_32-NEXT: vpaddd %ymm0, %ymm2, %ymm0
	; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; KNL_32-NEXT: vpbroadcastd .LCPI9_2, %ymm1			; KNL_32-NEXT: vpbroadcastd .LCPI9_2, %ymm1
	; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0			; KNL_32-NEXT: vpaddd %ymm1, %ymm0, %ymm0
	; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1			; KNL_32-NEXT: vpmovsxdq %ymm0, %zmm1
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; KNL_32-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test10:			; SKX-LABEL: test10:
	; SKX: # BB#0: # %entry			; SKX: # BB#0: # %entry
	; SKX-NEXT: vpbroadcastq %rdi, %zmm2			; SKX-NEXT: vpbroadcastq %rdi, %zmm2
	; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0			; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm0, %zmm0
	; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0			; SKX-NEXT: vpaddq %zmm0, %zmm2, %zmm0
	; SKX-NEXT: vpmovsxdq %ymm1, %zmm1			; SKX-NEXT: vpmovsxdq %ymm1, %zmm1
	; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm1, %zmm1			; SKX-NEXT: vpmullq {{.*}}(%rip){1to8}, %zmm1, %zmm1
	; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0			; SKX-NEXT: vpaddq %zmm1, %zmm0, %zmm0
	; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1			; SKX-NEXT: vpaddq {{.*}}(%rip){1to8}, %zmm0, %zmm1
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}			; SKX-NEXT: vpgatherqd (,%zmm1), %ymm0 {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq
	entry:			entry:
	%broadcast.splatinsert = insertelement <8 x %struct.ST> undef, %struct.ST %base, i32 0			%broadcast.splatinsert = insertelement <8 x %struct.ST> undef, %struct.ST %base, i32 0
	%broadcast.splat = shufflevector <8 x %struct.ST> %broadcast.splatinsert, <8 x %struct.ST> undef, <8 x i32> zeroinitializer			%broadcast.splat = shufflevector <8 x %struct.ST> %broadcast.splatinsert, <8 x %struct.ST> undef, <8 x i32> zeroinitializer

	%arrayidx = getelementptr %struct.ST, <8 x %struct.ST*> %broadcast.splat, <8 x i64> %i1, i32 2, i32 1, <8 x i32> %ind5, i64 13			%arrayidx = getelementptr %struct.ST, <8 x %struct.ST*> %broadcast.splat, <8 x i64> %i1, i32 2, i32 1, <8 x i32> %ind5, i64 13
	%res = call <8 x i32 > @llvm.masked.gather.v8i32(<8 x i32*>%arrayidx, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)			%res = call <8 x i32 > @llvm.masked.gather.v8i32(<8 x i32*>%arrayidx, i32 4, <8 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <8 x i32> undef)
	ret <8 x i32> %res			ret <8 x i32> %res
	}			}

	; Splat index in GEP, requires broadcast			; Splat index in GEP, requires broadcast
	define <16 x float> @test11(float* %base, i32 %ind) {			define <16 x float> @test11(float* %base, i32 %ind) {
	; KNL_64-LABEL: test11:			; KNL_64-LABEL: test11:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: vpbroadcastd %esi, %zmm1			; KNL_64-NEXT: vpbroadcastd %esi, %zmm1
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vgatherdps (%rdi,%zmm1,4), %zmm0 {%k1}			; KNL_64-NEXT: vgatherdps (%rdi,%zmm1,4), %zmm0 {%k1}
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test11:			; KNL_32-LABEL: test11:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %zmm1			; KNL_32-NEXT: vpbroadcastd {{[0-9]+}}(%esp), %zmm1
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vgatherdps (%eax,%zmm1,4), %zmm0 {%k1}			; KNL_32-NEXT: vgatherdps (%eax,%zmm1,4), %zmm0 {%k1}
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test11:			; SKX-LABEL: test11:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: vpbroadcastd %esi, %zmm1			; SKX-NEXT: vpbroadcastd %esi, %zmm1
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vgatherdps (%rdi,%zmm1,4), %zmm0 {%k1}			; SKX-NEXT: vgatherdps (%rdi,%zmm1,4), %zmm0 {%k1}
	; SKX-NEXT: retq			; SKX-NEXT: retq

	%broadcast.splatinsert = insertelement <16 x float> undef, float %base, i32 0			%broadcast.splatinsert = insertelement <16 x float> undef, float %base, i32 0
	%broadcast.splat = shufflevector <16 x float> %broadcast.splatinsert, <16 x float> undef, <16 x i32> zeroinitializer			%broadcast.splat = shufflevector <16 x float> %broadcast.splatinsert, <16 x float> undef, <16 x i32> zeroinitializer

	%gep.random = getelementptr float, <16 x float*> %broadcast.splat, i32 %ind			%gep.random = getelementptr float, <16 x float*> %broadcast.splat, i32 %ind

	%res = call <16 x float> @llvm.masked.gather.v16f32(<16 x float*> %gep.random, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x float> undef)			%res = call <16 x float> @llvm.masked.gather.v16f32(<16 x float*> %gep.random, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x float> undef)
	ret <16 x float>%res			ret <16 x float>%res
	}			}

	; We are checking the uniform base here. It is taken directly from input to vgatherdps			; We are checking the uniform base here. It is taken directly from input to vgatherdps
	define <16 x float> @test12(float* %base, <16 x i32> %ind) {			define <16 x float> @test12(float* %base, <16 x i32> %ind) {
	; KNL_64-LABEL: test12:			; KNL_64-LABEL: test12:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}			; KNL_64-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}
	; KNL_64-NEXT: vmovaps %zmm1, %zmm0			; KNL_64-NEXT: vmovaps %zmm1, %zmm0
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test12:			; KNL_32-LABEL: test12:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax			; KNL_32-NEXT: movl {{[0-9]+}}(%esp), %eax
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm1 {%k1}			; KNL_32-NEXT: vgatherdps (%eax,%zmm0,4), %zmm1 {%k1}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm0			; KNL_32-NEXT: vmovaps %zmm1, %zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test12:			; SKX-LABEL: test12:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}			; SKX-NEXT: vgatherdps (%rdi,%zmm0,4), %zmm1 {%k1}
	; SKX-NEXT: vmovaps %zmm1, %zmm0			; SKX-NEXT: vmovaps %zmm1, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq

	%sext_ind = sext <16 x i32> %ind to <16 x i64>			%sext_ind = sext <16 x i32> %ind to <16 x i64>
	%gep.random = getelementptr float, float *%base, <16 x i64> %sext_ind			%gep.random = getelementptr float, float *%base, <16 x i64> %sext_ind

	%res = call <16 x float> @llvm.masked.gather.v16f32(<16 x float*> %gep.random, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x float> undef)			%res = call <16 x float> @llvm.masked.gather.v16f32(<16 x float*> %gep.random, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x float> undef)
	▲ Show 20 Lines • Show All 482 Lines • ▼ Show 20 Lines
	; KNL_32-NEXT: vpandq .LCPI23_1, %zmm1, %zmm1			; KNL_32-NEXT: vpandq .LCPI23_1, %zmm1, %zmm1
	; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k1			; KNL_32-NEXT: vptestmq %zmm1, %zmm1, %k1
	; KNL_32-NEXT: vpgatherqq (%eax,%zmm0,8), %zmm1 {%k1}			; KNL_32-NEXT: vpgatherqq (%eax,%zmm0,8), %zmm1 {%k1}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm0			; KNL_32-NEXT: vmovaps %zmm1, %zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test24:			; SKX-LABEL: test24:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vpgatherqq (%rdi,%xmm0,8), %xmm1 {%k1}			; SKX-NEXT: vpgatherqq (%rdi,%xmm0,8), %xmm1 {%k1}
	; SKX-NEXT: vmovaps %zmm1, %zmm0			; SKX-NEXT: vmovaps %zmm1, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%sext_ind = sext <2 x i32> %ind to <2 x i64>			%sext_ind = sext <2 x i32> %ind to <2 x i64>
	%gep.random = getelementptr i32, i32* %base, <2 x i64> %sext_ind			%gep.random = getelementptr i32, i32* %base, <2 x i64> %sext_ind
	%res = call <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %gep.random, i32 4, <2 x i1> <i1 true, i1 true>, <2 x i32> undef)			%res = call <2 x i32> @llvm.masked.gather.v2i32(<2 x i32*> %gep.random, i32 4, <2 x i1> <i1 true, i1 true>, <2 x i32> undef)
	ret <2 x i32>%res			ret <2 x i32>%res
	}			}
	▲ Show 20 Lines • Show All 52 Lines • ▼ Show 20 Lines
	; KNL_32-NEXT: vpandq .LCPI25_1, %zmm2, %zmm2			; KNL_32-NEXT: vpandq .LCPI25_1, %zmm2, %zmm2
	; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k1			; KNL_32-NEXT: vptestmq %zmm2, %zmm2, %k1
	; KNL_32-NEXT: vpgatherqq (%eax,%zmm0,8), %zmm1 {%k1}			; KNL_32-NEXT: vpgatherqq (%eax,%zmm0,8), %zmm1 {%k1}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm0			; KNL_32-NEXT: vmovaps %zmm1, %zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test26:			; SKX-LABEL: test26:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: vpgatherqq (%rdi,%xmm0,8), %xmm1 {%k1}			; SKX-NEXT: vpgatherqq (%rdi,%xmm0,8), %xmm1 {%k1}
	; SKX-NEXT: vmovaps %zmm1, %zmm0			; SKX-NEXT: vmovaps %zmm1, %zmm0
	; SKX-NEXT: retq			; SKX-NEXT: retq
	%sext_ind = sext <2 x i32> %ind to <2 x i64>			%sext_ind = sext <2 x i32> %ind to <2 x i64>
	%gep.random = getelementptr i64, i64* %base, <2 x i64> %sext_ind			%gep.random = getelementptr i64, i64* %base, <2 x i64> %sext_ind
	%res = call <2 x i64> @llvm.masked.gather.v2i64(<2 x i64*> %gep.random, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %src0)			%res = call <2 x i64> @llvm.masked.gather.v2i64(<2 x i64*> %gep.random, i32 8, <2 x i1> <i1 true, i1 true>, <2 x i64> %src0)
	ret <2 x i64>%res			ret <2 x i64>%res
	}			}
	▲ Show 20 Lines • Show All 254 Lines • ▼ Show 20 Lines
	declare <16 x float> @llvm.masked.gather.v16p0f32(<16 x float>, i32, <16 x i1>, <16 x float>)			declare <16 x float> @llvm.masked.gather.v16p0f32(<16 x float>, i32, <16 x i1>, <16 x float>)

	; KNL-LABEL: test31			; KNL-LABEL: test31
	; KNL: vpgatherqq			; KNL: vpgatherqq
	; KNL: vpgatherqq			; KNL: vpgatherqq
	define <16 x float> @test31(<16 x float*> %ptrs) {			define <16 x float> @test31(<16 x float*> %ptrs) {
	; KNL_64-LABEL: test31:			; KNL_64-LABEL: test31:
	; KNL_64: # BB#0:			; KNL_64: # BB#0:
	; KNL_64-NEXT: kxnorw %k1, %k1, %k1			; KNL_64-NEXT: kxnorw %k0, %k0, %k1
	; KNL_64-NEXT: kxnorw %k2, %k2, %k2			; KNL_64-NEXT: kxnorw %k0, %k0, %k2
	; KNL_64-NEXT: vpgatherqq (,%zmm0), %zmm2 {%k2}			; KNL_64-NEXT: vpgatherqq (,%zmm0), %zmm2 {%k2}
	; KNL_64-NEXT: kshiftrw $8, %k1, %k1			; KNL_64-NEXT: kshiftrw $8, %k1, %k1
	; KNL_64-NEXT: vpgatherqq (,%zmm1), %zmm3 {%k1}			; KNL_64-NEXT: vpgatherqq (,%zmm1), %zmm3 {%k1}
	; KNL_64-NEXT: vmovaps %zmm2, %zmm0			; KNL_64-NEXT: vmovaps %zmm2, %zmm0
	; KNL_64-NEXT: vmovaps %zmm3, %zmm1			; KNL_64-NEXT: vmovaps %zmm3, %zmm1
	; KNL_64-NEXT: retq			; KNL_64-NEXT: retq
	;			;
	; KNL_32-LABEL: test31:			; KNL_32-LABEL: test31:
	; KNL_32: # BB#0:			; KNL_32: # BB#0:
	; KNL_32-NEXT: kxnorw %k1, %k1, %k1			; KNL_32-NEXT: kxnorw %k0, %k0, %k1
	; KNL_32-NEXT: vpgatherdd (,%zmm0), %zmm1 {%k1}			; KNL_32-NEXT: vpgatherdd (,%zmm0), %zmm1 {%k1}
	; KNL_32-NEXT: vmovaps %zmm1, %zmm0			; KNL_32-NEXT: vmovaps %zmm1, %zmm0
	; KNL_32-NEXT: retl			; KNL_32-NEXT: retl
	;			;
	; SKX-LABEL: test31:			; SKX-LABEL: test31:
	; SKX: # BB#0:			; SKX: # BB#0:
	; SKX-NEXT: kxnorw %k1, %k1, %k1			; SKX-NEXT: kxnorw %k0, %k0, %k1
	; SKX-NEXT: kxnorw %k2, %k2, %k2			; SKX-NEXT: kxnorw %k0, %k0, %k2
	; SKX-NEXT: vpgatherqq (,%zmm0), %zmm2 {%k2}			; SKX-NEXT: vpgatherqq (,%zmm0), %zmm2 {%k2}
	; SKX-NEXT: kshiftrw $8, %k1, %k1			; SKX-NEXT: kshiftrw $8, %k1, %k1
	; SKX-NEXT: vpgatherqq (,%zmm1), %zmm3 {%k1}			; SKX-NEXT: vpgatherqq (,%zmm1), %zmm3 {%k1}
	; SKX-NEXT: vmovaps %zmm2, %zmm0			; SKX-NEXT: vmovaps %zmm2, %zmm0
	; SKX-NEXT: vmovaps %zmm3, %zmm1			; SKX-NEXT: vmovaps %zmm3, %zmm1
	; SKX-NEXT: retq			; SKX-NEXT: retq
	;			;
	; SKX_32-LABEL: test31:			; SKX_32-LABEL: test31:
	; SKX_32: # BB#0:			; SKX_32: # BB#0:
	; SKX_32-NEXT: kxnorw %k1, %k1, %k1			; SKX_32-NEXT: kxnorw %k0, %k0, %k1
	; SKX_32-NEXT: vpgatherdd (,%zmm0), %zmm1 {%k1}			; SKX_32-NEXT: vpgatherdd (,%zmm0), %zmm1 {%k1}
	; SKX_32-NEXT: vmovaps %zmm1, %zmm0			; SKX_32-NEXT: vmovaps %zmm1, %zmm0
	; SKX_32-NEXT: retl			; SKX_32-NEXT: retl

	%res = call <16 x float> @llvm.masked.gather.v16p0f32(<16 x float> %ptrs, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x float> undef)			%res = call <16 x float> @llvm.masked.gather.v16p0f32(<16 x float> %ptrs, i32 4, <16 x i1> <i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true, i1 true>, <16 x float> undef)
	ret <16 x float*>%res			ret <16 x float*>%res
	}			}

	▲ Show 20 Lines • Show All 358 Lines • Show Last 20 Lines