This is an archive of the discontinued LLVM Phabricator instance.

Paths

Table of Contentst

-
llvm/
-
lib/Target/X86/
-
Target/
-
X86/
4
X86ISelLowering.cpp
-
test/CodeGen/X86/
-
CodeGen/
-
X86/
-
gfni-funnel-shifts.ll
-
gfni-rotates.ll
-
gfni-shifts.ll
-
min-legal-vector-width.ll
-
vector-bitreverse.ll

Differential D137026

[X86] Use GFNI for vXi8 shifts/rotates
Changes PlannedPublic

Authored by RKSimon on Oct 29 2022, 1:25 PM.

Download Raw Diff

Details

Reviewers

pengfei
FreddyYe

Summary

As detailed here: https://github.com/InstLatx64/InstLatX64_Demo/blob/master/GFNI_Demo.h

We can use the gf2p8affine instruction to lower byte shifts/rotates as well as the existing bitreverse case.

I've added a concat(gf2p8affine, gf2p8affine) to remerge AVX1 splitting - but TBH, I'm not certain if there's ever going to be a AVX1+GFNI target, but that might be just one of the things we handle like the weird combinations of AVX512 modes....

There's a few other GFNI patterns we can probably handle - e.g. TZCNT/LZCNT were detailed on PR47394

Diff Detail

Repository: rG LLVM Github Monorepo

Event Timeline

RKSimon created this revision.Oct 29 2022, 1:25 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 29 2022, 1:25 PM

Herald added subscribers: Groverkss, hiraditya. · View Herald Transcript

RKSimon requested review of this revision.Oct 29 2022, 1:25 PM

Herald added a project: Restricted Project. · View Herald TranscriptOct 29 2022, 1:25 PM

Harbormaster completed remote builds in B195115: Diff 471779.Oct 29 2022, 2:25 PM

pengfei added inline comments.Oct 30 2022, 11:56 PM

llvm/lib/Target/X86/X86ISelLowering.cpp
29935	`Amt > 0 && Amt < 8`?

RKSimon mentioned this in rGb172c7e1933b: [X86] combineConcatVectorOps - fold concat(GF2P8AFFINEQB(x,y,c),GF2P8AFFINEQB(z….Oct 31 2022, 5:29 AM

RKSimon planned changes to this revision.Nov 1 2022, 3:47 AM

Matt added a subscriber: Matt.Nov 1 2022, 5:54 PM

Ensure the shift/rotation amounts are in range, which allows us to simplify the mask generation

Harbormaster completed remote builds in B197374: Diff 474942.Nov 12 2022, 6:59 AM

pengfei added inline comments.Nov 12 2022, 7:26 AM

llvm/lib/Target/X86/X86ISelLowering.cpp
30193	ditto.
31062	Do we need to check it here? Can we simply use `isTypeLegal(VT)`?
31065	Use `NumElts / 8` like below.

BTW, do we need to update the TTI table for them?

RKSimon planned changes to this revision.Dec 6 2022, 2:06 PM

Revision Contents

Path

Size

llvm/

lib/

Target/

X86/

X86ISelLowering.cpp

59 lines

test/

CodeGen/

X86/

gfni-funnel-shifts.ll

267 lines

gfni-rotates.ll

261 lines

gfni-shifts.ll

289 lines

min-legal-vector-width.ll

60 lines

vector-bitreverse.ll

72 lines

Diff 471779

llvm/lib/Target/X86/X86ISelLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

	Show First 20 Lines • Show All 9,991 Lines • ▼ Show 20 Lines
	Chain = DAG.getStore(Chain, dl, Arg, StackPtr, MPI, Align(16));			Chain = DAG.getStore(Chain, dl, Arg, StackPtr, MPI, Align(16));

	SDValue Result;			SDValue Result;
	std::tie(Result, Chain) =			std::tie(Result, Chain) =
	makeLibCall(DAG, LC, VT, StackPtr, CallOptions, dl, Chain);			makeLibCall(DAG, LC, VT, StackPtr, CallOptions, dl, Chain);
	return IsStrict ? DAG.getMergeValues({Result, Chain}, dl) : Result;			return IsStrict ? DAG.getMergeValues({Result, Chain}, dl) : Result;
	}			}

				// Generate a GFNI gf2p8affine bitmask for vXi8 bitreverse/shift/rotate.
				uint64_t getGFNICtrlImm(unsigned Opcode, unsigned Amt = 0) {
				switch (Opcode) {
				case ISD::BITREVERSE:
				return 0x8040201008040201ULL;
				case ISD::SHL:
				return ((0x0102040810204080ULL >> (Amt)) &
				(0x0101010101010101ULL * (0xFF >> (Amt))));
				case ISD::SRL:
				return ((0x0102040810204080ULL << (Amt)) &
				(0x0101010101010101ULL * ((0xFF << (Amt)) & 0xFF)));
				case ISD::SRA:
				return (getGFNICtrlImm(ISD::SRL, Amt) \|
				((0x8080808080808080ULL >> (64 - (8 * Amt))) & (0ULL - (Amt > 0))));
				pengfeiUnsubmitted Not Done Reply Inline Actions `Amt > 0 && Amt < 8`? pengfei: `Amt > 0 && Amt < 8`?
				case ISD::ROTL:
				return getGFNICtrlImm(ISD::SRL, 8 - Amt) \|
				getGFNICtrlImm(ISD::SHL, Amt);
				case ISD::ROTR:
				return getGFNICtrlImm(ISD::SHL, 8 - Amt) \|
				getGFNICtrlImm(ISD::SRL, Amt);
				}
				llvm_unreachable("Unsupported GFNI opcode");
				}

	// Return true if the required (according to Opcode) shift-imm form is natively			// Return true if the required (according to Opcode) shift-imm form is natively
	// supported by the Subtarget			// supported by the Subtarget
	static bool supportedVectorShiftWithImm(MVT VT, const X86Subtarget &Subtarget,			static bool supportedVectorShiftWithImm(MVT VT, const X86Subtarget &Subtarget,
	unsigned Opcode) {			unsigned Opcode) {
	if (!(VT.is128BitVector() \|\| VT.is256BitVector() \|\| VT.is512BitVector()))			if (!(VT.is128BitVector() \|\| VT.is256BitVector() \|\| VT.is512BitVector()))
	return false;			return false;

	if (VT.getScalarSizeInBits() < 16)			if (VT.getScalarSizeInBits() < 16)
	▲ Show 20 Lines • Show All 149 Lines • ▼ Show 20 Lines
	}			}
	return DAG.getNode(X86ISD::PCMPGT, dl, VT, Zeros, R);			return DAG.getNode(X86ISD::PCMPGT, dl, VT, Zeros, R);
	}			}

	// XOP can shift v16i8 directly instead of as shift v8i16 + mask.			// XOP can shift v16i8 directly instead of as shift v8i16 + mask.
	if (VT == MVT::v16i8 && Subtarget.hasXOP())			if (VT == MVT::v16i8 && Subtarget.hasXOP())
	return SDValue();			return SDValue();

				if (Subtarget.hasGFNI()) {
				uint64_t ShiftMask = getGFNICtrlImm(Op.getOpcode(), ShiftAmt);
				MVT MaskVT = MVT::getVectorVT(MVT::i64, VT.getSizeInBits() / 64);
				SDValue Mask = DAG.getBitcast(VT, DAG.getConstant(ShiftMask, dl, MaskVT));
				return DAG.getNode(X86ISD::GF2P8AFFINEQB, dl, VT, R, Mask,
				DAG.getTargetConstant(0, dl, MVT::i8));
				}

	if (Op.getOpcode() == ISD::SHL) {			if (Op.getOpcode() == ISD::SHL) {
	// Make a large shift.			// Make a large shift.
	SDValue SHL = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, ShiftVT, R,			SDValue SHL = getTargetVShiftByConstNode(X86ISD::VSHLI, dl, ShiftVT, R,
	ShiftAmt, DAG);			ShiftAmt, DAG);
	SHL = DAG.getBitcast(VT, SHL);			SHL = DAG.getBitcast(VT, SHL);
	// Zero out the rightmost bits.			// Zero out the rightmost bits.
	APInt Mask = APInt::getHighBitsSet(8, 8 - ShiftAmt);			APInt Mask = APInt::getHighBitsSet(8, 8 - ShiftAmt);
	return DAG.getNode(ISD::AND, dl, VT, SHL, DAG.getConstant(Mask, dl, VT));			return DAG.getNode(ISD::AND, dl, VT, SHL, DAG.getConstant(Mask, dl, VT));
	▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines
	8, DAG);			8, DAG);
	BitMask = DAG.getBitcast(VT, BitMask);			BitMask = DAG.getBitcast(VT, BitMask);
	BitMask = DAG.getVectorShuffle(VT, dl, BitMask, BitMask,			BitMask = DAG.getVectorShuffle(VT, dl, BitMask, BitMask,
	SmallVector<int, 64>(NumElts, 0));			SmallVector<int, 64>(NumElts, 0));

	SDValue Res = getTargetVShiftNode(LogicalX86Op, dl, ExtVT,			SDValue Res = getTargetVShiftNode(LogicalX86Op, dl, ExtVT,
	DAG.getBitcast(ExtVT, R), BaseShAmt,			DAG.getBitcast(ExtVT, R), BaseShAmt,
	BaseShAmtIdx, Subtarget, DAG);			BaseShAmtIdx, Subtarget, DAG);
	Res = DAG.getBitcast(VT, Res);			Res = DAG.getBitcast(VT, Res);
				pengfeiUnsubmitted Not Done Reply Inline Actions ditto. pengfei: ditto.
	Res = DAG.getNode(ISD::AND, dl, VT, Res, BitMask);			Res = DAG.getNode(ISD::AND, dl, VT, Res, BitMask);

	if (Opcode == ISD::SRA) {			if (Opcode == ISD::SRA) {
	// ashr(R, Amt) === sub(xor(lshr(R, Amt), SignMask), SignMask)			// ashr(R, Amt) === sub(xor(lshr(R, Amt), SignMask), SignMask)
	// SignMask = lshr(SignBit, Amt) - safe to do this with PSRLW.			// SignMask = lshr(SignBit, Amt) - safe to do this with PSRLW.
	SDValue SignMask = DAG.getConstant(0x8080, dl, ExtVT);			SDValue SignMask = DAG.getConstant(0x8080, dl, ExtVT);
	SignMask =			SignMask =
	getTargetVShiftNode(LogicalX86Op, dl, ExtVT, SignMask, BaseShAmt,			getTargetVShiftNode(LogicalX86Op, dl, ExtVT, SignMask, BaseShAmt,
	▲ Show 20 Lines • Show All 769 Lines • ▼ Show 20 Lines
	return DAG.getNode(ISD::ROTL, DL, VT, R, NegAmt);			return DAG.getNode(ISD::ROTL, DL, VT, R, NegAmt);

	// XOP targets always prefers ISD::ROTL.			// XOP targets always prefers ISD::ROTL.
	if (Subtarget.hasXOP())			if (Subtarget.hasXOP())
	return DAG.getNode(ISD::ROTL, DL, VT, R,			return DAG.getNode(ISD::ROTL, DL, VT, R,
	DAG.getNode(ISD::SUB, DL, VT, Z, Amt));			DAG.getNode(ISD::SUB, DL, VT, Z, Amt));
	}			}

				// Attempt to use GFNI gf2p8affine to rotate vXi8 by an uniform constant.
				if (IsCstSplat && Subtarget.hasGFNI() &&
				(VT == MVT::v16i8 \|\| (VT == MVT::v32i8 && Subtarget.hasAVX()) \|\|
				(VT == MVT::v64i8 && Subtarget.useBWIRegs()))) {
				uint64_t RotAmt = CstSplatValue.urem(EltSizeInBits);
				uint64_t RotMask = getGFNICtrlImm(Opcode, RotAmt);
				MVT MaskVT = MVT::getVectorVT(MVT::i64, VT.getSizeInBits() / 64);
				SDValue Mask = DAG.getBitcast(VT, DAG.getConstant(RotMask, DL, MaskVT));
				return DAG.getNode(X86ISD::GF2P8AFFINEQB, DL, VT, R, Mask,
				DAG.getTargetConstant(0, DL, MVT::i8));
				}

	// Split 256-bit integers on XOP/pre-AVX2 targets.			// Split 256-bit integers on XOP/pre-AVX2 targets.
	if (VT.is256BitVector() && (Subtarget.hasXOP() \|\| !Subtarget.hasAVX2()))			if (VT.is256BitVector() && (Subtarget.hasXOP() \|\| !Subtarget.hasAVX2()))
	return splitVectorIntBinary(Op, DAG);			return splitVectorIntBinary(Op, DAG);

	// XOP has 128-bit vector variable + immediate rotates.			// XOP has 128-bit vector variable + immediate rotates.
	// +ve/-ve Amt = rotate left/right - just need to handle ISD::ROTL.			// +ve/-ve Amt = rotate left/right - just need to handle ISD::ROTL.
	// XOP implicitly uses modulo rotation amounts.			// XOP implicitly uses modulo rotation amounts.
	if (Subtarget.hasXOP()) {			if (Subtarget.hasXOP()) {
	▲ Show 20 Lines • Show All 55 Lines • ▼ Show 20 Lines

	// v16i8/v32i8/v64i8: Split rotation into rot4/rot2/rot1 stages and select by			// v16i8/v32i8/v64i8: Split rotation into rot4/rot2/rot1 stages and select by
	// the amount bit.			// the amount bit.
	// TODO: We're doing nothing here that we couldn't do for funnel shifts.			// TODO: We're doing nothing here that we couldn't do for funnel shifts.
	if (EltSizeInBits == 8) {			if (EltSizeInBits == 8) {
	bool IsConstAmt = ISD::isBuildVectorOfConstantSDNodes(Amt.getNode());			bool IsConstAmt = ISD::isBuildVectorOfConstantSDNodes(Amt.getNode());
	MVT WideVT =			MVT WideVT =
	MVT::getVectorVT(Subtarget.hasBWI() ? MVT::i16 : MVT::i32, NumElts);			MVT::getVectorVT(Subtarget.hasBWI() ? MVT::i16 : MVT::i32, NumElts);
	unsigned ShiftOpc = IsROTL ? ISD::SHL : ISD::SRL;			unsigned ShiftOpc = IsROTL ? ISD::SHL : ISD::SRL;
				pengfeiUnsubmitted Not Done Reply Inline Actions Do we need to check it here? Can we simply use `isTypeLegal(VT)`? pengfei: Do we need to check it here? Can we simply use `isTypeLegal(VT)`?

	// Attempt to fold as:			// Attempt to fold as:
	// rotl(x,y) -> (((aext(x) << bw) \| zext(x)) << (y & (bw-1))) >> bw.			// rotl(x,y) -> (((aext(x) << bw) \| zext(x)) << (y & (bw-1))) >> bw.
				pengfeiUnsubmitted Not Done Reply Inline Actions Use `NumElts / 8` like below. pengfei: Use `NumElts / 8` like below.
	// rotr(x,y) -> (((aext(x) << bw) \| zext(x)) >> (y & (bw-1))).			// rotr(x,y) -> (((aext(x) << bw) \| zext(x)) >> (y & (bw-1))).
	if (supportedVectorVarShift(WideVT, Subtarget, ShiftOpc) &&			if (supportedVectorVarShift(WideVT, Subtarget, ShiftOpc) &&
	supportedVectorShiftWithImm(WideVT, Subtarget, ShiftOpc)) {			supportedVectorShiftWithImm(WideVT, Subtarget, ShiftOpc)) {
	// If we're rotating by constant, just use default promotion.			// If we're rotating by constant, just use default promotion.
	if (IsConstAmt)			if (IsConstAmt)
	return SDValue();			return SDValue();
	// See if we can perform this by widening to vXi16 or vXi32.			// See if we can perform this by widening to vXi16 or vXi32.
	R = DAG.getNode(ISD::ZERO_EXTEND, DL, WideVT, R);			R = DAG.getNode(ISD::ZERO_EXTEND, DL, WideVT, R);
	▲ Show 20 Lines • Show All 830 Lines • ▼ Show 20 Lines
	if (VT == MVT::v32i8 && !Subtarget.hasInt256())			if (VT == MVT::v32i8 && !Subtarget.hasInt256())
	return splitVectorIntUnary(Op, DAG);			return splitVectorIntUnary(Op, DAG);

	unsigned NumElts = VT.getVectorNumElements();			unsigned NumElts = VT.getVectorNumElements();

	// If we have GFNI, we can use GF2P8AFFINEQB to reverse the bits.			// If we have GFNI, we can use GF2P8AFFINEQB to reverse the bits.
	if (Subtarget.hasGFNI()) {			if (Subtarget.hasGFNI()) {
	MVT MatrixVT = MVT::getVectorVT(MVT::i64, NumElts / 8);			MVT MatrixVT = MVT::getVectorVT(MVT::i64, NumElts / 8);
	SDValue Matrix = DAG.getConstant(0x8040201008040201ULL, DL, MatrixVT);			SDValue Matrix =
				DAG.getConstant(getGFNICtrlImm(ISD::BITREVERSE), DL, MatrixVT);
	Matrix = DAG.getBitcast(VT, Matrix);			Matrix = DAG.getBitcast(VT, Matrix);
	return DAG.getNode(X86ISD::GF2P8AFFINEQB, DL, VT, In, Matrix,			return DAG.getNode(X86ISD::GF2P8AFFINEQB, DL, VT, In, Matrix,
	DAG.getTargetConstant(0, DL, MVT::i8));			DAG.getTargetConstant(0, DL, MVT::i8));
	}			}

	// Perform BITREVERSE using PSHUFB lookups. Each byte is split into			// Perform BITREVERSE using PSHUFB lookups. Each byte is split into
	// two nibbles and a PSHUFB lookup to find the bitreverse of each			// two nibbles and a PSHUFB lookup to find the bitreverse of each
	// 0-15 value (moved to the other nibble).			// 0-15 value (moved to the other nibble).
	▲ Show 20 Lines • Show All 19,982 Lines • ▼ Show 20 Lines
	MVT SrcVT = Op0.getOperand(0).getSimpleValueType();			MVT SrcVT = Op0.getOperand(0).getSimpleValueType();
	SrcVT = MVT::getVectorVT(SrcVT.getScalarType(),			SrcVT = MVT::getVectorVT(SrcVT.getScalarType(),
	NumOps * SrcVT.getVectorNumElements());			NumOps * SrcVT.getVectorNumElements());
	return DAG.getNode(Op0.getOpcode(), DL, VT,			return DAG.getNode(Op0.getOpcode(), DL, VT,
	ConcatSubOperand(SrcVT, Ops, 0),			ConcatSubOperand(SrcVT, Ops, 0),
	ConcatSubOperand(SrcVT, Ops, 1));			ConcatSubOperand(SrcVT, Ops, 1));
	}			}
	break;			break;
				case X86ISD::GF2P8AFFINEQB:
				if (!IsSplat &&
				(VT.is256BitVector() \|\|
				(VT.is512BitVector() && Subtarget.useBWIRegs())) &&
				llvm::all_of(Ops, [Op0](SDValue Op) {
				return Op0.getOperand(2) == Op.getOperand(2);
				})) {
				return DAG.getNode(Op0.getOpcode(), DL, VT,
				ConcatSubOperand(VT, Ops, 0),
				ConcatSubOperand(VT, Ops, 1), Op0.getOperand(2));
				}
				break;
	case X86ISD::HADD:			case X86ISD::HADD:
	case X86ISD::HSUB:			case X86ISD::HSUB:
	case X86ISD::FHADD:			case X86ISD::FHADD:
	case X86ISD::FHSUB:			case X86ISD::FHSUB:
	case X86ISD::PACKSS:			case X86ISD::PACKSS:
	case X86ISD::PACKUS:			case X86ISD::PACKUS:
	if (!IsSplat && VT.is256BitVector() &&			if (!IsSplat && VT.is256BitVector() &&
	(VT.isFloatingPoint() \|\| Subtarget.hasInt256())) {			(VT.isFloatingPoint() \|\| Subtarget.hasInt256())) {
	▲ Show 20 Lines • Show All 2,406 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/gfni-funnel-shifts.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2,+gfni \| FileCheck %s --check-prefixes=GFNISSE			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2,+gfni \| FileCheck %s --check-prefixes=GFNISSE
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+gfni \| FileCheck %s --check-prefixes=GFNIAVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+gfni \| FileCheck %s --check-prefixes=GFNIAVX512

	;			;
	; 128 Bit Vector Funnel Shifts			; 128 Bit Vector Funnel Shifts
	;			;

	define <16 x i8> @splatconstant_fshl_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {			define <16 x i8> @splatconstant_fshl_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {
	; GFNISSE-LABEL: splatconstant_fshl_v16i8:			; GFNISSE-LABEL: splatconstant_fshl_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $5, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: psllw $3, %xmm0
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: por %xmm1, %xmm0			; GFNISSE-NEXT: por %xmm1, %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1OR2-LABEL: splatconstant_fshl_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_fshl_v16i8:
	; GFNIAVX1OR2: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX1OR2-NEXT: vpsrlw $5, %xmm1, %xmm1			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpsllw $3, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: retq			; GFNIAVX1OR2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_fshl_v16i8:			; GFNIAVX512-LABEL: splatconstant_fshl_v16i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $3, %xmm0, %xmm2			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm1, %xmm1
	; GFNIAVX512-NEXT: vpsrlw $5, %xmm1, %xmm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm2, %xmm0			; GFNIAVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> %a, <16 x i8> %b, <16 x i8> <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>)			%res = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> %a, <16 x i8> %b, <16 x i8> <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}
	declare <16 x i8> @llvm.fshl.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)			declare <16 x i8> @llvm.fshl.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)

	define <16 x i8> @splatconstant_fshr_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {			define <16 x i8> @splatconstant_fshr_v16i8(<16 x i8> %a, <16 x i8> %b) nounwind {
	; GFNISSE-LABEL: splatconstant_fshr_v16i8:			; GFNISSE-LABEL: splatconstant_fshr_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $7, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; GFNISSE-NEXT: paddb %xmm0, %xmm0			; GFNISSE-NEXT: paddb %xmm0, %xmm0
	; GFNISSE-NEXT: por %xmm1, %xmm0			; GFNISSE-NEXT: por %xmm1, %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1OR2-LABEL: splatconstant_fshr_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_fshr_v16i8:
	; GFNIAVX1OR2: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX1OR2-NEXT: vpsrlw $7, %xmm1, %xmm1			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; GFNIAVX1OR2-NEXT: vpaddb %xmm0, %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: vpaddb %xmm0, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: retq			; GFNIAVX1OR2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_fshr_v16i8:			; GFNIAVX512-LABEL: splatconstant_fshr_v16i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $7, %xmm1, %xmm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm1, %xmm1
	; GFNIAVX512-NEXT: vpaddb %xmm0, %xmm0, %xmm0			; GFNIAVX512-NEXT: vpaddb %xmm0, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; GFNIAVX512-NEXT: vpor %xmm1, %xmm0, %xmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <16 x i8> @llvm.fshr.v16i8(<16 x i8> %a, <16 x i8> %b, <16 x i8> <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>)			%res = call <16 x i8> @llvm.fshr.v16i8(<16 x i8> %a, <16 x i8> %b, <16 x i8> <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}
	declare <16 x i8> @llvm.fshr.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)			declare <16 x i8> @llvm.fshr.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)

	;			;
	; 256 Bit Vector Funnel Shifts			; 256 Bit Vector Funnel Shifts
	;			;

	define <32 x i8> @splatconstant_fshl_v32i8(<32 x i8> %a, <32 x i8> %b) nounwind {			define <32 x i8> @splatconstant_fshl_v32i8(<32 x i8> %a, <32 x i8> %b) nounwind {
	; GFNISSE-LABEL: splatconstant_fshl_v32i8:			; GFNISSE-LABEL: splatconstant_fshl_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $4, %xmm2			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [1161999622361579520,1161999622361579520]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: movdqa %xmm4, %xmm5			; GFNISSE-NEXT: movdqa {{.*#+}} xmm5 = [16909320,16909320]
	; GFNISSE-NEXT: pandn %xmm2, %xmm5			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm0
	; GFNISSE-NEXT: psllw $4, %xmm0			; GFNISSE-NEXT: por %xmm2, %xmm0
	; GFNISSE-NEXT: pand %xmm4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: por %xmm5, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm1
	; GFNISSE-NEXT: psrlw $4, %xmm3			; GFNISSE-NEXT: por %xmm3, %xmm1
	; GFNISSE-NEXT: psllw $4, %xmm1
	; GFNISSE-NEXT: pand %xmm4, %xmm1
	; GFNISSE-NEXT: pandn %xmm3, %xmm4
	; GFNISSE-NEXT: por %xmm4, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_fshl_v32i8:			; GFNIAVX1-LABEL: splatconstant_fshl_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpsrlw $4, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [15,15,15,15,15,15,15,15,15,15,15,15,15,15,15,15]
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $4, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; GFNIAVX1-NEXT: vpsllw $4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsllw $4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; GFNIAVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_fshl_v32i8:			; GFNIAVX2-LABEL: splatconstant_fshl_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $4, %ymm1, %ymm1			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1161999622361579520,1161999622361579520,1161999622361579520,1161999622361579520]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsllw $4, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [16909320,16909320,16909320,16909320]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_fshl_v32i8:			; GFNIAVX512-LABEL: splatconstant_fshl_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $4, %ymm0, %ymm2			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm1
	; GFNIAVX512-NEXT: vpsrlw $4, %ymm1, %ymm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm2, %ymm0			; GFNIAVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <32 x i8> @llvm.fshl.v32i8(<32 x i8> %a, <32 x i8> %b, <32 x i8> <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>)			%res = call <32 x i8> @llvm.fshl.v32i8(<32 x i8> %a, <32 x i8> %b, <32 x i8> <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}
	declare <32 x i8> @llvm.fshl.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)			declare <32 x i8> @llvm.fshl.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)

	define <32 x i8> @splatconstant_fshr_v32i8(<32 x i8> %a, <32 x i8> %b) nounwind {			define <32 x i8> @splatconstant_fshr_v32i8(<32 x i8> %a, <32 x i8> %b) nounwind {
	; GFNISSE-LABEL: splatconstant_fshr_v32i8:			; GFNISSE-LABEL: splatconstant_fshr_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $6, %xmm2			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [4647714815446351872,4647714815446351872]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: movdqa %xmm4, %xmm5			; GFNISSE-NEXT: movdqa {{.*#+}} xmm5 = [1108169199648,1108169199648]
	; GFNISSE-NEXT: pandn %xmm2, %xmm5			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm0
	; GFNISSE-NEXT: psllw $2, %xmm0			; GFNISSE-NEXT: por %xmm2, %xmm0
	; GFNISSE-NEXT: pand %xmm4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: por %xmm5, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm1
	; GFNISSE-NEXT: psrlw $6, %xmm3			; GFNISSE-NEXT: por %xmm3, %xmm1
	; GFNISSE-NEXT: psllw $2, %xmm1
	; GFNISSE-NEXT: pand %xmm4, %xmm1
	; GFNISSE-NEXT: pandn %xmm3, %xmm4
	; GFNISSE-NEXT: por %xmm4, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_fshr_v32i8:			; GFNIAVX1-LABEL: splatconstant_fshr_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpsrlw $6, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [3,3,3,3,3,3,3,3,3,3,3,3,3,3,3,3]
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $6, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; GFNIAVX1-NEXT: vpsllw $2, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsllw $2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vorps %ymm1, %ymm0, %ymm0			; GFNIAVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_fshr_v32i8:			; GFNIAVX2-LABEL: splatconstant_fshr_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $6, %ymm1, %ymm1			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [4647714815446351872,4647714815446351872,4647714815446351872,4647714815446351872]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsllw $2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [1108169199648,1108169199648,1108169199648,1108169199648]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_fshr_v32i8:			; GFNIAVX512-LABEL: splatconstant_fshr_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $2, %ymm0, %ymm2			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm1
	; GFNIAVX512-NEXT: vpsrlw $6, %ymm1, %ymm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm2, %ymm0			; GFNIAVX512-NEXT: vpor %ymm1, %ymm0, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <32 x i8> @llvm.fshr.v32i8(<32 x i8> %a, <32 x i8> %b, <32 x i8> <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>)			%res = call <32 x i8> @llvm.fshr.v32i8(<32 x i8> %a, <32 x i8> %b, <32 x i8> <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}
	declare <32 x i8> @llvm.fshr.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)			declare <32 x i8> @llvm.fshr.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)

	;			;
	; 512 Bit Vector Funnel Shifts			; 512 Bit Vector Funnel Shifts
	;			;

	define <64 x i8> @splatconstant_fshl_v64i8(<64 x i8> %a, <64 x i8> %b) nounwind {			define <64 x i8> @splatconstant_fshl_v64i8(<64 x i8> %a, <64 x i8> %b) nounwind {
	; GFNISSE-LABEL: splatconstant_fshl_v64i8:			; GFNISSE-LABEL: splatconstant_fshl_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $7, %xmm4			; GFNISSE-NEXT: movdqa {{.*#+}} xmm8 = [9223372036854775808,9223372036854775808]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm4
	; GFNISSE-NEXT: pand %xmm8, %xmm4
	; GFNISSE-NEXT: paddb %xmm0, %xmm0			; GFNISSE-NEXT: paddb %xmm0, %xmm0
	; GFNISSE-NEXT: por %xmm4, %xmm0			; GFNISSE-NEXT: por %xmm4, %xmm0
	; GFNISSE-NEXT: psrlw $7, %xmm5			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm5
	; GFNISSE-NEXT: pand %xmm8, %xmm5
	; GFNISSE-NEXT: paddb %xmm1, %xmm1			; GFNISSE-NEXT: paddb %xmm1, %xmm1
	; GFNISSE-NEXT: por %xmm5, %xmm1			; GFNISSE-NEXT: por %xmm5, %xmm1
	; GFNISSE-NEXT: psrlw $7, %xmm6			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm6
	; GFNISSE-NEXT: pand %xmm8, %xmm6
	; GFNISSE-NEXT: paddb %xmm2, %xmm2			; GFNISSE-NEXT: paddb %xmm2, %xmm2
	; GFNISSE-NEXT: por %xmm6, %xmm2			; GFNISSE-NEXT: por %xmm6, %xmm2
	; GFNISSE-NEXT: psrlw $7, %xmm7			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm7
	; GFNISSE-NEXT: pand %xmm7, %xmm8
	; GFNISSE-NEXT: paddb %xmm3, %xmm3			; GFNISSE-NEXT: paddb %xmm3, %xmm3
	; GFNISSE-NEXT: por %xmm8, %xmm3			; GFNISSE-NEXT: por %xmm7, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_fshl_v64i8:			; GFNIAVX1-LABEL: splatconstant_fshl_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm4, %xmm4			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm4, %ymm2, %ymm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNIAVX1-NEXT: vpaddb %xmm0, %xmm0, %xmm5
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm4, %xmm4
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; GFNIAVX1-NEXT: vpaddb %xmm0, %xmm0, %xmm4
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; GFNIAVX1-NEXT: vpaddb %xmm0, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpaddb %xmm0, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm4, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm5, %ymm0
	; GFNIAVX1-NEXT: vorps %ymm2, %ymm0, %ymm0			; GFNIAVX1-NEXT: vorps %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm3, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm4, %ymm3, %ymm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; GFNIAVX1-NEXT: vpaddb %xmm1, %xmm1, %xmm3			; GFNIAVX1-NEXT: vpaddb %xmm1, %xmm1, %xmm3
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm1			; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm1
	; GFNIAVX1-NEXT: vpaddb %xmm1, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpaddb %xmm1, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm3, %ymm1
	; GFNIAVX1-NEXT: vorps %ymm2, %ymm1, %ymm1			; GFNIAVX1-NEXT: vorps %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_fshl_v64i8:			; GFNIAVX2-LABEL: splatconstant_fshl_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $7, %ymm2, %ymm2			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm4, %ymm2, %ymm2
	; GFNIAVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; GFNIAVX2-NEXT: vpaddb %ymm0, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpaddb %ymm0, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsrlw $7, %ymm3, %ymm2			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm4, %ymm3, %ymm2
	; GFNIAVX2-NEXT: vpand %ymm4, %ymm2, %ymm2
	; GFNIAVX2-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; GFNIAVX2-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm1, %ymm1			; GFNIAVX2-NEXT: vpor %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_fshl_v64i8:			; GFNIAVX512-LABEL: splatconstant_fshl_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $7, %zmm1, %zmm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm1, %zmm1
	; GFNIAVX512-NEXT: vpaddb %zmm0, %zmm0, %zmm0			; GFNIAVX512-NEXT: vpaddb %zmm0, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; GFNIAVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> %a, <64 x i8> %b, <64 x i8> <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>)			%res = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> %a, <64 x i8> %b, <64 x i8> <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	declare <64 x i8> @llvm.fshl.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)			declare <64 x i8> @llvm.fshl.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)

	define <64 x i8> @splatconstant_fshr_v64i8(<64 x i8> %a, <64 x i8> %b) nounwind {			define <64 x i8> @splatconstant_fshr_v64i8(<64 x i8> %a, <64 x i8> %b) nounwind {
	; GFNISSE-LABEL: splatconstant_fshr_v64i8:			; GFNISSE-LABEL: splatconstant_fshr_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $2, %xmm4			; GFNISSE-NEXT: movdqa {{.*#+}} xmm8 = [290499906672525312,290499906672525312]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm8 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm4
	; GFNISSE-NEXT: movdqa %xmm8, %xmm9			; GFNISSE-NEXT: movdqa {{.*#+}} xmm9 = [258,258]
	; GFNISSE-NEXT: pandn %xmm4, %xmm9			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm9, %xmm0
	; GFNISSE-NEXT: psllw $6, %xmm0			; GFNISSE-NEXT: por %xmm4, %xmm0
	; GFNISSE-NEXT: pand %xmm8, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm5
	; GFNISSE-NEXT: por %xmm9, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm9, %xmm1
	; GFNISSE-NEXT: psrlw $2, %xmm5			; GFNISSE-NEXT: por %xmm5, %xmm1
	; GFNISSE-NEXT: movdqa %xmm8, %xmm4			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm6
	; GFNISSE-NEXT: pandn %xmm5, %xmm4			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm9, %xmm2
	; GFNISSE-NEXT: psllw $6, %xmm1			; GFNISSE-NEXT: por %xmm6, %xmm2
	; GFNISSE-NEXT: pand %xmm8, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm8, %xmm7
	; GFNISSE-NEXT: por %xmm4, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm9, %xmm3
	; GFNISSE-NEXT: psrlw $2, %xmm6			; GFNISSE-NEXT: por %xmm7, %xmm3
	; GFNISSE-NEXT: movdqa %xmm8, %xmm4
	; GFNISSE-NEXT: pandn %xmm6, %xmm4
	; GFNISSE-NEXT: psllw $6, %xmm2
	; GFNISSE-NEXT: pand %xmm8, %xmm2
	; GFNISSE-NEXT: por %xmm4, %xmm2
	; GFNISSE-NEXT: psrlw $2, %xmm7
	; GFNISSE-NEXT: psllw $6, %xmm3
	; GFNISSE-NEXT: pand %xmm8, %xmm3
	; GFNISSE-NEXT: pandn %xmm7, %xmm8
	; GFNISSE-NEXT: por %xmm8, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_fshr_v64i8:			; GFNIAVX1-LABEL: splatconstant_fshr_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm2, %xmm4			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm4 = [290499906672525312,290499906672525312,290499906672525312,290499906672525312]
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm4, %xmm4			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm4, %ymm2, %ymm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm5 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm5 = [258,258,258,258]
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm4, %xmm4			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm5, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm2, %ymm2
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm4
	; GFNIAVX1-NEXT: vpsllw $6, %xmm4, %xmm4
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm6 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
	; GFNIAVX1-NEXT: vpand %xmm6, %xmm4, %xmm4
	; GFNIAVX1-NEXT: vpsllw $6, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm6, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vorps %ymm2, %ymm0, %ymm0			; GFNIAVX1-NEXT: vorps %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm3, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm4, %ymm3, %ymm2
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm5, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpand %xmm5, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm3
	; GFNIAVX1-NEXT: vpsllw $6, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpand %xmm6, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpsllw $6, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm6, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vorps %ymm2, %ymm1, %ymm1			; GFNIAVX1-NEXT: vorps %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_fshr_v64i8:			; GFNIAVX2-LABEL: splatconstant_fshr_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $2, %ymm2, %ymm2			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm4 = [290499906672525312,290499906672525312,290499906672525312,290499906672525312]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm4 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm4, %ymm2, %ymm2
	; GFNIAVX2-NEXT: vpandn %ymm2, %ymm4, %ymm2			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm5 = [258,258,258,258]
	; GFNIAVX2-NEXT: vpsllw $6, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm5, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand %ymm4, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsrlw $2, %ymm3, %ymm2			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm4, %ymm3, %ymm2
	; GFNIAVX2-NEXT: vpandn %ymm2, %ymm4, %ymm2			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm5, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsllw $6, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpand %ymm4, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm1, %ymm1			; GFNIAVX2-NEXT: vpor %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_fshr_v64i8:			; GFNIAVX512-LABEL: splatconstant_fshr_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $6, %zmm0, %zmm2			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm1, %zmm1
	; GFNIAVX512-NEXT: vpsrlw $2, %zmm1, %zmm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm2, %zmm0			; GFNIAVX512-NEXT: vporq %zmm1, %zmm0, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> %a, <64 x i8> %b, <64 x i8> <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>)			%res = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> %a, <64 x i8> %b, <64 x i8> <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	declare <64 x i8> @llvm.fshr.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)			declare <64 x i8> @llvm.fshr.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)

llvm/test/CodeGen/X86/gfni-rotates.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2,+gfni \| FileCheck %s --check-prefixes=GFNISSE			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2,+gfni \| FileCheck %s --check-prefixes=GFNISSE
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+gfni \| FileCheck %s --check-prefixes=GFNIAVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+gfni \| FileCheck %s --check-prefixes=GFNIAVX512

	;			;
	; 128 Bit Vector Rotates			; 128 Bit Vector Rotates
	;			;

	define <16 x i8> @splatconstant_rotl_v16i8(<16 x i8> %a) nounwind {			define <16 x i8> @splatconstant_rotl_v16i8(<16 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_rotl_v16i8:			; GFNISSE-LABEL: splatconstant_rotl_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa %xmm0, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: psrlw $5, %xmm1
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; GFNISSE-NEXT: psllw $3, %xmm0
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: por %xmm1, %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1OR2-LABEL: splatconstant_rotl_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_rotl_v16i8:
	; GFNIAVX1OR2: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX1OR2-NEXT: vpsrlw $5, %xmm0, %xmm1			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; GFNIAVX1OR2-NEXT: vpsllw $3, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: retq			; GFNIAVX1OR2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_rotl_v16i8:			; GFNIAVX512-LABEL: splatconstant_rotl_v16i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $3, %xmm0, %xmm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vpsrlw $5, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm1, %xmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> %a, <16 x i8> %a, <16 x i8> <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>)			%res = call <16 x i8> @llvm.fshl.v16i8(<16 x i8> %a, <16 x i8> %a, <16 x i8> <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}
	declare <16 x i8> @llvm.fshl.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)			declare <16 x i8> @llvm.fshl.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)

	define <16 x i8> @splatconstant_rotr_v16i8(<16 x i8> %a) nounwind {			define <16 x i8> @splatconstant_rotr_v16i8(<16 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_rotr_v16i8:			; GFNISSE-LABEL: splatconstant_rotr_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa %xmm0, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: psrlw $7, %xmm1
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1
	; GFNISSE-NEXT: paddb %xmm0, %xmm0
	; GFNISSE-NEXT: por %xmm1, %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1OR2-LABEL: splatconstant_rotr_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_rotr_v16i8:
	; GFNIAVX1OR2: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX1OR2-NEXT: vpsrlw $7, %xmm0, %xmm1			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; GFNIAVX1OR2-NEXT: vpaddb %xmm0, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: retq			; GFNIAVX1OR2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_rotr_v16i8:			; GFNIAVX512-LABEL: splatconstant_rotr_v16i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $7, %xmm0, %xmm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vpaddb %xmm0, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <16 x i8> @llvm.fshr.v16i8(<16 x i8> %a, <16 x i8> %a, <16 x i8> <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>)			%res = call <16 x i8> @llvm.fshr.v16i8(<16 x i8> %a, <16 x i8> %a, <16 x i8> <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>)
	ret <16 x i8> %res			ret <16 x i8> %res
	}			}
	declare <16 x i8> @llvm.fshr.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)			declare <16 x i8> @llvm.fshr.v16i8(<16 x i8>, <16 x i8>, <16 x i8>)

	;			;
	; 256 Bit Vector Rotates			; 256 Bit Vector Rotates
	;			;

	define <32 x i8> @splatconstant_rotl_v32i8(<32 x i8> %a) nounwind {			define <32 x i8> @splatconstant_rotl_v32i8(<32 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_rotl_v32i8:			; GFNISSE-LABEL: splatconstant_rotl_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa %xmm0, %xmm2			; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [1161999622378488840,1161999622378488840]
	; GFNISSE-NEXT: psrlw $4, %xmm2			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1
	; GFNISSE-NEXT: movdqa %xmm3, %xmm4
	; GFNISSE-NEXT: pandn %xmm2, %xmm4
	; GFNISSE-NEXT: psllw $4, %xmm0
	; GFNISSE-NEXT: pand %xmm3, %xmm0
	; GFNISSE-NEXT: por %xmm4, %xmm0
	; GFNISSE-NEXT: movdqa %xmm1, %xmm2
	; GFNISSE-NEXT: psrlw $4, %xmm2
	; GFNISSE-NEXT: psllw $4, %xmm1
	; GFNISSE-NEXT: pand %xmm3, %xmm1
	; GFNISSE-NEXT: pandn %xmm2, %xmm3
	; GFNISSE-NEXT: por %xmm3, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_rotl_v32i8:			; GFNIAVX1-LABEL: splatconstant_rotl_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vpsrlw $4, %xmm1, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; GFNIAVX1-NEXT: vpandn %xmm2, %xmm3, %xmm2
	; GFNIAVX1-NEXT: vpsllw $4, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpor %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsrlw $4, %xmm0, %xmm2
	; GFNIAVX1-NEXT: vpandn %xmm2, %xmm3, %xmm2
	; GFNIAVX1-NEXT: vpsllw $4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_rotl_v32i8:			; GFNIAVX2-LABEL: splatconstant_rotl_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $4, %ymm0, %ymm1			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [1161999622378488840,1161999622378488840,1161999622378488840,1161999622378488840]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsllw $4, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_rotl_v32i8:			; GFNIAVX512-LABEL: splatconstant_rotl_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $4, %ymm0, %ymm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpsrlw $4, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <32 x i8> @llvm.fshl.v32i8(<32 x i8> %a, <32 x i8> %a, <32 x i8> <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>)			%res = call <32 x i8> @llvm.fshl.v32i8(<32 x i8> %a, <32 x i8> %a, <32 x i8> <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}
	declare <32 x i8> @llvm.fshl.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)			declare <32 x i8> @llvm.fshl.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)

	define <32 x i8> @splatconstant_rotr_v32i8(<32 x i8> %a) nounwind {			define <32 x i8> @splatconstant_rotr_v32i8(<32 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_rotr_v32i8:			; GFNISSE-LABEL: splatconstant_rotr_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa %xmm0, %xmm2			; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [4647715923615551520,4647715923615551520]
	; GFNISSE-NEXT: psrlw $6, %xmm2			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm3 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1
	; GFNISSE-NEXT: movdqa %xmm3, %xmm4
	; GFNISSE-NEXT: pandn %xmm2, %xmm4
	; GFNISSE-NEXT: psllw $2, %xmm0
	; GFNISSE-NEXT: pand %xmm3, %xmm0
	; GFNISSE-NEXT: por %xmm4, %xmm0
	; GFNISSE-NEXT: movdqa %xmm1, %xmm2
	; GFNISSE-NEXT: psrlw $6, %xmm2
	; GFNISSE-NEXT: psllw $2, %xmm1
	; GFNISSE-NEXT: pand %xmm3, %xmm1
	; GFNISSE-NEXT: pandn %xmm2, %xmm3
	; GFNISSE-NEXT: por %xmm3, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_rotr_v32i8:			; GFNIAVX1-LABEL: splatconstant_rotr_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vpsrlw $6, %xmm1, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; GFNIAVX1-NEXT: vpandn %xmm2, %xmm3, %xmm2
	; GFNIAVX1-NEXT: vpsllw $2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpor %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsrlw $6, %xmm0, %xmm2
	; GFNIAVX1-NEXT: vpandn %xmm2, %xmm3, %xmm2
	; GFNIAVX1-NEXT: vpsllw $2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpor %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_rotr_v32i8:			; GFNIAVX2-LABEL: splatconstant_rotr_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $6, %ymm0, %ymm1			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [4647715923615551520,4647715923615551520,4647715923615551520,4647715923615551520]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsllw $2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_rotr_v32i8:			; GFNIAVX512-LABEL: splatconstant_rotr_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $2, %ymm0, %ymm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpsrlw $6, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <32 x i8> @llvm.fshr.v32i8(<32 x i8> %a, <32 x i8> %a, <32 x i8> <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>)			%res = call <32 x i8> @llvm.fshr.v32i8(<32 x i8> %a, <32 x i8> %a, <32 x i8> <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>)
	ret <32 x i8> %res			ret <32 x i8> %res
	}			}
	declare <32 x i8> @llvm.fshr.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)			declare <32 x i8> @llvm.fshr.v32i8(<32 x i8>, <32 x i8>, <32 x i8>)

	;			;
	; 512 Bit Vector Rotates			; 512 Bit Vector Rotates
	;			;

	define <64 x i8> @splatconstant_rotl_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @splatconstant_rotl_v64i8(<64 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_rotl_v64i8:			; GFNISSE-LABEL: splatconstant_rotl_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa %xmm0, %xmm4			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [9223655728169885760,9223655728169885760]
	; GFNISSE-NEXT: psrlw $7, %xmm4			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1
	; GFNISSE-NEXT: pand %xmm5, %xmm4			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: paddb %xmm0, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: por %xmm4, %xmm0
	; GFNISSE-NEXT: movdqa %xmm1, %xmm4
	; GFNISSE-NEXT: psrlw $7, %xmm4
	; GFNISSE-NEXT: pand %xmm5, %xmm4
	; GFNISSE-NEXT: paddb %xmm1, %xmm1
	; GFNISSE-NEXT: por %xmm4, %xmm1
	; GFNISSE-NEXT: movdqa %xmm2, %xmm4
	; GFNISSE-NEXT: psrlw $7, %xmm4
	; GFNISSE-NEXT: pand %xmm5, %xmm4
	; GFNISSE-NEXT: paddb %xmm2, %xmm2
	; GFNISSE-NEXT: por %xmm4, %xmm2
	; GFNISSE-NEXT: movdqa %xmm3, %xmm4
	; GFNISSE-NEXT: psrlw $7, %xmm4
	; GFNISSE-NEXT: pand %xmm5, %xmm4
	; GFNISSE-NEXT: paddb %xmm3, %xmm3
	; GFNISSE-NEXT: por %xmm4, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_rotl_v64i8:			; GFNIAVX1-LABEL: splatconstant_rotl_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} ymm2 = [9223655728169885760,9223655728169885760,9223655728169885760,9223655728169885760]
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm2, %xmm3			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpaddb %xmm2, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm0, %xmm3
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpaddb %xmm0, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm2, %xmm3
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpaddb %xmm2, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm1, %xmm3
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm3, %xmm3
	; GFNIAVX1-NEXT: vpaddb %xmm1, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_rotl_v64i8:			; GFNIAVX2-LABEL: splatconstant_rotl_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $7, %ymm0, %ymm2			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223655728169885760,9223655728169885760,9223655728169885760,9223655728169885760]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand %ymm3, %ymm2, %ymm2			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpaddb %ymm0, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsrlw $7, %ymm1, %ymm2
	; GFNIAVX2-NEXT: vpand %ymm3, %ymm2, %ymm2
	; GFNIAVX2-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_rotl_v64i8:			; GFNIAVX512-LABEL: splatconstant_rotl_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $7, %zmm0, %zmm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpaddb %zmm0, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> %a, <64 x i8> %a, <64 x i8> <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>)			%res = call <64 x i8> @llvm.fshl.v64i8(<64 x i8> %a, <64 x i8> %a, <64 x i8> <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	declare <64 x i8> @llvm.fshl.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)			declare <64 x i8> @llvm.fshl.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)

	define <64 x i8> @splatconstant_rotr_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @splatconstant_rotr_v64i8(<64 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_rotr_v64i8:			; GFNISSE-LABEL: splatconstant_rotr_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa %xmm0, %xmm5			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [290499906672525570,290499906672525570]
	; GFNISSE-NEXT: psrlw $2, %xmm5			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1
	; GFNISSE-NEXT: movdqa %xmm4, %xmm6			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: pandn %xmm5, %xmm6			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: psllw $6, %xmm0
	; GFNISSE-NEXT: pand %xmm4, %xmm0
	; GFNISSE-NEXT: por %xmm6, %xmm0
	; GFNISSE-NEXT: movdqa %xmm1, %xmm5
	; GFNISSE-NEXT: psrlw $2, %xmm5
	; GFNISSE-NEXT: movdqa %xmm4, %xmm6
	; GFNISSE-NEXT: pandn %xmm5, %xmm6
	; GFNISSE-NEXT: psllw $6, %xmm1
	; GFNISSE-NEXT: pand %xmm4, %xmm1
	; GFNISSE-NEXT: por %xmm6, %xmm1
	; GFNISSE-NEXT: movdqa %xmm2, %xmm5
	; GFNISSE-NEXT: psrlw $2, %xmm5
	; GFNISSE-NEXT: movdqa %xmm4, %xmm6
	; GFNISSE-NEXT: pandn %xmm5, %xmm6
	; GFNISSE-NEXT: psllw $6, %xmm2
	; GFNISSE-NEXT: pand %xmm4, %xmm2
	; GFNISSE-NEXT: por %xmm6, %xmm2
	; GFNISSE-NEXT: movdqa %xmm3, %xmm5
	; GFNISSE-NEXT: psrlw $2, %xmm5
	; GFNISSE-NEXT: psllw $6, %xmm3
	; GFNISSE-NEXT: pand %xmm4, %xmm3
	; GFNISSE-NEXT: pandn %xmm5, %xmm4
	; GFNISSE-NEXT: por %xmm4, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_rotr_v64i8:			; GFNIAVX1-LABEL: splatconstant_rotr_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} ymm2 = [290499906672525570,290499906672525570,290499906672525570,290499906672525570]
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm2, %xmm3			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpandn %xmm3, %xmm4, %xmm3
	; GFNIAVX1-NEXT: vpsllw $6, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm0, %xmm3
	; GFNIAVX1-NEXT: vpandn %xmm3, %xmm4, %xmm3
	; GFNIAVX1-NEXT: vpsllw $6, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm2, %xmm3
	; GFNIAVX1-NEXT: vpandn %xmm3, %xmm4, %xmm3
	; GFNIAVX1-NEXT: vpsllw $6, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm1, %xmm3
	; GFNIAVX1-NEXT: vpandn %xmm3, %xmm4, %xmm3
	; GFNIAVX1-NEXT: vpsllw $6, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm4, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpor %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_rotr_v64i8:			; GFNIAVX2-LABEL: splatconstant_rotr_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $2, %ymm0, %ymm2			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [290499906672525570,290499906672525570,290499906672525570,290499906672525570]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpandn %ymm2, %ymm3, %ymm2			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsllw $6, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand %ymm3, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsrlw $2, %ymm1, %ymm2
	; GFNIAVX2-NEXT: vpandn %ymm2, %ymm3, %ymm2
	; GFNIAVX2-NEXT: vpsllw $6, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpand %ymm3, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpor %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_rotr_v64i8:			; GFNIAVX512-LABEL: splatconstant_rotr_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $6, %zmm0, %zmm1			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpsrlw $2, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm1, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%res = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> %a, <64 x i8> %a, <64 x i8> <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>)			%res = call <64 x i8> @llvm.fshr.v64i8(<64 x i8> %a, <64 x i8> %a, <64 x i8> <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>)
	ret <64 x i8> %res			ret <64 x i8> %res
	}			}
	declare <64 x i8> @llvm.fshr.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)			declare <64 x i8> @llvm.fshr.v64i8(<64 x i8>, <64 x i8>, <64 x i8>)

llvm/test/CodeGen/X86/gfni-shifts.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2,+gfni \| FileCheck %s --check-prefixes=GFNISSE			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+sse4.2,+gfni \| FileCheck %s --check-prefixes=GFNISSE
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+gfni \| FileCheck %s --check-prefixes=GFNIAVX,GFNIAVX1OR2,GFNIAVX1			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+gfni \| FileCheck %s --check-prefixes=GFNIAVX,GFNIAVX1OR2,GFNIAVX2			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx2,+gfni \| FileCheck %s --check-prefixes=GFNIAVX1OR2,GFNIAVX2
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+gfni \| FileCheck %s --check-prefixes=GFNIAVX,GFNIAVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=+avx512bw,+avx512vl,+gfni \| FileCheck %s --check-prefixes=GFNIAVX512

	;			;
	; 128 Bit Vector Shifts			; 128 Bit Vector Shifts
	;			;

	define <16 x i8> @splatconstant_shl_v16i8(<16 x i8> %a) nounwind {			define <16 x i8> @splatconstant_shl_v16i8(<16 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_shl_v16i8:			; GFNISSE-LABEL: splatconstant_shl_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psllw $3, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX-LABEL: splatconstant_shl_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_shl_v16i8:
	; GFNIAVX: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX-NEXT: vpsllw $3, %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: retq
	; GFNIAVX-NEXT: retq			;
				; GFNIAVX512-LABEL: splatconstant_shl_v16i8:
				; GFNIAVX512: # %bb.0:
				; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm0, %xmm0
				; GFNIAVX512-NEXT: retq
	%shift = shl <16 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>			%shift = shl <16 x i8> %a, <i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3, i8 3>
	ret <16 x i8> %shift			ret <16 x i8> %shift
	}			}

	define <16 x i8> @splatconstant_lshr_v16i8(<16 x i8> %a) nounwind {			define <16 x i8> @splatconstant_lshr_v16i8(<16 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_lshr_v16i8:			; GFNISSE-LABEL: splatconstant_lshr_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $7, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX-LABEL: splatconstant_lshr_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_lshr_v16i8:
	; GFNIAVX: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX-NEXT: vpsrlw $7, %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: retq
	; GFNIAVX-NEXT: retq			;
				; GFNIAVX512-LABEL: splatconstant_lshr_v16i8:
				; GFNIAVX512: # %bb.0:
				; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm0, %xmm0
				; GFNIAVX512-NEXT: retq
	%shift = lshr <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>			%shift = lshr <16 x i8> %a, <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>
	ret <16 x i8> %shift			ret <16 x i8> %shift
	}			}

	define <16 x i8> @splatconstant_ashr_v16i8(<16 x i8> %a) nounwind {			define <16 x i8> @splatconstant_ashr_v16i8(<16 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_ashr_v16i8:			; GFNISSE-LABEL: splatconstant_ashr_v16i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; GFNISSE-NEXT: pxor %xmm1, %xmm0
	; GFNISSE-NEXT: psubb %xmm1, %xmm0
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1OR2-LABEL: splatconstant_ashr_v16i8:			; GFNIAVX1OR2-LABEL: splatconstant_ashr_v16i8:
	; GFNIAVX1OR2: # %bb.0:			; GFNIAVX1OR2: # %bb.0:
	; GFNIAVX1OR2-NEXT: vpsrlw $4, %xmm0, %xmm0			; GFNIAVX1OR2-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vmovdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; GFNIAVX1OR2-NEXT: vpxor %xmm1, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; GFNIAVX1OR2-NEXT: retq			; GFNIAVX1OR2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_ashr_v16i8:			; GFNIAVX512-LABEL: splatconstant_ashr_v16i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $4, %xmm0, %xmm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to2}, %xmm0, %xmm0
	; GFNIAVX512-NEXT: vmovdqa {{.*#+}} xmm1 = [8,8,8,8,8,8,8,8,8,8,8,8,8,8,8,8]
	; GFNIAVX512-NEXT: vpternlogq $108, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; GFNIAVX512-NEXT: vpsubb %xmm1, %xmm0, %xmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = ashr <16 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%shift = ashr <16 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	ret <16 x i8> %shift			ret <16 x i8> %shift
	}			}

	;			;
	; 256 Bit Vector Shifts			; 256 Bit Vector Shifts
	;			;

	define <32 x i8> @splatconstant_shl_v32i8(<32 x i8> %a) nounwind {			define <32 x i8> @splatconstant_shl_v32i8(<32 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_shl_v32i8:			; GFNISSE-LABEL: splatconstant_shl_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psllw $6, %xmm0			; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [258,258]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0
	; GFNISSE-NEXT: pand %xmm2, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1
	; GFNISSE-NEXT: psllw $6, %xmm1
	; GFNISSE-NEXT: pand %xmm2, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_shl_v32i8:			; GFNIAVX1-LABEL: splatconstant_shl_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vpsllw $6, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [192,192,192,192,192,192,192,192,192,192,192,192,192,192,192,192]
	; GFNIAVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsllw $6, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_shl_v32i8:			; GFNIAVX2-LABEL: splatconstant_shl_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsllw $6, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [258,258,258,258]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_shl_v32i8:			; GFNIAVX512-LABEL: splatconstant_shl_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $6, %ymm0, %ymm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = shl <32 x i8> %a, <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>			%shift = shl <32 x i8> %a, <i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6, i8 6>
	ret <32 x i8> %shift			ret <32 x i8> %shift
	}			}

	define <32 x i8> @splatconstant_lshr_v32i8(<32 x i8> %a) nounwind {			define <32 x i8> @splatconstant_lshr_v32i8(<32 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_lshr_v32i8:			; GFNISSE-LABEL: splatconstant_lshr_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $1, %xmm0			; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [145249953336295424,145249953336295424]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0
	; GFNISSE-NEXT: pand %xmm2, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1
	; GFNISSE-NEXT: psrlw $1, %xmm1
	; GFNISSE-NEXT: pand %xmm2, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_lshr_v32i8:			; GFNIAVX1-LABEL: splatconstant_lshr_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vpsrlw $1, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]
	; GFNIAVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsrlw $1, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_lshr_v32i8:			; GFNIAVX2-LABEL: splatconstant_lshr_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [145249953336295424,145249953336295424,145249953336295424,145249953336295424]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_lshr_v32i8:			; GFNIAVX512-LABEL: splatconstant_lshr_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $1, %ymm0, %ymm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = lshr <32 x i8> %a, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>			%shift = lshr <32 x i8> %a, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
	ret <32 x i8> %shift			ret <32 x i8> %shift
	}			}

	define <32 x i8> @splatconstant_ashr_v32i8(<32 x i8> %a) nounwind {			define <32 x i8> @splatconstant_ashr_v32i8(<32 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_ashr_v32i8:			; GFNISSE-LABEL: splatconstant_ashr_v32i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $2, %xmm0			; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [290499906672558208,290499906672558208]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0
	; GFNISSE-NEXT: pand %xmm2, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; GFNISSE-NEXT: pxor %xmm3, %xmm0
	; GFNISSE-NEXT: psubb %xmm3, %xmm0
	; GFNISSE-NEXT: psrlw $2, %xmm1
	; GFNISSE-NEXT: pand %xmm2, %xmm1
	; GFNISSE-NEXT: pxor %xmm3, %xmm1
	; GFNISSE-NEXT: psubb %xmm3, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_ashr_v32i8:			; GFNIAVX1-LABEL: splatconstant_ashr_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [63,63,63,63,63,63,63,63,63,63,63,63,63,63,63,63]
	; GFNIAVX1-NEXT: vpand %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; GFNIAVX1-NEXT: vpxor %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsubb %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsrlw $2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpxor %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpsubb %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_ashr_v32i8:			; GFNIAVX2-LABEL: splatconstant_ashr_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [290499906672558208,290499906672558208,290499906672558208,290499906672558208]
	; GFNIAVX2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; GFNIAVX2-NEXT: vpxor %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_ashr_v32i8:			; GFNIAVX512-LABEL: splatconstant_ashr_v32i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $2, %ymm0, %ymm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
	; GFNIAVX512-NEXT: vmovdqa {{.*#+}} ymm1 = [32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32,32]
	; GFNIAVX512-NEXT: vpternlogq $108, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; GFNIAVX512-NEXT: vpsubb %ymm1, %ymm0, %ymm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = ashr <32 x i8> %a, <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>			%shift = ashr <32 x i8> %a, <i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2, i8 2>
	ret <32 x i8> %shift			ret <32 x i8> %shift
	}			}

	;			;
	; 512 Bit Vector Shifts			; 512 Bit Vector Shifts
	;			;

	define <64 x i8> @splatconstant_shl_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @splatconstant_shl_v64i8(<64 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_shl_v64i8:			; GFNISSE-LABEL: splatconstant_shl_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psllw $5, %xmm0			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [66052,66052]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0
	; GFNISSE-NEXT: pand %xmm4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1
	; GFNISSE-NEXT: psllw $5, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: pand %xmm4, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: psllw $5, %xmm2
	; GFNISSE-NEXT: pand %xmm4, %xmm2
	; GFNISSE-NEXT: psllw $5, %xmm3
	; GFNISSE-NEXT: pand %xmm4, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_shl_v64i8:			; GFNIAVX1-LABEL: splatconstant_shl_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [66052,66052,66052,66052]
	; GFNIAVX1-NEXT: vpsllw $5, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsllw $5, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; GFNIAVX1-NEXT: vpsllw $5, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsllw $5, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_shl_v64i8:			; GFNIAVX2-LABEL: splatconstant_shl_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsllw $5, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [66052,66052,66052,66052]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224,224]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsllw $5, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_shl_v64i8:			; GFNIAVX512-LABEL: splatconstant_shl_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsllw $5, %zmm0, %zmm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = shl <64 x i8> %a, <i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5>			%shift = shl <64 x i8> %a, <i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5, i8 5>
	ret <64 x i8> %shift			ret <64 x i8> %shift
	}			}

	define <64 x i8> @splatconstant_lshr_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @splatconstant_lshr_v64i8(<64 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_lshr_v64i8:			; GFNISSE-LABEL: splatconstant_lshr_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $7, %xmm0			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [9223372036854775808,9223372036854775808]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0
	; GFNISSE-NEXT: pand %xmm4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1
	; GFNISSE-NEXT: psrlw $7, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: pand %xmm4, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: psrlw $7, %xmm2
	; GFNISSE-NEXT: pand %xmm4, %xmm2
	; GFNISSE-NEXT: psrlw $7, %xmm3
	; GFNISSE-NEXT: pand %xmm4, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_lshr_v64i8:			; GFNIAVX1-LABEL: splatconstant_lshr_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $7, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_lshr_v64i8:			; GFNIAVX2-LABEL: splatconstant_lshr_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $7, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9223372036854775808,9223372036854775808,9223372036854775808,9223372036854775808]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsrlw $7, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_lshr_v64i8:			; GFNIAVX512-LABEL: splatconstant_lshr_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $7, %zmm0, %zmm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = lshr <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>			%shift = lshr <64 x i8> %a, <i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7, i8 7>
	ret <64 x i8> %shift			ret <64 x i8> %shift
	}			}

	define <64 x i8> @splatconstant_ashr_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @splatconstant_ashr_v64i8(<64 x i8> %a) nounwind {
	; GFNISSE-LABEL: splatconstant_ashr_v64i8:			; GFNISSE-LABEL: splatconstant_ashr_v64i8:
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: psrlw $1, %xmm0			; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [145249953336295552,145249953336295552]
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm4 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0
	; GFNISSE-NEXT: pand %xmm4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm5 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: pxor %xmm5, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: psubb %xmm5, %xmm0
	; GFNISSE-NEXT: psrlw $1, %xmm1
	; GFNISSE-NEXT: pand %xmm4, %xmm1
	; GFNISSE-NEXT: pxor %xmm5, %xmm1
	; GFNISSE-NEXT: psubb %xmm5, %xmm1
	; GFNISSE-NEXT: psrlw $1, %xmm2
	; GFNISSE-NEXT: pand %xmm4, %xmm2
	; GFNISSE-NEXT: pxor %xmm5, %xmm2
	; GFNISSE-NEXT: psubb %xmm5, %xmm2
	; GFNISSE-NEXT: psrlw $1, %xmm3
	; GFNISSE-NEXT: pand %xmm4, %xmm3
	; GFNISSE-NEXT: pxor %xmm5, %xmm3
	; GFNISSE-NEXT: psubb %xmm5, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: splatconstant_ashr_v64i8:			; GFNIAVX1-LABEL: splatconstant_ashr_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [145249953336295552,145249953336295552,145249953336295552,145249953336295552]
	; GFNIAVX1-NEXT: vpsrlw $1, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
	; GFNIAVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $1, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpxor %xmm4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vpsubb %xmm4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $1, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpxor %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsubb %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpsrlw $1, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpand %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpxor %xmm4, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpsubb %xmm4, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: splatconstant_ashr_v64i8:			; GFNIAVX2-LABEL: splatconstant_ashr_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpsrlw $1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [145249953336295552,145249953336295552,145249953336295552,145249953336295552]
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127,127]			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpand %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm3 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
	; GFNIAVX2-NEXT: vpxor %ymm3, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsubb %ymm3, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpsrlw $1, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpand %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpxor %ymm3, %ymm1, %ymm1
	; GFNIAVX2-NEXT: vpsubb %ymm3, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	; GFNIAVX512-LABEL: splatconstant_ashr_v64i8:			; GFNIAVX512-LABEL: splatconstant_ashr_v64i8:
	; GFNIAVX512: # %bb.0:			; GFNIAVX512: # %bb.0:
	; GFNIAVX512-NEXT: vpsrlw $1, %zmm0, %zmm0			; GFNIAVX512-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to8}, %zmm0, %zmm0
	; GFNIAVX512-NEXT: vmovdqa64 {{.*#+}} zmm1 = [64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64,64]
	; GFNIAVX512-NEXT: vpternlogq $108, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; GFNIAVX512-NEXT: vpsubb %zmm1, %zmm0, %zmm0
	; GFNIAVX512-NEXT: retq			; GFNIAVX512-NEXT: retq
	%shift = ashr <64 x i8> %a, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>			%shift = ashr <64 x i8> %a, <i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1, i8 1>
	ret <64 x i8> %shift			ret <64 x i8> %shift
	}			}

llvm/test/CodeGen/X86/min-legal-vector-width.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skylake-avx512 -mattr=prefer-256-bit \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skylake-avx512 -mattr=prefer-256-bit \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skylake-avx512 -mattr=prefer-256-bit,avx512vbmi \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skylake-avx512 -mattr=prefer-256-bit,avx512vbmi \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI
	; Make sure CPUs default to prefer-256-bit. avx512vnni isn't interesting as it just adds an isel peephole for vpmaddwd+vpaddd			; Make sure CPUs default to prefer-256-bit. avx512vnni isn't interesting as it just adds an isel peephole for vpmaddwd+vpaddd
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skylake-avx512 \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=skylake-avx512 \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=cascadelake \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=cascadelake \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=cooperlake \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=cooperlake \| FileCheck %s --check-prefixes=CHECK,CHECK-AVX512
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=cannonlake \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mcpu=cannonlake \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI,CHECK-VBMI1
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=icelake-client \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=icelake-client \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI,CHECK-GFNI
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=icelake-server \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=icelake-server \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI,CHECK-GFNI
	; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=tigerlake \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI			; RUN: llc < %s -mtriple=x86_64-unknown-unknown -mattr=-avx512vnni -mcpu=tigerlake \| FileCheck %s --check-prefixes=CHECK,CHECK-VBMI,CHECK-GFNI

	; This file primarily contains tests for specific places in X86ISelLowering.cpp that needed be made aware of the legalizer not allowing 512-bit vectors due to prefer-256-bit even though AVX512 is enabled.			; This file primarily contains tests for specific places in X86ISelLowering.cpp that needed be made aware of the legalizer not allowing 512-bit vectors due to prefer-256-bit even though AVX512 is enabled.

	define dso_local void @add256(<16 x i32>* %a, <16 x i32>* %b, <16 x i32>* %c) "min-legal-vector-width"="256" {			define dso_local void @add256(<16 x i32>* %a, <16 x i32>* %b, <16 x i32>* %c) "min-legal-vector-width"="256" {
	; CHECK-LABEL: add256:			; CHECK-LABEL: add256:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: vmovdqa (%rdi), %ymm0			; CHECK-NEXT: vmovdqa (%rdi), %ymm0
	; CHECK-NEXT: vmovdqa 32(%rdi), %ymm1			; CHECK-NEXT: vmovdqa 32(%rdi), %ymm1
	▲ Show 20 Lines • Show All 1,706 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: retq			; CHECK-NEXT: retq
	%shl = shl <32 x i8> %a, <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1>			%shl = shl <32 x i8> %a, <i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1>
	%lshr = lshr <32 x i8> %a, <i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>			%lshr = lshr <32 x i8> %a, <i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7, i8 8, i8 7, i8 6, i8 5, i8 4, i8 3, i8 2, i8 1, i8 0, i8 1, i8 2, i8 3, i8 4, i8 5, i8 6, i8 7>
	%or = or <32 x i8> %shl, %lshr			%or = or <32 x i8> %shl, %lshr
	ret <32 x i8> %or			ret <32 x i8> %or
	}			}

	define <32 x i8> @splatconstant_rotate_v32i8(<32 x i8> %a) nounwind "min-legal-vector-width"="256" {			define <32 x i8> @splatconstant_rotate_v32i8(<32 x i8> %a) nounwind "min-legal-vector-width"="256" {
	; CHECK-LABEL: splatconstant_rotate_v32i8:			; CHECK-AVX512-LABEL: splatconstant_rotate_v32i8:
	; CHECK: # %bb.0:			; CHECK-AVX512: # %bb.0:
	; CHECK-NEXT: vpsllw $4, %ymm0, %ymm1			; CHECK-AVX512-NEXT: vpsllw $4, %ymm0, %ymm1
	; CHECK-NEXT: vpsrlw $4, %ymm0, %ymm0			; CHECK-AVX512-NEXT: vpsrlw $4, %ymm0, %ymm0
	; CHECK-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0			; CHECK-AVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0
	; CHECK-NEXT: retq			; CHECK-AVX512-NEXT: retq
				;
				; CHECK-VBMI1-LABEL: splatconstant_rotate_v32i8:
				; CHECK-VBMI1: # %bb.0:
				; CHECK-VBMI1-NEXT: vpsllw $4, %ymm0, %ymm1
				; CHECK-VBMI1-NEXT: vpsrlw $4, %ymm0, %ymm0
				; CHECK-VBMI1-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0
				; CHECK-VBMI1-NEXT: retq
				;
				; CHECK-GFNI-LABEL: splatconstant_rotate_v32i8:
				; CHECK-GFNI: # %bb.0:
				; CHECK-GFNI-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
				; CHECK-GFNI-NEXT: retq
	%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%or = or <32 x i8> %shl, %lshr			%or = or <32 x i8> %shl, %lshr
	ret <32 x i8> %or			ret <32 x i8> %or
	}			}

	define <32 x i8> @splatconstant_rotate_mask_v32i8(<32 x i8> %a) nounwind "min-legal-vector-width"="256" {			define <32 x i8> @splatconstant_rotate_mask_v32i8(<32 x i8> %a) nounwind "min-legal-vector-width"="256" {
	; CHECK-LABEL: splatconstant_rotate_mask_v32i8:			; CHECK-AVX512-LABEL: splatconstant_rotate_mask_v32i8:
	; CHECK: # %bb.0:			; CHECK-AVX512: # %bb.0:
	; CHECK-NEXT: vpsllw $4, %ymm0, %ymm1			; CHECK-AVX512-NEXT: vpsllw $4, %ymm0, %ymm1
	; CHECK-NEXT: vpsrlw $4, %ymm0, %ymm0			; CHECK-AVX512-NEXT: vpsrlw $4, %ymm0, %ymm0
	; CHECK-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0			; CHECK-AVX512-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0
	; CHECK-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; CHECK-AVX512-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; CHECK-NEXT: retq			; CHECK-AVX512-NEXT: retq
				;
				; CHECK-VBMI1-LABEL: splatconstant_rotate_mask_v32i8:
				; CHECK-VBMI1: # %bb.0:
				; CHECK-VBMI1-NEXT: vpsllw $4, %ymm0, %ymm1
				; CHECK-VBMI1-NEXT: vpsrlw $4, %ymm0, %ymm0
				; CHECK-VBMI1-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm1, %ymm0
				; CHECK-VBMI1-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
				; CHECK-VBMI1-NEXT: retq
				;
				; CHECK-GFNI-LABEL: splatconstant_rotate_mask_v32i8:
				; CHECK-GFNI: # %bb.0:
				; CHECK-GFNI-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip){1to4}, %ymm0, %ymm0
				; CHECK-GFNI-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
				; CHECK-GFNI-NEXT: retq
	%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%shl = shl <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%lshr = lshr <32 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%rmask = and <32 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>			%rmask = and <32 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>
	%lmask = and <32 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>			%lmask = and <32 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>
	%or = or <32 x i8> %lmask, %rmask			%or = or <32 x i8> %lmask, %rmask
	ret <32 x i8> %or			ret <32 x i8> %or
	}			}

llvm/test/CodeGen/X86/vector-bitreverse.ll

	Show First 20 Lines • Show All 867 Lines • ▼ Show 20 Lines
	; GFNISSE: # %bb.0:			; GFNISSE: # %bb.0:
	; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [9241421688590303745,9241421688590303745]			; GFNISSE-NEXT: movdqa {{.*#+}} xmm2 = [9241421688590303745,9241421688590303745]
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm0
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm2, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v32i8:			; GFNIAVX1-LABEL: test_bitreverse_v32i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v32i8:			; GFNIAVX2-LABEL: test_bitreverse_v32i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 166 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm3, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm3, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v16i16:			; GFNIAVX1-LABEL: test_bitreverse_v16i16:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14]			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14]
	; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
				; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v16i16:			; GFNIAVX2-LABEL: test_bitreverse_v16i16:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14,17,16,19,18,21,20,23,22,25,24,27,26,29,28,31,30]			; GFNIAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14,17,16,19,18,21,20,23,22,25,24,27,26,29,28,31,30]
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	▲ Show 20 Lines • Show All 177 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm3, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm3, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v8i32:			; GFNIAVX1-LABEL: test_bitreverse_v8i32:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12]			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12]
	; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
				; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v8i32:			; GFNIAVX2-LABEL: test_bitreverse_v8i32:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,19,18,17,16,23,22,21,20,27,26,25,24,31,30,29,28]			; GFNIAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,19,18,17,16,23,22,21,20,27,26,25,24,31,30,29,28]
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	▲ Show 20 Lines • Show All 181 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm3, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm3, %xmm1
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v4i64:			; GFNIAVX1-LABEL: test_bitreverse_v4i64:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8]			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8]
	; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpshufb %xmm2, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
				; GFNIAVX1-NEXT: vgf2p8affineqb $0, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v4i64:			; GFNIAVX2-LABEL: test_bitreverse_v4i64:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,23,22,21,20,19,18,17,16,31,30,29,28,27,26,25,24]			; GFNIAVX2-NEXT: vpshufb {{.*#+}} ymm0 = ymm0[7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,23,22,21,20,19,18,17,16,31,30,29,28,27,26,25,24]
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm1 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm1, %ymm0, %ymm0
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	▲ Show 20 Lines • Show All 252 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm0
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm1
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm2
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm4, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v64i8:			; GFNIAVX1-LABEL: test_bitreverse_v64i8:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [9241421688590303745,9241421688590303745]			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v64i8:			; GFNIAVX2-LABEL: test_bitreverse_v64i8:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm2 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX2-NEXT: retq			; GFNIAVX2-NEXT: retq
	▲ Show 20 Lines • Show All 301 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm3			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v32i16:			; GFNIAVX1-LABEL: test_bitreverse_v32i16:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14]			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14]
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm2, %xmm2			; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
				; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm1, %xmm1			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v32i16:			; GFNIAVX2-LABEL: test_bitreverse_v32i16:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14,1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14]			; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14,1,0,3,2,5,4,7,6,9,8,11,10,13,12,15,14]
	; GFNIAVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm3, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm3, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 325 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm3			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v16i32:			; GFNIAVX1-LABEL: test_bitreverse_v16i32:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12]			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12]
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm2, %xmm2			; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
				; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm1, %xmm1			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v16i32:			; GFNIAVX2-LABEL: test_bitreverse_v16i32:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12]			; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12,3,2,1,0,7,6,5,4,11,10,9,8,15,14,13,12]
	; GFNIAVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm3, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm3, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 333 Lines • ▼ Show 20 Lines
	; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm3			; GFNISSE-NEXT: gf2p8affineqb $0, %xmm5, %xmm3
	; GFNISSE-NEXT: retq			; GFNISSE-NEXT: retq
	;			;
	; GFNIAVX1-LABEL: test_bitreverse_v8i64:			; GFNIAVX1-LABEL: test_bitreverse_v8i64:
	; GFNIAVX1: # %bb.0:			; GFNIAVX1: # %bb.0:
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; GFNIAVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8]			; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm3 = [7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8]
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vmovdqa {{.*#+}} xmm4 = [9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm2, %xmm2
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm0, %xmm0
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm2			; GFNIAVX1-NEXT: vbroadcastsd {{.*#+}} ymm2 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm2, %xmm2			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm0, %ymm0
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm2, %xmm2			; GFNIAVX1-NEXT: vextractf128 $1, %ymm1, %xmm4
				; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm4, %xmm4
	; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1			; GFNIAVX1-NEXT: vpshufb %xmm3, %xmm1, %xmm1
	; GFNIAVX1-NEXT: vgf2p8affineqb $0, %xmm4, %xmm1, %xmm1			; GFNIAVX1-NEXT: vinsertf128 $1, %xmm4, %ymm1, %ymm1
	; GFNIAVX1-NEXT: vinsertf128 $1, %xmm2, %ymm1, %ymm1			; GFNIAVX1-NEXT: vgf2p8affineqb $0, %ymm2, %ymm1, %ymm1
	; GFNIAVX1-NEXT: retq			; GFNIAVX1-NEXT: retq
	;			;
	; GFNIAVX2-LABEL: test_bitreverse_v8i64:			; GFNIAVX2-LABEL: test_bitreverse_v8i64:
	; GFNIAVX2: # %bb.0:			; GFNIAVX2: # %bb.0:
	; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8]			; GFNIAVX2-NEXT: vmovdqa {{.*#+}} ymm2 = [7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8,7,6,5,4,3,2,1,0,15,14,13,12,11,10,9,8]
	; GFNIAVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0			; GFNIAVX2-NEXT: vpshufb %ymm2, %ymm0, %ymm0
	; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]			; GFNIAVX2-NEXT: vpbroadcastq {{.*#+}} ymm3 = [9241421688590303745,9241421688590303745,9241421688590303745,9241421688590303745]
	; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm3, %ymm0, %ymm0			; GFNIAVX2-NEXT: vgf2p8affineqb $0, %ymm3, %ymm0, %ymm0
	▲ Show 20 Lines • Show All 177 Lines • Show Last 20 Lines