Diff 385041

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 6,977 Lines • ▼ Show 20 Lines
// MatchRotate - Handle an 'or' of two operands. If this is one of the many		// MatchRotate - Handle an 'or' of two operands. If this is one of the many
// idioms for rotate, and if the target supports rotation instructions, generate		// idioms for rotate, and if the target supports rotation instructions, generate
// a rot[lr]. This also matches funnel shift patterns, similar to rotation but		// a rot[lr]. This also matches funnel shift patterns, similar to rotation but
// with different shifted sources.		// with different shifted sources.
SDValue DAGCombiner::MatchRotate(SDValue LHS, SDValue RHS, const SDLoc &DL) {		SDValue DAGCombiner::MatchRotate(SDValue LHS, SDValue RHS, const SDLoc &DL) {
EVT VT = LHS.getValueType();		EVT VT = LHS.getValueType();

// The target must have at least one rotate/funnel flavor.		// The target must have at least one rotate/funnel flavor.
		// We still try to match rotate by constant pre-legalization.
		// TODO: Support pre-legalization funnel-shift by constant.
bool HasROTL = hasOperation(ISD::ROTL, VT);		bool HasROTL = hasOperation(ISD::ROTL, VT);
bool HasROTR = hasOperation(ISD::ROTR, VT);		bool HasROTR = hasOperation(ISD::ROTR, VT);
bool HasFSHL = hasOperation(ISD::FSHL, VT);		bool HasFSHL = hasOperation(ISD::FSHL, VT);
bool HasFSHR = hasOperation(ISD::FSHR, VT);		bool HasFSHR = hasOperation(ISD::FSHR, VT);
if (!HasROTL && !HasROTR && !HasFSHL && !HasFSHR)		if (LegalOperations && !HasROTL && !HasROTR && !HasFSHL && !HasFSHR)
return SDValue();		return SDValue();

// Check for truncated rotate.		// Check for truncated rotate.
if (LHS.getOpcode() == ISD::TRUNCATE && RHS.getOpcode() == ISD::TRUNCATE &&		if (LHS.getOpcode() == ISD::TRUNCATE && RHS.getOpcode() == ISD::TRUNCATE &&
LHS.getOperand(0).getValueType() == RHS.getOperand(0).getValueType()) {		LHS.getOperand(0).getValueType() == RHS.getOperand(0).getValueType()) {
assert(LHS.getValueType() == RHS.getValueType());		assert(LHS.getValueType() == RHS.getValueType());
if (SDValue Rot = MatchRotate(LHS.getOperand(0), RHS.getOperand(0), DL)) {		if (SDValue Rot = MatchRotate(LHS.getOperand(0), RHS.getOperand(0), DL)) {
return DAG.getNode(ISD::TRUNCATE, SDLoc(LHS), LHS.getValueType(), Rot);		return DAG.getNode(ISD::TRUNCATE, SDLoc(LHS), LHS.getValueType(), Rot);
Show All 37 Lines	if (!RHSShift \|\| !LHSShift)
return SDValue();		return SDValue();

// At this point we've matched or extracted a shift op on each side.		// At this point we've matched or extracted a shift op on each side.

if (LHSShift.getOpcode() == RHSShift.getOpcode())		if (LHSShift.getOpcode() == RHSShift.getOpcode())
return SDValue(); // Shifts must disagree.		return SDValue(); // Shifts must disagree.

bool IsRotate = LHSShift.getOperand(0) == RHSShift.getOperand(0);		bool IsRotate = LHSShift.getOperand(0) == RHSShift.getOperand(0);

		// TODO: Support pre-legalization funnel-shift by constant.
if (!IsRotate && !(HasFSHL \|\| HasFSHR))		if (!IsRotate && !(HasFSHL \|\| HasFSHR))
return SDValue(); // Requires funnel shift support.		return SDValue(); // Requires funnel shift support.

// Canonicalize shl to left side in a shl/srl pair.		// Canonicalize shl to left side in a shl/srl pair.
if (RHSShift.getOpcode() == ISD::SHL) {		if (RHSShift.getOpcode() == ISD::SHL) {
std::swap(LHS, RHS);		std::swap(LHS, RHS);
std::swap(LHSShift, RHSShift);		std::swap(LHSShift, RHSShift);
std::swap(LHSMask, RHSMask);		std::swap(LHSMask, RHSMask);
Show All 11 Lines	SDValue DAGCombiner::MatchRotate(SDValue LHS, SDValue RHS, const SDLoc &DL) {
// fold (or (shl x, C1), (srl y, C2)) -> (fshr x, y, C2)		// fold (or (shl x, C1), (srl y, C2)) -> (fshr x, y, C2)
// iff C1+C2 == EltSizeInBits		// iff C1+C2 == EltSizeInBits
auto MatchRotateSum = [EltSizeInBits](ConstantSDNode *LHS,		auto MatchRotateSum = [EltSizeInBits](ConstantSDNode *LHS,
ConstantSDNode *RHS) {		ConstantSDNode *RHS) {
return (LHS->getAPIntValue() + RHS->getAPIntValue()) == EltSizeInBits;		return (LHS->getAPIntValue() + RHS->getAPIntValue()) == EltSizeInBits;
};		};
if (ISD::matchBinaryPredicate(LHSShiftAmt, RHSShiftAmt, MatchRotateSum)) {		if (ISD::matchBinaryPredicate(LHSShiftAmt, RHSShiftAmt, MatchRotateSum)) {
SDValue Res;		SDValue Res;
if (IsRotate && (HasROTL \|\| HasROTR))		if (IsRotate && (HasROTL \|\| HasROTR \|\| !(HasFSHL \|\| HasFSHR))) {
Res = DAG.getNode(HasROTL ? ISD::ROTL : ISD::ROTR, DL, VT, LHSShiftArg,		bool UseROTL = !LegalOperations \|\| HasROTL;
HasROTL ? LHSShiftAmt : RHSShiftAmt);		Res = DAG.getNode(UseROTL ? ISD::ROTL : ISD::ROTR, DL, VT, LHSShiftArg,
else		UseROTL ? LHSShiftAmt : RHSShiftAmt);
Res = DAG.getNode(HasFSHL ? ISD::FSHL : ISD::FSHR, DL, VT, LHSShiftArg,		} else {
RHSShiftArg, HasFSHL ? LHSShiftAmt : RHSShiftAmt);		bool UseFSHL = !LegalOperations \|\| HasFSHL;
		Res = DAG.getNode(UseFSHL ? ISD::FSHL : ISD::FSHR, DL, VT, LHSShiftArg,
		RHSShiftArg, UseFSHL ? LHSShiftAmt : RHSShiftAmt);
		}

// If there is an AND of either shifted operand, apply it to the result.		// If there is an AND of either shifted operand, apply it to the result.
if (LHSMask.getNode() \|\| RHSMask.getNode()) {		if (LHSMask.getNode() \|\| RHSMask.getNode()) {
SDValue AllOnes = DAG.getAllOnesConstant(DL, VT);		SDValue AllOnes = DAG.getAllOnesConstant(DL, VT);
SDValue Mask = AllOnes;		SDValue Mask = AllOnes;

if (LHSMask.getNode()) {		if (LHSMask.getNode()) {
SDValue RHSBits = DAG.getNode(ISD::SRL, DL, VT, AllOnes, RHSShiftAmt);		SDValue RHSBits = DAG.getNode(ISD::SRL, DL, VT, AllOnes, RHSShiftAmt);
Mask = DAG.getNode(ISD::AND, DL, VT, Mask,		Mask = DAG.getNode(ISD::AND, DL, VT, Mask,
DAG.getNode(ISD::OR, DL, VT, LHSMask, RHSBits));		DAG.getNode(ISD::OR, DL, VT, LHSMask, RHSBits));
}		}
if (RHSMask.getNode()) {		if (RHSMask.getNode()) {
SDValue LHSBits = DAG.getNode(ISD::SHL, DL, VT, AllOnes, LHSShiftAmt);		SDValue LHSBits = DAG.getNode(ISD::SHL, DL, VT, AllOnes, LHSShiftAmt);
Mask = DAG.getNode(ISD::AND, DL, VT, Mask,		Mask = DAG.getNode(ISD::AND, DL, VT, Mask,
DAG.getNode(ISD::OR, DL, VT, RHSMask, LHSBits));		DAG.getNode(ISD::OR, DL, VT, RHSMask, LHSBits));
}		}

Res = DAG.getNode(ISD::AND, DL, VT, Res, Mask);		Res = DAG.getNode(ISD::AND, DL, VT, Res, Mask);
}		}

return Res;		return Res;
}		}

		// Even pre-legalization, we can't easily rotate/funnel-shift by a variable
		// shift.
		if (!HasROTL && !HasROTR && !HasFSHL && !HasFSHR)
		return SDValue();

// If there is a mask here, and we have a variable shift, we can't be sure		// If there is a mask here, and we have a variable shift, we can't be sure
// that we're masking out the right stuff.		// that we're masking out the right stuff.
if (LHSMask.getNode() \|\| RHSMask.getNode())		if (LHSMask.getNode() \|\| RHSMask.getNode())
return SDValue();		return SDValue();

// If the shift amount is sign/zext/any-extended just peel it off.		// If the shift amount is sign/zext/any-extended just peel it off.
SDValue LExtOp0 = LHSShiftAmt;		SDValue LExtOp0 = LHSShiftAmt;
SDValue RExtOp0 = RHSShiftAmt;		SDValue RExtOp0 = RHSShiftAmt;
▲ Show 20 Lines • Show All 9,991 Lines • Show Last 20 Lines

llvm/test/CodeGen/ARM/rotate.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=thumbv8--linux-gnueabihf \| FileCheck %s			; RUN: llc < %s -mtriple=thumbv8--linux-gnueabihf \| FileCheck %s

	;; This used to cause a backend crash about not being able to			;; This used to cause a backend crash about not being able to
	;; select ROTL. Make sure if generates the basic VSHL/VSHR.			;; select ROTL. Make sure if generates the basic VSHL/VSHR.
	define <2 x i64> @testcase(<2 x i64>* %in) {			define <2 x i64> @testcase(<2 x i64>* %in) {
	; CHECK-LABEL: testcase:			; CHECK-LABEL: testcase:
	; CHECK: @ %bb.0:			; CHECK: @ %bb.0:
	; CHECK-NEXT: vld1.64 {d16, d17}, [r0]			; CHECK-NEXT: adr r1, .LCPI0_0
	; CHECK-NEXT: vshl.i64 q9, q8, #56			; CHECK-NEXT: vmov.i32 q8, #0x0
	; CHECK-NEXT: vshr.u64 q8, q8, #8			; CHECK-NEXT: vld1.64 {d18, d19}, [r1:128]
	; CHECK-NEXT: vorr q0, q8, q9			; CHECK-NEXT: vsub.i64 q8, q8, q9
				; CHECK-NEXT: vld1.64 {d18, d19}, [r0]
				; CHECK-NEXT: vshl.u64 q8, q9, q8
				; CHECK-NEXT: vshl.i64 q9, q9, #56
				; CHECK-NEXT: vorr q0, q9, q8
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
				; CHECK-NEXT: .p2align 4
				; CHECK-NEXT: @ %bb.1:
				; CHECK-NEXT: .LCPI0_0:
				; CHECK-NEXT: .long 8 @ 0x8
				; CHECK-NEXT: .long 0 @ 0x0
				; CHECK-NEXT: .long 8 @ 0x8
				; CHECK-NEXT: .long 0 @ 0x0
	%1 = load <2 x i64>, <2 x i64>* %in			%1 = load <2 x i64>, <2 x i64>* %in
	%2 = lshr <2 x i64> %1, <i64 8, i64 8>			%2 = lshr <2 x i64> %1, <i64 8, i64 8>
	%3 = shl <2 x i64> %1, <i64 56, i64 56>			%3 = shl <2 x i64> %1, <i64 56, i64 56>
	%4 = or <2 x i64> %2, %3			%4 = or <2 x i64> %2, %3
	ret <2 x i64> %4			ret <2 x i64> %4
	}			}

llvm/test/CodeGen/PowerPC/vector-rotates.ll

	Show First 20 Lines • Show All 104 Lines • ▼ Show 20 Lines
	; CHECK-P8-NEXT: addi r3, r3, .LCPI4_0@toc@l			; CHECK-P8-NEXT: addi r3, r3, .LCPI4_0@toc@l
	; CHECK-P8-NEXT: lxvd2x vs0, 0, r3			; CHECK-P8-NEXT: lxvd2x vs0, 0, r3
	; CHECK-P8-NEXT: xxswapd vs35, vs0			; CHECK-P8-NEXT: xxswapd vs35, vs0
	; CHECK-P8-NEXT: vrld v2, v2, v3			; CHECK-P8-NEXT: vrld v2, v2, v3
	; CHECK-P8-NEXT: blr			; CHECK-P8-NEXT: blr
	;			;
	; CHECK-P7-LABEL: rotl_v2i64:			; CHECK-P7-LABEL: rotl_v2i64:
	; CHECK-P7: # %bb.0: # %entry			; CHECK-P7: # %bb.0: # %entry
	; CHECK-P7-NEXT: addi r3, r1, -48
	; CHECK-P7-NEXT: stxvd2x vs34, 0, r3
	; CHECK-P7-NEXT: ld r3, -40(r1)
	; CHECK-P7-NEXT: sldi r4, r3, 53
	; CHECK-P7-NEXT: rldicl r3, r3, 53, 11
	; CHECK-P7-NEXT: std r4, -8(r1)
	; CHECK-P7-NEXT: ld r4, -48(r1)
	; CHECK-P7-NEXT: sldi r5, r4, 41
	; CHECK-P7-NEXT: rldicl r4, r4, 41, 23
	; CHECK-P7-NEXT: std r5, -16(r1)
	; CHECK-P7-NEXT: addi r5, r1, -16
	; CHECK-P7-NEXT: lxvw4x vs0, 0, r5
	; CHECK-P7-NEXT: std r3, -24(r1)
	; CHECK-P7-NEXT: addi r3, r1, -32			; CHECK-P7-NEXT: addi r3, r1, -32
	; CHECK-P7-NEXT: std r4, -32(r1)			; CHECK-P7-NEXT: stxvd2x vs34, 0, r3
	; CHECK-P7-NEXT: lxvw4x vs1, 0, r3			; CHECK-P7-NEXT: ld r3, -24(r1)
	; CHECK-P7-NEXT: xxlor vs34, vs0, vs1			; CHECK-P7-NEXT: rotldi r3, r3, 53
				; CHECK-P7-NEXT: std r3, -8(r1)
				; CHECK-P7-NEXT: ld r3, -32(r1)
				; CHECK-P7-NEXT: rotldi r3, r3, 41
				; CHECK-P7-NEXT: std r3, -16(r1)
				; CHECK-P7-NEXT: addi r3, r1, -16
				; CHECK-P7-NEXT: lxvd2x vs34, 0, r3
	; CHECK-P7-NEXT: blr			; CHECK-P7-NEXT: blr
	entry:			entry:
	%b = shl <2 x i64> %a, <i64 41, i64 53>			%b = shl <2 x i64> %a, <i64 41, i64 53>
	%c = lshr <2 x i64> %a, <i64 23, i64 11>			%c = lshr <2 x i64> %a, <i64 23, i64 11>
	%d = or <2 x i64> %b, %c			%d = or <2 x i64> %b, %c
	ret <2 x i64> %d			ret <2 x i64> %d
	}			}

llvm/test/CodeGen/RISCV/rv32zbp.ll

Show First 20 Lines • Show All 1,636 Lines • ▼ Show 20 Lines	; RV32ZBP-NEXT: ret
%shr = and i64 %and1, 71777214294589695		%shr = and i64 %and1, 71777214294589695
%or = or i64 %shl, %shr		%or = or i64 %shl, %shr
ret i64 %or		ret i64 %or
}		}

define i32 @grev16_i32(i32 %a) nounwind {		define i32 @grev16_i32(i32 %a) nounwind {
; RV32I-LABEL: grev16_i32:		; RV32I-LABEL: grev16_i32:
; RV32I: # %bb.0:		; RV32I: # %bb.0:
; RV32I-NEXT: slli a1, a0, 16		; RV32I-NEXT: srli a1, a0, 16
; RV32I-NEXT: srli a0, a0, 16		; RV32I-NEXT: slli a0, a0, 16
; RV32I-NEXT: or a0, a1, a0		; RV32I-NEXT: or a0, a0, a1
; RV32I-NEXT: ret		; RV32I-NEXT: ret
;		;
; RV32ZBP-LABEL: grev16_i32:		; RV32ZBP-LABEL: grev16_i32:
; RV32ZBP: # %bb.0:		; RV32ZBP: # %bb.0:
; RV32ZBP-NEXT: rori a0, a0, 16		; RV32ZBP-NEXT: rori a0, a0, 16
; RV32ZBP-NEXT: ret		; RV32ZBP-NEXT: ret
%shl = shl i32 %a, 16		%shl = shl i32 %a, 16
%shr = lshr i32 %a, 16		%shr = lshr i32 %a, 16
▲ Show 20 Lines • Show All 384 Lines • ▼ Show 20 Lines
; RV32ZBP-NEXT: ret		; RV32ZBP-NEXT: ret
%or = tail call i32 @llvm.fshr.i32(i32 %a, i32 %a, i32 16)		%or = tail call i32 @llvm.fshr.i32(i32 %a, i32 %a, i32 16)
ret i32 %or		ret i32 %or
}		}

define i64 @grev16_i64(i64 %a) nounwind {		define i64 @grev16_i64(i64 %a) nounwind {
; RV32I-LABEL: grev16_i64:		; RV32I-LABEL: grev16_i64:
; RV32I: # %bb.0:		; RV32I: # %bb.0:
; RV32I-NEXT: slli a2, a1, 16		; RV32I-NEXT: srli a2, a0, 16
; RV32I-NEXT: srli a3, a0, 16
; RV32I-NEXT: slli a0, a0, 16		; RV32I-NEXT: slli a0, a0, 16
; RV32I-NEXT: or a0, a0, a3		; RV32I-NEXT: or a0, a0, a2
; RV32I-NEXT: srli a1, a1, 16		; RV32I-NEXT: srli a2, a1, 16
; RV32I-NEXT: or a1, a2, a1		; RV32I-NEXT: slli a1, a1, 16
		; RV32I-NEXT: or a1, a1, a2
; RV32I-NEXT: ret		; RV32I-NEXT: ret
;		;
; RV32ZBP-LABEL: grev16_i64:		; RV32ZBP-LABEL: grev16_i64:
; RV32ZBP: # %bb.0:		; RV32ZBP: # %bb.0:
; RV32ZBP-NEXT: rori a0, a0, 16		; RV32ZBP-NEXT: rori a0, a0, 16
; RV32ZBP-NEXT: rori a1, a1, 16		; RV32ZBP-NEXT: rori a1, a1, 16
; RV32ZBP-NEXT: ret		; RV32ZBP-NEXT: ret
%and = shl i64 %a, 16		%and = shl i64 %a, 16
▲ Show 20 Lines • Show All 933 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/rv64zbp.ll

Show First 20 Lines • Show All 1,847 Lines • ▼ Show 20 Lines	; RV64ZBP-NEXT: ret
%shr = and i64 %and1, 71777214294589695		%shr = and i64 %and1, 71777214294589695
%or = or i64 %shl, %shr		%or = or i64 %shl, %shr
ret i64 %or		ret i64 %or
}		}

define signext i32 @grev16_i32(i32 signext %a) nounwind {		define signext i32 @grev16_i32(i32 signext %a) nounwind {
; RV64I-LABEL: grev16_i32:		; RV64I-LABEL: grev16_i32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: slliw a1, a0, 16		; RV64I-NEXT: srliw a1, a0, 16
; RV64I-NEXT: srliw a0, a0, 16		; RV64I-NEXT: slliw a0, a0, 16
; RV64I-NEXT: or a0, a1, a0		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: ret		; RV64I-NEXT: ret
;		;
; RV64ZBP-LABEL: grev16_i32:		; RV64ZBP-LABEL: grev16_i32:
; RV64ZBP: # %bb.0:		; RV64ZBP: # %bb.0:
; RV64ZBP-NEXT: greviw a0, a0, 16		; RV64ZBP-NEXT: roriw a0, a0, 16
		RKSimonAuthorUnsubmitted Not Done Reply Inline Actions @craig.topper Is this change OK? The test is called grev16_32 and neither target generates a grev op. RKSimon: @craig.topper Is this change OK? The test is called grev16_32 and neither target generates a…
		craig.topperUnsubmitted Not Done Reply Inline Actions I think it is ok. It's now matches grev16_i32_fshl and grev16_i32_fshr which are the same as this using intrinsics instead of shifts and or. Our assumption was that a rotate would be at least as good as a grev instruction. craig.topper: I think it is ok. It's now matches grev16_i32_fshl and grev16_i32_fshr which are the same as…
; RV64ZBP-NEXT: ret		; RV64ZBP-NEXT: ret
%shl = shl i32 %a, 16		%shl = shl i32 %a, 16
%shr = lshr i32 %a, 16		%shr = lshr i32 %a, 16
%or = or i32 %shl, %shr		%or = or i32 %shl, %shr
ret i32 %or		ret i32 %or
}		}

declare i32 @llvm.fshl.i32(i32, i32, i32)		declare i32 @llvm.fshl.i32(i32, i32, i32)
▲ Show 20 Lines • Show All 58 Lines • ▼ Show 20 Lines	; RV64ZBP-NEXT: ret
%shr = and i64 %and1, 281470681808895		%shr = and i64 %and1, 281470681808895
%or = or i64 %shl, %shr		%or = or i64 %shl, %shr
ret i64 %or		ret i64 %or
}		}

define i64 @grev32(i64 %a) nounwind {		define i64 @grev32(i64 %a) nounwind {
; RV64I-LABEL: grev32:		; RV64I-LABEL: grev32:
; RV64I: # %bb.0:		; RV64I: # %bb.0:
; RV64I-NEXT: slli a1, a0, 32		; RV64I-NEXT: srli a1, a0, 32
; RV64I-NEXT: srli a0, a0, 32		; RV64I-NEXT: slli a0, a0, 32
; RV64I-NEXT: or a0, a1, a0		; RV64I-NEXT: or a0, a0, a1
; RV64I-NEXT: ret		; RV64I-NEXT: ret
;		;
; RV64ZBP-LABEL: grev32:		; RV64ZBP-LABEL: grev32:
; RV64ZBP: # %bb.0:		; RV64ZBP: # %bb.0:
; RV64ZBP-NEXT: rori a0, a0, 32		; RV64ZBP-NEXT: rori a0, a0, 32
; RV64ZBP-NEXT: ret		; RV64ZBP-NEXT: ret
%shl = shl i64 %a, 32		%shl = shl i64 %a, 32
%shr = lshr i64 %a, 32		%shr = lshr i64 %a, 32
▲ Show 20 Lines • Show All 1,474 Lines • Show Last 20 Lines

llvm/test/CodeGen/RISCV/srem-seteq-illegal-types.ll

	Show First 20 Lines • Show All 361 Lines • ▼ Show 20 Lines
	; RV32-NEXT: or a3, a3, s6			; RV32-NEXT: or a3, a3, s6
	; RV32-NEXT: snez a3, a3			; RV32-NEXT: snez a3, a3
	; RV32-NEXT: or a0, a0, a1			; RV32-NEXT: or a0, a0, a1
	; RV32-NEXT: snez a0, a0			; RV32-NEXT: snez a0, a0
	; RV32-NEXT: neg a1, a3			; RV32-NEXT: neg a1, a3
	; RV32-NEXT: neg a4, a2			; RV32-NEXT: neg a4, a2
	; RV32-NEXT: neg a5, a0			; RV32-NEXT: neg a5, a0
	; RV32-NEXT: sw a5, 0(s0)			; RV32-NEXT: sw a5, 0(s0)
				; RV32-NEXT: andi a4, a4, 7
				; RV32-NEXT: sb a4, 12(s0)
	; RV32-NEXT: slli a3, a3, 1			; RV32-NEXT: slli a3, a3, 1
	; RV32-NEXT: sub a0, a0, a3			; RV32-NEXT: sub a0, a0, a3
	; RV32-NEXT: sw a0, 4(s0)			; RV32-NEXT: sw a0, 4(s0)
	; RV32-NEXT: slli a0, a2, 2			; RV32-NEXT: srli a0, a1, 31
	; RV32-NEXT: srli a2, a4, 30
	; RV32-NEXT: sub a2, a2, a0
	; RV32-NEXT: andi a2, a2, 7
	; RV32-NEXT: sb a2, 12(s0)
	; RV32-NEXT: srli a2, a1, 31
	; RV32-NEXT: andi a1, a1, 1			; RV32-NEXT: andi a1, a1, 1
	; RV32-NEXT: slli a1, a1, 1			; RV32-NEXT: slli a1, a1, 1
	; RV32-NEXT: or a1, a2, a1			; RV32-NEXT: or a0, a0, a1
	; RV32-NEXT: sub a0, a1, a0			; RV32-NEXT: slli a1, a2, 2
				; RV32-NEXT: sub a0, a0, a1
	; RV32-NEXT: sw a0, 8(s0)			; RV32-NEXT: sw a0, 8(s0)
	; RV32-NEXT: lw s6, 0(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s6, 0(sp) # 4-byte Folded Reload
	; RV32-NEXT: lw s5, 4(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s5, 4(sp) # 4-byte Folded Reload
	; RV32-NEXT: lw s4, 8(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s4, 8(sp) # 4-byte Folded Reload
	; RV32-NEXT: lw s3, 12(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s3, 12(sp) # 4-byte Folded Reload
	; RV32-NEXT: lw s2, 16(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s2, 16(sp) # 4-byte Folded Reload
	; RV32-NEXT: lw s1, 20(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s1, 20(sp) # 4-byte Folded Reload
	; RV32-NEXT: lw s0, 24(sp) # 4-byte Folded Reload			; RV32-NEXT: lw s0, 24(sp) # 4-byte Folded Reload
	▲ Show 20 Lines • Show All 145 Lines • ▼ Show 20 Lines
	; RV32M-NEXT: or a3, a3, s6			; RV32M-NEXT: or a3, a3, s6
	; RV32M-NEXT: snez a3, a3			; RV32M-NEXT: snez a3, a3
	; RV32M-NEXT: or a0, a0, a1			; RV32M-NEXT: or a0, a0, a1
	; RV32M-NEXT: snez a0, a0			; RV32M-NEXT: snez a0, a0
	; RV32M-NEXT: neg a1, a3			; RV32M-NEXT: neg a1, a3
	; RV32M-NEXT: neg a4, a2			; RV32M-NEXT: neg a4, a2
	; RV32M-NEXT: neg a5, a0			; RV32M-NEXT: neg a5, a0
	; RV32M-NEXT: sw a5, 0(s0)			; RV32M-NEXT: sw a5, 0(s0)
				; RV32M-NEXT: andi a4, a4, 7
				; RV32M-NEXT: sb a4, 12(s0)
	; RV32M-NEXT: slli a3, a3, 1			; RV32M-NEXT: slli a3, a3, 1
	; RV32M-NEXT: sub a0, a0, a3			; RV32M-NEXT: sub a0, a0, a3
	; RV32M-NEXT: sw a0, 4(s0)			; RV32M-NEXT: sw a0, 4(s0)
	; RV32M-NEXT: slli a0, a2, 2			; RV32M-NEXT: srli a0, a1, 31
	; RV32M-NEXT: srli a2, a4, 30
	; RV32M-NEXT: sub a2, a2, a0
	; RV32M-NEXT: andi a2, a2, 7
	; RV32M-NEXT: sb a2, 12(s0)
	; RV32M-NEXT: srli a2, a1, 31
	; RV32M-NEXT: andi a1, a1, 1			; RV32M-NEXT: andi a1, a1, 1
	; RV32M-NEXT: slli a1, a1, 1			; RV32M-NEXT: slli a1, a1, 1
	; RV32M-NEXT: or a1, a2, a1			; RV32M-NEXT: or a0, a0, a1
	; RV32M-NEXT: sub a0, a1, a0			; RV32M-NEXT: slli a1, a2, 2
				; RV32M-NEXT: sub a0, a0, a1
	; RV32M-NEXT: sw a0, 8(s0)			; RV32M-NEXT: sw a0, 8(s0)
	; RV32M-NEXT: lw s6, 0(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s6, 0(sp) # 4-byte Folded Reload
	; RV32M-NEXT: lw s5, 4(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s5, 4(sp) # 4-byte Folded Reload
	; RV32M-NEXT: lw s4, 8(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s4, 8(sp) # 4-byte Folded Reload
	; RV32M-NEXT: lw s3, 12(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s3, 12(sp) # 4-byte Folded Reload
	; RV32M-NEXT: lw s2, 16(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s2, 16(sp) # 4-byte Folded Reload
	; RV32M-NEXT: lw s1, 20(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s1, 20(sp) # 4-byte Folded Reload
	; RV32M-NEXT: lw s0, 24(sp) # 4-byte Folded Reload			; RV32M-NEXT: lw s0, 24(sp) # 4-byte Folded Reload
	▲ Show 20 Lines • Show All 315 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/rotate-extract-vector.ll

Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%rhs_shift = lshr <4 x i32> %rhs_mul, <i32 25, i32 25, i32 25, i32 25>		%rhs_shift = lshr <4 x i32> %rhs_mul, <i32 25, i32 25, i32 25, i32 25>
%out = or <4 x i32> %lhs_and, %rhs_shift		%out = or <4 x i32> %lhs_and, %rhs_shift
ret <4 x i32> %out		ret <4 x i32> %out
}		}

define <32 x i16> @illegal_no_extract_mul(<32 x i16> %i) nounwind {		define <32 x i16> @illegal_no_extract_mul(<32 x i16> %i) nounwind {
; X86-LABEL: illegal_no_extract_mul:		; X86-LABEL: illegal_no_extract_mul:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}, %zmm0, %zmm1
; X86-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}, %zmm0, %zmm0		; X86-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}, %zmm0, %zmm0
; X86-NEXT: vpsrlw $10, %zmm0, %zmm0		; X86-NEXT: vpsrlw $10, %zmm0, %zmm1
; X86-NEXT: vporq %zmm0, %zmm1, %zmm0		; X86-NEXT: vpsllw $6, %zmm0, %zmm0
		; X86-NEXT: vporq %zmm1, %zmm0, %zmm0
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: illegal_no_extract_mul:		; X64-LABEL: illegal_no_extract_mul:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
; X64-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0		; X64-NEXT: vpmullw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
; X64-NEXT: vpsrlw $10, %zmm0, %zmm0		; X64-NEXT: vpsrlw $10, %zmm0, %zmm1
; X64-NEXT: vporq %zmm0, %zmm1, %zmm0		; X64-NEXT: vpsllw $6, %zmm0, %zmm0
		; X64-NEXT: vporq %zmm1, %zmm0, %zmm0
; X64-NEXT: retq		; X64-NEXT: retq
%lhs_mul = mul <32 x i16> %i, <i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640>		%lhs_mul = mul <32 x i16> %i, <i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640, i16 640>
%rhs_mul = mul <32 x i16> %i, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>		%rhs_mul = mul <32 x i16> %i, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>
%rhs_shift = lshr <32 x i16> %rhs_mul, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>		%rhs_shift = lshr <32 x i16> %rhs_mul, <i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10, i16 10>
%out = or <32 x i16> %lhs_mul, %rhs_shift		%out = or <32 x i16> %lhs_mul, %rhs_shift
ret <32 x i16> %out		ret <32 x i16> %out
}		}

▲ Show 20 Lines • Show All 170 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/rotate-extract.ll

; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py		; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
; RUN: llc < %s -mtriple=i686-unknown-unknown \| FileCheck %s --check-prefix=X86		; RUN: llc < %s -mtriple=i686-unknown-unknown \| FileCheck %s --check-prefix=X86
; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s --check-prefix=X64		; RUN: llc < %s -mtriple=x86_64-unknown-unknown \| FileCheck %s --check-prefix=X64

; Check that under certain conditions we can factor out a rotate		; Check that under certain conditions we can factor out a rotate
; from the following idioms:		; from the following idioms:
; (ac0) >> s1 \| (ac1)		; (ac0) >> s1 \| (ac1)
; (a/c0) << s1 \| (a/c1)		; (a/c0) << s1 \| (a/c1)
; This targets cases where instcombine has folded a shl/srl/mul/udiv		; This targets cases where instcombine has folded a shl/srl/mul/udiv
; with one of the shifts from the rotate idiom		; with one of the shifts from the rotate idiom

define i64 @rolq_extract_shl(i64 %i) nounwind {		define i64 @rolq_extract_shl(i64 %i) nounwind {
; X86-LABEL: rolq_extract_shl:		; X86-LABEL: rolq_extract_shl:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: movl {{[0-9]+}}(%esp), %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: leal (,%edx,8), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: shldl $10, %ecx, %edx		; X86-NEXT: shldl $3, %edx, %ecx
; X86-NEXT: shll $10, %ecx		; X86-NEXT: shll $3, %edx
; X86-NEXT: shrl $25, %eax		; X86-NEXT: movl %edx, %eax
; X86-NEXT: orl %ecx, %eax		; X86-NEXT: shldl $7, %ecx, %eax
		; X86-NEXT: shrdl $25, %ecx, %edx
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: rolq_extract_shl:		; X64-LABEL: rolq_extract_shl:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: leaq (,%rdi,8), %rax		; X64-NEXT: leaq (,%rdi,8), %rax
; X64-NEXT: rolq $7, %rax		; X64-NEXT: rolq $7, %rax
; X64-NEXT: retq		; X64-NEXT: retq
%lhs_mul = shl i64 %i, 3		%lhs_mul = shl i64 %i, 3
▲ Show 20 Lines • Show All 70 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%lhs_shift = shl i8 %lhs_div, 4		%lhs_shift = shl i8 %lhs_div, 4
%out = or i8 %lhs_shift, %rhs_div		%out = or i8 %lhs_shift, %rhs_div
ret i8 %out		ret i8 %out
}		}

define i64 @rolq_extract_mul_with_mask(i64 %i) nounwind {		define i64 @rolq_extract_mul_with_mask(i64 %i) nounwind {
; X86-LABEL: rolq_extract_mul_with_mask:		; X86-LABEL: rolq_extract_mul_with_mask:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: pushl %esi
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %esi		; X86-NEXT: leal (%eax,%eax,8), %ecx
; X86-NEXT: movl %eax, %ecx		; X86-NEXT: movl $9, %eax
; X86-NEXT: shll $7, %ecx		; X86-NEXT: mull {{[0-9]+}}(%esp)
; X86-NEXT: leal (%ecx,%ecx,8), %ecx		; X86-NEXT: addl %ecx, %edx
; X86-NEXT: movl $9, %edx		; X86-NEXT: shrdl $25, %eax, %edx
; X86-NEXT: mull %edx		; X86-NEXT: movzbl %dl, %eax
; X86-NEXT: leal (%esi,%esi,8), %eax
; X86-NEXT: addl %edx, %eax
; X86-NEXT: movzbl %cl, %ecx
; X86-NEXT: shrl $25, %eax
; X86-NEXT: orl %ecx, %eax
; X86-NEXT: xorl %edx, %edx		; X86-NEXT: xorl %edx, %edx
; X86-NEXT: popl %esi
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: rolq_extract_mul_with_mask:		; X64-LABEL: rolq_extract_mul_with_mask:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: leaq (%rdi,%rdi,8), %rax		; X64-NEXT: leaq (%rdi,%rdi,8), %rax
; X64-NEXT: rolq $7, %rax		; X64-NEXT: rolq $7, %rax
; X64-NEXT: movzbl %al, %eax		; X64-NEXT: movzbl %al, %eax
; X64-NEXT: retq		; X64-NEXT: retq
▲ Show 20 Lines • Show All 195 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/rotate.ll

Show First 20 Lines • Show All 107 Lines • ▼ Show 20 Lines	; X64-NEXT: retq
%C = shl i64 %A, %shift.upgrd.4		%C = shl i64 %A, %shift.upgrd.4
%D = or i64 %B, %C		%D = or i64 %B, %C
ret i64 %D		ret i64 %D
}		}

define i64 @rotli64(i64 %A) nounwind {		define i64 @rotli64(i64 %A) nounwind {
; X86-LABEL: rotli64:		; X86-LABEL: rotli64:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: movl %ecx, %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: shldl $5, %eax, %edx		; X86-NEXT: movl %ecx, %eax
; X86-NEXT: shldl $5, %ecx, %eax		; X86-NEXT: shldl $5, %edx, %eax
		; X86-NEXT: shldl $5, %ecx, %edx
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: rotli64:		; X64-LABEL: rotli64:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movq %rdi, %rax		; X64-NEXT: movq %rdi, %rax
; X64-NEXT: rolq $5, %rax		; X64-NEXT: rolq $5, %rax
; X64-NEXT: retq		; X64-NEXT: retq
%B = shl i64 %A, 5		%B = shl i64 %A, 5
Show All 21 Lines	; X64-NEXT: retq
%C = shl i64 %A, 59		%C = shl i64 %A, 59
%D = or i64 %B, %C		%D = or i64 %B, %C
ret i64 %D		ret i64 %D
}		}

define i64 @rotl1_64(i64 %A) nounwind {		define i64 @rotl1_64(i64 %A) nounwind {
; X86-LABEL: rotl1_64:		; X86-LABEL: rotl1_64:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx		; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
; X86-NEXT: movl %ecx, %edx		; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
; X86-NEXT: shldl $1, %eax, %edx		; X86-NEXT: movl %ecx, %eax
; X86-NEXT: shldl $1, %ecx, %eax		; X86-NEXT: shldl $1, %edx, %eax
		; X86-NEXT: shldl $1, %ecx, %edx
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: rotl1_64:		; X64-LABEL: rotl1_64:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: movq %rdi, %rax		; X64-NEXT: movq %rdi, %rax
; X64-NEXT: rolq %rax		; X64-NEXT: rolq %rax
; X64-NEXT: retq		; X64-NEXT: retq
%B = shl i64 %A, 1		%B = shl i64 %A, 1
▲ Show 20 Lines • Show All 393 Lines • ▼ Show 20 Lines

define void @rotr1_64_mem(i64* %Aptr) nounwind {		define void @rotr1_64_mem(i64* %Aptr) nounwind {
; X86-LABEL: rotr1_64_mem:		; X86-LABEL: rotr1_64_mem:
; X86: # %bb.0:		; X86: # %bb.0:
; X86-NEXT: pushl %esi		; X86-NEXT: pushl %esi
; X86-NEXT: movl {{[0-9]+}}(%esp), %eax		; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
; X86-NEXT: movl (%eax), %ecx		; X86-NEXT: movl (%eax), %ecx
; X86-NEXT: movl 4(%eax), %edx		; X86-NEXT: movl 4(%eax), %edx
; X86-NEXT: movl %edx, %esi		; X86-NEXT: movl %ecx, %esi
; X86-NEXT: shldl $31, %ecx, %esi		; X86-NEXT: shldl $31, %edx, %esi
; X86-NEXT: shldl $31, %edx, %ecx		; X86-NEXT: shldl $31, %ecx, %edx
; X86-NEXT: movl %esi, (%eax)		; X86-NEXT: movl %edx, (%eax)
; X86-NEXT: movl %ecx, 4(%eax)		; X86-NEXT: movl %esi, 4(%eax)
; X86-NEXT: popl %esi		; X86-NEXT: popl %esi
; X86-NEXT: retl		; X86-NEXT: retl
;		;
; X64-LABEL: rotr1_64_mem:		; X64-LABEL: rotr1_64_mem:
; X64: # %bb.0:		; X64: # %bb.0:
; X64-NEXT: rorq (%rdi)		; X64-NEXT: rorq (%rdi)
; X64-NEXT: retq		; X64-NEXT: retq

▲ Show 20 Lines • Show All 117 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/rotate2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc < %s -mtriple=i686-unknown \| FileCheck %s --check-prefixes=X86			; RUN: llc < %s -mtriple=i686-unknown \| FileCheck %s --check-prefixes=X86
	; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s --check-prefixes=X64			; RUN: llc < %s -mtriple=x86_64-unknown \| FileCheck %s --check-prefixes=X64

	define i64 @test1(i64 %x) nounwind {			define i64 @test1(i64 %x) nounwind {
	; X86-LABEL: test1:			; X86-LABEL: test1:
	; X86: # %bb.0: # %entry			; X86: # %bb.0: # %entry
	; X86-NEXT: movl {{[0-9]+}}(%esp), %eax
	; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx			; X86-NEXT: movl {{[0-9]+}}(%esp), %ecx
	; X86-NEXT: movl %ecx, %edx			; X86-NEXT: movl {{[0-9]+}}(%esp), %edx
	; X86-NEXT: shldl $9, %eax, %edx			; X86-NEXT: movl %ecx, %eax
	; X86-NEXT: shldl $9, %ecx, %eax			; X86-NEXT: shldl $9, %edx, %eax
				; X86-NEXT: shldl $9, %ecx, %edx
	; X86-NEXT: retl			; X86-NEXT: retl
	;			;
	; X64-LABEL: test1:			; X64-LABEL: test1:
	; X64: # %bb.0: # %entry			; X64: # %bb.0: # %entry
	; X64-NEXT: movq %rdi, %rax			; X64-NEXT: movq %rdi, %rax
	; X64-NEXT: rolq $9, %rax			; X64-NEXT: rolq $9, %rax
	; X64-NEXT: retq			; X64-NEXT: retq
	entry:			entry:
	Show All 27 Lines

llvm/test/CodeGen/X86/vector-rotate-128.ll

	Show First 20 Lines • Show All 1,317 Lines • ▼ Show 20 Lines
	;			;
	; Constant Rotates			; Constant Rotates
	;			;

	define <2 x i64> @constant_rotate_v2i64(<2 x i64> %a) nounwind {			define <2 x i64> @constant_rotate_v2i64(<2 x i64> %a) nounwind {
	; SSE2-LABEL: constant_rotate_v2i64:			; SSE2-LABEL: constant_rotate_v2i64:
	; SSE2: # %bb.0:			; SSE2: # %bb.0:
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psllq $4, %xmm1			; SSE2-NEXT: psrlq $60, %xmm1
	; SSE2-NEXT: movdqa %xmm0, %xmm2			; SSE2-NEXT: movdqa %xmm0, %xmm2
	; SSE2-NEXT: psllq $14, %xmm2			; SSE2-NEXT: psrlq $50, %xmm2
	; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]			; SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]
	; SSE2-NEXT: movdqa %xmm0, %xmm1			; SSE2-NEXT: movdqa %xmm0, %xmm1
	; SSE2-NEXT: psrlq $60, %xmm1			; SSE2-NEXT: psllq $4, %xmm1
	; SSE2-NEXT: psrlq $50, %xmm0			; SSE2-NEXT: psllq $14, %xmm0
	; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; SSE2-NEXT: orpd %xmm2, %xmm0			; SSE2-NEXT: orpd %xmm2, %xmm0
	; SSE2-NEXT: retq			; SSE2-NEXT: retq
	;			;
	; SSE41-LABEL: constant_rotate_v2i64:			; SSE41-LABEL: constant_rotate_v2i64:
	; SSE41: # %bb.0:			; SSE41: # %bb.0:
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psllq $14, %xmm1			; SSE41-NEXT: psrlq $50, %xmm1
	; SSE41-NEXT: movdqa %xmm0, %xmm2			; SSE41-NEXT: movdqa %xmm0, %xmm2
	; SSE41-NEXT: psllq $4, %xmm2			; SSE41-NEXT: psrlq $60, %xmm2
	; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm2 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: movdqa %xmm0, %xmm1			; SSE41-NEXT: movdqa %xmm0, %xmm1
	; SSE41-NEXT: psrlq $50, %xmm1			; SSE41-NEXT: psllq $14, %xmm1
	; SSE41-NEXT: psrlq $60, %xmm0			; SSE41-NEXT: psllq $4, %xmm0
	; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]			; SSE41-NEXT: pblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm1[4,5,6,7]
	; SSE41-NEXT: por %xmm2, %xmm0			; SSE41-NEXT: por %xmm2, %xmm0
	; SSE41-NEXT: retq			; SSE41-NEXT: retq
	;			;
	; AVX1-LABEL: constant_rotate_v2i64:			; AVX1-LABEL: constant_rotate_v2i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $14, %xmm0, %xmm1			; AVX1-NEXT: vpsrlq $50, %xmm0, %xmm1
	; AVX1-NEXT: vpsllq $4, %xmm0, %xmm2			; AVX1-NEXT: vpsrlq $60, %xmm0, %xmm2
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm2[0,1,2,3],xmm1[4,5,6,7]
	; AVX1-NEXT: vpsrlq $50, %xmm0, %xmm2			; AVX1-NEXT: vpsllq $14, %xmm0, %xmm2
	; AVX1-NEXT: vpsrlq $60, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $4, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX1-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_rotate_v2i64:			; AVX2-LABEL: constant_rotate_v2i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1			; AVX2-NEXT: vpsrlvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm1
	; AVX2-NEXT: vpsrlvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX2-NEXT: vpsllvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: constant_rotate_v2i64:			; AVX512F-LABEL: constant_rotate_v2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} xmm1 = [4,14]			; AVX512F-NEXT: vmovdqa {{.*#+}} xmm1 = [4,14]
	; AVX512F-NEXT: vprolvq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vprolvq %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	Show All 35 Lines
	;			;
	; XOP-LABEL: constant_rotate_v2i64:			; XOP-LABEL: constant_rotate_v2i64:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vprotq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vprotq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X86-SSE2-LABEL: constant_rotate_v2i64:			; X86-SSE2-LABEL: constant_rotate_v2i64:
	; X86-SSE2: # %bb.0:			; X86-SSE2: # %bb.0:
	; X86-SSE2-NEXT: movdqa %xmm0, %xmm1			; X86-SSE2-NEXT: pxor %xmm1, %xmm1
	; X86-SSE2-NEXT: psllq $4, %xmm1			; X86-SSE2-NEXT: psubq {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1
				; X86-SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}, %xmm1
	; X86-SSE2-NEXT: movdqa %xmm0, %xmm2			; X86-SSE2-NEXT: movdqa %xmm0, %xmm2
	; X86-SSE2-NEXT: psllq $14, %xmm2			; X86-SSE2-NEXT: psrlq %xmm1, %xmm2
	; X86-SSE2-NEXT: movsd {{.*#+}} xmm2 = xmm1[0],xmm2[1]			; X86-SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[2,3,2,3]
				; X86-SSE2-NEXT: movdqa %xmm0, %xmm3
				; X86-SSE2-NEXT: psrlq %xmm1, %xmm3
				; X86-SSE2-NEXT: movsd {{.*#+}} xmm3 = xmm2[0],xmm3[1]
	; X86-SSE2-NEXT: movdqa %xmm0, %xmm1			; X86-SSE2-NEXT: movdqa %xmm0, %xmm1
	; X86-SSE2-NEXT: psrlq $60, %xmm1			; X86-SSE2-NEXT: psllq $4, %xmm1
	; X86-SSE2-NEXT: psrlq $50, %xmm0			; X86-SSE2-NEXT: psllq $14, %xmm0
	; X86-SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]			; X86-SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm1[0],xmm0[1]
	; X86-SSE2-NEXT: orpd %xmm2, %xmm0			; X86-SSE2-NEXT: orpd %xmm3, %xmm0
	; X86-SSE2-NEXT: retl			; X86-SSE2-NEXT: retl
	%shl = shl <2 x i64> %a, <i64 4, i64 14>			%shl = shl <2 x i64> %a, <i64 4, i64 14>
	%lshr = lshr <2 x i64> %a, <i64 60, i64 50>			%lshr = lshr <2 x i64> %a, <i64 60, i64 50>
	%or = or <2 x i64> %shl, %lshr			%or = or <2 x i64> %shl, %lshr
	ret <2 x i64> %or			ret <2 x i64> %or
	}			}

	define <4 x i32> @constant_rotate_v4i32(<4 x i32> %a) nounwind {			define <4 x i32> @constant_rotate_v4i32(<4 x i32> %a) nounwind {
	▲ Show 20 Lines • Show All 282 Lines • ▼ Show 20 Lines
	; AVX2-NEXT: vpackuswb %xmm2, %xmm0, %xmm0			; AVX2-NEXT: vpackuswb %xmm2, %xmm0, %xmm0
	; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX2-NEXT: vzeroupper			; AVX2-NEXT: vzeroupper
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: constant_rotate_v16i8:			; AVX512F-LABEL: constant_rotate_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512F-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512F-NEXT: vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512F-NEXT: vpsrlvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512F-NEXT: vpsrlvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512F-NEXT: vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512F-NEXT: vpord %zmm0, %zmm1, %zmm0			; AVX512F-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: vpmovdb %zmm0, %xmm0			; AVX512F-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: constant_rotate_v16i8:			; AVX512VL-LABEL: constant_rotate_v16i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero			; AVX512VL-NEXT: vpmovzxbd {{.*#+}} zmm0 = xmm0[0],zero,zero,zero,xmm0[1],zero,zero,zero,xmm0[2],zero,zero,zero,xmm0[3],zero,zero,zero,xmm0[4],zero,zero,zero,xmm0[5],zero,zero,zero,xmm0[6],zero,zero,zero,xmm0[7],zero,zero,zero,xmm0[8],zero,zero,zero,xmm0[9],zero,zero,zero,xmm0[10],zero,zero,zero,xmm0[11],zero,zero,zero,xmm0[12],zero,zero,zero,xmm0[13],zero,zero,zero,xmm0[14],zero,zero,zero,xmm0[15],zero,zero,zero
	; AVX512VL-NEXT: vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512VL-NEXT: vpsrlvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512VL-NEXT: vpsrlvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VL-NEXT: vpsllvd {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VL-NEXT: vpord %zmm0, %zmm1, %zmm0			; AVX512VL-NEXT: vpord %zmm1, %zmm0, %zmm0
	; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0			; AVX512VL-NEXT: vpmovdb %zmm0, %xmm0
	; AVX512VL-NEXT: vzeroupper			; AVX512VL-NEXT: vzeroupper
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_rotate_v16i8:			; AVX512BW-LABEL: constant_rotate_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [0,1,2,3,4,5,6,7,8,7,6,5,4,3,2,1]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm1 = [0,7,6,5,4,3,2,1,0,1,2,3,4,5,6,7]
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX512BW-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlvw %zmm1, %zmm0, %zmm1
	; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [8,7,6,5,4,3,2,1,0,1,2,3,4,5,6,7]			; AVX512BW-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,7,6,5,4,3,2,1]
	; AVX512BW-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512BW-NEXT: vpsllvw %zmm2, %zmm0, %zmm0
	; AVX512BW-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512BW-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512BW-NEXT: vzeroupper			; AVX512BW-NEXT: vzeroupper
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: constant_rotate_v16i8:			; AVX512VLBW-LABEL: constant_rotate_v16i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX512VLBW-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1			; AVX512VLBW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
	; AVX512VLBW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VLBW-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VLBW-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512VLBW-NEXT: vpmovwb %ymm0, %xmm0			; AVX512VLBW-NEXT: vpmovwb %ymm0, %xmm0
	; AVX512VLBW-NEXT: vzeroupper			; AVX512VLBW-NEXT: vzeroupper
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: constant_rotate_v16i8:			; AVX512VBMI2-LABEL: constant_rotate_v16i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vmovdqa {{.*#+}} ymm1 = [0,1,2,3,4,5,6,7,8,7,6,5,4,3,2,1]			; AVX512VBMI2-NEXT: vmovdqa {{.*#+}} ymm1 = [0,7,6,5,4,3,2,1,0,1,2,3,4,5,6,7]
	; AVX512VBMI2-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX512VBMI2-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX512VBMI2-NEXT: vpsllvw %zmm1, %zmm0, %zmm1			; AVX512VBMI2-NEXT: vpsrlvw %zmm1, %zmm0, %zmm1
	; AVX512VBMI2-NEXT: vmovdqa {{.*#+}} ymm2 = [8,7,6,5,4,3,2,1,0,1,2,3,4,5,6,7]			; AVX512VBMI2-NEXT: vmovdqa {{.*#+}} ymm2 = [0,1,2,3,4,5,6,7,0,7,6,5,4,3,2,1]
	; AVX512VBMI2-NEXT: vpsrlvw %zmm2, %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpsllvw %zmm2, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VBMI2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512VBMI2-NEXT: vpmovwb %zmm0, %ymm0			; AVX512VBMI2-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512VBMI2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0			; AVX512VBMI2-NEXT: # kill: def $xmm0 killed $xmm0 killed $ymm0
	; AVX512VBMI2-NEXT: vzeroupper			; AVX512VBMI2-NEXT: vzeroupper
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: constant_rotate_v16i8:			; AVX512VLVBMI2-LABEL: constant_rotate_v16i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero			; AVX512VLVBMI2-NEXT: vpmovzxbw {{.*#+}} ymm0 = xmm0[0],zero,xmm0[1],zero,xmm0[2],zero,xmm0[3],zero,xmm0[4],zero,xmm0[5],zero,xmm0[6],zero,xmm0[7],zero,xmm0[8],zero,xmm0[9],zero,xmm0[10],zero,xmm0[11],zero,xmm0[12],zero,xmm0[13],zero,xmm0[14],zero,xmm0[15],zero
	; AVX512VLVBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1			; AVX512VLVBMI2-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
	; AVX512VLVBMI2-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX512VLVBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VLVBMI2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VLVBMI2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512VLVBMI2-NEXT: vpmovwb %ymm0, %xmm0			; AVX512VLVBMI2-NEXT: vpmovwb %ymm0, %xmm0
	; AVX512VLVBMI2-NEXT: vzeroupper			; AVX512VLVBMI2-NEXT: vzeroupper
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOP-LABEL: constant_rotate_v16i8:			; XOP-LABEL: constant_rotate_v16i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vprotb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vprotb {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	Show All 30 Lines
	;			;
	; Uniform Constant Rotates			; Uniform Constant Rotates
	;			;

	define <2 x i64> @splatconstant_rotate_v2i64(<2 x i64> %a) nounwind {			define <2 x i64> @splatconstant_rotate_v2i64(<2 x i64> %a) nounwind {
	; SSE-LABEL: splatconstant_rotate_v2i64:			; SSE-LABEL: splatconstant_rotate_v2i64:
	; SSE: # %bb.0:			; SSE: # %bb.0:
	; SSE-NEXT: movdqa %xmm0, %xmm1			; SSE-NEXT: movdqa %xmm0, %xmm1
	; SSE-NEXT: psllq $14, %xmm1			; SSE-NEXT: psrlq $50, %xmm1
	; SSE-NEXT: psrlq $50, %xmm0			; SSE-NEXT: psllq $14, %xmm0
	; SSE-NEXT: por %xmm1, %xmm0			; SSE-NEXT: por %xmm1, %xmm0
	; SSE-NEXT: retq			; SSE-NEXT: retq
	;			;
	; AVX-LABEL: splatconstant_rotate_v2i64:			; AVX-LABEL: splatconstant_rotate_v2i64:
	; AVX: # %bb.0:			; AVX: # %bb.0:
	; AVX-NEXT: vpsllq $14, %xmm0, %xmm1			; AVX-NEXT: vpsrlq $50, %xmm0, %xmm1
	; AVX-NEXT: vpsrlq $50, %xmm0, %xmm0			; AVX-NEXT: vpsllq $14, %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512F-LABEL: splatconstant_rotate_v2i64:			; AVX512F-LABEL: splatconstant_rotate_v2i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 def $zmm0
	; AVX512F-NEXT: vprolq $14, %zmm0, %zmm0			; AVX512F-NEXT: vprolq $14, %zmm0, %zmm0
	; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0			; AVX512F-NEXT: # kill: def $xmm0 killed $xmm0 killed $zmm0
	; AVX512F-NEXT: vzeroupper			; AVX512F-NEXT: vzeroupper
	Show All 35 Lines
	; XOP-NEXT: vprotq $14, %xmm0, %xmm0			; XOP-NEXT: vprotq $14, %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X86-SSE2-LABEL: splatconstant_rotate_v2i64:			; X86-SSE2-LABEL: splatconstant_rotate_v2i64:
	; X86-SSE2: # %bb.0:			; X86-SSE2: # %bb.0:
	; X86-SSE2-NEXT: movdqa %xmm0, %xmm1			; X86-SSE2-NEXT: movdqa %xmm0, %xmm1
	; X86-SSE2-NEXT: psllq $14, %xmm1			; X86-SSE2-NEXT: psllq $14, %xmm1
	; X86-SSE2-NEXT: psrlq $50, %xmm0			; X86-SSE2-NEXT: psrlq $50, %xmm0
	; X86-SSE2-NEXT: por %xmm1, %xmm0			; X86-SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]
				; X86-SSE2-NEXT: orpd %xmm1, %xmm0
	; X86-SSE2-NEXT: retl			; X86-SSE2-NEXT: retl
	%shl = shl <2 x i64> %a, <i64 14, i64 14>			%shl = shl <2 x i64> %a, <i64 14, i64 14>
	%lshr = lshr <2 x i64> %a, <i64 50, i64 50>			%lshr = lshr <2 x i64> %a, <i64 50, i64 50>
	%or = or <2 x i64> %shl, %lshr			%or = or <2 x i64> %shl, %lshr
	ret <2 x i64> %or			ret <2 x i64> %or
	}			}

	define <4 x i32> @splatconstant_rotate_v4i32(<4 x i32> %a) nounwind {			define <4 x i32> @splatconstant_rotate_v4i32(<4 x i32> %a) nounwind {
	▲ Show 20 Lines • Show All 161 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX-NEXT: vpsllw $4, %xmm0, %xmm0			; AVX-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512F-LABEL: splatconstant_rotate_v16i8:			; AVX512F-LABEL: splatconstant_rotate_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512F-NEXT: vpsrlw $4, %xmm0, %xmm1
	; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512F-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512F-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: splatconstant_rotate_v16i8:			; AVX512VL-LABEL: splatconstant_rotate_v16i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VL-NEXT: vpsllw $4, %xmm0, %xmm1
	; AVX512VL-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512VL-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_v16i8:			; AVX512BW-LABEL: splatconstant_rotate_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrlw $4, %xmm0, %xmm1
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512BW-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_v16i8:			; AVX512VLBW-LABEL: splatconstant_rotate_v16i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VLBW-NEXT: vpsllw $4, %xmm0, %xmm1
	; AVX512VLBW-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512VLBW-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_v16i8:			; AVX512VBMI2-LABEL: splatconstant_rotate_v16i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VBMI2-NEXT: vpsrlw $4, %xmm0, %xmm1
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512VBMI2-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512VBMI2-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512VBMI2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512VBMI2-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: splatconstant_rotate_v16i8:			; AVX512VLVBMI2-LABEL: splatconstant_rotate_v16i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VLVBMI2-NEXT: vpsllw $4, %xmm0, %xmm1
	; AVX512VLVBMI2-NEXT: vpsrlw $4, %xmm0, %xmm0			; AVX512VLVBMI2-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	▲ Show 20 Lines • Show All 81 Lines • ▼ Show 20 Lines
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vprotq $15, %xmm0, %xmm0			; XOP-NEXT: vprotq $15, %xmm0, %xmm0
	; XOP-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	; X86-SSE2-LABEL: splatconstant_rotate_mask_v2i64:			; X86-SSE2-LABEL: splatconstant_rotate_mask_v2i64:
	; X86-SSE2: # %bb.0:			; X86-SSE2: # %bb.0:
	; X86-SSE2-NEXT: psrlq $49, %xmm0			; X86-SSE2-NEXT: psrlq $49, %xmm0
	; X86-SSE2-NEXT: pand {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0			; X86-SSE2-NEXT: movsd {{.*#+}} xmm0 = xmm0[0,1]
				; X86-SSE2-NEXT: andpd {{\.?LCPI[0-9]+_[0-9]+}}, %xmm0
	; X86-SSE2-NEXT: retl			; X86-SSE2-NEXT: retl
	%shl = shl <2 x i64> %a, <i64 15, i64 15>			%shl = shl <2 x i64> %a, <i64 15, i64 15>
	%lshr = lshr <2 x i64> %a, <i64 49, i64 49>			%lshr = lshr <2 x i64> %a, <i64 49, i64 49>
	%rmask = and <2 x i64> %lshr, <i64 255, i64 127>			%rmask = and <2 x i64> %lshr, <i64 255, i64 127>
	%lmask = and <2 x i64> %shl, <i64 65, i64 33>			%lmask = and <2 x i64> %shl, <i64 65, i64 33>
	%or = or <2 x i64> %lmask, %rmask			%or = or <2 x i64> %lmask, %rmask
	ret <2 x i64> %or			ret <2 x i64> %or
	}			}
	▲ Show 20 Lines • Show All 183 Lines • ▼ Show 20 Lines
	; AVX-NEXT: vpsllw $4, %xmm0, %xmm0			; AVX-NEXT: vpsllw $4, %xmm0, %xmm0
	; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0			; AVX-NEXT: vpor %xmm1, %xmm0, %xmm0
	; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; AVX-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX-NEXT: retq			; AVX-NEXT: retq
	;			;
	; AVX512F-LABEL: splatconstant_rotate_mask_v16i8:			; AVX512F-LABEL: splatconstant_rotate_mask_v16i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512F-NEXT: vpsrlw $4, %xmm0, %xmm1
	; AVX512F-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512F-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512F-NEXT: vpsllw $4, %xmm0, %xmm0
	lebedev.riUnsubmitted Not Done Reply Inline Actions So we exchanged this or + and-by-folded-load for constant pool load + vpternlogq ? lebedev.ri: So we exchanged this or + and-by-folded-load for constant pool load + vpternlogq ?
	RKSimonAuthorUnsubmitted Not Done Reply Inline Actions Yes, that was what we went with for D113827 as a base implementation - D113845 will improve broadcast folds for ternlog RKSimon: Yes, that was what we went with for D113827 as a base implementation - D113845 will improve…
				; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
				; AVX512F-NEXT: vpor %xmm1, %xmm0, %xmm0
				; AVX512F-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions This seems to be the last regression - we fold (and (shift x, c1), c2) but fail to do the same for (and (rotate x, c1), c2) RKSimon: This seems to be the last regression - we fold (and (shift x, c1), c2) but fail to do the same…
				RKSimonAuthorUnsubmitted Not Done Reply Inline Actions This can be better handled with improved VPTERNLOG generation: D113827 RKSimon: This can be better handled with improved VPTERNLOG generation: D113827
	;			;
	; AVX512VL-LABEL: splatconstant_rotate_mask_v16i8:			; AVX512VL-LABEL: splatconstant_rotate_mask_v16i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VL-NEXT: vpsllw $4, %xmm0, %xmm1
	; AVX512VL-NEXT: vpsrlw $4, %xmm0, %xmm2			; AVX512VL-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VL-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; AVX512VL-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm0			; AVX512VL-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_mask_v16i8:			; AVX512BW-LABEL: splatconstant_rotate_mask_v16i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512BW-NEXT: vpsrlw $4, %xmm0, %xmm1
	; AVX512BW-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512BW-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512BW-NEXT: vpsllw $4, %xmm0, %xmm0
				; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
				; AVX512BW-NEXT: vpor %xmm1, %xmm0, %xmm0
				; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_mask_v16i8:			; AVX512VLBW-LABEL: splatconstant_rotate_mask_v16i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VLBW-NEXT: vpsllw $4, %xmm0, %xmm1
	; AVX512VLBW-NEXT: vpsrlw $4, %xmm0, %xmm2			; AVX512VLBW-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VLBW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; AVX512VLBW-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm0			; AVX512VLBW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v16i8:			; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v16i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VBMI2-NEXT: vpsrlw $4, %xmm0, %xmm1
	; AVX512VBMI2-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1			; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm1
	; AVX512VBMI2-NEXT: vpor %xmm0, %xmm1, %xmm0			; AVX512VBMI2-NEXT: vpsllw $4, %xmm0, %xmm0
				; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
				; AVX512VBMI2-NEXT: vpor %xmm1, %xmm0, %xmm0
				; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: splatconstant_rotate_mask_v16i8:			; AVX512VLVBMI2-LABEL: splatconstant_rotate_mask_v16i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpsllw $4, %xmm0, %xmm1			; AVX512VLVBMI2-NEXT: vpsllw $4, %xmm0, %xmm1
	; AVX512VLVBMI2-NEXT: vpsrlw $4, %xmm0, %xmm2			; AVX512VLVBMI2-NEXT: vpsrlw $4, %xmm0, %xmm0
	; AVX512VLVBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0			; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm1, %xmm0
	; AVX512VLVBMI2-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm2, %xmm0			; AVX512VLVBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOP-LABEL: splatconstant_rotate_mask_v16i8:			; XOP-LABEL: splatconstant_rotate_mask_v16i8:
	; XOP: # %bb.0:			; XOP: # %bb.0:
	; XOP-NEXT: vprotb $4, %xmm0, %xmm0			; XOP-NEXT: vprotb $4, %xmm0, %xmm0
	; XOP-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0			; XOP-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %xmm0, %xmm0
	; XOP-NEXT: retq			; XOP-NEXT: retq
	;			;
	▲ Show 20 Lines • Show All 160 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-rotate-256.ll

	Show First 20 Lines • Show All 1,044 Lines • ▼ Show 20 Lines
	;			;
	; Constant Rotates			; Constant Rotates
	;			;

	define <4 x i64> @constant_rotate_v4i64(<4 x i64> %a) nounwind {			define <4 x i64> @constant_rotate_v4i64(<4 x i64> %a) nounwind {
	; AVX1-LABEL: constant_rotate_v4i64:			; AVX1-LABEL: constant_rotate_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; AVX1-NEXT: vpsllq $60, %xmm1, %xmm2			; AVX1-NEXT: vpsrlq $4, %xmm1, %xmm2
	; AVX1-NEXT: vpsllq $50, %xmm1, %xmm3			; AVX1-NEXT: vpsrlq $14, %xmm1, %xmm3
	; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm2 = xmm3[0,1,2,3],xmm2[4,5,6,7]
	; AVX1-NEXT: vpsllq $14, %xmm0, %xmm3			; AVX1-NEXT: vpsrlq $50, %xmm0, %xmm3
	; AVX1-NEXT: vpsllq $4, %xmm0, %xmm4			; AVX1-NEXT: vpsrlq $60, %xmm0, %xmm4
	; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm3 = xmm4[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm3, %ymm2
	; AVX1-NEXT: vpsrlq $4, %xmm1, %xmm3			; AVX1-NEXT: vpsllq $60, %xmm1, %xmm3
	; AVX1-NEXT: vpsrlq $14, %xmm1, %xmm1			; AVX1-NEXT: vpsllq $50, %xmm1, %xmm1
	; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm1 = xmm1[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vpsrlq $50, %xmm0, %xmm3			; AVX1-NEXT: vpsllq $14, %xmm0, %xmm3
	; AVX1-NEXT: vpsrlq $60, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $4, %xmm0, %xmm0
	; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]			; AVX1-NEXT: vpblendw {{.*#+}} xmm0 = xmm0[0,1,2,3],xmm3[4,5,6,7]
	; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm1, %ymm0, %ymm0
	; AVX1-NEXT: vorps %ymm0, %ymm2, %ymm0			; AVX1-NEXT: vorps %ymm2, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: constant_rotate_v4i64:			; AVX2-LABEL: constant_rotate_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1			; AVX2-NEXT: vpsrlvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm1
	; AVX2-NEXT: vpsrlvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX2-NEXT: vpsllvq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: constant_rotate_v4i64:			; AVX512F-LABEL: constant_rotate_v4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm1 = [4,14,50,60]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm1 = [4,14,50,60]
	; AVX512F-NEXT: vprolvq %zmm1, %zmm0, %zmm0			; AVX512F-NEXT: vprolvq %zmm1, %zmm0, %zmm0
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	▲ Show 20 Lines • Show All 349 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX512VL-NEXT: vpackuswb %ymm3, %ymm0, %ymm0			; AVX512VL-NEXT: vpackuswb %ymm3, %ymm0, %ymm0
	; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VL-NEXT: vpor %ymm0, %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_rotate_v32i8:			; AVX512BW-LABEL: constant_rotate_v32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512BW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512BW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512BW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: constant_rotate_v32i8:			; AVX512VLBW-LABEL: constant_rotate_v32i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512VLBW-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512VLBW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512VLBW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VLBW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vpmovwb %zmm0, %ymm0			; AVX512VLBW-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: constant_rotate_v32i8:			; AVX512VBMI2-LABEL: constant_rotate_v32i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512VBMI2-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512VBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512VBMI2-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512VBMI2-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VBMI2-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vpmovwb %zmm0, %ymm0			; AVX512VBMI2-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: constant_rotate_v32i8:			; AVX512VLVBMI2-LABEL: constant_rotate_v32i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero			; AVX512VLVBMI2-NEXT: vpmovzxbw {{.*#+}} zmm0 = ymm0[0],zero,ymm0[1],zero,ymm0[2],zero,ymm0[3],zero,ymm0[4],zero,ymm0[5],zero,ymm0[6],zero,ymm0[7],zero,ymm0[8],zero,ymm0[9],zero,ymm0[10],zero,ymm0[11],zero,ymm0[12],zero,ymm0[13],zero,ymm0[14],zero,ymm0[15],zero,ymm0[16],zero,ymm0[17],zero,ymm0[18],zero,ymm0[19],zero,ymm0[20],zero,ymm0[21],zero,ymm0[22],zero,ymm0[23],zero,ymm0[24],zero,ymm0[25],zero,ymm0[26],zero,ymm0[27],zero,ymm0[28],zero,ymm0[29],zero,ymm0[30],zero,ymm0[31],zero
	; AVX512VLVBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512VLVBMI2-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512VLVBMI2-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VLVBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLVBMI2-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VLVBMI2-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512VLVBMI2-NEXT: vpmovwb %zmm0, %ymm0			; AVX512VLVBMI2-NEXT: vpmovwb %zmm0, %ymm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: constant_rotate_v32i8:			; XOPAVX1-LABEL: constant_rotate_v32i8:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm1
	; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,3,4,5,6,7,0,7,6,5,4,3,2,1]			; XOPAVX1-NEXT: vmovdqa {{.*#+}} xmm2 = [0,1,2,3,4,5,6,7,0,7,6,5,4,3,2,1]
	; XOPAVX1-NEXT: vprotb %xmm2, %xmm1, %xmm1			; XOPAVX1-NEXT: vprotb %xmm2, %xmm1, %xmm1
	Show All 17 Lines

	;			;
	; Uniform Constant Rotates			; Uniform Constant Rotates
	;			;

	define <4 x i64> @splatconstant_rotate_v4i64(<4 x i64> %a) nounwind {			define <4 x i64> @splatconstant_rotate_v4i64(<4 x i64> %a) nounwind {
	; AVX1-LABEL: splatconstant_rotate_v4i64:			; AVX1-LABEL: splatconstant_rotate_v4i64:
	; AVX1: # %bb.0:			; AVX1: # %bb.0:
	; AVX1-NEXT: vpsllq $14, %xmm0, %xmm1			; AVX1-NEXT: vpsrlq $50, %xmm0, %xmm1
	; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2			; AVX1-NEXT: vextractf128 $1, %ymm0, %xmm2
	; AVX1-NEXT: vpsllq $14, %xmm2, %xmm3			; AVX1-NEXT: vpsrlq $50, %xmm2, %xmm3
	; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1			; AVX1-NEXT: vinsertf128 $1, %xmm3, %ymm1, %ymm1
	; AVX1-NEXT: vpsrlq $50, %xmm0, %xmm0			; AVX1-NEXT: vpsllq $14, %xmm0, %xmm0
	; AVX1-NEXT: vpsrlq $50, %xmm2, %xmm2			; AVX1-NEXT: vpsllq $14, %xmm2, %xmm2
	; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0			; AVX1-NEXT: vinsertf128 $1, %xmm2, %ymm0, %ymm0
	; AVX1-NEXT: vorps %ymm0, %ymm1, %ymm0			; AVX1-NEXT: vorps %ymm1, %ymm0, %ymm0
	; AVX1-NEXT: retq			; AVX1-NEXT: retq
	;			;
	; AVX2-LABEL: splatconstant_rotate_v4i64:			; AVX2-LABEL: splatconstant_rotate_v4i64:
	; AVX2: # %bb.0:			; AVX2: # %bb.0:
	; AVX2-NEXT: vpsllq $14, %ymm0, %ymm1			; AVX2-NEXT: vpsrlq $50, %ymm0, %ymm1
	; AVX2-NEXT: vpsrlq $50, %ymm0, %ymm0			; AVX2-NEXT: vpsllq $14, %ymm0, %ymm0
	; AVX2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX2-NEXT: retq			; AVX2-NEXT: retq
	;			;
	; AVX512F-LABEL: splatconstant_rotate_v4i64:			; AVX512F-LABEL: splatconstant_rotate_v4i64:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 def $zmm0
	; AVX512F-NEXT: vprolq $14, %zmm0, %zmm0			; AVX512F-NEXT: vprolq $14, %zmm0, %zmm0
	; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0			; AVX512F-NEXT: # kill: def $ymm0 killed $ymm0 killed $zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	▲ Show 20 Lines • Show All 246 Lines • ▼ Show 20 Lines
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0			; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_v32i8:			; AVX512BW-LABEL: splatconstant_rotate_v32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512BW-NEXT: vpsrlw $4, %ymm0, %ymm1
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512BW-NEXT: vpsllw $4, %ymm0, %ymm0
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_v32i8:			; AVX512VLBW-LABEL: splatconstant_rotate_v32i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VLBW-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VLBW-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VLBW-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0			; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_v32i8:			; AVX512VBMI2-LABEL: splatconstant_rotate_v32i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VBMI2-NEXT: vpsrlw $4, %ymm0, %ymm1
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
	; AVX512VBMI2-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VBMI2-NEXT: vpsllw $4, %ymm0, %ymm0
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VBMI2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VBMI2-NEXT: vpor %ymm1, %ymm0, %ymm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: splatconstant_rotate_v32i8:			; AVX512VLVBMI2-LABEL: splatconstant_rotate_v32i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VLVBMI2-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VLVBMI2-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VLVBMI2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0			; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	▲ Show 20 Lines • Show All 323 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0			; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; AVX512VL-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0			; AVX512VL-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_mask_v32i8:			; AVX512BW-LABEL: splatconstant_rotate_mask_v32i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512BW-NEXT: vpsrlw $4, %ymm0, %ymm1
	; AVX512BW-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
	; AVX512BW-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512BW-NEXT: vpsllw $4, %ymm0, %ymm0
				; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
				; AVX512BW-NEXT: vpor %ymm1, %ymm0, %ymm0
				; AVX512BW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_mask_v32i8:			; AVX512VLBW-LABEL: splatconstant_rotate_mask_v32i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VLBW-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VLBW-NEXT: vpsrlw $4, %ymm0, %ymm2			; AVX512VLBW-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VLBW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0			; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; AVX512VLBW-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm2, %ymm0			; AVX512VLBW-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v32i8:			; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v32i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VBMI2-NEXT: vpsrlw $4, %ymm0, %ymm1
	; AVX512VBMI2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1			; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm1
	; AVX512VBMI2-NEXT: vpor %ymm0, %ymm1, %ymm0			; AVX512VBMI2-NEXT: vpsllw $4, %ymm0, %ymm0
				; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
				; AVX512VBMI2-NEXT: vpor %ymm1, %ymm0, %ymm0
				; AVX512VBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: splatconstant_rotate_mask_v32i8:			; AVX512VLVBMI2-LABEL: splatconstant_rotate_mask_v32i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VLVBMI2-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VLVBMI2-NEXT: vpsrlw $4, %ymm0, %ymm2			; AVX512VLVBMI2-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VLVBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0			; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm1, %ymm0
	; AVX512VLVBMI2-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm2, %ymm0			; AVX512VLVBMI2-NEXT: vpand {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %ymm0, %ymm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	;			;
	; XOPAVX1-LABEL: splatconstant_rotate_mask_v32i8:			; XOPAVX1-LABEL: splatconstant_rotate_mask_v32i8:
	; XOPAVX1: # %bb.0:			; XOPAVX1: # %bb.0:
	; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm1			; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm1
	; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0			; XOPAVX1-NEXT: vextractf128 $1, %ymm0, %xmm0
	; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm0			; XOPAVX1-NEXT: vprotb $4, %xmm0, %xmm0
	; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0			; XOPAVX1-NEXT: vinsertf128 $1, %xmm0, %ymm1, %ymm0
	Show All 18 Lines

llvm/test/CodeGen/X86/vector-rotate-512.ll

	Show First 20 Lines • Show All 683 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpmullw %ymm2, %ymm1, %ymm1			; AVX512VL-NEXT: vpmullw %ymm2, %ymm1, %ymm1
	; AVX512VL-NEXT: vpmullw %ymm2, %ymm0, %ymm0			; AVX512VL-NEXT: vpmullw %ymm2, %ymm0, %ymm0
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512VL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512VL-NEXT: vporq %zmm3, %zmm0, %zmm0			; AVX512VL-NEXT: vporq %zmm3, %zmm0, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_rotate_v32i16:			; AVX512BW-LABEL: constant_rotate_v32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: constant_rotate_v32i16:			; AVX512VLBW-LABEL: constant_rotate_v32i16:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1			; AVX512VLBW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm1
	; AVX512VLBW-NEXT: vpsrlvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VLBW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: constant_rotate_v32i16:			; AVX512VBMI2-LABEL: constant_rotate_v32i16:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpshldvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpshldvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: constant_rotate_v32i16:			; AVX512VLVBMI2-LABEL: constant_rotate_v32i16:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpshldvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VLVBMI2-NEXT: vpshldvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	%shl = shl <32 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15, i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>			%shl = shl <32 x i16> %a, <i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15, i16 0, i16 1, i16 2, i16 3, i16 4, i16 5, i16 6, i16 7, i16 8, i16 9, i16 10, i16 11, i16 12, i16 13, i16 14, i16 15>
	%lshr = lshr <32 x i16> %a, <i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1>			%lshr = lshr <32 x i16> %a, <i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1, i16 16, i16 15, i16 14, i16 13, i16 12, i16 11, i16 10, i16 9, i16 8, i16 7, i16 6, i16 5, i16 4, i16 3, i16 2, i16 1>
	%or = or <32 x i16> %shl, %lshr			%or = or <32 x i16> %shl, %lshr
	ret <32 x i16> %or			ret <32 x i16> %or
	}			}

	define <64 x i8> @constant_rotate_v64i8(<64 x i8> %a) nounwind {			define <64 x i8> @constant_rotate_v64i8(<64 x i8> %a) nounwind {
	; AVX512F-LABEL: constant_rotate_v64i8:			; AVX512F-LABEL: constant_rotate_v64i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512F-NEXT: vpsllw $4, %ymm1, %ymm2			; AVX512F-NEXT: vpsllw $4, %ymm1, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX512F-NEXT: vpand %ymm3, %ymm2, %ymm2			; AVX512F-NEXT: vpand %ymm3, %ymm2, %ymm2
	; AVX512F-NEXT: vbroadcasti128 {{.*#+}} ymm4 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512F-NEXT: vbroadcasti128 {{.*#+}} ymm4 = [8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256]
	; AVX512F-NEXT: # ymm4 = mem[0,1,0,1]			; AVX512F-NEXT: # ymm4 = mem[0,1,0,1]
	; AVX512F-NEXT: vpblendvb %ymm4, %ymm2, %ymm1, %ymm2			; AVX512F-NEXT: vpblendvb %ymm4, %ymm2, %ymm1, %ymm2
	; AVX512F-NEXT: vpsllw $2, %ymm2, %ymm5			; AVX512F-NEXT: vpsllw $2, %ymm2, %ymm5
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; AVX512F-NEXT: vpand %ymm6, %ymm5, %ymm5			; AVX512F-NEXT: vpand %ymm6, %ymm5, %ymm5
	; AVX512F-NEXT: vpaddb %ymm4, %ymm4, %ymm7			; AVX512F-NEXT: vpaddb %ymm4, %ymm4, %ymm7
	; AVX512F-NEXT: vpblendvb %ymm7, %ymm5, %ymm2, %ymm2			; AVX512F-NEXT: vpblendvb %ymm7, %ymm5, %ymm2, %ymm2
	; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm5			; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm5
	Show All 10 Lines
	; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512F-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX512F-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX512F-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15],ymm1[24],ymm3[24],ymm1[25],ymm3[25],ymm1[26],ymm3[26],ymm1[27],ymm3[27],ymm1[28],ymm3[28],ymm1[29],ymm3[29],ymm1[30],ymm3[30],ymm1[31],ymm3[31]			; AVX512F-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15],ymm1[24],ymm3[24],ymm1[25],ymm3[25],ymm1[26],ymm3[26],ymm1[27],ymm3[27],ymm1[28],ymm3[28],ymm1[29],ymm3[29],ymm1[30],ymm3[30],ymm1[31],ymm3[31]
	; AVX512F-NEXT: vbroadcasti128 {{.*#+}} ymm5 = [256,128,64,32,16,8,4,2,256,128,64,32,16,8,4,2]			; AVX512F-NEXT: vbroadcasti128 {{.*#+}} ymm5 = [256,128,64,32,16,8,4,2,256,128,64,32,16,8,4,2]
	; AVX512F-NEXT: # ymm5 = mem[0,1,0,1]			; AVX512F-NEXT: # ymm5 = mem[0,1,0,1]
	; AVX512F-NEXT: vpmullw %ymm5, %ymm4, %ymm4			; AVX512F-NEXT: vpmullw %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512F-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[16],ymm3[16],ymm1[17],ymm3[17],ymm1[18],ymm3[18],ymm1[19],ymm3[19],ymm1[20],ymm3[20],ymm1[21],ymm3[21],ymm1[22],ymm3[22],ymm1[23],ymm3[23]			; AVX512F-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[16],ymm3[16],ymm1[17],ymm3[17],ymm1[18],ymm3[18],ymm1[19],ymm3[19],ymm1[20],ymm3[20],ymm1[21],ymm3[21],ymm1[22],ymm3[22],ymm1[23],ymm3[23]
	; AVX512F-NEXT: vbroadcasti128 {{.*#+}} ymm6 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; AVX512F-NEXT: vbroadcasti128 {{.*#+}} ymm6 = [256,2,4,8,16,32,64,128,256,2,4,8,16,32,64,128]
	; AVX512F-NEXT: # ymm6 = mem[0,1,0,1]			; AVX512F-NEXT: # ymm6 = mem[0,1,0,1]
	; AVX512F-NEXT: vpmullw %ymm6, %ymm1, %ymm1			; AVX512F-NEXT: vpmullw %ymm6, %ymm1, %ymm1
	; AVX512F-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512F-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512F-NEXT: vpackuswb %ymm4, %ymm1, %ymm1			; AVX512F-NEXT: vpackuswb %ymm4, %ymm1, %ymm1
	; AVX512F-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm0[8],ymm3[8],ymm0[9],ymm3[9],ymm0[10],ymm3[10],ymm0[11],ymm3[11],ymm0[12],ymm3[12],ymm0[13],ymm3[13],ymm0[14],ymm3[14],ymm0[15],ymm3[15],ymm0[24],ymm3[24],ymm0[25],ymm3[25],ymm0[26],ymm3[26],ymm0[27],ymm3[27],ymm0[28],ymm3[28],ymm0[29],ymm3[29],ymm0[30],ymm3[30],ymm0[31],ymm3[31]			; AVX512F-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm0[8],ymm3[8],ymm0[9],ymm3[9],ymm0[10],ymm3[10],ymm0[11],ymm3[11],ymm0[12],ymm3[12],ymm0[13],ymm3[13],ymm0[14],ymm3[14],ymm0[15],ymm3[15],ymm0[24],ymm3[24],ymm0[25],ymm3[25],ymm0[26],ymm3[26],ymm0[27],ymm3[27],ymm0[28],ymm3[28],ymm0[29],ymm3[29],ymm0[30],ymm3[30],ymm0[31],ymm3[31]
	; AVX512F-NEXT: vpmullw %ymm5, %ymm4, %ymm4			; AVX512F-NEXT: vpmullw %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512F-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512F-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0],ymm3[0],ymm0[1],ymm3[1],ymm0[2],ymm3[2],ymm0[3],ymm3[3],ymm0[4],ymm3[4],ymm0[5],ymm3[5],ymm0[6],ymm3[6],ymm0[7],ymm3[7],ymm0[16],ymm3[16],ymm0[17],ymm3[17],ymm0[18],ymm3[18],ymm0[19],ymm3[19],ymm0[20],ymm3[20],ymm0[21],ymm3[21],ymm0[22],ymm3[22],ymm0[23],ymm3[23]			; AVX512F-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0],ymm3[0],ymm0[1],ymm3[1],ymm0[2],ymm3[2],ymm0[3],ymm3[3],ymm0[4],ymm3[4],ymm0[5],ymm3[5],ymm0[6],ymm3[6],ymm0[7],ymm3[7],ymm0[16],ymm3[16],ymm0[17],ymm3[17],ymm0[18],ymm3[18],ymm0[19],ymm3[19],ymm0[20],ymm3[20],ymm0[21],ymm3[21],ymm0[22],ymm3[22],ymm0[23],ymm3[23]
	; AVX512F-NEXT: vpmullw %ymm6, %ymm0, %ymm0			; AVX512F-NEXT: vpmullw %ymm6, %ymm0, %ymm0
	; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX512F-NEXT: vpackuswb %ymm4, %ymm0, %ymm0			; AVX512F-NEXT: vpackuswb %ymm4, %ymm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512F-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512F-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512F-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: constant_rotate_v64i8:			; AVX512VL-LABEL: constant_rotate_v64i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1			; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm1
	; AVX512VL-NEXT: vpsllw $4, %ymm1, %ymm2			; AVX512VL-NEXT: vpsllw $4, %ymm1, %ymm2
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm3 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX512VL-NEXT: vpand %ymm3, %ymm2, %ymm2			; AVX512VL-NEXT: vpand %ymm3, %ymm2, %ymm2
	; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm4 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm4 = [8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256]
	; AVX512VL-NEXT: # ymm4 = mem[0,1,0,1]			; AVX512VL-NEXT: # ymm4 = mem[0,1,0,1]
	; AVX512VL-NEXT: vpblendvb %ymm4, %ymm2, %ymm1, %ymm2			; AVX512VL-NEXT: vpblendvb %ymm4, %ymm2, %ymm1, %ymm2
	; AVX512VL-NEXT: vpsllw $2, %ymm2, %ymm5			; AVX512VL-NEXT: vpsllw $2, %ymm2, %ymm5
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm6 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm6 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; AVX512VL-NEXT: vpand %ymm6, %ymm5, %ymm5			; AVX512VL-NEXT: vpand %ymm6, %ymm5, %ymm5
	; AVX512VL-NEXT: vpaddb %ymm4, %ymm4, %ymm7			; AVX512VL-NEXT: vpaddb %ymm4, %ymm4, %ymm7
	; AVX512VL-NEXT: vpblendvb %ymm7, %ymm5, %ymm2, %ymm2			; AVX512VL-NEXT: vpblendvb %ymm7, %ymm5, %ymm2, %ymm2
	; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm5			; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm5
	Show All 10 Lines
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2			; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm3, %zmm2
	; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3			; AVX512VL-NEXT: vpxor %xmm3, %xmm3, %xmm3
	; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15],ymm1[24],ymm3[24],ymm1[25],ymm3[25],ymm1[26],ymm3[26],ymm1[27],ymm3[27],ymm1[28],ymm3[28],ymm1[29],ymm3[29],ymm1[30],ymm3[30],ymm1[31],ymm3[31]			; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm1[8],ymm3[8],ymm1[9],ymm3[9],ymm1[10],ymm3[10],ymm1[11],ymm3[11],ymm1[12],ymm3[12],ymm1[13],ymm3[13],ymm1[14],ymm3[14],ymm1[15],ymm3[15],ymm1[24],ymm3[24],ymm1[25],ymm3[25],ymm1[26],ymm3[26],ymm1[27],ymm3[27],ymm1[28],ymm3[28],ymm1[29],ymm3[29],ymm1[30],ymm3[30],ymm1[31],ymm3[31]
	; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm5 = [256,128,64,32,16,8,4,2,256,128,64,32,16,8,4,2]			; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm5 = [256,128,64,32,16,8,4,2,256,128,64,32,16,8,4,2]
	; AVX512VL-NEXT: # ymm5 = mem[0,1,0,1]			; AVX512VL-NEXT: # ymm5 = mem[0,1,0,1]
	; AVX512VL-NEXT: vpmullw %ymm5, %ymm4, %ymm4			; AVX512VL-NEXT: vpmullw %ymm5, %ymm4, %ymm4
	; AVX512VL-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512VL-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[16],ymm3[16],ymm1[17],ymm3[17],ymm1[18],ymm3[18],ymm1[19],ymm3[19],ymm1[20],ymm3[20],ymm1[21],ymm3[21],ymm1[22],ymm3[22],ymm1[23],ymm3[23]			; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm1 = ymm1[0],ymm3[0],ymm1[1],ymm3[1],ymm1[2],ymm3[2],ymm1[3],ymm3[3],ymm1[4],ymm3[4],ymm1[5],ymm3[5],ymm1[6],ymm3[6],ymm1[7],ymm3[7],ymm1[16],ymm3[16],ymm1[17],ymm3[17],ymm1[18],ymm3[18],ymm1[19],ymm3[19],ymm1[20],ymm3[20],ymm1[21],ymm3[21],ymm1[22],ymm3[22],ymm1[23],ymm3[23]
	; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm6 = [1,2,4,8,16,32,64,128,1,2,4,8,16,32,64,128]			; AVX512VL-NEXT: vbroadcasti128 {{.*#+}} ymm6 = [256,2,4,8,16,32,64,128,256,2,4,8,16,32,64,128]
	; AVX512VL-NEXT: # ymm6 = mem[0,1,0,1]			; AVX512VL-NEXT: # ymm6 = mem[0,1,0,1]
	; AVX512VL-NEXT: vpmullw %ymm6, %ymm1, %ymm1			; AVX512VL-NEXT: vpmullw %ymm6, %ymm1, %ymm1
	; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1			; AVX512VL-NEXT: vpsrlw $8, %ymm1, %ymm1
	; AVX512VL-NEXT: vpackuswb %ymm4, %ymm1, %ymm1			; AVX512VL-NEXT: vpackuswb %ymm4, %ymm1, %ymm1
	; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm0[8],ymm3[8],ymm0[9],ymm3[9],ymm0[10],ymm3[10],ymm0[11],ymm3[11],ymm0[12],ymm3[12],ymm0[13],ymm3[13],ymm0[14],ymm3[14],ymm0[15],ymm3[15],ymm0[24],ymm3[24],ymm0[25],ymm3[25],ymm0[26],ymm3[26],ymm0[27],ymm3[27],ymm0[28],ymm3[28],ymm0[29],ymm3[29],ymm0[30],ymm3[30],ymm0[31],ymm3[31]			; AVX512VL-NEXT: vpunpckhbw {{.*#+}} ymm4 = ymm0[8],ymm3[8],ymm0[9],ymm3[9],ymm0[10],ymm3[10],ymm0[11],ymm3[11],ymm0[12],ymm3[12],ymm0[13],ymm3[13],ymm0[14],ymm3[14],ymm0[15],ymm3[15],ymm0[24],ymm3[24],ymm0[25],ymm3[25],ymm0[26],ymm3[26],ymm0[27],ymm3[27],ymm0[28],ymm3[28],ymm0[29],ymm3[29],ymm0[30],ymm3[30],ymm0[31],ymm3[31]
	; AVX512VL-NEXT: vpmullw %ymm5, %ymm4, %ymm4			; AVX512VL-NEXT: vpmullw %ymm5, %ymm4, %ymm4
	; AVX512VL-NEXT: vpsrlw $8, %ymm4, %ymm4			; AVX512VL-NEXT: vpsrlw $8, %ymm4, %ymm4
	; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0],ymm3[0],ymm0[1],ymm3[1],ymm0[2],ymm3[2],ymm0[3],ymm3[3],ymm0[4],ymm3[4],ymm0[5],ymm3[5],ymm0[6],ymm3[6],ymm0[7],ymm3[7],ymm0[16],ymm3[16],ymm0[17],ymm3[17],ymm0[18],ymm3[18],ymm0[19],ymm3[19],ymm0[20],ymm3[20],ymm0[21],ymm3[21],ymm0[22],ymm3[22],ymm0[23],ymm3[23]			; AVX512VL-NEXT: vpunpcklbw {{.*#+}} ymm0 = ymm0[0],ymm3[0],ymm0[1],ymm3[1],ymm0[2],ymm3[2],ymm0[3],ymm3[3],ymm0[4],ymm3[4],ymm0[5],ymm3[5],ymm0[6],ymm3[6],ymm0[7],ymm3[7],ymm0[16],ymm3[16],ymm0[17],ymm3[17],ymm0[18],ymm3[18],ymm0[19],ymm3[19],ymm0[20],ymm3[20],ymm0[21],ymm3[21],ymm0[22],ymm3[22],ymm0[23],ymm3[23]
	; AVX512VL-NEXT: vpmullw %ymm6, %ymm0, %ymm0			; AVX512VL-NEXT: vpmullw %ymm6, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw $8, %ymm0, %ymm0
	; AVX512VL-NEXT: vpackuswb %ymm4, %ymm0, %ymm0			; AVX512VL-NEXT: vpackuswb %ymm4, %ymm0, %ymm0
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0			; AVX512VL-NEXT: vinserti64x4 $1, %ymm1, %zmm0, %zmm0
	; AVX512VL-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512VL-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: constant_rotate_v64i8:			; AVX512BW-LABEL: constant_rotate_v64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512BW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256]
	; AVX512BW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]			; AVX512BW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; AVX512BW-NEXT: vpmovb2m %zmm1, %k1			; AVX512BW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2			; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2
	; AVX512BW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}			; AVX512BW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}
	; AVX512BW-NEXT: vpsllw $2, %zmm2, %zmm3			; AVX512BW-NEXT: vpsllw $2, %zmm2, %zmm3
	; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3			; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3
	; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512BW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	Show All 10 Lines
	; AVX512BW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512BW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512BW-NEXT: vpsrlw $8, %zmm0, %zmm0
	; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512BW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512BW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: constant_rotate_v64i8:			; AVX512VLBW-LABEL: constant_rotate_v64i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512VLBW-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256]
	; AVX512VLBW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]			; AVX512VLBW-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLBW-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2			; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2
	; AVX512VLBW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}			; AVX512VLBW-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}
	; AVX512VLBW-NEXT: vpsllw $2, %zmm2, %zmm3			; AVX512VLBW-NEXT: vpsllw $2, %zmm2, %zmm3
	; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3			; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3
	; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512VLBW-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	Show All 10 Lines
	; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLBW-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsrlw $8, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512VLBW-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512VLBW-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: constant_rotate_v64i8:			; AVX512VBMI2-LABEL: constant_rotate_v64i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512VBMI2-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256]
	; AVX512VBMI2-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]			; AVX512VBMI2-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; AVX512VBMI2-NEXT: vpmovb2m %zmm1, %k1			; AVX512VBMI2-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VBMI2-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512VBMI2-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2			; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2
	; AVX512VBMI2-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}			; AVX512VBMI2-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}
	; AVX512VBMI2-NEXT: vpsllw $2, %zmm2, %zmm3			; AVX512VBMI2-NEXT: vpsllw $2, %zmm2, %zmm3
	; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3			; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3
	; AVX512VBMI2-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512VBMI2-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	Show All 10 Lines
	; AVX512VBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpsllvw {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vpsrlw $8, %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpsrlw $8, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vpackuswb %zmm3, %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpackuswb %zmm3, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vporq %zmm0, %zmm2, %zmm0			; AVX512VBMI2-NEXT: vporq %zmm0, %zmm2, %zmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: constant_rotate_v64i8:			; AVX512VLVBMI2-LABEL: constant_rotate_v64i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256,8192,24640,41088,57536,57600,41152,24704,8256]			; AVX512VLVBMI2-NEXT: vbroadcasti32x4 {{.*#+}} zmm1 = [8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256,8192,24640,41088,57536,57344,41152,24704,8256]
	; AVX512VLVBMI2-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]			; AVX512VLVBMI2-NEXT: # zmm1 = mem[0,1,2,3,0,1,2,3,0,1,2,3,0,1,2,3]
	; AVX512VLVBMI2-NEXT: vpmovb2m %zmm1, %k1			; AVX512VLVBMI2-NEXT: vpmovb2m %zmm1, %k1
	; AVX512VLVBMI2-NEXT: vpsllw $4, %zmm0, %zmm2			; AVX512VLVBMI2-NEXT: vpsllw $4, %zmm0, %zmm2
	; AVX512VLVBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2			; AVX512VLVBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm2
	; AVX512VLVBMI2-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}			; AVX512VLVBMI2-NEXT: vpblendmb %zmm2, %zmm0, %zmm2 {%k1}
	; AVX512VLVBMI2-NEXT: vpsllw $2, %zmm2, %zmm3			; AVX512VLVBMI2-NEXT: vpsllw $2, %zmm2, %zmm3
	; AVX512VLVBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3			; AVX512VLVBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm3, %zmm3
	; AVX512VLVBMI2-NEXT: vpaddb %zmm1, %zmm1, %zmm1			; AVX512VLVBMI2-NEXT: vpaddb %zmm1, %zmm1, %zmm1
	▲ Show 20 Lines • Show All 66 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsllw $7, %ymm0, %ymm0			; AVX512VL-NEXT: vpsllw $7, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsllw $7, %ymm2, %ymm2			; AVX512VL-NEXT: vpsllw $7, %ymm2, %ymm2
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512VL-NEXT: vporq %zmm1, %zmm0, %zmm0			; AVX512VL-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_v32i16:			; AVX512BW-LABEL: splatconstant_rotate_v32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $7, %zmm0, %zmm1			; AVX512BW-NEXT: vpsrlw $9, %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlw $9, %zmm0, %zmm0			; AVX512BW-NEXT: vpsllw $7, %zmm0, %zmm0
	; AVX512BW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512BW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_v32i16:			; AVX512VLBW-LABEL: splatconstant_rotate_v32i16:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $7, %zmm0, %zmm1			; AVX512VLBW-NEXT: vpsrlw $9, %zmm0, %zmm1
	; AVX512VLBW-NEXT: vpsrlw $9, %zmm0, %zmm0			; AVX512VLBW-NEXT: vpsllw $7, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vporq %zmm0, %zmm1, %zmm0			; AVX512VLBW-NEXT: vporq %zmm1, %zmm0, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_v32i16:			; AVX512VBMI2-LABEL: splatconstant_rotate_v32i16:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpshldw $7, %zmm0, %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpshldw $7, %zmm0, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: splatconstant_rotate_v32i16:			; AVX512VLVBMI2-LABEL: splatconstant_rotate_v32i16:
	▲ Show 20 Lines • Show All 119 Lines • ▼ Show 20 Lines
	; AVX512VL-NEXT: vpsrlw $11, %ymm2, %ymm2			; AVX512VL-NEXT: vpsrlw $11, %ymm2, %ymm2
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512VL-NEXT: vpternlogq $168, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512VL-NEXT: vpternlogq $168, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_mask_v32i16:			; AVX512BW-LABEL: splatconstant_rotate_mask_v32i16:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $5, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $5, %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlw $11, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlw $11, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512BW-NEXT: vpternlogq $168, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512BW-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_mask_v32i16:			; AVX512VLBW-LABEL: splatconstant_rotate_mask_v32i16:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $5, %zmm0, %zmm1			; AVX512VLBW-NEXT: vpsllw $5, %zmm0, %zmm1
	; AVX512VLBW-NEXT: vpsrlw $11, %zmm0, %zmm2			; AVX512VLBW-NEXT: vpsrlw $11, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512VLBW-NEXT: vpternlogq $168, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512VLBW-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v32i16:			; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v32i16:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpshldw $5, %zmm0, %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpshldw $5, %zmm0, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0			; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	Show All 14 Lines
	; AVX512F-LABEL: splatconstant_rotate_mask_v64i8:			; AVX512F-LABEL: splatconstant_rotate_mask_v64i8:
	; AVX512F: # %bb.0:			; AVX512F: # %bb.0:
	; AVX512F-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512F-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm2			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm2
	; AVX512F-NEXT: vpsllw $4, %ymm2, %ymm3			; AVX512F-NEXT: vpsllw $4, %ymm2, %ymm3
	; AVX512F-NEXT: vinserti64x4 $1, %ymm3, %zmm1, %zmm1			; AVX512F-NEXT: vinserti64x4 $1, %ymm3, %zmm1, %zmm1
	; AVX512F-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512F-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512F-NEXT: vpsrlw $4, %ymm2, %ymm2			; AVX512F-NEXT: vpsrlw $4, %ymm2, %ymm2
	; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm2			; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512F-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512F-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512F-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0			; AVX512F-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: splatconstant_rotate_mask_v64i8:			; AVX512VL-LABEL: splatconstant_rotate_mask_v64i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm1			; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm1
	; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm2			; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm2
	; AVX512VL-NEXT: vpsllw $4, %ymm2, %ymm3			; AVX512VL-NEXT: vpsllw $4, %ymm2, %ymm3
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm3, %zmm1, %zmm1			; AVX512VL-NEXT: vinserti64x4 $1, %ymm3, %zmm1, %zmm1
	; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm0			; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsrlw $4, %ymm2, %ymm2			; AVX512VL-NEXT: vpsrlw $4, %ymm2, %ymm2
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm2			; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512VL-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512VL-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512VL-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0			; AVX512VL-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: splatconstant_rotate_mask_v64i8:			; AVX512BW-LABEL: splatconstant_rotate_mask_v64i8:
	; AVX512BW: # %bb.0:			; AVX512BW: # %bb.0:
	; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm1			; AVX512BW-NEXT: vpsllw $4, %zmm0, %zmm1
	; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm2			; AVX512BW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512BW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512BW-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0			; AVX512BW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512BW-NEXT: retq			; AVX512BW-NEXT: retq
	;			;
	; AVX512VLBW-LABEL: splatconstant_rotate_mask_v64i8:			; AVX512VLBW-LABEL: splatconstant_rotate_mask_v64i8:
	; AVX512VLBW: # %bb.0:			; AVX512VLBW: # %bb.0:
	; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm1			; AVX512VLBW-NEXT: vpsllw $4, %zmm0, %zmm1
	; AVX512VLBW-NEXT: vpsrlw $4, %zmm0, %zmm2			; AVX512VLBW-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512VLBW-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512VLBW-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0			; AVX512VLBW-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLBW-NEXT: retq			; AVX512VLBW-NEXT: retq
	;			;
	; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v64i8:			; AVX512VBMI2-LABEL: splatconstant_rotate_mask_v64i8:
	; AVX512VBMI2: # %bb.0:			; AVX512VBMI2: # %bb.0:
	; AVX512VBMI2-NEXT: vpsllw $4, %zmm0, %zmm1			; AVX512VBMI2-NEXT: vpsllw $4, %zmm0, %zmm1
	; AVX512VBMI2-NEXT: vpsrlw $4, %zmm0, %zmm2			; AVX512VBMI2-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512VBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512VBMI2-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0			; AVX512VBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VBMI2-NEXT: retq			; AVX512VBMI2-NEXT: retq
	;			;
	; AVX512VLVBMI2-LABEL: splatconstant_rotate_mask_v64i8:			; AVX512VLVBMI2-LABEL: splatconstant_rotate_mask_v64i8:
	; AVX512VLVBMI2: # %bb.0:			; AVX512VLVBMI2: # %bb.0:
	; AVX512VLVBMI2-NEXT: vpsllw $4, %zmm0, %zmm1			; AVX512VLVBMI2-NEXT: vpsllw $4, %zmm0, %zmm1
	; AVX512VLVBMI2-NEXT: vpsrlw $4, %zmm0, %zmm2			; AVX512VLVBMI2-NEXT: vpsrlw $4, %zmm0, %zmm0
	; AVX512VLVBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0			; AVX512VLVBMI2-NEXT: vpternlogq $216, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm1, %zmm0
	; AVX512VLVBMI2-NEXT: vpternlogq $248, {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm2, %zmm0			; AVX512VLVBMI2-NEXT: vpandq {{\.?LCPI[0-9]+_[0-9]+}}(%rip), %zmm0, %zmm0
	; AVX512VLVBMI2-NEXT: retq			; AVX512VLVBMI2-NEXT: retq
	%shl = shl <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%shl = shl <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%lshr = lshr <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>			%lshr = lshr <64 x i8> %a, <i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4, i8 4>
	%rmask = and <64 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>			%rmask = and <64 x i8> %lshr, <i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55, i8 55>
	%lmask = and <64 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>			%lmask = and <64 x i8> %shl, <i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33, i8 33>
	%or = or <64 x i8> %lmask, %rmask			%or = or <64 x i8> %lmask, %rmask
	ret <64 x i8> %or			ret <64 x i8> %or
	}			}

This is an archive of the discontinued LLVM Phabricator instance.

[DAG] MatchRotate - support rotate-by-constant of illegal types
ClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 385041

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/test/CodeGen/ARM/rotate.ll

llvm/test/CodeGen/PowerPC/vector-rotates.ll

llvm/test/CodeGen/RISCV/rv32zbp.ll

llvm/test/CodeGen/RISCV/rv64zbp.ll

llvm/test/CodeGen/RISCV/srem-seteq-illegal-types.ll

llvm/test/CodeGen/X86/rotate-extract-vector.ll

llvm/test/CodeGen/X86/rotate-extract.ll

llvm/test/CodeGen/X86/rotate.ll

llvm/test/CodeGen/X86/rotate2.ll

llvm/test/CodeGen/X86/vector-rotate-128.ll

llvm/test/CodeGen/X86/vector-rotate-256.ll

llvm/test/CodeGen/X86/vector-rotate-512.ll

This is an archive of the discontinued LLVM Phabricator instance.

[DAG] MatchRotate - support rotate-by-constant of illegal typesClosedPublic

Details

Diff Detail

Unit TestsFailed

Event Timeline

Revision Contents

Diff 385041

llvm/lib/CodeGen/SelectionDAG/DAGCombiner.cpp

llvm/test/CodeGen/ARM/rotate.ll

llvm/test/CodeGen/PowerPC/vector-rotates.ll

llvm/test/CodeGen/RISCV/rv32zbp.ll

llvm/test/CodeGen/RISCV/rv64zbp.ll

llvm/test/CodeGen/RISCV/srem-seteq-illegal-types.ll

llvm/test/CodeGen/X86/rotate-extract-vector.ll

llvm/test/CodeGen/X86/rotate-extract.ll

llvm/test/CodeGen/X86/rotate.ll

llvm/test/CodeGen/X86/rotate2.ll

llvm/test/CodeGen/X86/vector-rotate-128.ll

llvm/test/CodeGen/X86/vector-rotate-256.ll

llvm/test/CodeGen/X86/vector-rotate-512.ll

[DAG] MatchRotate - support rotate-by-constant of illegal types
ClosedPublic