This is an archive of the discontinued LLVM Phabricator instance.

llvm/test/CodeGen/SystemZ/rot-01.ll
13	In order for this test to still test what it is intended to test (see below), this should probably be changed to 16 instead of 32 now.
31	This should be 32. The point of this test is that we actually need the AND, but we should use the most efficient instruction (when using the result of the AND only in a rotate, we can implement the AND via NILL instead of the NILF we'd otherwise require).
llvm/test/CodeGen/SystemZ/rot-02.ll
7	With these changes, only 5 bits count (instead of 6 bits) when operating on 32-bit variables. You should probably change the comment here to 5 bits, and then change the AND constant from 31 to 15 or so.
llvm/test/CodeGen/SystemZ/shift-04.ll
100–101	Now that we actually do mask the amount, the comment should be updated.
120	Now I'm wondering: why doesn't the masking also work here?
150	Or here?
160	Likewise.
llvm/test/CodeGen/SystemZ/shift-08.ll
101–102	Same comments as with shift-04.ll apply to this file.

Tweaked systemz tests based on feedback from @uweigand

Harbormaster failed remote builds in B49291: Diff 250518!Mar 16 2020, 5:17 AM

See my inline comment. I only checked rol8 on AVR but I think the same applies to ror8. Basically it seems like the transformation is correct but will make the operation unacceptably slower.

I'm not sure I can help you fix this, I'm still very new to backend development.

llvm/test/CodeGen/AVR/rot.ll
7 ↗	(On Diff #250518)	If I'm reading this IR, correctly, it does a rotate left just as the name implies. I think the transformation here is correct in that it will still produce the same output, but without the mask the rotate may take a lot longer. I think the AVR assembly could be written as the following pseudocode (assume 8-bit unsigned integers everywhere): // r24 = val // r22 = amt def rol8(r24, r22): r22 &= 7 // this mask is removed by this patch if r22 == 0: return r24 // return value (LBB0_2) while 1: r24 = (r24 << 1) \| (r24 >> 7) // rotate r24 left by 1 (lsl, adc) r22 -= 1 if r22 == 0: // brne .LBB0_1 return r24 // .LBB0_2, ret So if you're calling `rol8(x, 200)` it will take 200 iterations to rotate a number.

RKSimon added inline comments.Mar 16 2020, 8:39 AM

llvm/test/CodeGen/AVR/rot.ll
7 ↗	(On Diff #250518)	I think this is a fault in the AVR backend - ROTL/ROTR/FSHL/FSHR all assume modulo amounts, so AVRTargetLowering::LowerShifts should mask accordingly. I'll add this to the patch shortly.

Added explicit masking to AVX rotation lowering.

Harbormaster failed remote builds in B49328: Diff 250587!Mar 16 2020, 10:52 AM

Thank you for the fix for AVR! It's unfamiliar code to me but it seems reasonable.

Looks good to me.

This revision is now accepted and ready to land.Mar 16 2020, 11:25 PM

Closed by commit rG68224c195222: [TargetLowering] Only demand a rotation's modulo amount bits (authored by RKSimon). · Explain WhyMar 17 2020, 2:35 PM

This revision was automatically updated to reflect the committed changes.

Revision Contents

Path

Size

llvm/

lib/

CodeGen/

SelectionDAG/

TargetLowering.cpp

9 lines

Target/

AVR/

AVRISelLowering.cpp

24 lines

test/

CodeGen/

AArch64/

funnel-shift-rot.ll

2 lines

PowerPC/

rotl-2.ll

2 lines

SystemZ/

4 lines

6 lines

12 lines

12 lines

Thumb2/

thumb2-ror.ll

4 lines

X86/

combine-rotates.ll

66 lines

vector-fshl-rot-512.ll

62 lines

vector-fshr-rot-512.ll

50 lines

Diff 250906

llvm/lib/CodeGen/SelectionDAG/TargetLowering.cpp

This file is larger than 256 KB, so syntax highlighting is disabled by default.

Show First 20 Lines • Show All 1,641 Lines • ▼ Show 20 Lines	if (isPowerOf2_32(BitWidth)) {
Known2, TLO, Depth + 1))		Known2, TLO, Depth + 1))
return true;		return true;
}		}
break;		break;
}		}
case ISD::ROTL:		case ISD::ROTL:
case ISD::ROTR: {		case ISD::ROTR: {
SDValue Op0 = Op.getOperand(0);		SDValue Op0 = Op.getOperand(0);
		SDValue Op1 = Op.getOperand(1);

// If we're rotating an 0/-1 value, then it stays an 0/-1 value.		// If we're rotating an 0/-1 value, then it stays an 0/-1 value.
if (BitWidth == TLO.DAG.ComputeNumSignBits(Op0, DemandedElts, Depth + 1))		if (BitWidth == TLO.DAG.ComputeNumSignBits(Op0, DemandedElts, Depth + 1))
return TLO.CombineTo(Op, Op0);		return TLO.CombineTo(Op, Op0);

		// For pow-2 bitwidths we only demand the bottom modulo amt bits.
		if (isPowerOf2_32(BitWidth)) {
		APInt DemandedAmtBits(Op1.getScalarValueSizeInBits(), BitWidth - 1);
		if (SimplifyDemandedBits(Op1, DemandedAmtBits, DemandedElts, Known2, TLO,
		Depth + 1))
		return true;
		}
break;		break;
}		}
case ISD::BITREVERSE: {		case ISD::BITREVERSE: {
SDValue Src = Op.getOperand(0);		SDValue Src = Op.getOperand(0);
APInt DemandedSrcBits = DemandedBits.reverseBits();		APInt DemandedSrcBits = DemandedBits.reverseBits();
if (SimplifyDemandedBits(Src, DemandedSrcBits, DemandedElts, Known2, TLO,		if (SimplifyDemandedBits(Src, DemandedSrcBits, DemandedElts, Known2, TLO,
Depth + 1))		Depth + 1))
return true;		return true;
▲ Show 20 Lines • Show All 6,064 Lines • Show Last 20 Lines

llvm/lib/Target/AVR/AVRISelLowering.cpp

	Show First 20 Lines • Show All 278 Lines • ▼ Show 20 Lines

	SDValue AVRTargetLowering::LowerShifts(SDValue Op, SelectionDAG &DAG) const {			SDValue AVRTargetLowering::LowerShifts(SDValue Op, SelectionDAG &DAG) const {
	//:TODO: this function has to be completely rewritten to produce optimal			//:TODO: this function has to be completely rewritten to produce optimal
	// code, for now it's producing very long but correct code.			// code, for now it's producing very long but correct code.
	unsigned Opc8;			unsigned Opc8;
	const SDNode *N = Op.getNode();			const SDNode *N = Op.getNode();
	EVT VT = Op.getValueType();			EVT VT = Op.getValueType();
	SDLoc dl(N);			SDLoc dl(N);
				assert(isPowerOf2_32(VT.getSizeInBits()) &&
				"Expected power-of-2 shift amount");

	// Expand non-constant shifts to loops.			// Expand non-constant shifts to loops.
	if (!isa<ConstantSDNode>(N->getOperand(1))) {			if (!isa<ConstantSDNode>(N->getOperand(1))) {
	switch (Op.getOpcode()) {			switch (Op.getOpcode()) {
	default:			default:
	llvm_unreachable("Invalid shift opcode!");			llvm_unreachable("Invalid shift opcode!");
	case ISD::SHL:			case ISD::SHL:
	return DAG.getNode(AVRISD::LSLLOOP, dl, VT, N->getOperand(0),			return DAG.getNode(AVRISD::LSLLOOP, dl, VT, N->getOperand(0),
	N->getOperand(1));			N->getOperand(1));
	case ISD::SRL:			case ISD::SRL:
	return DAG.getNode(AVRISD::LSRLOOP, dl, VT, N->getOperand(0),			return DAG.getNode(AVRISD::LSRLOOP, dl, VT, N->getOperand(0),
	N->getOperand(1));			N->getOperand(1));
	case ISD::ROTL:			case ISD::ROTL: {
	return DAG.getNode(AVRISD::ROLLOOP, dl, VT, N->getOperand(0),			SDValue Amt = N->getOperand(1);
	N->getOperand(1));			EVT AmtVT = Amt.getValueType();
	case ISD::ROTR:			Amt = DAG.getNode(ISD::AND, dl, AmtVT, Amt,
	return DAG.getNode(AVRISD::RORLOOP, dl, VT, N->getOperand(0),			DAG.getConstant(VT.getSizeInBits() - 1, dl, AmtVT));
	N->getOperand(1));			return DAG.getNode(AVRISD::ROLLOOP, dl, VT, N->getOperand(0), Amt);
				}
				case ISD::ROTR: {
				SDValue Amt = N->getOperand(1);
				EVT AmtVT = Amt.getValueType();
				Amt = DAG.getNode(ISD::AND, dl, AmtVT, Amt,
				DAG.getConstant(VT.getSizeInBits() - 1, dl, AmtVT));
				return DAG.getNode(AVRISD::RORLOOP, dl, VT, N->getOperand(0), Amt);
				}
	case ISD::SRA:			case ISD::SRA:
	return DAG.getNode(AVRISD::ASRLOOP, dl, VT, N->getOperand(0),			return DAG.getNode(AVRISD::ASRLOOP, dl, VT, N->getOperand(0),
	N->getOperand(1));			N->getOperand(1));
	}			}
	}			}

	uint64_t ShiftAmount = cast<ConstantSDNode>(N->getOperand(1))->getZExtValue();			uint64_t ShiftAmount = cast<ConstantSDNode>(N->getOperand(1))->getZExtValue();
	SDValue Victim = N->getOperand(0);			SDValue Victim = N->getOperand(0);

	switch (Op.getOpcode()) {			switch (Op.getOpcode()) {
	case ISD::SRA:			case ISD::SRA:
	Opc8 = AVRISD::ASR;			Opc8 = AVRISD::ASR;
	break;			break;
	case ISD::ROTL:			case ISD::ROTL:
	Opc8 = AVRISD::ROL;			Opc8 = AVRISD::ROL;
				ShiftAmount = ShiftAmount % VT.getSizeInBits();
	break;			break;
	case ISD::ROTR:			case ISD::ROTR:
	Opc8 = AVRISD::ROR;			Opc8 = AVRISD::ROR;
				ShiftAmount = ShiftAmount % VT.getSizeInBits();
	break;			break;
	case ISD::SRL:			case ISD::SRL:
	Opc8 = AVRISD::LSR;			Opc8 = AVRISD::LSR;
	break;			break;
	case ISD::SHL:			case ISD::SHL:
	Opc8 = AVRISD::LSL;			Opc8 = AVRISD::LSL;
	break;			break;
	default:			default:
	▲ Show 20 Lines • Show All 1,719 Lines • Show Last 20 Lines

llvm/test/CodeGen/AArch64/funnel-shift-rot.ll

	Show First 20 Lines • Show All 59 Lines • ▼ Show 20 Lines
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%f = call i32 @llvm.fshl.i32(i32 %x, i32 %x, i32 %z)			%f = call i32 @llvm.fshl.i32(i32 %x, i32 %x, i32 %z)
	ret i32 %f			ret i32 %f
	}			}

	define i64 @rotl_i64(i64 %x, i64 %z) {			define i64 @rotl_i64(i64 %x, i64 %z) {
	; CHECK-LABEL: rotl_i64:			; CHECK-LABEL: rotl_i64:
	; CHECK: // %bb.0:			; CHECK: // %bb.0:
	; CHECK-NEXT: neg x8, x1			; CHECK-NEXT: neg w8, w1
	; CHECK-NEXT: ror x0, x0, x8			; CHECK-NEXT: ror x0, x0, x8
	; CHECK-NEXT: ret			; CHECK-NEXT: ret
	%f = call i64 @llvm.fshl.i64(i64 %x, i64 %x, i64 %z)			%f = call i64 @llvm.fshl.i64(i64 %x, i64 %x, i64 %z)
	ret i64 %f			ret i64 %f
	}			}

	; Vector rotate.			; Vector rotate.

	▲ Show 20 Lines • Show All 151 Lines • Show Last 20 Lines

llvm/test/CodeGen/PowerPC/rotl-2.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; RUN: llc -verify-machineinstrs < %s -mtriple=ppc32-- \| FileCheck %s			; RUN: llc -verify-machineinstrs < %s -mtriple=ppc32-- \| FileCheck %s

	define i32 @rotl32(i32 %A, i8 %Amt) nounwind {			define i32 @rotl32(i32 %A, i8 %Amt) nounwind {
	; CHECK-LABEL: rotl32:			; CHECK-LABEL: rotl32:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: clrlwi 4, 4, 24
	; CHECK-NEXT: rotlw 3, 3, 4			; CHECK-NEXT: rotlw 3, 3, 4
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	%shift.upgrd.1 = zext i8 %Amt to i32 ; <i32> [#uses=1]			%shift.upgrd.1 = zext i8 %Amt to i32 ; <i32> [#uses=1]
	%B = shl i32 %A, %shift.upgrd.1 ; <i32> [#uses=1]			%B = shl i32 %A, %shift.upgrd.1 ; <i32> [#uses=1]
	%Amt2 = sub i8 32, %Amt ; <i8> [#uses=1]			%Amt2 = sub i8 32, %Amt ; <i8> [#uses=1]
	%shift.upgrd.2 = zext i8 %Amt2 to i32 ; <i32> [#uses=1]			%shift.upgrd.2 = zext i8 %Amt2 to i32 ; <i32> [#uses=1]
	%C = lshr i32 %A, %shift.upgrd.2 ; <i32> [#uses=1]			%C = lshr i32 %A, %shift.upgrd.2 ; <i32> [#uses=1]
	%D = or i32 %B, %C ; <i32> [#uses=1]			%D = or i32 %B, %C ; <i32> [#uses=1]
	ret i32 %D			ret i32 %D
	}			}

	define i32 @rotr32(i32 %A, i8 %Amt) nounwind {			define i32 @rotr32(i32 %A, i8 %Amt) nounwind {
	; CHECK-LABEL: rotr32:			; CHECK-LABEL: rotr32:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: subfic 4, 4, 32			; CHECK-NEXT: subfic 4, 4, 32
	; CHECK-NEXT: clrlwi 4, 4, 24
	; CHECK-NEXT: rotlw 3, 3, 4			; CHECK-NEXT: rotlw 3, 3, 4
	; CHECK-NEXT: blr			; CHECK-NEXT: blr
	%shift.upgrd.3 = zext i8 %Amt to i32 ; <i32> [#uses=1]			%shift.upgrd.3 = zext i8 %Amt to i32 ; <i32> [#uses=1]
	%B = lshr i32 %A, %shift.upgrd.3 ; <i32> [#uses=1]			%B = lshr i32 %A, %shift.upgrd.3 ; <i32> [#uses=1]
	%Amt2 = sub i8 32, %Amt ; <i8> [#uses=1]			%Amt2 = sub i8 32, %Amt ; <i8> [#uses=1]
	%shift.upgrd.4 = zext i8 %Amt2 to i32 ; <i32> [#uses=1]			%shift.upgrd.4 = zext i8 %Amt2 to i32 ; <i32> [#uses=1]
	%C = shl i32 %A, %shift.upgrd.4 ; <i32> [#uses=1]			%C = shl i32 %A, %shift.upgrd.4 ; <i32> [#uses=1]
	%D = or i32 %B, %C ; <i32> [#uses=1]			%D = or i32 %B, %C ; <i32> [#uses=1]
	Show All 25 Lines

llvm/test/CodeGen/SystemZ/rot-01.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; Test shortening of NILL to NILF when the result is used as a rotate amount.			; Test shortening of NILL to NILF when the result is used as a rotate amount.
	;			;
	; RUN: llc < %s -mtriple=s390x-linux-gnu \| FileCheck %s			; RUN: llc < %s -mtriple=s390x-linux-gnu \| FileCheck %s

	; Test 32-bit rotate.			; Test 32-bit rotate.
	define i32 @f1(i32 %val, i32 %amt) {			define i32 @f1(i32 %val, i32 %amt) {
	; CHECK-LABEL: f1:			; CHECK-LABEL: f1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: nill %r3, 31			; CHECK-NEXT: nill %r3, 15
	; CHECK-NEXT: rll %r2, %r2, 0(%r3)			; CHECK-NEXT: rll %r2, %r2, 0(%r3)
	; CHECK-NEXT: br %r14			; CHECK-NEXT: br %r14
	%mod = urem i32 %amt, 32			%mod = urem i32 %amt, 16
				uweigandUnsubmitted Not Done Reply Inline Actions In order for this test to still test what it is intended to test (see below), this should probably be changed to 16 instead of 32 now. uweigand: In order for this test to still test what it is intended to test (see below), this should…

	%inv = sub i32 32, %mod			%inv = sub i32 32, %mod
	%parta = shl i32 %val, %mod			%parta = shl i32 %val, %mod
	%partb = lshr i32 %val, %inv			%partb = lshr i32 %val, %inv

	%rotl = or i32 %parta, %partb			%rotl = or i32 %parta, %partb

	ret i32 %rotl			ret i32 %rotl
	}			}

	; Test 64-bit rotate.			; Test 64-bit rotate.
	define i64 @f2(i64 %val, i64 %amt) {			define i64 @f2(i64 %val, i64 %amt) {
	; CHECK-LABEL: f2:			; CHECK-LABEL: f2:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: nill %r3, 31			; CHECK-NEXT: nill %r3, 31
	; CHECK-NEXT: rllg %r2, %r2, 0(%r3)			; CHECK-NEXT: rllg %r2, %r2, 0(%r3)
	; CHECK-NEXT: br %r14			; CHECK-NEXT: br %r14
	%mod = urem i64 %amt, 32			%mod = urem i64 %amt, 32
				RKSimonAuthorUnsubmitted Done Reply Inline Actions @uweigand Should this be 32 or 64? RKSimon: @uweigand Should this be 32 or 64?
				uweigandUnsubmitted Not Done Reply Inline Actions This should be 32. The point of this test is that we actually need the AND, but we should use the most efficient instruction (when using the result of the AND only in a rotate, we can implement the AND via NILL instead of the NILF we'd otherwise require). uweigand: This should be 32. The point of this test is that we actually need the AND, but we should use…

	%inv = sub i64 64, %mod			%inv = sub i64 64, %mod
	%parta = shl i64 %val, %mod			%parta = shl i64 %val, %mod
	%partb = lshr i64 %val, %inv			%partb = lshr i64 %val, %inv

	%rotl = or i64 %parta, %partb			%rotl = or i64 %parta, %partb

	ret i64 %rotl			ret i64 %rotl
	}			}

llvm/test/CodeGen/SystemZ/rot-02.ll

	; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py			; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
	; Test removal of AND operations that don't affect last 6 bits of rotate amount			; Test removal of AND operations that don't affect last 6 bits of rotate amount
	; operand.			; operand.
	;			;
	; RUN: llc < %s -mtriple=s390x-linux-gnu \| FileCheck %s			; RUN: llc < %s -mtriple=s390x-linux-gnu \| FileCheck %s

	; Test that AND is not removed when some lower 6 bits are not set.			; Test that AND is not removed when some lower 5 bits are not set.
				RKSimonAuthorUnsubmitted Done Reply Inline Actions @uweigand This comment doesn't seem to match the test - any suggestions? RKSimon: @uweigand This comment doesn't seem to match the test - any suggestions?
				uweigandUnsubmitted Not Done Reply Inline Actions With these changes, only 5 bits count (instead of 6 bits) when operating on 32-bit variables. You should probably change the comment here to 5 bits, and then change the AND constant from 31 to 15 or so. uweigand: With these changes, only 5 bits count (instead of 6 bits) when operating on 32-bit variables.
	define i32 @f1(i32 %val, i32 %amt) {			define i32 @f1(i32 %val, i32 %amt) {
	; CHECK-LABEL: f1:			; CHECK-LABEL: f1:
	; CHECK: # %bb.0:			; CHECK: # %bb.0:
	; CHECK-NEXT: nill %r3, 31			; CHECK-NEXT: nill %r3, 15
	; CHECK-NEXT: rll %r2, %r2, 0(%r3)			; CHECK-NEXT: rll %r2, %r2, 0(%r3)
	; CHECK-NEXT: br %r14			; CHECK-NEXT: br %r14
	%and = and i32 %amt, 31			%and = and i32 %amt, 15

	%inv = sub i32 32, %and			%inv = sub i32 32, %and
	%parta = shl i32 %val, %and			%parta = shl i32 %val, %and
	%partb = lshr i32 %val, %inv			%partb = lshr i32 %val, %inv

	%rotl = or i32 %parta, %partb			%rotl = or i32 %parta, %partb

	ret i32 %rotl			ret i32 %rotl
	▲ Show 20 Lines • Show All 72 Lines • Show Last 20 Lines

llvm/test/CodeGen/SystemZ/shift-04.ll

Show First 20 Lines • Show All 91 Lines • ▼ Show 20 Lines	; CHECK-NEXT: br %r14
%addtrunc = trunc i64 %add to i32		%addtrunc = trunc i64 %add to i32
%subtrunc = trunc i64 %sub to i32		%subtrunc = trunc i64 %sub to i32
%parta = shl i32 %a, %addtrunc		%parta = shl i32 %a, %addtrunc
%partb = lshr i32 %a, %subtrunc		%partb = lshr i32 %a, %subtrunc
%or = or i32 %parta, %partb		%or = or i32 %parta, %partb
ret i32 %or		ret i32 %or
}		}

; Check shift amounts that have the largest in-range constant term. We could		; Check shift amounts that have the largest in-range constant term, and then
; mask the amount instead.		; mask the amount.
		uweigandUnsubmitted Not Done Reply Inline Actions Now that we actually do mask the amount, the comment should be updated. uweigand: Now that we actually do mask the amount, the comment should be updated.
define i32 @f8(i32 %a, i32 %amt) {		define i32 @f8(i32 %a, i32 %amt) {
; CHECK-LABEL: f8:		; CHECK-LABEL: f8:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: rll %r2, %r2, 524287(%r3)		; CHECK-NEXT: rll %r2, %r2, -1(%r3)
; CHECK-NEXT: br %r14		; CHECK-NEXT: br %r14
%add = add i32 %amt, 524287		%add = add i32 %amt, 524287
%sub = sub i32 32, %add		%sub = sub i32 32, %add
%parta = shl i32 %a, %add		%parta = shl i32 %a, %add
%partb = lshr i32 %a, %sub		%partb = lshr i32 %a, %sub
%or = or i32 %parta, %partb		%or = or i32 %parta, %partb
ret i32 %or		ret i32 %or
}		}

; Check the next value up, which without masking must use a separate		; Check the next value up, which without masking must use a separate
; addition.		; addition.
define i32 @f9(i32 %a, i32 %amt) {		define i32 @f9(i32 %a, i32 %amt) {
; CHECK-LABEL: f9:		; CHECK-LABEL: f9:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: afi %r3, 524288		; CHECK-NEXT: afi %r3, 524288
		uweigandUnsubmitted Not Done Reply Inline Actions Now I'm wondering: why doesn't the masking also work here? uweigand: Now I'm wondering: why doesn't the masking also work here?
; CHECK-NEXT: rll %r2, %r2, 0(%r3)		; CHECK-NEXT: rll %r2, %r2, 0(%r3)
; CHECK-NEXT: br %r14		; CHECK-NEXT: br %r14
%add = add i32 %amt, 524288		%add = add i32 %amt, 524288
%sub = sub i32 32, %add		%sub = sub i32 32, %add
%parta = shl i32 %a, %add		%parta = shl i32 %a, %add
%partb = lshr i32 %a, %sub		%partb = lshr i32 %a, %sub
%or = or i32 %parta, %partb		%or = or i32 %parta, %partb
ret i32 %or		ret i32 %or
Show All 13 Lines	; CHECK-NEXT: br %r14
ret i32 %or		ret i32 %or
}		}

; Check the lowest value that can be subtracted from the shift amount.		; Check the lowest value that can be subtracted from the shift amount.
; Again, we could mask the shift amount instead.		; Again, we could mask the shift amount instead.
define i32 @f11(i32 %a, i32 %amt) {		define i32 @f11(i32 %a, i32 %amt) {
; CHECK-LABEL: f11:		; CHECK-LABEL: f11:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: rll %r2, %r2, -524288(%r3)		; CHECK-NEXT: rll %r2, %r2, -524288(%r3)
		uweigandUnsubmitted Not Done Reply Inline Actions Or here? uweigand: Or here?
; CHECK-NEXT: br %r14		; CHECK-NEXT: br %r14
%suba = sub i32 %amt, 524288		%suba = sub i32 %amt, 524288
%subb = sub i32 32, %suba		%subb = sub i32 32, %suba
%parta = shl i32 %a, %suba		%parta = shl i32 %a, %suba
%partb = lshr i32 %a, %subb		%partb = lshr i32 %a, %subb
%or = or i32 %parta, %partb		%or = or i32 %parta, %partb
ret i32 %or		ret i32 %or
}		}

; Check the next value down, which without masking must use a separate		; Check the next value down, masking the amount removes the addition.
		uweigandUnsubmitted Not Done Reply Inline Actions Likewise. uweigand: Likewise.
; addition.
define i32 @f12(i32 %a, i32 %amt) {		define i32 @f12(i32 %a, i32 %amt) {
; CHECK-LABEL: f12:		; CHECK-LABEL: f12:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: afi %r3, -524289		; CHECK-NEXT: rll %r2, %r2, -1(%r3)
; CHECK-NEXT: rll %r2, %r2, 0(%r3)
; CHECK-NEXT: br %r14		; CHECK-NEXT: br %r14
%suba = sub i32 %amt, 524289		%suba = sub i32 %amt, 524289
%subb = sub i32 32, %suba		%subb = sub i32 32, %suba
%parta = shl i32 %a, %suba		%parta = shl i32 %a, %suba
%partb = lshr i32 %a, %subb		%partb = lshr i32 %a, %subb
%or = or i32 %parta, %partb		%or = or i32 %parta, %partb
ret i32 %or		ret i32 %or
}		}
▲ Show 20 Lines • Show All 144 Lines • Show Last 20 Lines

llvm/test/CodeGen/SystemZ/shift-08.ll

Show First 20 Lines • Show All 92 Lines • ▼ Show 20 Lines	; CHECK-NEXT: br %r14
%addext = zext i32 %add to i64		%addext = zext i32 %add to i64
%subext = zext i32 %sub to i64		%subext = zext i32 %sub to i64
%parta = shl i64 %a, %addext		%parta = shl i64 %a, %addext
%partb = lshr i64 %a, %subext		%partb = lshr i64 %a, %subext
%or = or i64 %parta, %partb		%or = or i64 %parta, %partb
ret i64 %or		ret i64 %or
}		}

; Check shift amounts that have the largest in-range constant term. We could		; Check shift amounts that have the largest in-range constant term, and then
; mask the amount instead.		; mask the amount.
		uweigandUnsubmitted Not Done Reply Inline Actions Same comments as with shift-04.ll apply to this file. uweigand: Same comments as with shift-04.ll apply to this file.
define i64 @f8(i64 %a, i64 %amt) {		define i64 @f8(i64 %a, i64 %amt) {
; CHECK-LABEL: f8:		; CHECK-LABEL: f8:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: rllg %r2, %r2, 524287(%r3)		; CHECK-NEXT: rllg %r2, %r2, -1(%r3)
; CHECK-NEXT: br %r14		; CHECK-NEXT: br %r14
%add = add i64 %amt, 524287		%add = add i64 %amt, 524287
%sub = sub i64 64, %add		%sub = sub i64 64, %add
%parta = shl i64 %a, %add		%parta = shl i64 %a, %add
%partb = lshr i64 %a, %sub		%partb = lshr i64 %a, %sub
%or = or i64 %parta, %partb		%or = or i64 %parta, %partb
ret i64 %or		ret i64 %or
}		}
Show All 38 Lines	; CHECK-NEXT: br %r14
%suba = sub i64 %amt, 524288		%suba = sub i64 %amt, 524288
%subb = sub i64 64, %suba		%subb = sub i64 64, %suba
%parta = shl i64 %a, %suba		%parta = shl i64 %a, %suba
%partb = lshr i64 %a, %subb		%partb = lshr i64 %a, %subb
%or = or i64 %parta, %partb		%or = or i64 %parta, %partb
ret i64 %or		ret i64 %or
}		}

; Check the next value down, which without masking must use a separate		; Check the next value down, masking the amount removes the addition.
; addition.
define i64 @f12(i64 %a, i64 %amt) {		define i64 @f12(i64 %a, i64 %amt) {
; CHECK-LABEL: f12:		; CHECK-LABEL: f12:
; CHECK: # %bb.0:		; CHECK: # %bb.0:
; CHECK-NEXT: afi %r3, -524289		; CHECK-NEXT: rllg %r2, %r2, -1(%r3)
; CHECK-NEXT: rllg %r2, %r2, 0(%r3)
; CHECK-NEXT: br %r14		; CHECK-NEXT: br %r14
%suba = sub i64 %amt, 524289		%suba = sub i64 %amt, 524289
%subb = sub i64 64, %suba		%subb = sub i64 64, %suba
%parta = shl i64 %a, %suba		%parta = shl i64 %a, %suba
%partb = lshr i64 %a, %subb		%partb = lshr i64 %a, %subb
%or = or i64 %parta, %partb		%or = or i64 %parta, %partb
ret i64 %or		ret i64 %or
}		}
Show All 30 Lines

llvm/test/CodeGen/Thumb2/thumb2-ror.ll

	Show All 21 Lines
	define i32 @f2(i32 %v, i32 %nbits) {			define i32 @f2(i32 %v, i32 %nbits) {
	; CHECK-LABEL: f2:			; CHECK-LABEL: f2:
	; CHECK: @ %bb.0: @ %entry			; CHECK: @ %bb.0: @ %entry
	; CHECK-NEXT: rors r0, r1			; CHECK-NEXT: rors r0, r1
	; CHECK-NEXT: bx lr			; CHECK-NEXT: bx lr
	;			;
	; THUMB1-LABEL: f2:			; THUMB1-LABEL: f2:
	; THUMB1: @ %bb.0: @ %entry			; THUMB1: @ %bb.0: @ %entry
	; THUMB1-NEXT: movs r2, #31			; THUMB1-NEXT: rors r0, r1
	; THUMB1-NEXT: ands r2, r1
	; THUMB1-NEXT: rors r0, r2
	; THUMB1-NEXT: bx lr			; THUMB1-NEXT: bx lr
	entry:			entry:
	%and = and i32 %nbits, 31			%and = and i32 %nbits, 31
	%shr = lshr i32 %v, %and			%shr = lshr i32 %v, %and
	%sub = sub i32 32, %and			%sub = sub i32 32, %and
	%shl = shl i32 %v, %sub			%shl = shl i32 %v, %sub
	%or = or i32 %shl, %shr			%or = or i32 %shl, %shr
	ret i32 %or			ret i32 %or
	}			}

llvm/test/CodeGen/X86/combine-rotates.ll

Show First 20 Lines • Show All 112 Lines • ▼ Show 20 Lines	; CHECK-NEXT: retq
%9 = icmp eq i32 %1, 0		%9 = icmp eq i32 %1, 0
%10 = select i1 %9, i32 %0, i32 %8		%10 = select i1 %9, i32 %0, i32 %8
ret i32 %10		ret i32 %10
}		}

define <4 x i32> @combine_vec_rot_select_zero(<4 x i32>, <4 x i32>) {		define <4 x i32> @combine_vec_rot_select_zero(<4 x i32>, <4 x i32>) {
; SSE2-LABEL: combine_vec_rot_select_zero:		; SSE2-LABEL: combine_vec_rot_select_zero:
; SSE2: # %bb.0:		; SSE2: # %bb.0:
; SSE2-NEXT: movdqa {{.*#+}} xmm2 = [31,31,31,31]		; SSE2-NEXT: pxor %xmm2, %xmm2
; SSE2-NEXT: pand %xmm1, %xmm2		; SSE2-NEXT: movdqa {{.*#+}} xmm3 = [31,31,31,31]
; SSE2-NEXT: pxor %xmm3, %xmm3		; SSE2-NEXT: pand %xmm1, %xmm3
; SSE2-NEXT: pslld $23, %xmm2		; SSE2-NEXT: pslld $23, %xmm3
; SSE2-NEXT: paddd {{.*}}(%rip), %xmm2		; SSE2-NEXT: paddd {{.*}}(%rip), %xmm3
; SSE2-NEXT: cvttps2dq %xmm2, %xmm2		; SSE2-NEXT: cvttps2dq %xmm3, %xmm3
; SSE2-NEXT: movdqa %xmm0, %xmm4		; SSE2-NEXT: movdqa %xmm0, %xmm4
; SSE2-NEXT: pmuludq %xmm2, %xmm4		; SSE2-NEXT: pmuludq %xmm3, %xmm4
; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm5 = xmm4[1,3,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm0[1,1,3,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[1,1,3,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[1,1,3,3]
; SSE2-NEXT: pmuludq %xmm6, %xmm2		; SSE2-NEXT: pmuludq %xmm6, %xmm3
; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm2[1,3,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm6 = xmm3[1,3,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm5 = xmm5[0],xmm6[0],xmm5[1],xmm6[1]
; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm4 = xmm4[0,2,2,3]
; SSE2-NEXT: pshufd {{.*#+}} xmm2 = xmm2[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm3 = xmm3[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm2[0],xmm4[1],xmm2[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm4 = xmm4[0],xmm3[0],xmm4[1],xmm3[1]
; SSE2-NEXT: por %xmm5, %xmm4		; SSE2-NEXT: por %xmm5, %xmm4
; SSE2-NEXT: pcmpeqd %xmm1, %xmm3		; SSE2-NEXT: pcmpeqd %xmm1, %xmm2
; SSE2-NEXT: pand %xmm3, %xmm0		; SSE2-NEXT: pand %xmm2, %xmm0
; SSE2-NEXT: pandn %xmm4, %xmm3		; SSE2-NEXT: pandn %xmm4, %xmm2
; SSE2-NEXT: por %xmm3, %xmm0		; SSE2-NEXT: por %xmm2, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; XOP-LABEL: combine_vec_rot_select_zero:		; XOP-LABEL: combine_vec_rot_select_zero:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm2		; XOP-NEXT: vpxor %xmm2, %xmm2, %xmm2
; XOP-NEXT: vpxor %xmm3, %xmm3, %xmm3		; XOP-NEXT: vprotd %xmm1, %xmm0, %xmm3
; XOP-NEXT: vprotd %xmm2, %xmm0, %xmm2		; XOP-NEXT: vpcomeqd %xmm2, %xmm1, %xmm1
; XOP-NEXT: vpcomeqd %xmm3, %xmm1, %xmm1		; XOP-NEXT: vblendvps %xmm1, %xmm0, %xmm3, %xmm0
; XOP-NEXT: vblendvps %xmm1, %xmm0, %xmm2, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX2-LABEL: combine_vec_rot_select_zero:		; AVX2-LABEL: combine_vec_rot_select_zero:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [31,31,31,31]		; AVX2-NEXT: vpxor %xmm2, %xmm2, %xmm2
; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm2		; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [31,31,31,31]
; AVX2-NEXT: vpxor %xmm3, %xmm3, %xmm3		; AVX2-NEXT: vpand %xmm3, %xmm1, %xmm3
; AVX2-NEXT: vpsllvd %xmm2, %xmm0, %xmm4		; AVX2-NEXT: vpsllvd %xmm3, %xmm0, %xmm4
; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm5 = [32,32,32,32]		; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm5 = [32,32,32,32]
; AVX2-NEXT: vpsubd %xmm2, %xmm5, %xmm2		; AVX2-NEXT: vpsubd %xmm3, %xmm5, %xmm3
; AVX2-NEXT: vpsrlvd %xmm2, %xmm0, %xmm2		; AVX2-NEXT: vpsrlvd %xmm3, %xmm0, %xmm3
; AVX2-NEXT: vpor %xmm2, %xmm4, %xmm2		; AVX2-NEXT: vpor %xmm3, %xmm4, %xmm3
; AVX2-NEXT: vpcmpeqd %xmm3, %xmm1, %xmm1		; AVX2-NEXT: vpcmpeqd %xmm2, %xmm1, %xmm1
; AVX2-NEXT: vblendvps %xmm1, %xmm0, %xmm2, %xmm0		; AVX2-NEXT: vblendvps %xmm1, %xmm0, %xmm3, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: combine_vec_rot_select_zero:		; AVX512-LABEL: combine_vec_rot_select_zero:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpandd {{.*}}(%rip){1to4}, %xmm1, %xmm2		; AVX512-NEXT: vprolvd %xmm1, %xmm0, %xmm2
; AVX512-NEXT: vprolvd %xmm2, %xmm0, %xmm2
; AVX512-NEXT: vptestnmd %xmm1, %xmm1, %k1		; AVX512-NEXT: vptestnmd %xmm1, %xmm1, %k1
; AVX512-NEXT: vmovdqa32 %xmm0, %xmm2 {%k1}		; AVX512-NEXT: vmovdqa32 %xmm0, %xmm2 {%k1}
; AVX512-NEXT: vmovdqa %xmm2, %xmm0		; AVX512-NEXT: vmovdqa %xmm2, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%3 = and <4 x i32> %1, <i32 31, i32 31, i32 31, i32 31>		%3 = and <4 x i32> %1, <i32 31, i32 31, i32 31, i32 31>
%4 = shl <4 x i32> %0, %3		%4 = shl <4 x i32> %0, %3
%5 = sub <4 x i32> zeroinitializer, %1		%5 = sub <4 x i32> zeroinitializer, %1
%6 = and <4 x i32> %5, <i32 31, i32 31, i32 31, i32 31>		%6 = and <4 x i32> %5, <i32 31, i32 31, i32 31, i32 31>
▲ Show 20 Lines • Show All 125 Lines • ▼ Show 20 Lines
; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]		; SSE2-NEXT: pshufd {{.*#+}} xmm1 = xmm1[0,2,2,3]
; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]		; SSE2-NEXT: punpckldq {{.*#+}} xmm0 = xmm0[0],xmm1[0],xmm0[1],xmm1[1]
; SSE2-NEXT: por %xmm3, %xmm0		; SSE2-NEXT: por %xmm3, %xmm0
; SSE2-NEXT: retq		; SSE2-NEXT: retq
;		;
; XOP-LABEL: rotate_demanded_bits_3:		; XOP-LABEL: rotate_demanded_bits_3:
; XOP: # %bb.0:		; XOP: # %bb.0:
; XOP-NEXT: vpaddd %xmm1, %xmm1, %xmm1		; XOP-NEXT: vpaddd %xmm1, %xmm1, %xmm1
; XOP-NEXT: vpand {{.*}}(%rip), %xmm1, %xmm1
; XOP-NEXT: vprotd %xmm1, %xmm0, %xmm0		; XOP-NEXT: vprotd %xmm1, %xmm0, %xmm0
; XOP-NEXT: retq		; XOP-NEXT: retq
;		;
; AVX2-LABEL: rotate_demanded_bits_3:		; AVX2-LABEL: rotate_demanded_bits_3:
; AVX2: # %bb.0:		; AVX2: # %bb.0:
; AVX2-NEXT: vpaddd %xmm1, %xmm1, %xmm1		; AVX2-NEXT: vpaddd %xmm1, %xmm1, %xmm1
; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [30,30,30,30]		; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm2 = [31,31,31,31]
; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm1		; AVX2-NEXT: vpand %xmm2, %xmm1, %xmm1
; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm2		; AVX2-NEXT: vpsllvd %xmm1, %xmm0, %xmm2
; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [32,32,32,32]		; AVX2-NEXT: vpbroadcastd {{.*#+}} xmm3 = [32,32,32,32]
; AVX2-NEXT: vpsubd %xmm1, %xmm3, %xmm1		; AVX2-NEXT: vpsubd %xmm1, %xmm3, %xmm1
; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0		; AVX2-NEXT: vpsrlvd %xmm1, %xmm0, %xmm0
; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0		; AVX2-NEXT: vpor %xmm0, %xmm2, %xmm0
; AVX2-NEXT: retq		; AVX2-NEXT: retq
;		;
; AVX512-LABEL: rotate_demanded_bits_3:		; AVX512-LABEL: rotate_demanded_bits_3:
; AVX512: # %bb.0:		; AVX512: # %bb.0:
; AVX512-NEXT: vpaddd %xmm1, %xmm1, %xmm1		; AVX512-NEXT: vpaddd %xmm1, %xmm1, %xmm1
; AVX512-NEXT: vpandd {{.*}}(%rip){1to4}, %xmm1, %xmm1
; AVX512-NEXT: vprolvd %xmm1, %xmm0, %xmm0		; AVX512-NEXT: vprolvd %xmm1, %xmm0, %xmm0
; AVX512-NEXT: retq		; AVX512-NEXT: retq
%3 = shl <4 x i32> %1, <i32 1, i32 1, i32 1, i32 1>		%3 = shl <4 x i32> %1, <i32 1, i32 1, i32 1, i32 1>
%4 = and <4 x i32> %3, <i32 30, i32 30, i32 30, i32 30>		%4 = and <4 x i32> %3, <i32 30, i32 30, i32 30, i32 30>
%5 = shl <4 x i32> %0, %4		%5 = shl <4 x i32> %0, %4
%6 = sub <4 x i32> zeroinitializer, %3		%6 = sub <4 x i32> zeroinitializer, %3
%7 = and <4 x i32> %6, <i32 30, i32 30, i32 30, i32 30>		%7 = and <4 x i32> %6, <i32 30, i32 30, i32 30, i32 30>
%8 = lshr <4 x i32> %0, %7		%8 = lshr <4 x i32> %0, %7
Show All 16 Lines

llvm/test/CodeGen/X86/vector-fshl-rot-512.ll

	Show First 20 Lines • Show All 118 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vextracti64x4 $1, %zmm1, %ymm2			; AVX512F-NEXT: vextracti64x4 $1, %zmm1, %ymm2
	; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512F-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512F-NEXT: vpsrlw $4, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $4, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX512F-NEXT: vpandn %ymm4, %ymm5, %ymm4			; AVX512F-NEXT: vpandn %ymm4, %ymm5, %ymm4
	; AVX512F-NEXT: vpsllw $4, %ymm3, %ymm6			; AVX512F-NEXT: vpsllw $4, %ymm3, %ymm6
	; AVX512F-NEXT: vpand %ymm5, %ymm6, %ymm6			; AVX512F-NEXT: vpand %ymm5, %ymm6, %ymm6
	; AVX512F-NEXT: vpor %ymm4, %ymm6, %ymm4			; AVX512F-NEXT: vpor %ymm4, %ymm6, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX512F-NEXT: vpand %ymm6, %ymm2, %ymm2
	; AVX512F-NEXT: vpsllw $5, %ymm2, %ymm2			; AVX512F-NEXT: vpsllw $5, %ymm2, %ymm2
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $6, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $6, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm6 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; AVX512F-NEXT: vpandn %ymm4, %ymm7, %ymm4			; AVX512F-NEXT: vpandn %ymm4, %ymm6, %ymm4
	; AVX512F-NEXT: vpsllw $2, %ymm3, %ymm8			; AVX512F-NEXT: vpsllw $2, %ymm3, %ymm7
	; AVX512F-NEXT: vpand %ymm7, %ymm8, %ymm8			; AVX512F-NEXT: vpand %ymm6, %ymm7, %ymm7
	; AVX512F-NEXT: vpor %ymm4, %ymm8, %ymm4			; AVX512F-NEXT: vpor %ymm4, %ymm7, %ymm4
	; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $7, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $7, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm4, %ymm8, %ymm4			; AVX512F-NEXT: vpand %ymm7, %ymm4, %ymm4
	; AVX512F-NEXT: vpaddb %ymm3, %ymm3, %ymm9			; AVX512F-NEXT: vpaddb %ymm3, %ymm3, %ymm8
	; AVX512F-NEXT: vpor %ymm4, %ymm9, %ymm4			; AVX512F-NEXT: vpor %ymm4, %ymm8, %ymm4
	; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2			; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2
	; AVX512F-NEXT: vpsrlw $4, %ymm0, %ymm3			; AVX512F-NEXT: vpsrlw $4, %ymm0, %ymm3
	; AVX512F-NEXT: vpandn %ymm3, %ymm5, %ymm3			; AVX512F-NEXT: vpandn %ymm3, %ymm5, %ymm3
	; AVX512F-NEXT: vpsllw $4, %ymm0, %ymm4			; AVX512F-NEXT: vpsllw $4, %ymm0, %ymm4
	; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpand %ymm6, %ymm1, %ymm1
	; AVX512F-NEXT: vpsllw $5, %ymm1, %ymm1			; AVX512F-NEXT: vpsllw $5, %ymm1, %ymm1
	; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpsrlw $6, %ymm0, %ymm3			; AVX512F-NEXT: vpsrlw $6, %ymm0, %ymm3
	; AVX512F-NEXT: vpandn %ymm3, %ymm7, %ymm3			; AVX512F-NEXT: vpandn %ymm3, %ymm6, %ymm3
	; AVX512F-NEXT: vpsllw $2, %ymm0, %ymm4			; AVX512F-NEXT: vpsllw $2, %ymm0, %ymm4
	; AVX512F-NEXT: vpand %ymm7, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm6, %ymm4, %ymm4
	; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm3			; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm3
	; AVX512F-NEXT: vpand %ymm3, %ymm8, %ymm3			; AVX512F-NEXT: vpand %ymm7, %ymm3, %ymm3
	; AVX512F-NEXT: vpaddb %ymm0, %ymm0, %ymm4			; AVX512F-NEXT: vpaddb %ymm0, %ymm0, %ymm4
	; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: var_funnnel_v64i8:			; AVX512VL-LABEL: var_funnnel_v64i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextracti64x4 $1, %zmm1, %ymm2			; AVX512VL-NEXT: vextracti64x4 $1, %zmm1, %ymm2
	; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512VL-NEXT: vpsrlw $4, %ymm3, %ymm4			; AVX512VL-NEXT: vpsrlw $4, %ymm3, %ymm4
	; AVX512VL-NEXT: vpsllw $4, %ymm3, %ymm5			; AVX512VL-NEXT: vpsllw $4, %ymm3, %ymm5
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm6 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm6 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX512VL-NEXT: vpternlogq $226, %ymm4, %ymm6, %ymm5			; AVX512VL-NEXT: vpternlogq $226, %ymm4, %ymm6, %ymm5
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm4 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX512VL-NEXT: vpand %ymm4, %ymm2, %ymm2
	; AVX512VL-NEXT: vpsllw $5, %ymm2, %ymm2			; AVX512VL-NEXT: vpsllw $5, %ymm2, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm3			; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm3
	; AVX512VL-NEXT: vpsrlw $6, %ymm3, %ymm5			; AVX512VL-NEXT: vpsrlw $6, %ymm3, %ymm4
	; AVX512VL-NEXT: vpsllw $2, %ymm3, %ymm7			; AVX512VL-NEXT: vpsllw $2, %ymm3, %ymm5
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm7 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; AVX512VL-NEXT: vpternlogq $226, %ymm5, %ymm8, %ymm7			; AVX512VL-NEXT: vpternlogq $226, %ymm4, %ymm7, %ymm5
	; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm7, %ymm3, %ymm3			; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm3
	; AVX512VL-NEXT: vpsrlw $7, %ymm3, %ymm5			; AVX512VL-NEXT: vpsrlw $7, %ymm3, %ymm4
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm7 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm5 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512VL-NEXT: vpand %ymm7, %ymm5, %ymm5			; AVX512VL-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512VL-NEXT: vpaddb %ymm3, %ymm3, %ymm9			; AVX512VL-NEXT: vpaddb %ymm3, %ymm3, %ymm8
	; AVX512VL-NEXT: vpor %ymm5, %ymm9, %ymm5			; AVX512VL-NEXT: vpor %ymm4, %ymm8, %ymm4
	; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm2			; AVX512VL-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2
	; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm3			; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm3
	; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm5			; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm4
	; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm6, %ymm5			; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm6, %ymm4
	; AVX512VL-NEXT: vpand %ymm4, %ymm1, %ymm1
	; AVX512VL-NEXT: vpsllw $5, %ymm1, %ymm1			; AVX512VL-NEXT: vpsllw $5, %ymm1, %ymm1
	; AVX512VL-NEXT: vpblendvb %ymm1, %ymm5, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm1, %ymm4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsrlw $6, %ymm0, %ymm3			; AVX512VL-NEXT: vpsrlw $6, %ymm0, %ymm3
	; AVX512VL-NEXT: vpsllw $2, %ymm0, %ymm4			; AVX512VL-NEXT: vpsllw $2, %ymm0, %ymm4
	; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm8, %ymm4			; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm7, %ymm4
	; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512VL-NEXT: vpblendvb %ymm1, %ymm4, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm1, %ymm4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsrlw $7, %ymm0, %ymm3			; AVX512VL-NEXT: vpsrlw $7, %ymm0, %ymm3
	; AVX512VL-NEXT: vpand %ymm7, %ymm3, %ymm3			; AVX512VL-NEXT: vpand %ymm5, %ymm3, %ymm3
	; AVX512VL-NEXT: vpaddb %ymm0, %ymm0, %ymm4			; AVX512VL-NEXT: vpaddb %ymm0, %ymm0, %ymm4
	; AVX512VL-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512VL-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512VL-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: var_funnnel_v64i8:			; AVX512BW-LABEL: var_funnnel_v64i8:
	▲ Show 20 Lines • Show All 630 Lines • Show Last 20 Lines

llvm/test/CodeGen/X86/vector-fshr-rot-512.ll

	Show First 20 Lines • Show All 126 Lines • ▼ Show 20 Lines
	; AVX512F-NEXT: vpsrlw $4, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $4, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm5 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX512F-NEXT: vpandn %ymm4, %ymm5, %ymm4			; AVX512F-NEXT: vpandn %ymm4, %ymm5, %ymm4
	; AVX512F-NEXT: vpsllw $4, %ymm3, %ymm6			; AVX512F-NEXT: vpsllw $4, %ymm3, %ymm6
	; AVX512F-NEXT: vpand %ymm5, %ymm6, %ymm6			; AVX512F-NEXT: vpand %ymm5, %ymm6, %ymm6
	; AVX512F-NEXT: vpor %ymm4, %ymm6, %ymm4			; AVX512F-NEXT: vpor %ymm4, %ymm6, %ymm4
	; AVX512F-NEXT: vpxor %xmm6, %xmm6, %xmm6			; AVX512F-NEXT: vpxor %xmm6, %xmm6, %xmm6
	; AVX512F-NEXT: vpsubb %ymm2, %ymm6, %ymm2			; AVX512F-NEXT: vpsubb %ymm2, %ymm6, %ymm2
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX512F-NEXT: vpand %ymm7, %ymm2, %ymm2
	; AVX512F-NEXT: vpsllw $5, %ymm2, %ymm2			; AVX512F-NEXT: vpsllw $5, %ymm2, %ymm2
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $6, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $6, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm7 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; AVX512F-NEXT: vpandn %ymm4, %ymm8, %ymm4			; AVX512F-NEXT: vpandn %ymm4, %ymm7, %ymm4
	; AVX512F-NEXT: vpsllw $2, %ymm3, %ymm9			; AVX512F-NEXT: vpsllw $2, %ymm3, %ymm8
	; AVX512F-NEXT: vpand %ymm8, %ymm9, %ymm9			; AVX512F-NEXT: vpand %ymm7, %ymm8, %ymm8
	; AVX512F-NEXT: vpor %ymm4, %ymm9, %ymm4			; AVX512F-NEXT: vpor %ymm4, %ymm8, %ymm4
	; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3			; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm3
	; AVX512F-NEXT: vpsrlw $7, %ymm3, %ymm4			; AVX512F-NEXT: vpsrlw $7, %ymm3, %ymm4
	; AVX512F-NEXT: vmovdqa {{.*#+}} ymm9 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512F-NEXT: vmovdqa {{.*#+}} ymm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512F-NEXT: vpand %ymm4, %ymm9, %ymm4			; AVX512F-NEXT: vpand %ymm4, %ymm8, %ymm4
	; AVX512F-NEXT: vpaddb %ymm3, %ymm3, %ymm10			; AVX512F-NEXT: vpaddb %ymm3, %ymm3, %ymm9
	; AVX512F-NEXT: vpor %ymm4, %ymm10, %ymm4			; AVX512F-NEXT: vpor %ymm4, %ymm9, %ymm4
	; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512F-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2			; AVX512F-NEXT: vpblendvb %ymm2, %ymm4, %ymm3, %ymm2
	; AVX512F-NEXT: vpsrlw $4, %ymm0, %ymm3			; AVX512F-NEXT: vpsrlw $4, %ymm0, %ymm3
	; AVX512F-NEXT: vpandn %ymm3, %ymm5, %ymm3			; AVX512F-NEXT: vpandn %ymm3, %ymm5, %ymm3
	; AVX512F-NEXT: vpsllw $4, %ymm0, %ymm4			; AVX512F-NEXT: vpsllw $4, %ymm0, %ymm4
	; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4			; AVX512F-NEXT: vpand %ymm5, %ymm4, %ymm4
	; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpsubb %ymm1, %ymm6, %ymm1			; AVX512F-NEXT: vpsubb %ymm1, %ymm6, %ymm1
	; AVX512F-NEXT: vpand %ymm7, %ymm1, %ymm1
	; AVX512F-NEXT: vpsllw $5, %ymm1, %ymm1			; AVX512F-NEXT: vpsllw $5, %ymm1, %ymm1
	; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpsrlw $6, %ymm0, %ymm3			; AVX512F-NEXT: vpsrlw $6, %ymm0, %ymm3
	; AVX512F-NEXT: vpandn %ymm3, %ymm8, %ymm3			; AVX512F-NEXT: vpandn %ymm3, %ymm7, %ymm3
	; AVX512F-NEXT: vpsllw $2, %ymm0, %ymm4			; AVX512F-NEXT: vpsllw $2, %ymm0, %ymm4
	; AVX512F-NEXT: vpand %ymm4, %ymm8, %ymm4			; AVX512F-NEXT: vpand %ymm7, %ymm4, %ymm4
	; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm3			; AVX512F-NEXT: vpsrlw $7, %ymm0, %ymm3
	; AVX512F-NEXT: vpand %ymm3, %ymm9, %ymm3			; AVX512F-NEXT: vpand %ymm3, %ymm8, %ymm3
	; AVX512F-NEXT: vpaddb %ymm0, %ymm0, %ymm4			; AVX512F-NEXT: vpaddb %ymm0, %ymm0, %ymm4
	; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512F-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512F-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512F-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512F-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512F-NEXT: retq			; AVX512F-NEXT: retq
	;			;
	; AVX512VL-LABEL: var_funnnel_v64i8:			; AVX512VL-LABEL: var_funnnel_v64i8:
	; AVX512VL: # %bb.0:			; AVX512VL: # %bb.0:
	; AVX512VL-NEXT: vextracti64x4 $1, %zmm1, %ymm2			; AVX512VL-NEXT: vextracti64x4 $1, %zmm1, %ymm2
	; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm3			; AVX512VL-NEXT: vextracti64x4 $1, %zmm0, %ymm3
	; AVX512VL-NEXT: vpsrlw $4, %ymm3, %ymm4			; AVX512VL-NEXT: vpsrlw $4, %ymm3, %ymm4
	; AVX512VL-NEXT: vpsllw $4, %ymm3, %ymm5			; AVX512VL-NEXT: vpsllw $4, %ymm3, %ymm5
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm6 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm6 = [240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240,240]
	; AVX512VL-NEXT: vpternlogq $226, %ymm4, %ymm6, %ymm5			; AVX512VL-NEXT: vpternlogq $226, %ymm4, %ymm6, %ymm5
	; AVX512VL-NEXT: vpxor %xmm4, %xmm4, %xmm4			; AVX512VL-NEXT: vpxor %xmm4, %xmm4, %xmm4
	; AVX512VL-NEXT: vpsubb %ymm2, %ymm4, %ymm2			; AVX512VL-NEXT: vpsubb %ymm2, %ymm4, %ymm2
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm7 = [7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7,7]
	; AVX512VL-NEXT: vpand %ymm7, %ymm2, %ymm2
	; AVX512VL-NEXT: vpsllw $5, %ymm2, %ymm2			; AVX512VL-NEXT: vpsllw $5, %ymm2, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm3			; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm3
	; AVX512VL-NEXT: vpsrlw $6, %ymm3, %ymm5			; AVX512VL-NEXT: vpsrlw $6, %ymm3, %ymm5
	; AVX512VL-NEXT: vpsllw $2, %ymm3, %ymm8			; AVX512VL-NEXT: vpsllw $2, %ymm3, %ymm7
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm9 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm8 = [252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252,252]
	; AVX512VL-NEXT: vpternlogq $226, %ymm5, %ymm9, %ymm8			; AVX512VL-NEXT: vpternlogq $226, %ymm5, %ymm8, %ymm7
	; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm8, %ymm3, %ymm3			; AVX512VL-NEXT: vpblendvb %ymm2, %ymm7, %ymm3, %ymm3
	; AVX512VL-NEXT: vpsrlw $7, %ymm3, %ymm5			; AVX512VL-NEXT: vpsrlw $7, %ymm3, %ymm5
	; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm8 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]			; AVX512VL-NEXT: vmovdqa {{.*#+}} ymm7 = [1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]
	; AVX512VL-NEXT: vpand %ymm5, %ymm8, %ymm5			; AVX512VL-NEXT: vpand %ymm7, %ymm5, %ymm5
	; AVX512VL-NEXT: vpaddb %ymm3, %ymm3, %ymm10			; AVX512VL-NEXT: vpaddb %ymm3, %ymm3, %ymm9
	; AVX512VL-NEXT: vpor %ymm5, %ymm10, %ymm5			; AVX512VL-NEXT: vpor %ymm5, %ymm9, %ymm5
	; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2			; AVX512VL-NEXT: vpaddb %ymm2, %ymm2, %ymm2
	; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm2			; AVX512VL-NEXT: vpblendvb %ymm2, %ymm5, %ymm3, %ymm2
	; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm3			; AVX512VL-NEXT: vpsrlw $4, %ymm0, %ymm3
	; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm5			; AVX512VL-NEXT: vpsllw $4, %ymm0, %ymm5
	; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm6, %ymm5			; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm6, %ymm5
	; AVX512VL-NEXT: vpsubb %ymm1, %ymm4, %ymm1			; AVX512VL-NEXT: vpsubb %ymm1, %ymm4, %ymm1
	; AVX512VL-NEXT: vpand %ymm7, %ymm1, %ymm1
	; AVX512VL-NEXT: vpsllw $5, %ymm1, %ymm1			; AVX512VL-NEXT: vpsllw $5, %ymm1, %ymm1
	; AVX512VL-NEXT: vpblendvb %ymm1, %ymm5, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm1, %ymm5, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsrlw $6, %ymm0, %ymm3			; AVX512VL-NEXT: vpsrlw $6, %ymm0, %ymm3
	; AVX512VL-NEXT: vpsllw $2, %ymm0, %ymm4			; AVX512VL-NEXT: vpsllw $2, %ymm0, %ymm4
	; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm9, %ymm4			; AVX512VL-NEXT: vpternlogq $226, %ymm3, %ymm8, %ymm4
	; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512VL-NEXT: vpblendvb %ymm1, %ymm4, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm1, %ymm4, %ymm0, %ymm0
	; AVX512VL-NEXT: vpsrlw $7, %ymm0, %ymm3			; AVX512VL-NEXT: vpsrlw $7, %ymm0, %ymm3
	; AVX512VL-NEXT: vpand %ymm3, %ymm8, %ymm3			; AVX512VL-NEXT: vpand %ymm7, %ymm3, %ymm3
	; AVX512VL-NEXT: vpaddb %ymm0, %ymm0, %ymm4			; AVX512VL-NEXT: vpaddb %ymm0, %ymm0, %ymm4
	; AVX512VL-NEXT: vpor %ymm3, %ymm4, %ymm3			; AVX512VL-NEXT: vpor %ymm3, %ymm4, %ymm3
	; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1			; AVX512VL-NEXT: vpaddb %ymm1, %ymm1, %ymm1
	; AVX512VL-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0			; AVX512VL-NEXT: vpblendvb %ymm1, %ymm3, %ymm0, %ymm0
	; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0			; AVX512VL-NEXT: vinserti64x4 $1, %ymm2, %zmm0, %zmm0
	; AVX512VL-NEXT: retq			; AVX512VL-NEXT: retq
	;			;
	; AVX512BW-LABEL: var_funnnel_v64i8:			; AVX512BW-LABEL: var_funnnel_v64i8:
	▲ Show 20 Lines • Show All 638 Lines • Show Last 20 Lines