Index: include/llvm/CodeGen/TargetLowering.h
===================================================================
--- include/llvm/CodeGen/TargetLowering.h
+++ include/llvm/CodeGen/TargetLowering.h
@@ -509,6 +509,16 @@
     return hasAndNotCompare(X);
   }
 
+  /// There are two ways to clear extreme bits (either low or high):
+  /// Mask:    x &  (-1 << y)  (the instcombine canonical form)
+  /// Shifts:  x >> y << y
+  /// Different targets may have different preferences.
+  /// Returns true if the shift variant is preferred.
+  virtual bool preferShiftsToClearExtremeBits(SDValue X) const {
+    // By default, let's assume that everyone prefers masking.
+    return false;
+  }
+
   /// Return true if the target wants to use the optimization that
   /// turns ext(promotableInst1(...(promotableInstN(load)))) into
   /// promotedInst1(...(promotedInstN(ext(load)))).
Index: lib/CodeGen/SelectionDAG/DAGCombiner.cpp
===================================================================
--- lib/CodeGen/SelectionDAG/DAGCombiner.cpp
+++ lib/CodeGen/SelectionDAG/DAGCombiner.cpp
@@ -409,6 +409,7 @@
     SDValue foldLogicOfSetCCs(bool IsAnd, SDValue N0, SDValue N1,
                               const SDLoc &DL);
     SDValue unfoldMaskedMerge(SDNode *N);
+    SDValue unfoldExtremeBitClearingToShifts(SDNode *N);
     SDValue SimplifySetCC(EVT VT, SDValue N0, SDValue N1, ISD::CondCode Cond,
                           const SDLoc &DL, bool foldBooleans);
     SDValue rebuildSetCC(SDValue N);
@@ -4169,6 +4170,63 @@
   return false;
 }
 
+// Unfold
+//    x &  (-1 'logical shift' y)
+// To
+//    (x 'opposite logical shift' y) 'logical shift' y
+// if it is better for performance.
+SDValue DAGCombiner::unfoldExtremeBitClearingToShifts(SDNode *N) {
+  assert(N->getOpcode() == ISD::AND);
+
+  SDValue N0 = N->getOperand(0);
+  SDValue N1 = N->getOperand(1);
+
+  // Do we actually prefer shifts over mask?
+  if (!TLI.preferShiftsToClearExtremeBits(N0))
+    return SDValue();
+
+  // Try to match  (-1 '[outer] logical shift' y)
+  unsigned OuterShift;
+  unsigned InnerShift; // The opposite direction to the OuterShift.
+  SDValue Y;           // Shift amount.
+  auto matchMask = [&OuterShift, &InnerShift, &Y](SDValue M) -> bool {
+    if (!M.hasOneUse())
+      return false;
+    switch (OuterShift = M->getOpcode()) {
+    case ISD::SHL:
+      InnerShift = ISD::SRL;
+      break;
+    case ISD::SRL:
+      InnerShift = ISD::SHL;
+      break;
+    default:
+      return false;
+    }
+    if (!isAllOnesConstant(M->getOperand(0)))
+      return false;
+    Y = M->getOperand(1);
+    return true;
+  };
+
+  SDValue X;
+  if (matchMask(N1))
+    X = N0;
+  else if (matchMask(N0))
+    X = N1;
+  else
+    return SDValue();
+
+  SDLoc DL(N);
+  EVT VT = N->getValueType(0);
+
+  //     tmp = x   'opposite logical shift' y
+  SDValue T0 = DAG.getNode(InnerShift, DL, VT, X, Y);
+  //     ret = tmp 'logical shift' y
+  SDValue T1 = DAG.getNode(OuterShift, DL, VT, T0, Y);
+
+  return T1;
+}
+
 SDValue DAGCombiner::visitAND(SDNode *N) {
   SDValue N0 = N->getOperand(0);
   SDValue N1 = N->getOperand(1);
@@ -4466,6 +4524,9 @@
       return BSwap;
   }
 
+  if (SDValue Shifts = unfoldExtremeBitClearingToShifts(N))
+    return Shifts;
+
   return SDValue();
 }
 
Index: lib/Target/X86/X86ISelLowering.h
===================================================================
--- lib/Target/X86/X86ISelLowering.h
+++ lib/Target/X86/X86ISelLowering.h
@@ -831,6 +831,8 @@
 
     bool hasAndNot(SDValue Y) const override;
 
+    bool preferShiftsToClearExtremeBits(SDValue Y) const override;
+
     bool convertSetCCLogicToBitwiseLogic(EVT VT) const override {
       return VT.isScalarInteger();
     }
Index: lib/Target/X86/X86ISelLowering.cpp
===================================================================
--- lib/Target/X86/X86ISelLowering.cpp
+++ lib/Target/X86/X86ISelLowering.cpp
@@ -4785,6 +4785,18 @@
   return Subtarget.hasSSE2();
 }
 
+bool X86TargetLowering::preferShiftsToClearExtremeBits(SDValue Y) const {
+  EVT VT = Y.getValueType();
+
+  // For vectors, we don't have a preference, but we probably want a mask.
+  if (VT.isVector())
+    return false;
+
+  // If we have BMI2's SHLX/SHRX Shifts Without Affecting Flags, we prefer them.
+  // There are only 32-bit and 64-bit forms for SHLX/SHRX.
+  return Subtarget.hasBMI2() && (VT == MVT::i32 || VT == MVT::i64);
+}
+
 MVT X86TargetLowering::hasFastEqualityCompare(unsigned NumBits) const {
   MVT VT = MVT::getIntegerVT(NumBits);
   if (isTypeLegal(VT))
Index: lib/Target/X86/X86InstrInfo.td
===================================================================
--- lib/Target/X86/X86InstrInfo.td
+++ lib/Target/X86/X86InstrInfo.td
@@ -2561,6 +2561,15 @@
                  (i8 (trunc (sub 64, GR32:$lz)))),
             (BZHI64rm addr:$src,
               (INSERT_SUBREG (i64 (IMPLICIT_DEF)), GR32:$lz, sub_32bit))>;
+
+  // x << (64 - y) >> (64 - y)
+  def : Pat<(srl (shl GR64:$src, (i8 (trunc (sub 64, GR64:$lz)))),
+                 (i8 (trunc (sub 64, GR64:$lz)))),
+            (BZHI64rr GR64:$src, GR64:$lz)>;
+  def : Pat<(srl (shl (loadi64 addr:$src), (i8 (trunc (sub 64, GR64:$lz)))),
+                 (i8 (trunc (sub 64, GR64:$lz)))),
+            (BZHI64rm addr:$src, GR64:$lz)>;
+
 } // HasBMI2
 
 multiclass bmi_pdep_pext<string mnemonic, RegisterClass RC,
Index: test/CodeGen/X86/clear-highbits.ll
===================================================================
--- test/CodeGen/X86/clear-highbits.ll
+++ test/CodeGen/X86/clear-highbits.ll
@@ -33,9 +33,8 @@
 ; X86-TRANSFORM-LABEL: clear_highbits32_c0:
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shlxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shrxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits32_c0:
@@ -48,9 +47,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits32_c0:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shlxl %esi, %edi, %eax
 ; X64-TRANSFORM-NEXT:    shrxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = lshr i32 -1, %numhighbits
   %masked = and i32 %mask, %val
@@ -69,9 +67,8 @@
 ; X86-TRANSFORM-LABEL: clear_highbits32_c1_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shlxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shrxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits32_c1_indexzext:
@@ -84,9 +81,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits32_c1_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shlxl %esi, %edi, %eax
 ; X64-TRANSFORM-NEXT:    shrxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %sh_prom = zext i8 %numhighbits to i32
   %mask = lshr i32 -1, %sh_prom
@@ -106,11 +102,10 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits32_c2_load:
 ; X86-TRANSFORM:       # %bb.0:
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shrxl %eax, %edx, %eax
-; X86-TRANSFORM-NEXT:    andl (%ecx), %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
+; X86-TRANSFORM-NEXT:    shlxl %ecx, (%eax), %eax
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits32_c2_load:
@@ -123,9 +118,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits32_c2_load:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shlxl %esi, (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    shrxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i32, i32* %w
   %mask = lshr i32 -1, %numhighbits
@@ -145,11 +139,10 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits32_c3_load_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shrxl %eax, %edx, %eax
-; X86-TRANSFORM-NEXT:    andl (%ecx), %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
+; X86-TRANSFORM-NEXT:    shlxl %ecx, (%eax), %eax
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits32_c3_load_indexzext:
@@ -162,9 +155,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits32_c3_load_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shlxl %esi, (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    shrxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i32, i32* %w
   %sh_prom = zext i8 %numhighbits to i32
@@ -185,9 +177,8 @@
 ; X86-TRANSFORM-LABEL: clear_highbits32_c4_commutative:
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shlxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shrxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits32_c4_commutative:
@@ -200,9 +191,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits32_c4_commutative:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shlxl %esi, %edi, %eax
 ; X64-TRANSFORM-NEXT:    shrxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = lshr i32 -1, %numhighbits
   %masked = and i32 %val, %mask ; swapped order
@@ -231,18 +221,37 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits64_c0:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %eax
-; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edx
-; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %eax
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB5_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-TRANSFORM-NEXT:    xorl %edx, %edx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB5_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %eax, %esi
 ; X86-TRANSFORM-NEXT:  .LBB5_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %esi, %eax
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB5_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB5_4:
+; X86-TRANSFORM-NEXT:    shrdl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB5_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %eax
+; X86-TRANSFORM-NEXT:  .LBB5_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits64_c0:
@@ -255,9 +264,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits64_c0:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shlxq %rsi, %rdi, %rax
 ; X64-TRANSFORM-NEXT:    shrxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = lshr i64 -1, %numhighbits
   %masked = and i64 %mask, %val
@@ -284,18 +292,37 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits64_c1_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %eax
-; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edx
-; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %eax
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB6_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-TRANSFORM-NEXT:    xorl %edx, %edx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB6_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %eax, %esi
 ; X86-TRANSFORM-NEXT:  .LBB6_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %esi, %eax
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB6_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB6_4:
+; X86-TRANSFORM-NEXT:    shrdl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB6_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %eax
+; X86-TRANSFORM-NEXT:  .LBB6_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits64_c1_indexzext:
@@ -309,9 +336,8 @@
 ; X64-TRANSFORM-LABEL: clear_highbits64_c1_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    # kill: def $esi killed $esi def $rsi
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shlxq %rsi, %rdi, %rax
 ; X64-TRANSFORM-NEXT:    shrxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %sh_prom = zext i8 %numhighbits to i64
   %mask = lshr i64 -1, %sh_prom
@@ -342,21 +368,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits64_c2_load:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
 ; X86-TRANSFORM-NEXT:    pushl %esi
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %eax
-; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edx
-; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %eax
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB7_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl (%eax), %edx
+; X86-TRANSFORM-NEXT:    movl 4(%eax), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %esi
+; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %eax
 ; X86-TRANSFORM-NEXT:    xorl %edx, %edx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %esi, %edi
+; X86-TRANSFORM-NEXT:    jne .LBB7_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %eax, %edi
 ; X86-TRANSFORM-NEXT:  .LBB7_2:
-; X86-TRANSFORM-NEXT:    andl (%esi), %eax
-; X86-TRANSFORM-NEXT:    andl 4(%esi), %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %edi, %eax
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB7_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl %esi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB7_4:
+; X86-TRANSFORM-NEXT:    shrdl %cl, %edi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB7_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %eax
+; X86-TRANSFORM-NEXT:  .LBB7_6:
 ; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits64_c2_load:
@@ -369,9 +412,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits64_c2_load:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shlxq %rsi, (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    shrxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i64, i64* %w
   %mask = lshr i64 -1, %numhighbits
@@ -402,21 +444,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits64_c3_load_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
 ; X86-TRANSFORM-NEXT:    pushl %esi
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %eax
-; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edx
-; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %eax
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB8_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl (%eax), %edx
+; X86-TRANSFORM-NEXT:    movl 4(%eax), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %esi
+; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %eax
 ; X86-TRANSFORM-NEXT:    xorl %edx, %edx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %esi, %edi
+; X86-TRANSFORM-NEXT:    jne .LBB8_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %eax, %edi
 ; X86-TRANSFORM-NEXT:  .LBB8_2:
-; X86-TRANSFORM-NEXT:    andl (%esi), %eax
-; X86-TRANSFORM-NEXT:    andl 4(%esi), %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %edi, %eax
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB8_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl %esi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB8_4:
+; X86-TRANSFORM-NEXT:    shrdl %cl, %edi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB8_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %eax
+; X86-TRANSFORM-NEXT:  .LBB8_6:
 ; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits64_c3_load_indexzext:
@@ -430,9 +489,8 @@
 ; X64-TRANSFORM-LABEL: clear_highbits64_c3_load_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    # kill: def $esi killed $esi def $rsi
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shlxq %rsi, (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    shrxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i64, i64* %w
   %sh_prom = zext i8 %numhighbits to i64
@@ -461,18 +519,37 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_highbits64_c4_commutative:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %eax
-; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edx
-; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %eax
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB9_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-TRANSFORM-NEXT:    xorl %edx, %edx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB9_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %eax, %esi
 ; X86-TRANSFORM-NEXT:  .LBB9_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %esi, %eax
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB9_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB9_4:
+; X86-TRANSFORM-NEXT:    shrdl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB9_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %eax
+; X86-TRANSFORM-NEXT:  .LBB9_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_highbits64_c4_commutative:
@@ -485,9 +562,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_highbits64_c4_commutative:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shlxq %rsi, %rdi, %rax
 ; X64-TRANSFORM-NEXT:    shrxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = lshr i64 -1, %numhighbits
   %masked = and i64 %val, %mask ; swapped order
Index: test/CodeGen/X86/clear-lowbits.ll
===================================================================
--- test/CodeGen/X86/clear-lowbits.ll
+++ test/CodeGen/X86/clear-lowbits.ll
@@ -33,9 +33,8 @@
 ; X86-TRANSFORM-LABEL: clear_lowbits32_c0:
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shrxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_c0:
@@ -48,9 +47,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits32_c0:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shrxl %esi, %edi, %eax
 ; X64-TRANSFORM-NEXT:    shlxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = shl i32 -1, %numlowbits
   %masked = and i32 %mask, %val
@@ -69,9 +67,8 @@
 ; X86-TRANSFORM-LABEL: clear_lowbits32_c1_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shrxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_c1_indexzext:
@@ -84,9 +81,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits32_c1_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shrxl %esi, %edi, %eax
 ; X64-TRANSFORM-NEXT:    shlxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %sh_prom = zext i8 %numlowbits to i32
   %mask = shl i32 -1, %sh_prom
@@ -106,11 +102,10 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits32_c2_load:
 ; X86-TRANSFORM:       # %bb.0:
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %eax, %edx, %eax
-; X86-TRANSFORM-NEXT:    andl (%ecx), %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
+; X86-TRANSFORM-NEXT:    shrxl %ecx, (%eax), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %eax, %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_c2_load:
@@ -123,9 +118,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits32_c2_load:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shrxl %esi, (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    shlxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i32, i32* %w
   %mask = shl i32 -1, %numlowbits
@@ -145,11 +139,10 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits32_c3_load_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %eax, %edx, %eax
-; X86-TRANSFORM-NEXT:    andl (%ecx), %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
+; X86-TRANSFORM-NEXT:    shrxl %ecx, (%eax), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %eax, %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_c3_load_indexzext:
@@ -162,9 +155,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits32_c3_load_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shrxl %esi, (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    shlxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i32, i32* %w
   %sh_prom = zext i8 %numlowbits to i32
@@ -185,9 +177,8 @@
 ; X86-TRANSFORM-LABEL: clear_lowbits32_c4_commutative:
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shrxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_c4_commutative:
@@ -200,9 +191,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits32_c4_commutative:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movl $-1, %eax
+; X64-TRANSFORM-NEXT:    shrxl %esi, %edi, %eax
 ; X64-TRANSFORM-NEXT:    shlxl %esi, %eax, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = shl i32 -1, %numlowbits
   %masked = and i32 %val, %mask ; swapped order
@@ -231,18 +221,37 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_c0:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB5_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB5_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB5_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB5_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB5_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB5_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB5_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_c0:
@@ -255,9 +264,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits64_c0:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shrxq %rsi, %rdi, %rax
 ; X64-TRANSFORM-NEXT:    shlxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = shl i64 -1, %numlowbits
   %masked = and i64 %mask, %val
@@ -284,18 +292,37 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_c1_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB6_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB6_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB6_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB6_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB6_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB6_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB6_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_c1_indexzext:
@@ -309,9 +336,8 @@
 ; X64-TRANSFORM-LABEL: clear_lowbits64_c1_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    # kill: def $esi killed $esi def $rsi
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shrxq %rsi, %rdi, %rax
 ; X64-TRANSFORM-NEXT:    shlxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %sh_prom = zext i8 %numlowbits to i64
   %mask = shl i64 -1, %sh_prom
@@ -342,21 +368,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_c2_load:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
 ; X86-TRANSFORM-NEXT:    pushl %esi
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB7_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl (%eax), %edx
+; X86-TRANSFORM-NEXT:    movl 4(%eax), %eax
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %esi
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %esi, %edi
+; X86-TRANSFORM-NEXT:    jne .LBB7_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %edi
 ; X86-TRANSFORM-NEXT:  .LBB7_2:
-; X86-TRANSFORM-NEXT:    andl 4(%esi), %edx
-; X86-TRANSFORM-NEXT:    andl (%esi), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB7_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %esi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB7_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %edi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB7_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB7_6:
 ; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_c2_load:
@@ -369,9 +412,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits64_c2_load:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shrxq %rsi, (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    shlxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i64, i64* %w
   %mask = shl i64 -1, %numlowbits
@@ -402,21 +444,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_c3_load_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
 ; X86-TRANSFORM-NEXT:    pushl %esi
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB8_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl (%eax), %edx
+; X86-TRANSFORM-NEXT:    movl 4(%eax), %eax
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %esi
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %esi, %edi
+; X86-TRANSFORM-NEXT:    jne .LBB8_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %edi
 ; X86-TRANSFORM-NEXT:  .LBB8_2:
-; X86-TRANSFORM-NEXT:    andl 4(%esi), %edx
-; X86-TRANSFORM-NEXT:    andl (%esi), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %edi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB8_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %esi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB8_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %edi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB8_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB8_6:
 ; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_c3_load_indexzext:
@@ -430,9 +489,8 @@
 ; X64-TRANSFORM-LABEL: clear_lowbits64_c3_load_indexzext:
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    # kill: def $esi killed $esi def $rsi
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shrxq %rsi, (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    shlxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i64, i64* %w
   %sh_prom = zext i8 %numlowbits to i64
@@ -461,18 +519,37 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_c4_commutative:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
 ; X86-TRANSFORM-NEXT:    movb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB9_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB9_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB9_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB9_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB9_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB9_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB9_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_c4_commutative:
@@ -485,9 +562,8 @@
 ;
 ; X64-TRANSFORM-LABEL: clear_lowbits64_c4_commutative:
 ; X64-TRANSFORM:       # %bb.0:
-; X64-TRANSFORM-NEXT:    movq $-1, %rax
+; X64-TRANSFORM-NEXT:    shrxq %rsi, %rdi, %rax
 ; X64-TRANSFORM-NEXT:    shlxq %rsi, %rax, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %mask = shl i64 -1, %numlowbits
   %masked = and i64 %val, %mask ; swapped order
@@ -513,9 +589,8 @@
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movl $32, %eax
 ; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %eax
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shrxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_ic0:
@@ -532,9 +607,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movl $32, %eax
 ; X64-TRANSFORM-NEXT:    subl %esi, %eax
-; X64-TRANSFORM-NEXT:    movl $-1, %ecx
+; X64-TRANSFORM-NEXT:    shrxl %eax, %edi, %ecx
 ; X64-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %numhighbits = sub i32 32, %numlowbits
   %mask = shl i32 -1, %numhighbits
@@ -556,9 +630,8 @@
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movb $32, %al
 ; X86-TRANSFORM-NEXT:    subb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shrxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_ic1_indexzext:
@@ -574,9 +647,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movb $32, %al
 ; X64-TRANSFORM-NEXT:    subb %sil, %al
-; X64-TRANSFORM-NEXT:    movl $-1, %ecx
+; X64-TRANSFORM-NEXT:    shrxl %eax, %edi, %ecx
 ; X64-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %numhighbits = sub i8 32, %numlowbits
   %sh_prom = zext i8 %numhighbits to i32
@@ -599,12 +671,11 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits32_ic2_load:
 ; X86-TRANSFORM:       # %bb.0:
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movl $32, %eax
-; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %eax
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %eax, %edx, %eax
-; X86-TRANSFORM-NEXT:    andl (%ecx), %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl $32, %ecx
+; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %ecx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, (%eax), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %eax, %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_ic2_load:
@@ -621,9 +692,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movl $32, %eax
 ; X64-TRANSFORM-NEXT:    subl %esi, %eax
-; X64-TRANSFORM-NEXT:    movl $-1, %ecx
+; X64-TRANSFORM-NEXT:    shrxl %eax, (%rdi), %ecx
 ; X64-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X64-TRANSFORM-NEXT:    andl (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i32, i32* %w
   %numhighbits = sub i32 32, %numlowbits
@@ -645,12 +715,11 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits32_ic3_load_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movb $32, %al
-; X86-TRANSFORM-NEXT:    subb {{[0-9]+}}(%esp), %al
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %eax, %edx, %eax
-; X86-TRANSFORM-NEXT:    andl (%ecx), %eax
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movb $32, %cl
+; X86-TRANSFORM-NEXT:    subb {{[0-9]+}}(%esp), %cl
+; X86-TRANSFORM-NEXT:    shrxl %ecx, (%eax), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %eax, %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_ic3_load_indexzext:
@@ -666,9 +735,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movb $32, %al
 ; X64-TRANSFORM-NEXT:    subb %sil, %al
-; X64-TRANSFORM-NEXT:    movl $-1, %ecx
+; X64-TRANSFORM-NEXT:    shrxl %eax, (%rdi), %ecx
 ; X64-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X64-TRANSFORM-NEXT:    andl (%rdi), %eax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i32, i32* %w
   %numhighbits = sub i8 32, %numlowbits
@@ -693,9 +761,8 @@
 ; X86-TRANSFORM:       # %bb.0:
 ; X86-TRANSFORM-NEXT:    movl $32, %eax
 ; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %eax
-; X86-TRANSFORM-NEXT:    movl $-1, %ecx
+; X86-TRANSFORM-NEXT:    shrxl %eax, {{[0-9]+}}(%esp), %ecx
 ; X86-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits32_ic4_commutative:
@@ -712,9 +779,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movl $32, %eax
 ; X64-TRANSFORM-NEXT:    subl %esi, %eax
-; X64-TRANSFORM-NEXT:    movl $-1, %ecx
+; X64-TRANSFORM-NEXT:    shrxl %eax, %edi, %ecx
 ; X64-TRANSFORM-NEXT:    shlxl %eax, %ecx, %eax
-; X64-TRANSFORM-NEXT:    andl %edi, %eax
 ; X64-TRANSFORM-NEXT:    retq
   %numhighbits = sub i32 32, %numlowbits
   %mask = shl i32 -1, %numhighbits
@@ -745,19 +811,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_ic0:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    movl $64, %ecx
 ; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB15_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB15_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB15_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB15_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB15_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB15_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB15_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_ic0:
@@ -774,9 +859,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movl $64, %eax
 ; X64-TRANSFORM-NEXT:    subl %esi, %eax
-; X64-TRANSFORM-NEXT:    movq $-1, %rcx
+; X64-TRANSFORM-NEXT:    shrxq %rax, %rdi, %rcx
 ; X64-TRANSFORM-NEXT:    shlxq %rax, %rcx, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %numhighbits = sub i64 64, %numlowbits
   %mask = shl i64 -1, %numhighbits
@@ -805,19 +889,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_ic1_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    movb $64, %cl
 ; X86-TRANSFORM-NEXT:    subb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB16_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB16_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB16_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB16_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB16_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB16_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB16_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_ic1_indexzext:
@@ -833,9 +936,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movb $64, %al
 ; X64-TRANSFORM-NEXT:    subb %sil, %al
-; X64-TRANSFORM-NEXT:    movq $-1, %rcx
+; X64-TRANSFORM-NEXT:    shrxq %rax, %rdi, %rcx
 ; X64-TRANSFORM-NEXT:    shlxq %rax, %rcx, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %numhighbits = sub i8 64, %numlowbits
   %sh_prom = zext i8 %numhighbits to i64
@@ -868,22 +970,39 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_ic2_load:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
 ; X86-TRANSFORM-NEXT:    pushl %esi
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl (%eax), %edx
+; X86-TRANSFORM-NEXT:    movl 4(%eax), %eax
 ; X86-TRANSFORM-NEXT:    movl $64, %ecx
 ; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB17_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB17_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB17_2:
-; X86-TRANSFORM-NEXT:    andl 4(%esi), %edx
-; X86-TRANSFORM-NEXT:    andl (%esi), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB17_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB17_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB17_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB17_6:
 ; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_ic2_load:
@@ -900,9 +1019,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movl $64, %eax
 ; X64-TRANSFORM-NEXT:    subl %esi, %eax
-; X64-TRANSFORM-NEXT:    movq $-1, %rcx
+; X64-TRANSFORM-NEXT:    shrxq %rax, (%rdi), %rcx
 ; X64-TRANSFORM-NEXT:    shlxq %rax, %rcx, %rax
-; X64-TRANSFORM-NEXT:    andq (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i64, i64* %w
   %numhighbits = sub i64 64, %numlowbits
@@ -935,22 +1053,39 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_ic3_load_indexzext:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
 ; X86-TRANSFORM-NEXT:    pushl %esi
-; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    movl (%eax), %edx
+; X86-TRANSFORM-NEXT:    movl 4(%eax), %eax
 ; X86-TRANSFORM-NEXT:    movb $64, %cl
 ; X86-TRANSFORM-NEXT:    subb {{[0-9]+}}(%esp), %cl
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB18_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB18_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB18_2:
-; X86-TRANSFORM-NEXT:    andl 4(%esi), %edx
-; X86-TRANSFORM-NEXT:    andl (%esi), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB18_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB18_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB18_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB18_6:
 ; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_ic3_load_indexzext:
@@ -966,9 +1101,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movb $64, %al
 ; X64-TRANSFORM-NEXT:    subb %sil, %al
-; X64-TRANSFORM-NEXT:    movq $-1, %rcx
+; X64-TRANSFORM-NEXT:    shrxq %rax, (%rdi), %rcx
 ; X64-TRANSFORM-NEXT:    shlxq %rax, %rcx, %rax
-; X64-TRANSFORM-NEXT:    andq (%rdi), %rax
 ; X64-TRANSFORM-NEXT:    retq
   %val = load i64, i64* %w
   %numhighbits = sub i8 64, %numlowbits
@@ -999,19 +1133,38 @@
 ;
 ; X86-TRANSFORM-LABEL: clear_lowbits64_ic4_commutative:
 ; X86-TRANSFORM:       # %bb.0:
+; X86-TRANSFORM-NEXT:    pushl %ebx
+; X86-TRANSFORM-NEXT:    pushl %edi
+; X86-TRANSFORM-NEXT:    pushl %esi
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-TRANSFORM-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-TRANSFORM-NEXT:    movl $64, %ecx
 ; X86-TRANSFORM-NEXT:    subl {{[0-9]+}}(%esp), %ecx
-; X86-TRANSFORM-NEXT:    movl $-1, %edx
-; X86-TRANSFORM-NEXT:    shlxl %ecx, %edx, %eax
-; X86-TRANSFORM-NEXT:    shldl %cl, %edx, %edx
-; X86-TRANSFORM-NEXT:    testb $32, %cl
-; X86-TRANSFORM-NEXT:    je .LBB19_2
-; X86-TRANSFORM-NEXT:  # %bb.1:
-; X86-TRANSFORM-NEXT:    movl %eax, %edx
+; X86-TRANSFORM-NEXT:    shrdl %cl, %eax, %edx
+; X86-TRANSFORM-NEXT:    shrxl %ecx, %eax, %edi
 ; X86-TRANSFORM-NEXT:    xorl %eax, %eax
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    movl %edi, %esi
+; X86-TRANSFORM-NEXT:    jne .LBB19_2
+; X86-TRANSFORM-NEXT:  # %bb.1:
+; X86-TRANSFORM-NEXT:    movl %edx, %esi
 ; X86-TRANSFORM-NEXT:  .LBB19_2:
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %edx
-; X86-TRANSFORM-NEXT:    andl {{[0-9]+}}(%esp), %eax
+; X86-TRANSFORM-NEXT:    shlxl %ecx, %esi, %edx
+; X86-TRANSFORM-NEXT:    movl $0, %ebx
+; X86-TRANSFORM-NEXT:    jne .LBB19_4
+; X86-TRANSFORM-NEXT:  # %bb.3:
+; X86-TRANSFORM-NEXT:    movl %edx, %eax
+; X86-TRANSFORM-NEXT:    movl %edi, %ebx
+; X86-TRANSFORM-NEXT:  .LBB19_4:
+; X86-TRANSFORM-NEXT:    shldl %cl, %esi, %ebx
+; X86-TRANSFORM-NEXT:    testb $32, %cl
+; X86-TRANSFORM-NEXT:    jne .LBB19_6
+; X86-TRANSFORM-NEXT:  # %bb.5:
+; X86-TRANSFORM-NEXT:    movl %ebx, %edx
+; X86-TRANSFORM-NEXT:  .LBB19_6:
+; X86-TRANSFORM-NEXT:    popl %esi
+; X86-TRANSFORM-NEXT:    popl %edi
+; X86-TRANSFORM-NEXT:    popl %ebx
 ; X86-TRANSFORM-NEXT:    retl
 ;
 ; X64-NOTRANSFORM-LABEL: clear_lowbits64_ic4_commutative:
@@ -1028,9 +1181,8 @@
 ; X64-TRANSFORM:       # %bb.0:
 ; X64-TRANSFORM-NEXT:    movl $64, %eax
 ; X64-TRANSFORM-NEXT:    subl %esi, %eax
-; X64-TRANSFORM-NEXT:    movq $-1, %rcx
+; X64-TRANSFORM-NEXT:    shrxq %rax, %rdi, %rcx
 ; X64-TRANSFORM-NEXT:    shlxq %rax, %rcx, %rax
-; X64-TRANSFORM-NEXT:    andq %rdi, %rax
 ; X64-TRANSFORM-NEXT:    retq
   %numhighbits = sub i64 64, %numlowbits
   %mask = shl i64 -1, %numhighbits
Index: test/CodeGen/X86/extract-lowbits.ll
===================================================================
--- test/CodeGen/X86/extract-lowbits.ll
+++ test/CodeGen/X86/extract-lowbits.ll
@@ -1224,19 +1224,38 @@
 ;
 ; X86-BMI1BMI2-LABEL: bzhi64_c0:
 ; X86-BMI1BMI2:       # %bb.0:
+; X86-BMI1BMI2-NEXT:    pushl %ebx
+; X86-BMI1BMI2-NEXT:    pushl %edi
+; X86-BMI1BMI2-NEXT:    pushl %esi
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-BMI1BMI2-NEXT:    movl $64, %ecx
 ; X86-BMI1BMI2-NEXT:    subl {{[0-9]+}}(%esp), %ecx
-; X86-BMI1BMI2-NEXT:    movl $-1, %eax
-; X86-BMI1BMI2-NEXT:    shrxl %ecx, %eax, %edx
-; X86-BMI1BMI2-NEXT:    shrdl %cl, %eax, %eax
-; X86-BMI1BMI2-NEXT:    testb $32, %cl
-; X86-BMI1BMI2-NEXT:    je .LBB25_2
-; X86-BMI1BMI2-NEXT:  # %bb.1:
-; X86-BMI1BMI2-NEXT:    movl %edx, %eax
+; X86-BMI1BMI2-NEXT:    shldl %cl, %edx, %eax
+; X86-BMI1BMI2-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-BMI1BMI2-NEXT:    xorl %edx, %edx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    movl %edi, %esi
+; X86-BMI1BMI2-NEXT:    jne .LBB25_2
+; X86-BMI1BMI2-NEXT:  # %bb.1:
+; X86-BMI1BMI2-NEXT:    movl %eax, %esi
 ; X86-BMI1BMI2-NEXT:  .LBB25_2:
-; X86-BMI1BMI2-NEXT:    andl {{[0-9]+}}(%esp), %eax
-; X86-BMI1BMI2-NEXT:    andl {{[0-9]+}}(%esp), %edx
+; X86-BMI1BMI2-NEXT:    shrxl %ecx, %esi, %eax
+; X86-BMI1BMI2-NEXT:    movl $0, %ebx
+; X86-BMI1BMI2-NEXT:    jne .LBB25_4
+; X86-BMI1BMI2-NEXT:  # %bb.3:
+; X86-BMI1BMI2-NEXT:    movl %eax, %edx
+; X86-BMI1BMI2-NEXT:    movl %edi, %ebx
+; X86-BMI1BMI2-NEXT:  .LBB25_4:
+; X86-BMI1BMI2-NEXT:    shrdl %cl, %esi, %ebx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    jne .LBB25_6
+; X86-BMI1BMI2-NEXT:  # %bb.5:
+; X86-BMI1BMI2-NEXT:    movl %ebx, %eax
+; X86-BMI1BMI2-NEXT:  .LBB25_6:
+; X86-BMI1BMI2-NEXT:    popl %esi
+; X86-BMI1BMI2-NEXT:    popl %edi
+; X86-BMI1BMI2-NEXT:    popl %ebx
 ; X86-BMI1BMI2-NEXT:    retl
 ;
 ; X64-NOBMI-LABEL: bzhi64_c0:
@@ -1280,19 +1299,38 @@
 ;
 ; X86-BMI1BMI2-LABEL: bzhi64_c1_indexzext:
 ; X86-BMI1BMI2:       # %bb.0:
+; X86-BMI1BMI2-NEXT:    pushl %ebx
+; X86-BMI1BMI2-NEXT:    pushl %edi
+; X86-BMI1BMI2-NEXT:    pushl %esi
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-BMI1BMI2-NEXT:    movb $64, %cl
 ; X86-BMI1BMI2-NEXT:    subb {{[0-9]+}}(%esp), %cl
-; X86-BMI1BMI2-NEXT:    movl $-1, %eax
-; X86-BMI1BMI2-NEXT:    shrxl %ecx, %eax, %edx
-; X86-BMI1BMI2-NEXT:    shrdl %cl, %eax, %eax
-; X86-BMI1BMI2-NEXT:    testb $32, %cl
-; X86-BMI1BMI2-NEXT:    je .LBB26_2
-; X86-BMI1BMI2-NEXT:  # %bb.1:
-; X86-BMI1BMI2-NEXT:    movl %edx, %eax
+; X86-BMI1BMI2-NEXT:    shldl %cl, %edx, %eax
+; X86-BMI1BMI2-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-BMI1BMI2-NEXT:    xorl %edx, %edx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    movl %edi, %esi
+; X86-BMI1BMI2-NEXT:    jne .LBB26_2
+; X86-BMI1BMI2-NEXT:  # %bb.1:
+; X86-BMI1BMI2-NEXT:    movl %eax, %esi
 ; X86-BMI1BMI2-NEXT:  .LBB26_2:
-; X86-BMI1BMI2-NEXT:    andl {{[0-9]+}}(%esp), %eax
-; X86-BMI1BMI2-NEXT:    andl {{[0-9]+}}(%esp), %edx
+; X86-BMI1BMI2-NEXT:    shrxl %ecx, %esi, %eax
+; X86-BMI1BMI2-NEXT:    movl $0, %ebx
+; X86-BMI1BMI2-NEXT:    jne .LBB26_4
+; X86-BMI1BMI2-NEXT:  # %bb.3:
+; X86-BMI1BMI2-NEXT:    movl %eax, %edx
+; X86-BMI1BMI2-NEXT:    movl %edi, %ebx
+; X86-BMI1BMI2-NEXT:  .LBB26_4:
+; X86-BMI1BMI2-NEXT:    shrdl %cl, %esi, %ebx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    jne .LBB26_6
+; X86-BMI1BMI2-NEXT:  # %bb.5:
+; X86-BMI1BMI2-NEXT:    movl %ebx, %eax
+; X86-BMI1BMI2-NEXT:  .LBB26_6:
+; X86-BMI1BMI2-NEXT:    popl %esi
+; X86-BMI1BMI2-NEXT:    popl %edi
+; X86-BMI1BMI2-NEXT:    popl %ebx
 ; X86-BMI1BMI2-NEXT:    retl
 ;
 ; X64-NOBMI-LABEL: bzhi64_c1_indexzext:
@@ -1340,22 +1378,39 @@
 ;
 ; X86-BMI1BMI2-LABEL: bzhi64_c2_load:
 ; X86-BMI1BMI2:       # %bb.0:
+; X86-BMI1BMI2-NEXT:    pushl %ebx
+; X86-BMI1BMI2-NEXT:    pushl %edi
 ; X86-BMI1BMI2-NEXT:    pushl %esi
-; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-BMI1BMI2-NEXT:    movl (%eax), %edx
+; X86-BMI1BMI2-NEXT:    movl 4(%eax), %eax
 ; X86-BMI1BMI2-NEXT:    movl $64, %ecx
 ; X86-BMI1BMI2-NEXT:    subl {{[0-9]+}}(%esp), %ecx
-; X86-BMI1BMI2-NEXT:    movl $-1, %eax
-; X86-BMI1BMI2-NEXT:    shrxl %ecx, %eax, %edx
-; X86-BMI1BMI2-NEXT:    shrdl %cl, %eax, %eax
-; X86-BMI1BMI2-NEXT:    testb $32, %cl
-; X86-BMI1BMI2-NEXT:    je .LBB27_2
-; X86-BMI1BMI2-NEXT:  # %bb.1:
-; X86-BMI1BMI2-NEXT:    movl %edx, %eax
+; X86-BMI1BMI2-NEXT:    shldl %cl, %edx, %eax
+; X86-BMI1BMI2-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-BMI1BMI2-NEXT:    xorl %edx, %edx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    movl %edi, %esi
+; X86-BMI1BMI2-NEXT:    jne .LBB27_2
+; X86-BMI1BMI2-NEXT:  # %bb.1:
+; X86-BMI1BMI2-NEXT:    movl %eax, %esi
 ; X86-BMI1BMI2-NEXT:  .LBB27_2:
-; X86-BMI1BMI2-NEXT:    andl (%esi), %eax
-; X86-BMI1BMI2-NEXT:    andl 4(%esi), %edx
+; X86-BMI1BMI2-NEXT:    shrxl %ecx, %esi, %eax
+; X86-BMI1BMI2-NEXT:    movl $0, %ebx
+; X86-BMI1BMI2-NEXT:    jne .LBB27_4
+; X86-BMI1BMI2-NEXT:  # %bb.3:
+; X86-BMI1BMI2-NEXT:    movl %eax, %edx
+; X86-BMI1BMI2-NEXT:    movl %edi, %ebx
+; X86-BMI1BMI2-NEXT:  .LBB27_4:
+; X86-BMI1BMI2-NEXT:    shrdl %cl, %esi, %ebx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    jne .LBB27_6
+; X86-BMI1BMI2-NEXT:  # %bb.5:
+; X86-BMI1BMI2-NEXT:    movl %ebx, %eax
+; X86-BMI1BMI2-NEXT:  .LBB27_6:
 ; X86-BMI1BMI2-NEXT:    popl %esi
+; X86-BMI1BMI2-NEXT:    popl %edi
+; X86-BMI1BMI2-NEXT:    popl %ebx
 ; X86-BMI1BMI2-NEXT:    retl
 ;
 ; X64-NOBMI-LABEL: bzhi64_c2_load:
@@ -1403,22 +1458,39 @@
 ;
 ; X86-BMI1BMI2-LABEL: bzhi64_c3_load_indexzext:
 ; X86-BMI1BMI2:       # %bb.0:
+; X86-BMI1BMI2-NEXT:    pushl %ebx
+; X86-BMI1BMI2-NEXT:    pushl %edi
 ; X86-BMI1BMI2-NEXT:    pushl %esi
-; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %esi
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %eax
+; X86-BMI1BMI2-NEXT:    movl (%eax), %edx
+; X86-BMI1BMI2-NEXT:    movl 4(%eax), %eax
 ; X86-BMI1BMI2-NEXT:    movb $64, %cl
 ; X86-BMI1BMI2-NEXT:    subb {{[0-9]+}}(%esp), %cl
-; X86-BMI1BMI2-NEXT:    movl $-1, %eax
-; X86-BMI1BMI2-NEXT:    shrxl %ecx, %eax, %edx
-; X86-BMI1BMI2-NEXT:    shrdl %cl, %eax, %eax
-; X86-BMI1BMI2-NEXT:    testb $32, %cl
-; X86-BMI1BMI2-NEXT:    je .LBB28_2
-; X86-BMI1BMI2-NEXT:  # %bb.1:
-; X86-BMI1BMI2-NEXT:    movl %edx, %eax
+; X86-BMI1BMI2-NEXT:    shldl %cl, %edx, %eax
+; X86-BMI1BMI2-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-BMI1BMI2-NEXT:    xorl %edx, %edx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    movl %edi, %esi
+; X86-BMI1BMI2-NEXT:    jne .LBB28_2
+; X86-BMI1BMI2-NEXT:  # %bb.1:
+; X86-BMI1BMI2-NEXT:    movl %eax, %esi
 ; X86-BMI1BMI2-NEXT:  .LBB28_2:
-; X86-BMI1BMI2-NEXT:    andl (%esi), %eax
-; X86-BMI1BMI2-NEXT:    andl 4(%esi), %edx
+; X86-BMI1BMI2-NEXT:    shrxl %ecx, %esi, %eax
+; X86-BMI1BMI2-NEXT:    movl $0, %ebx
+; X86-BMI1BMI2-NEXT:    jne .LBB28_4
+; X86-BMI1BMI2-NEXT:  # %bb.3:
+; X86-BMI1BMI2-NEXT:    movl %eax, %edx
+; X86-BMI1BMI2-NEXT:    movl %edi, %ebx
+; X86-BMI1BMI2-NEXT:  .LBB28_4:
+; X86-BMI1BMI2-NEXT:    shrdl %cl, %esi, %ebx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    jne .LBB28_6
+; X86-BMI1BMI2-NEXT:  # %bb.5:
+; X86-BMI1BMI2-NEXT:    movl %ebx, %eax
+; X86-BMI1BMI2-NEXT:  .LBB28_6:
 ; X86-BMI1BMI2-NEXT:    popl %esi
+; X86-BMI1BMI2-NEXT:    popl %edi
+; X86-BMI1BMI2-NEXT:    popl %ebx
 ; X86-BMI1BMI2-NEXT:    retl
 ;
 ; X64-NOBMI-LABEL: bzhi64_c3_load_indexzext:
@@ -1464,19 +1536,38 @@
 ;
 ; X86-BMI1BMI2-LABEL: bzhi64_c4_commutative:
 ; X86-BMI1BMI2:       # %bb.0:
+; X86-BMI1BMI2-NEXT:    pushl %ebx
+; X86-BMI1BMI2-NEXT:    pushl %edi
+; X86-BMI1BMI2-NEXT:    pushl %esi
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %edx
+; X86-BMI1BMI2-NEXT:    movl {{[0-9]+}}(%esp), %eax
 ; X86-BMI1BMI2-NEXT:    movl $64, %ecx
 ; X86-BMI1BMI2-NEXT:    subl {{[0-9]+}}(%esp), %ecx
-; X86-BMI1BMI2-NEXT:    movl $-1, %eax
-; X86-BMI1BMI2-NEXT:    shrxl %ecx, %eax, %edx
-; X86-BMI1BMI2-NEXT:    shrdl %cl, %eax, %eax
-; X86-BMI1BMI2-NEXT:    testb $32, %cl
-; X86-BMI1BMI2-NEXT:    je .LBB29_2
-; X86-BMI1BMI2-NEXT:  # %bb.1:
-; X86-BMI1BMI2-NEXT:    movl %edx, %eax
+; X86-BMI1BMI2-NEXT:    shldl %cl, %edx, %eax
+; X86-BMI1BMI2-NEXT:    shlxl %ecx, %edx, %edi
 ; X86-BMI1BMI2-NEXT:    xorl %edx, %edx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    movl %edi, %esi
+; X86-BMI1BMI2-NEXT:    jne .LBB29_2
+; X86-BMI1BMI2-NEXT:  # %bb.1:
+; X86-BMI1BMI2-NEXT:    movl %eax, %esi
 ; X86-BMI1BMI2-NEXT:  .LBB29_2:
-; X86-BMI1BMI2-NEXT:    andl {{[0-9]+}}(%esp), %eax
-; X86-BMI1BMI2-NEXT:    andl {{[0-9]+}}(%esp), %edx
+; X86-BMI1BMI2-NEXT:    shrxl %ecx, %esi, %eax
+; X86-BMI1BMI2-NEXT:    movl $0, %ebx
+; X86-BMI1BMI2-NEXT:    jne .LBB29_4
+; X86-BMI1BMI2-NEXT:  # %bb.3:
+; X86-BMI1BMI2-NEXT:    movl %eax, %edx
+; X86-BMI1BMI2-NEXT:    movl %edi, %ebx
+; X86-BMI1BMI2-NEXT:  .LBB29_4:
+; X86-BMI1BMI2-NEXT:    shrdl %cl, %esi, %ebx
+; X86-BMI1BMI2-NEXT:    testb $32, %cl
+; X86-BMI1BMI2-NEXT:    jne .LBB29_6
+; X86-BMI1BMI2-NEXT:  # %bb.5:
+; X86-BMI1BMI2-NEXT:    movl %ebx, %eax
+; X86-BMI1BMI2-NEXT:  .LBB29_6:
+; X86-BMI1BMI2-NEXT:    popl %esi
+; X86-BMI1BMI2-NEXT:    popl %edi
+; X86-BMI1BMI2-NEXT:    popl %ebx
 ; X86-BMI1BMI2-NEXT:    retl
 ;
 ; X64-NOBMI-LABEL: bzhi64_c4_commutative: