Fix cg_clif implementation

sayantn · sayantn · commit c5093a2c685e · 2025-08-28T06:02:01.000+05:30
diff --git a/compiler/rustc_codegen_cranelift/src/intrinsics/mod.rs b/compiler/rustc_codegen_cranelift/src/intrinsics/mod.rs
@@ -659,8 +659,7 @@ fn codegen_regular_intrinsic_call<'tcx>(
             intrinsic_args!(fx, args => (x, y, z); intrinsic);
             let layout = x.layout();
 
-            let width_bits = layout.size.bits() as u64;
-            let width_bits = fx.bcx.ins().iconst(types::I32, width_bits as i64);
+            let width_bits = layout.size.bits() as i64;
 
             let lhs_bits = x.load_scalar(fx);
             let rhs_bits = y.load_scalar(fx);
@@ -669,17 +668,16 @@ fn codegen_regular_intrinsic_call<'tcx>(
             let ty = fx.bcx.func.dfg.value_type(lhs_bits);
             let zero = fx.bcx.ins().iconst(ty, 0);
 
-            let shift_bits = fx.bcx.ins().urem(raw_shift_bits, width_bits);
+            let shift_bits = fx.bcx.ins().band_imm(raw_shift_bits, width_bits - 1);
+            let inv_shift_bits = fx.bcx.ins().irsub_imm(shift_bits, width_bits);
+            let is_zero = fx.bcx.ins().icmp_imm(IntCC::Equal, shift_bits, 0);
 
             // lhs_bits << shift_bits
             let shl = fx.bcx.ins().ishl(lhs_bits, shift_bits);
 
-            let inv_shift_bits = fx.bcx.ins().isub(width_bits, shift_bits);
-
-            // rhs_bits.bounded_shr(inv_shift_bits)
-            let inv_shift_bits_mod = fx.bcx.ins().urem(inv_shift_bits, width_bits);
-            let shr = fx.bcx.ins().ushr(rhs_bits, inv_shift_bits_mod);
-            let is_zero = fx.bcx.ins().icmp(IntCC::Equal, inv_shift_bits_mod, zero);
+            // rhs_bits.unbounded_shr(inv_shift_bits)
+            // we don't need a modulo here because `ushr` implicitly does it
+            let shr = fx.bcx.ins().ushr(rhs_bits, inv_shift_bits);
             let shr = fx.bcx.ins().select(is_zero, zero, shr);
 
             let res = fx.bcx.ins().bor(shr, shl);
@@ -689,8 +687,7 @@ fn codegen_regular_intrinsic_call<'tcx>(
             intrinsic_args!(fx, args => (x, y, z); intrinsic);
             let layout = x.layout();
 
-            let width_bits = layout.size.bits() as u64;
-            let width_bits = fx.bcx.ins().iconst(types::I32, width_bits as i64);
+            let width_bits = layout.size.bits() as i64;
 
             let lhs_bits = x.load_scalar(fx);
             let rhs_bits = y.load_scalar(fx);
@@ -699,17 +696,16 @@ fn codegen_regular_intrinsic_call<'tcx>(
             let ty = fx.bcx.func.dfg.value_type(lhs_bits);
             let zero = fx.bcx.ins().iconst(ty, 0);
 
-            let shift_bits = fx.bcx.ins().urem(raw_shift_bits, width_bits);
+            let shift_bits = fx.bcx.ins().band_imm(raw_shift_bits, width_bits - 1);
+            let inv_shift_bits = fx.bcx.ins().irsub_imm(shift_bits, width_bits);
+            let is_zero = fx.bcx.ins().icmp_imm(IntCC::Equal, shift_bits, 0);
 
             // rhs_bits >> shift_bits
             let shr = fx.bcx.ins().ushr(rhs_bits, shift_bits);
 
-            let inv_shift_bits = fx.bcx.ins().isub(width_bits, shift_bits);
-
-            // lhs_bits.bounded_shl(inv_shift_bits)
-            let inv_shift_bits_mod = fx.bcx.ins().urem(inv_shift_bits, width_bits);
-            let shl = fx.bcx.ins().ishl(lhs_bits, inv_shift_bits_mod);
-            let is_zero = fx.bcx.ins().icmp(IntCC::Equal, inv_shift_bits_mod, zero);
+            // lhs_bits.unbounded_shl(inv_shift_bits)
+            // we don't need a modulo here because `ishl` implicitly does it
+            let shl = fx.bcx.ins().ishl(lhs_bits, inv_shift_bits);
             let shl = fx.bcx.ins().select(is_zero, zero, shl);
 
             let res = fx.bcx.ins().bor(shr, shl);