issue/170: modified Hess

xgqdut2016 · xgqdut2016 · commit 72595937ac7e · 2025-04-30T16:02:20.000+08:00
diff --git a/src/infiniop/ops/matmul_gptq/cpu/matmul_gptq_cpu.cc b/src/infiniop/ops/matmul_gptq/cpu/matmul_gptq_cpu.cc
@@ -275,7 +275,8 @@ void fasterquant(T *weight, T *Q, T *Err, T *b_scale, T *zero, float *Hess,
 }
 
 void PackQuantizedWeight(fp16_t *Q, fp16_t *b_scale, fp16_t *zero,
-                         int32_t *packed_weight, int K, int N, int group_size) {
+                         int32_t *packed_weight, int K, int N, int group_size, int bits = 4) {
+    int maxq = int(std::pow(2, bits) - 1);
     int num_groups = (group_size == -1) ? 1 : K / group_size;
     int blocks_per_group = (group_size == -1) ? K / 8 : group_size / 8;
 
@@ -297,7 +298,7 @@ void PackQuantizedWeight(fp16_t *Q, fp16_t *b_scale, fp16_t *zero,
             int k = row_base + i;
             float val = utils::cast<float>(Q[n * K + k]); // Q: [N, K]
             int q = static_cast<int>(std::roundf(val / scale + zero_f));
-            q = std::max(0, std::min(15, q)); // clamp to [0, 15]
+            q = std::max(0, std::min(maxq, q)); // clamp to [0, maxq]
             packed |= (q & 0xF) << (i * 4);
         }
 
@@ -364,14 +365,15 @@ void quantWeights(void *workspace, int32_t *packed_weights,
     fp16_t *Q = (fp16_t *)tmp;        //[N, K]
     fp16_t *weight = Q + N * K;       //[N, K]
     fp16_t *Err = weight + N * K;     //[N, blocksize=128]
+    memset(Hess, 0, sizeof(float) * K * K);
     memcpy(weight, B, N * K * sizeof(fp16_t));
     add_batch<fp16_t>(A, Hess, nsamples, M, K);
     fasterquant<fp16_t>(weight, Q, Err, b_scale, zero, Hess,
                         M, K, N,
                         blocksize, percdamp, group_size,
                         bits, sym, mse,
                         norm, grid, maxshrink);
-    PackQuantizedWeight(Q, b_scale, zero, packed_weights, K, N, group_size);
+    PackQuantizedWeight(Q, b_scale, zero, packed_weights, K, N, group_size, bits);
 }
 
 void caculate(void *workspace, fp16_t *C, const fp16_t *A,
diff --git a/xmake/cpu.lua b/xmake/cpu.lua
@@ -1,6 +1,4 @@
-if not is_plat("windows") then
-    add_requires("lapack", {configs = {shared = true}})
-end
+add_requires("lapack", {configs = {shared = true}})
 target("infiniop-cpu")
     set_kind("static")
     add_deps("infini-utils")