issue/170: modified cpu inv

xgqdut2016 · xgqdut2016 · commit 4a4fad1a1b63 · 2025-05-29T10:26:45.000+08:00
diff --git a/src/infiniop/ops/quantize_gptq/cpu/quantize_gptq_cpu.cc b/src/infiniop/ops/quantize_gptq/cpu/quantize_gptq_cpu.cc
@@ -256,36 +256,36 @@ bool cholesky_decompose(float *A, int n, bool upper) {
     return true;
 }
 
-// Compute A^{-1} from Cholesky(L)
-void invert_symmetric_from_cholesky(float *L, int n, float *invA, float *temp) {
+// Compute A^{-1} from Cholesky decomposition (A = L L^T)
+// A: lower-triangular Cholesky factor (n x n)
+// invA: output inverse matrix (n x n), symmetric
+// temp_row: temporary buffer of size n * n
+void invert_symmetric_from_cholesky(const float *A, int n, float *invA, float *temp_row) {
 #pragma omp parallel for
     for (int col = 0; col < n; ++col) {
-        float *row_buf = temp + col * n;
+        float *row_buf = temp_row + col * n;
 
-        // Forward substitution: solve L * y = e_col
+        // Forward solve: L y = e_col
         for (int i = 0; i < n; ++i) {
             float sum = (i == col) ? 1.0f : 0.0f;
-            for (int k = 0; k < i; ++k) {
-                sum -= L[i * n + k] * row_buf[k];
+            if (i > 0) {
+                sum -= dot_product(&A[i * n], row_buf, i);
             }
-            row_buf[i] = sum / L[i * n + i];
+            row_buf[i] = sum / A[i * n + i];
         }
 
-        // Backward substitution: solve L^T * x = y
+        // Backward solve: L^T x = y
         for (int i = n - 1; i >= 0; --i) {
             float sum = row_buf[i];
-            for (int k = i + 1; k < n; ++k) {
-                sum -= L[k * n + i] * invA[k * n + col];
+            for (int j = i + 1; j < n; ++j) {
+                sum -= A[j * n + i] * invA[j * n + col];
             }
-            invA[i * n + col] = sum / L[i * n + i];
+            invA[i * n + col] = sum / A[i * n + i];
         }
-    }
 
-    // Fill upper triangle using symmetry: invA[i][j] = invA[j][i]
-#pragma omp parallel for collapse(2)
-    for (int i = 0; i < n; ++i) {
-        for (int j = i + 1; j < n; ++j) {
-            invA[i * n + j] = invA[j * n + i];
+        // Exploit symmetry: copy upper triangle to lower
+        for (int row = 0; row < col; ++row) {
+            invA[col * n + row] = invA[row * n + col];
         }
     }
 }