[bugfix] fix gsa coredump (#265)

HaoLi980405 · web-flow · commit 4681136a5a02 · 2025-09-30T16:07:02.000+08:00
* [bugfix] fix gsa coredump

* [bugfix] fix build_sparse_meta param lost

* clean code
diff --git a/ucm/sparse/gsa/gsa.py b/ucm/sparse/gsa/gsa.py
@@ -497,9 +497,7 @@ def init_topk_cal(
         self.gsa_offload_ops = gsa_offload_ops.CalKpreAndTopk(
             self.layer_num, block_size, MAX_BS, att_num_heads, head_size
         )
-        self.gsa_offload_ops.set_kpre_method_param(
-            int(max_model_len / block_size) * MAX_BS, kv_num_heads, 1
-        )
+        self.gsa_offload_ops.set_kpre_method_param(kv_num_heads, 1)
         self.gsa_offload_ops.set_kpre_cache(prefetch_engine.kpre_caches)
         self.is_cal_kpre = [False] * self.layer_num
         self.gsa_q_cache = torch.zeros(
@@ -868,10 +866,7 @@ def execute_finished(self):
                 )
 
     def build_sparse_meta(
-        self,
-        scheduler_output: SchedulerOutput,
-        requests,
-        input_batch,
+        self, scheduler_output: SchedulerOutput, requests, input_batch, attn_metadata
     ) -> None:
         self.gsa_metadata = self.build_gsa_metadata(
             scheduler_output, requests, input_batch
diff --git a/ucm/sparse/gsa/offload_ops/include/cal_kpre_and_topk.h b/ucm/sparse/gsa/offload_ops/include/cal_kpre_and_topk.h
@@ -46,7 +46,7 @@ class __attribute__((visibility("hidden"))) CalKpreAndTopk
 public:
     CalKpreAndTopk(uint32_t layerNum, uint32_t blockSize, uint32_t maxBs, uint32_t numHeads, uint32_t headSize);
     ~CalKpreAndTopk();
-    void SetKpreMethodParam(uint32_t maxBlockNum, uint32_t numHeads, uint32_t numKpre);
+    void SetKpreMethodParam(uint32_t numHeads, uint32_t numKpre);
     void SetKpreCache(std::vector<torch::Tensor>& kpreCache);
     void SetTopkCache(std::vector<torch::Tensor>& topkCache, std::vector<uint32_t>& topkLens);
     void SetCommonParam(std::vector<uint32_t>& calTopkIdx, std::vector<bool>& isDecode);
diff --git a/ucm/sparse/gsa/offload_ops/src/cal_kpre_and_topk.cpp b/ucm/sparse/gsa/offload_ops/src/cal_kpre_and_topk.cpp
@@ -27,15 +27,10 @@ CalKpreAndTopk::CalKpreAndTopk(uint32_t layerNum, uint32_t blockSize, uint32_t m
     m_count = 0;
 }
 
-void CalKpreAndTopk::SetKpreMethodParam(uint32_t maxBlockNum, uint32_t numHeads, uint32_t numKpre)
+void CalKpreAndTopk::SetKpreMethodParam(uint32_t numHeads, uint32_t numKpre)
 {
-    // m_kNumHeads = numHeads;
-    // m_numKpre = numKpre;
-    // auto optionsForKCache = torch::TensorOptions().device("cpu").dtype(torch::kFloat32);
-    // for (uint32_t i = 0; i < m_layerNum; i++) {
-    //     torch::Tensor layerKCache = torch::zeros({maxBlockNum, m_kNumHeads, m_blockSize, m_headSize}, optionsForKCache);
-    //     m_kCache.push_back(layerKCache);
-    // }
+    m_kNumHeads = numHeads;
+    m_numKpre = numKpre;
 }
 
 void CalKpreAndTopk::SetKpreCache(std::vector<torch::Tensor>& kpreCache)

Original file line number	Diff line number	Diff line change
`@@ -27,15 +27,10 @@ CalKpreAndTopk::CalKpreAndTopk(uint32_t layerNum, uint32_t blockSize, uint32_t m`
`27`	`27`	`m_count = 0;`
`28`	`28`	`}`
`29`	`29`
`30`		`-void CalKpreAndTopk::SetKpreMethodParam(uint32_t maxBlockNum, uint32_t numHeads, uint32_t numKpre)`
	`30`	`+void CalKpreAndTopk::SetKpreMethodParam(uint32_t numHeads, uint32_t numKpre)`
`31`	`31`	`{`
`32`		`- // m_kNumHeads = numHeads;`
`33`		`- // m_numKpre = numKpre;`
`34`		`- // auto optionsForKCache = torch::TensorOptions().device("cpu").dtype(torch::kFloat32);`
`35`		`- // for (uint32_t i = 0; i < m_layerNum; i++) {`
`36`		`- // torch::Tensor layerKCache = torch::zeros({maxBlockNum, m_kNumHeads, m_blockSize, m_headSize}, optionsForKCache);`
`37`		`- // m_kCache.push_back(layerKCache);`
`38`		`- // }`
	`32`	`+ m_kNumHeads = numHeads;`
	`33`	`+ m_numKpre = numKpre;`
`39`	`34`	`}`
`40`	`35`
`41`	`36`	`void CalKpreAndTopk::SetKpreCache(std::vector<torch::Tensor>& kpreCache)`