[enhance]optimize kvstar core bind method & delta kvcache swap (#330)

saki-daisuki · web-flow · commit 29be755c7c69 · 2025-11-04T17:01:17.000+08:00
* delta kvcache block swap

* clean code

* add core bind method

* clean code
diff --git a/ucm/sparse/kvstar/multistep.py b/ucm/sparse/kvstar/multistep.py
@@ -17,7 +17,7 @@
     UcmSparseRole,
 )
 from ucm.sparse.kvstar.retrieve import kvstar_retrieve
-from ucm.sparse.kvstar.utils import bind_cpus, block_hash_func, get_offset
+from ucm.sparse.kvstar.utils import block_hash_func, get_bind_cpus_for_rank, get_offset
 from ucm.store.ucmstore import Task, UcmKVStoreBase
 
 """
@@ -217,6 +217,10 @@ def __init__(
 
         self.num_blocks_dumped = 0
 
+        self.layer_wise_pre_swap_area_block_hashes: Dict[int, str] = (
+            {}
+        )  # key: block id, value: block hash id
+
     @classmethod
     def block_hash(cls, request_id, block_id):
         return f"req_{request_id}_blk_{block_id}"
@@ -441,8 +445,37 @@ def load_retrieve_result_async(self, load_step, candidate_swap_vllm_block_ids):
                 assert 0
         retrieve_result_hash_list = self.step_group_retrieve_result.get(
             need_retrieve_record
-        )
+        ).copy()
         if need_retrieve_record != "prefill" or load_step == 1:
+            if len(self.layer_wise_pre_swap_area_block_hashes) == 0:
+                self.layer_wise_pre_swap_area_block_hashes = {
+                    blk_id: blk_hash
+                    for (blk_id, blk_hash) in zip(
+                        candidate_swap_vllm_block_ids, retrieve_result_hash_list
+                    )
+                }
+            else:
+                already_matched_record = {}
+                for logic_blk_id in candidate_swap_vllm_block_ids:
+                    if (
+                        logic_blk_id in self.layer_wise_pre_swap_area_block_hashes
+                        and self.layer_wise_pre_swap_area_block_hashes[logic_blk_id]
+                        in retrieve_result_hash_list
+                    ):
+                        already_matched_record[logic_blk_id] = (
+                            self.layer_wise_pre_swap_area_block_hashes[logic_blk_id]
+                        )
+                        candidate_swap_vllm_block_ids.remove(logic_blk_id)
+                        retrieve_result_hash_list.remove(
+                            already_matched_record[logic_blk_id]
+                        )
+                self.layer_wise_pre_swap_area_block_hashes = already_matched_record
+                for diff_blk_id, diff_blk_hash in zip(
+                    candidate_swap_vllm_block_ids, retrieve_result_hash_list
+                ):
+                    self.layer_wise_pre_swap_area_block_hashes[diff_blk_id] = (
+                        diff_blk_hash
+                    )
             if len(retrieve_result_hash_list) > 0:
                 self.launch_transfer_task(
                     "load", retrieve_result_hash_list, candidate_swap_vllm_block_ids
@@ -616,16 +649,14 @@ def __init__(self, vllm_config: VllmConfig, role: UcmSparseRole):
         )
         if self.role == UcmSparseRole.WORKER:
             ratio = 0.75
-            numa_nodes_num, alloc_numa_ids, phy_cpu_core_per_numa = bind_cpus(
+            bind_info_list, alloc_numa_ids = get_bind_cpus_for_rank(
                 self.total_tp_size, self.local_tp_rank, ratio=ratio
             )
 
             cpu_device = kvstar_retrieve.CPU
             param = kvstar_retrieve.SetupParam(
                 cpuNumaIds=alloc_numa_ids,
-                physicalCorePerNuma=phy_cpu_core_per_numa,
-                allocRatio=ratio,
-                blkRepreSize=4096,
+                bindInfo=bind_info_list,
                 deviceType=cpu_device,
                 totalTpSize=self.total_tp_size,
                 localRankId=self.local_tp_rank,
diff --git a/ucm/sparse/kvstar/retrieve/core/api/kvstar_retrieve/kvstar_retrieve.cpp b/ucm/sparse/kvstar/retrieve/core/api/kvstar_retrieve/kvstar_retrieve.cpp
@@ -7,38 +7,19 @@
 #include "retrieve_task/retrieve_task_manager.h"
 
 namespace KVStar {
-SetupParam::SetupParam(const std::vector<int>& cpuNumaIds, const int physicalCorePerNuma, const float allocRatio, const size_t blkRepreSize,
-           const DeviceType deviceType, const int totalTpSize, const int localRankId)
-        : cpuNumaIds{cpuNumaIds}, physicalCorePerNuma{physicalCorePerNuma}, allocRatio{allocRatio}, blkRepreSize{blkRepreSize}, deviceType{deviceType},
+SetupParam::SetupParam(const std::vector<int>& cpuNumaIds, const std::vector<std::pair<int, int>>& bindInfo, const DeviceType deviceType, const int totalTpSize, const int localRankId)
+        : cpuNumaIds{cpuNumaIds}, bindInfo{bindInfo}, deviceType{deviceType},
           totalTpSize{totalTpSize}, localRankId{localRankId}
 {
-
-    int coreNumPerNumaAlloc = static_cast<int>(this->physicalCorePerNuma * this->allocRatio);
-
-    this->perNumaCoreIds.clear();
-    this->perNumaCoreIds.reserve(this->cpuNumaIds.size());
-
-    for (const int numaId : this->cpuNumaIds) {
-        int startCoreId = numaId * this->physicalCorePerNuma;
-
-        std::vector<int> curNumaCoreIdAlloc(coreNumPerNumaAlloc);
-
-        std::iota(curNumaCoreIdAlloc.begin(), curNumaCoreIdAlloc.end(), startCoreId);
-
-        this->perNumaCoreIds.push_back(curNumaCoreIdAlloc);
-
-        KVSTAR_DEBUG("Alloc core ids {} in numa {}.", curNumaCoreIdAlloc, numaId);
-    }
-
-    this->threadNum = static_cast<int>(coreNumPerNumaAlloc * this->cpuNumaIds.size());
+    this->threadNum = this->bindInfo.size();
     KVSTAR_DEBUG("Successfully configured. Total threads = {}.", this->threadNum);
 }
 
 
 int32_t Setup(const SetupParam& param)
 {
 
-    auto status = Singleton<RetrieveTaskManager>::Instance()->Setup(param.threadNum, param.cpuNumaIds, param.perNumaCoreIds);
+    auto status = Singleton<RetrieveTaskManager>::Instance()->Setup(param.threadNum, param.bindInfo);
     if (status.Failure()) {
         KVSTAR_ERROR("Failed({}) to setup RetrieveTaskManager.", status);
         return status.Underlying();
@@ -53,4 +34,4 @@ int32_t Wait(const size_t taskId) {
 }
 
 
-}
+}
diff --git a/ucm/sparse/kvstar/retrieve/core/api/kvstar_retrieve/kvstar_retrieve.h b/ucm/sparse/kvstar/retrieve/core/api/kvstar_retrieve/kvstar_retrieve.h
@@ -13,16 +13,13 @@ namespace KVStar {
 
 struct SetupParam {
     std::vector<int> cpuNumaIds;
-    int physicalCorePerNuma;
-    float allocRatio;
-    size_t blkRepreSize;
+    std::vector<std::pair<int, int>> bindInfo; // coreId, numaId
     DeviceType deviceType;
     int totalTpSize;
     int localRankId;
-    std::vector<std::vector<int>> perNumaCoreIds;
     int threadNum;
 
-    SetupParam(const std::vector<int>& cpuNumaIds, const int physicalCorePerNuma, const float allocRatio, const size_t blkRepreSize,
+    SetupParam(const std::vector<int>& cpuNumaIds, const std::vector<std::pair<int, int>>& bindInfo,
                const DeviceType deviceType, const int totalTpSize, const int localRankId);
 
 };
@@ -36,4 +33,4 @@ int32_t Wait(const size_t taskId);
 
 
 
-#endif //KVSTAR_RETRIEVE_CLIB_KVSTAR_RETRIEVE_H
+#endif //KVSTAR_RETRIEVE_CLIB_KVSTAR_RETRIEVE_H
diff --git a/ucm/sparse/kvstar/retrieve/core/domain/retrieve_task/retrieve_task_manager.cpp b/ucm/sparse/kvstar/retrieve/core/domain/retrieve_task/retrieve_task_manager.cpp
@@ -2,47 +2,25 @@
 #include "retrieve_task_manager.h"
 
 namespace KVStar {
-Status RetrieveTaskManager::Setup(const size_t threadNum, const std::vector<int>& cpuNumaIds, const std::vector<std::vector<int>>& bindCoreId) {
+Status RetrieveTaskManager::Setup(const size_t threadNum, const std::vector<std::pair<int, int>>& bindInfo) {
 
-    const size_t numaNodeCount = cpuNumaIds.size();
-    if (numaNodeCount == 0) {
-        KVSTAR_ERROR("Retrieve task manager get error numa id info {}.", cpuNumaIds);
+    if (threadNum != bindInfo.size()) {
+        KVSTAR_ERROR("Thread count ({}) does not match the size of bind-core-ID list ({}).", threadNum, bindInfo.size());
         return Status::InvalidParam();
     }
 
-    if (threadNum % numaNodeCount != 0) {
-        KVSTAR_ERROR("Retrieve task manager can not split threads into each numa, thread num {}, numa id info {}.", threadNum, cpuNumaIds);
-        return Status::InvalidParam();
-    }
-
-    if (bindCoreId.size() != numaNodeCount) {
-        KVSTAR_ERROR("Bind core ids {} can not match numa id info {}.", bindCoreId, cpuNumaIds);
-        return Status::InvalidParam();
-    }
-
-    const size_t threadsPerNuma = threadNum / numaNodeCount;
-
     this->_queues.reserve(threadNum);
     for (size_t i = 0; i < threadNum; ++i) {
-        const size_t numaListIndex = i / threadsPerNuma;
-
-        const size_t coreListIndex = i % threadsPerNuma;
-
-        if (coreListIndex >= bindCoreId[numaListIndex].size()) {
-            KVSTAR_ERROR("Bind core ids {} can not alloc per numa need alloc threads num {}.", bindCoreId, threadsPerNuma);
-            return Status::InvalidParam();
-        }
-
-        const int targetNumaId = cpuNumaIds[numaListIndex];
-        const int targetCoreId = bindCoreId[numaListIndex][coreListIndex];
+        const int targetCoreId = bindInfo[i].first;
+        const int targetNumaId = bindInfo[i].second;
 
         auto& queue = this->_queues.emplace_back(std::make_unique<RetrieveTaskQueue>());
         auto status = queue->Setup(targetNumaId, targetCoreId, &this->_failureSet);
         if (status.Failure()) {
-            KVSTAR_ERROR("Init and setup thread id {} in pool failed.", i);
+            KVSTAR_ERROR("Init and setup thread id {} (to core {}) in pool failed.", i, targetCoreId);
             return status;
         }
-        KVSTAR_DEBUG("Init and setup thread id {} in pool success.", i);
+        KVSTAR_DEBUG("Init and setup thread id {} in pool to core {} success.", i, targetCoreId);
     }
     return Status::OK();
 }
@@ -106,4 +84,4 @@ Status RetrieveTaskManager::GetResult(size_t taskId, std::shared_ptr<TaskResult>
 }
 
 
-}
+}
diff --git a/ucm/sparse/kvstar/retrieve/core/domain/retrieve_task/retrieve_task_manager.h b/ucm/sparse/kvstar/retrieve/core/domain/retrieve_task/retrieve_task_manager.h
@@ -10,7 +10,7 @@
 namespace KVStar {
 class RetrieveTaskManager {
 public:
-    Status Setup(const size_t threadNum, const std::vector<int>& cpuNumaIds, const std::vector<std::vector<int>>& bindCoreId); // 重要, 线程池拉起的入口
+    Status Setup(const size_t threadNum, const std::vector<std::pair<int, int>>& bindInfo);
     Status SubmitSingleTask(RetrieveTask&&task, size_t &taskId);
 
     Status GetResult(size_t taskId, std::shared_ptr<TaskResult>& result);
@@ -36,4 +36,4 @@ class RetrieveTaskManager {
 
 
 
-#endif //UCM_SPARSE_KVSTAR_RETRIEVE_RETRIEVE_TASK_MANAGER_H
+#endif //UCM_SPARSE_KVSTAR_RETRIEVE_RETRIEVE_TASK_MANAGER_H
diff --git a/ucm/sparse/kvstar/retrieve/py_intf/py_intf.cpp b/ucm/sparse/kvstar/retrieve/py_intf/py_intf.cpp
@@ -106,23 +106,17 @@ PYBIND11_MODULE(kvstar_retrieve, module)
 
     py::class_<KVStar::SetupParam>(module, "SetupParam")
         .def(py::init<const std::vector<int>&,
-                      const int,
-                      const float,
-                      const size_t,
+                      const std::vector<std::pair<int, int>>&,
                       const KVStar::DeviceType,
                       const int,
                       const int>(),
              py::arg("cpuNumaIds"),
-             py::arg("physicalCorePerNuma"),
-             py::arg("allocRatio"),
-             py::arg("blkRepreSize"),
+             py::arg("bindInfo"),
              py::arg("deviceType"),
              py::arg("totalTpSize"),
              py::arg("localRankId"))
         .def_readwrite("cpuNumaIds", &KVStar::SetupParam::cpuNumaIds)
-        .def_readwrite("physicalCorePerNuma", &KVStar::SetupParam::physicalCorePerNuma)
-        .def_readwrite("allocRatio", &KVStar::SetupParam::allocRatio)
-        .def_readwrite("blkRepreSize", &KVStar::SetupParam::blkRepreSize)
+        .def_readwrite("bindInfo", &KVStar::SetupParam::bindInfo)
         .def_readwrite("deviceType", &KVStar::SetupParam::deviceType)
         .def_readwrite("totalTpSize", &KVStar::SetupParam::totalTpSize)
         .def_readwrite("localRankId", &KVStar::SetupParam::localRankId);
@@ -131,4 +125,4 @@ PYBIND11_MODULE(kvstar_retrieve, module)
     module.def("AsyncRetrieveByCPU", &KVStar::AsyncRetrieveByCPU);
     module.def("Wait", &KVStar::Wait);
     module.def("GetTaskResult", &KVStar::GetTaskResult);
-}
+}
diff --git a/ucm/sparse/kvstar/utils.py b/ucm/sparse/kvstar/utils.py
@@ -1,3 +1,4 @@
+import collections
 import hashlib
 import pickle
 import subprocess
@@ -103,3 +104,114 @@ def bind_cpus(world_size, rank_id, ratio=0.5):
     print(f"cpu_core_alloc: {cpu_core_alloc}")
 
     return numa_nodes_num, alloc_numa_ids, phy_cpu_core_per_numa
+
+
+def get_physical_core_topology():
+    """
+    use lscpu -e parse accurate cpu topology
+    return a dict, key: numa_id, value: physical core ids in this numa
+    """
+    # topology[numa_id][core_id] = logical_cpu_id
+    # make sure each physical core only record once
+    topology = collections.defaultdict(dict)
+
+    # execute lscpu -e, split as line
+    # e.g.: 36  0    0      0    0:0:0:0       yes    3700.0000 1000.0000
+    lscpu_output = execute_command(["lscpu", "-e"]).strip().split("\n")
+
+    # skip title
+    for line in lscpu_output[1:]:
+        parts = line.split()
+        if len(parts) < 4:
+            continue
+
+        logical_cpu_id = int(parts[0])
+        numa_id = int(parts[1])
+        core_id = int(parts[3])  # physical core id
+
+        if core_id not in topology[numa_id]:
+            topology[numa_id][core_id] = logical_cpu_id
+
+    final_mapping = {
+        numa_id: list(sorted(cores.values())) for numa_id, cores in topology.items()
+    }
+    return final_mapping
+
+
+def get_bind_cpus_for_rank(world_size, rank_id, ratio=1.0):
+    """
+    for each rank, compute alloc numa id
+
+    scenario:
+    1. numa_num >= world_size, equal division numa for each rank
+    2. numa_num < world_size, equal division total cores for each rank
+    """
+    physical_core_map = get_physical_core_topology()
+    if not physical_core_map:
+        print("Could not determine CPU topology. Aborting bind.")
+        return [], []
+
+    print(f"Detected Physical Core Topology: {physical_core_map}")
+
+    numa_nodes_num = len(physical_core_map)
+    sorted_numa_ids = sorted(physical_core_map.keys())
+
+    bind_info_list = []
+    alloc_numa_ids = []
+
+    numas_per_rank = numa_nodes_num // world_size
+
+    if numas_per_rank > 0:
+        print(f"Strategy: NUMA-level discard binding.")
+
+        discarded_numa_count = numa_nodes_num % world_size
+        if discarded_numa_count > 0:
+            print(
+                f"Note: {discarded_numa_count} NUMA node(s) (IDs: {sorted_numa_ids[-discarded_numa_count:]}) will be unused to ensure fair distribution."
+            )
+
+        start_numa_idx = rank_id * numas_per_rank
+        end_numa_idx = start_numa_idx + numas_per_rank
+
+        alloc_numa_ids = sorted_numa_ids[start_numa_idx:end_numa_idx]
+
+        print(f"Rank {rank_id} allocated to NUMA nodes: {alloc_numa_ids}")
+
+        for numa_id in alloc_numa_ids:
+            physical_cores_on_numa = physical_core_map.get(numa_id, [])
+            cores_to_take = int(len(physical_cores_on_numa) * ratio)
+            for core_id in physical_cores_on_numa[:cores_to_take]:
+                bind_info_list.append((core_id, numa_id))
+
+    else:
+        print(
+            f"Strategy: Fallback to uniform core distribution ({world_size} ranks > {numa_nodes_num} NUMA nodes)."
+        )
+
+        all_physical_cores_with_numa = []
+        for numa_id in sorted_numa_ids:
+            for core_id in physical_core_map[numa_id]:
+                all_physical_cores_with_numa.append((core_id, numa_id))
+
+        total_physical_cores = len(all_physical_cores_with_numa)
+        cores_per_rank = total_physical_cores // world_size
+        if cores_per_rank == 0:
+            print(
+                f"Warning: Not enough physical cores ({total_physical_cores}) to assign at least one to each of the {world_size} ranks. Rank {rank_id} will not be bound to any core."
+            )
+            return [], sorted_numa_ids
+
+        start_core_idx = rank_id * cores_per_rank
+        end_core_idx = start_core_idx + cores_per_rank
+
+        rank_core_share = all_physical_cores_with_numa[start_core_idx:end_core_idx]
+        cores_to_take = int(len(rank_core_share) * ratio)
+        bind_info_list = rank_core_share[:cores_to_take]
+
+        alloc_numa_ids = sorted_numa_ids
+
+    bind_info_list.sort()
+    print(
+        f"Rank {rank_id} will bind to {len(bind_info_list)} (CPU, NUMA) pairs: {bind_info_list}"
+    )
+    return bind_info_list, alloc_numa_ids