Sync llama: introduce support for model-embedded sampling parameters

JamePeng · JamePeng · commit 7354e166f7c0 · 2025-11-25T19:43:01.000+08:00
diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py
@@ -273,17 +273,17 @@ def __init__(
                 if isinstance(v, bool):
                     self._kv_overrides_array[
                         i
-                    ].tag = llama_cpp.LLAMA_KV_OVERRIDE_TYPE_BOOL
+                    ].tag = llama_cpp.LlamaModelKVOverrideType.LLAMA_KV_OVERRIDE_TYPE_BOOL.value
                     self._kv_overrides_array[i].value.val_bool = v
                 elif isinstance(v, int):
                     self._kv_overrides_array[
                         i
-                    ].tag = llama_cpp.LLAMA_KV_OVERRIDE_TYPE_INT
+                    ].tag = llama_cpp.LlamaModelKVOverrideType.LLAMA_KV_OVERRIDE_TYPE_INT.value
                     self._kv_overrides_array[i].value.val_i64 = v
                 elif isinstance(v, float):
                     self._kv_overrides_array[
                         i
-                    ].tag = llama_cpp.LLAMA_KV_OVERRIDE_TYPE_FLOAT
+                    ].tag = llama_cpp.LlamaModelKVOverrideType.LLAMA_KV_OVERRIDE_TYPE_FLOAT.value
                     self._kv_overrides_array[i].value.val_f64 = v
                 elif isinstance(v, str):  # type: ignore
                     v_bytes = v.encode("utf-8")
@@ -292,7 +292,7 @@ def __init__(
                     v_bytes = v_bytes.ljust(128, b"\0")
                     self._kv_overrides_array[
                         i
-                    ].tag = llama_cpp.LLAMA_KV_OVERRIDE_TYPE_STR
+                    ].tag = llama_cpp.LlamaModelKVOverrideType.LLAMA_KV_OVERRIDE_TYPE_STR.value
                     # copy min(v_bytes, 128) to str_value
                     address = typing.cast(
                         int,
diff --git a/llama_cpp/llama_cpp.py b/llama_cpp/llama_cpp.py
@@ -584,10 +584,40 @@ class llama_batch(ctypes.Structure):
 #     LLAMA_KV_OVERRIDE_TYPE_BOOL,
 #     LLAMA_KV_OVERRIDE_TYPE_STR,
 # };
-LLAMA_KV_OVERRIDE_TYPE_INT = 0
-LLAMA_KV_OVERRIDE_TYPE_FLOAT = 1
-LLAMA_KV_OVERRIDE_TYPE_BOOL = 2
-LLAMA_KV_OVERRIDE_TYPE_STR = 3
+class LlamaModelKVOverrideType(enum.IntEnum):
+    LLAMA_KV_OVERRIDE_TYPE_INT   = 0
+    LLAMA_KV_OVERRIDE_TYPE_FLOAT = 1
+    LLAMA_KV_OVERRIDE_TYPE_BOOL  = 2
+    LLAMA_KV_OVERRIDE_TYPE_STR   = 3
+
+
+# enum llama_model_meta_key {
+#     LLAMA_MODEL_META_KEY_SAMPLING_SEQUENCE,
+#     LLAMA_MODEL_META_KEY_SAMPLING_TOP_K,
+#     LLAMA_MODEL_META_KEY_SAMPLING_TOP_P,
+#     LLAMA_MODEL_META_KEY_SAMPLING_MIN_P,
+#     LLAMA_MODEL_META_KEY_SAMPLING_XTC_PROBABILITY,
+#     LLAMA_MODEL_META_KEY_SAMPLING_XTC_THRESHOLD,
+#     LLAMA_MODEL_META_KEY_SAMPLING_TEMP,
+#     LLAMA_MODEL_META_KEY_SAMPLING_PENALTY_LAST_N,
+#     LLAMA_MODEL_META_KEY_SAMPLING_PENALTY_REPEAT,
+#     LLAMA_MODEL_META_KEY_SAMPLING_MIROSTAT,
+#     LLAMA_MODEL_META_KEY_SAMPLING_MIROSTAT_TAU,
+#     LLAMA_MODEL_META_KEY_SAMPLING_MIROSTAT_ETA,
+# };
+class LlamaModelMetaKey(enum.IntEnum):
+    LLAMA_MODEL_META_KEY_SAMPLING_SEQUENCE        = 0
+    LLAMA_MODEL_META_KEY_SAMPLING_TOP_K           = 1
+    LLAMA_MODEL_META_KEY_SAMPLING_TOP_P           = 2
+    LLAMA_MODEL_META_KEY_SAMPLING_MIN_P           = 3
+    LLAMA_MODEL_META_KEY_SAMPLING_XTC_PROBABILITY = 4
+    LLAMA_MODEL_META_KEY_SAMPLING_XTC_THRESHOLD   = 5
+    LLAMA_MODEL_META_KEY_SAMPLING_TEMP            = 6
+    LLAMA_MODEL_META_KEY_SAMPLING_PENALTY_LAST_N  = 7
+    LLAMA_MODEL_META_KEY_SAMPLING_PENALTY_REPEAT  = 8
+    LLAMA_MODEL_META_KEY_SAMPLING_MIROSTAT        = 9
+    LLAMA_MODEL_META_KEY_SAMPLING_MIROSTAT_TAU    = 10
+    LLAMA_MODEL_META_KEY_SAMPLING_MIROSTAT_ETA    = 11
 
 
 # struct llama_model_kv_override {
@@ -1511,6 +1541,14 @@ def llama_model_meta_count(model: llama_model_p, /) -> int:
     ...
 
 
+# // Get sampling metadata key name. Returns nullptr if the key is invalid
+# LLAMA_API const char * llama_model_meta_key_str(enum llama_model_meta_key key);
+@ctypes_function("llama_model_meta_key_str", [ctypes.c_int], ctypes.c_char_p)
+def llama_model_meta_key_str(key: int, /) -> ctypes.c_char_p:
+    """Get sampling metadata key name. Returns nullptr if the key is invalid"""
+    ...
+
+
 # // Get metadata key name by index
 # LLAMA_API int32_t llama_model_meta_key_by_index(const struct llama_model * model, int32_t i, char * buf, size_t buf_size);
 @ctypes_function(