remove time.sleepp; add logging

tjtanaa · tjtanaa · commit 8689714b7ec0 · 2024-06-19T16:25:50.000+08:00
diff --git a/src/embeddedllm/engine.py b/src/embeddedllm/engine.py
@@ -48,7 +48,7 @@ def __init__(self, model_path: str, vision: bool):
             sliding_window_len=self.get_hf_config_sliding_window(),
         )
 
-        logger.info(self.max_model_len)
+        logger.info("Model Context Lenght: " + str(self.max_model_len))
 
         try:
             logger.info("Attempt to load fast tokenizer")
@@ -122,7 +122,7 @@ async def generate_vision(
                 tmpfile.flush()
 
             # logger.trace("Loading from temporary file: {name}", name=image_path.as_posix())
-            logger.debug("Loading from temporary file: {name}", name=image_path.as_posix())
+            # logger.debug("Loading from temporary file: {name}", name=image_path.as_posix())
 
             # if not os.path.exists(image_path.as_posix()):
             #     raise FileNotFoundError(f"Image file not found: {image_path.as_posix()}")
@@ -312,7 +312,7 @@ async def generate(
         prompt_text = inputs["prompt"]
         input_token_length = None
         input_tokens = None  # for text only use case
-        logger.debug("inputs: " + prompt_text)
+        # logger.debug("inputs: " + prompt_text)
 
         input_tokens = self.onnx_tokenizer.encode(prompt_text)
         input_token_length = len(input_tokens)
diff --git a/src/embeddedllm/entrypoints/chat_server.py b/src/embeddedllm/entrypoints/chat_server.py
@@ -109,7 +109,7 @@ def _load_chat_template(self, chat_template: Optional[str]):
         elif tokenizer.chat_template is not None:
             logger.info("Using default chat template:\n%s", tokenizer.chat_template)
         else:
-            logger.warning("No chat template provided. Chat API will not work.")
+            logger.warning("No chat template provided. Chat API will not work as intended.")
 
     def create_error_response(
         self,
@@ -130,7 +130,7 @@ def _parse_chat_message_content_parts(
         for part in parts:
             # logger.debug(f"part: {str(part)}")
             part_type = part["type"]
-            logger.debug(f"part_type: {part_type}")
+            # logger.debug(f"part_type: {part_type}")
             if part_type == "text":
                 text = cast(ChatCompletionContentPartTextParam, part)["text"]
 
@@ -153,8 +153,8 @@ def _parse_chat_message_content_parts(
 
                     file_data, mime_type = decode_base64(image_url["url"])
 
-                    logger.debug(f"file_data: {type(file_data)}")
-                    logger.debug(f"mime_type: {str(mime_type)}")
+                    # logger.debug(f"file_data: {type(file_data)}")
+                    # logger.debug(f"mime_type: {str(mime_type)}")
 
                     image_future: ImagePixelData = {
                         "image_pixel_data": file_data,
@@ -174,7 +174,7 @@ def _parse_chat_message_content_parts(
 
         messages = [ConversationMessage(role=role, content=text_prompt)]
 
-        logger.debug(f"messages: {str(messages)}")
+        # logger.debug(f"messages: {str(messages)}")
         return ChatMessageParseResult(messages=messages, image_futures=image_futures)
 
     def _parse_chat_message_content(
@@ -343,7 +343,6 @@ async def chat_completion_stream_generator(
                     first_iteration = False
 
                 for output in res.outputs:
-                    time.sleep(0.5)
                     i = output.index
 
                     if finish_reason_sent[i]: