Fallback for model providers that do not support / expose cache token usage

Workshop Participant · Workshop Participant · commit e5908c044847 · 2025-07-09T09:26:04.000Z
diff --git a/src/strands/models/llamaapi.py b/src/strands/models/llamaapi.py
@@ -310,6 +310,9 @@ def format_chunk(self, event: dict[str, Any]) -> StreamEvent:
                     inputTokens=usage["inputTokens"],
                     outputTokens=usage["outputTokens"],
                     totalTokens=usage["totalTokens"],
+                    # TODO does not seem to support caching as of July 2025
+                    cacheWriteInputTokens=0,
+                    cacheReadInputTokens=0,
                 )
                 return {
                     "metadata": {
diff --git a/src/strands/models/mistral.py b/src/strands/models/mistral.py
@@ -342,6 +342,9 @@ def format_chunk(self, event: dict[str, Any]) -> StreamEvent:
                             "inputTokens": usage.prompt_tokens,
                             "outputTokens": usage.completion_tokens,
                             "totalTokens": usage.total_tokens,
+                            # TODO does not seem to support caching as of July 2025
+                            "cacheWriteInputTokens": 0,
+                            "cacheReadInputTokens": 0,
                         },
                         "metrics": {
                             "latencyMs": event.get("latency_ms", 0),
diff --git a/src/strands/models/ollama.py b/src/strands/models/ollama.py
@@ -272,6 +272,9 @@ def format_chunk(self, event: dict[str, Any]) -> StreamEvent:
                             "inputTokens": event["data"].eval_count,
                             "outputTokens": event["data"].prompt_eval_count,
                             "totalTokens": event["data"].eval_count + event["data"].prompt_eval_count,
+                            # TODO add cache metrics
+                            "cacheWriteInputTokens": 0,
+                            "cacheReadInputTokens": 0,
                         },
                         "metrics": {
                             "latencyMs": event["data"].total_duration / 1e6,