[None][doc] update llama and llama4 example doc (#9048)

jiahanc · web-flow · commit de6088e36397 · 2025-11-10T22:04:26.000-08:00
Signed-off-by: jiahanc &lt;173873397+jiahanc@users.noreply.github.com&gt;
diff --git a/examples/models/core/llama/README.md b/examples/models/core/llama/README.md
@@ -1540,14 +1540,15 @@ bash -c 'python ./examples/mmlu.py --test_trt_llm \
 ## Run LLaMa-3.3 70B Model on PyTorch Backend
 This section provides the steps to run LLaMa-3.3 70B model FP8 precision on PyTorch backend by launching TensorRT LLM server and run performance benchmarks.
 
-
 ### Prepare TensorRT LLM extra configs
 ```bash
 cat >./extra-llm-api-config.yml <<EOF
-stream_interval: 2
+stream_interval: 10
 cuda_graph_config:
   max_batch_size: 1024
   enable_padding: true
+kv_cache_config:
+  dtype: fp8
 EOF
 ```
 Explanation:
@@ -1581,5 +1582,5 @@ python -m tensorrt_llm.serve.scripts.benchmark_serving \
         --random-input-len 1024 \
         --random-output-len 2048 \
         --random-ids \
-        --max-concurrency 1024 \
+        --max-concurrency 1024
 ```
diff --git a/examples/models/core/llama4/README.md b/examples/models/core/llama4/README.md
@@ -27,7 +27,7 @@ This section provides the steps to launch TensorRT LLM server and run performanc
 ```bash
 cat >./extra-llm-api-config.yml <<EOF
 enable_attention_dp: true
-stream_interval: 2
+stream_interval: 10
 cuda_graph_config:
   max_batch_size: 512
   enable_padding: true
@@ -78,7 +78,7 @@ python -m tensorrt_llm.serve.scripts.benchmark_serving \
 cat >./extra-llm-api-config.yml <<EOF
 enable_attention_dp: false
 enable_min_latency: true
-stream_interval: 2
+stream_interval: 10
 cuda_graph_config:
   max_batch_size: 8
   enable_padding: true
@@ -126,7 +126,7 @@ python -m tensorrt_llm.serve.scripts.benchmark_serving \
 #### 1. Prepare TensorRT LLM extra configs
 ```bash
 cat >./extra-llm-api-config.yml <<EOF
-stream_interval: 2
+stream_interval: 10
 cuda_graph_config:
   max_batch_size: 1024
   enable_padding: true