add TODO.

lfr-0531 · lfr-0531 · commit f201d10a8fe8 · 2025-11-11T01:10:29.000-08:00
Signed-off-by: Fanrong Li &lt;23290157+lfr-0531@users.noreply.github.com&gt;
diff --git a/tensorrt_llm/_torch/attention_backend/sparse/dsa.py b/tensorrt_llm/_torch/attention_backend/sparse/dsa.py
@@ -432,6 +432,7 @@ def __post_init__(self):
             dtype=torch.int32,
             capture_graph=capture_graph,
         )
+        # TODO: remove these expanded buffers when fp8_paged_mqa_logits supports MTP > 1.
         self.kv_lens_expanded_cuda = self.get_empty(
             self.cuda_graph_buffers,
             (self.max_num_sequences * (1 + self.max_draft_tokens), ),

Original file line number	Diff line number	Diff line change
`@@ -432,6 +432,7 @@ def __post_init__(self):`
`432`	`432`	`dtype=torch.int32,`
`433`	`433`	`capture_graph=capture_graph,`
`434`	`434`	`)`
	`435`	`+ # TODO: remove these expanded buffers when fp8_paged_mqa_logits supports MTP > 1.`
`435`	`436`	`self.kv_lens_expanded_cuda = self.get_empty(`
`436`	`437`	`self.cuda_graph_buffers,`
`437`	`438`	`(self.max_num_sequences * (1 + self.max_draft_tokens), ),`