Add sinks to tokamax splash

RissyRan · RissyRan · commit b0d9bc1a8073 · 2025-11-19T21:36:29.000Z
diff --git a/src/MaxText/layers/attention_op.py b/src/MaxText/layers/attention_op.py
@@ -1288,12 +1288,10 @@ def wrap_flash_attention(
         decoder_segment_ids_tuple = None
 
       if self.config.use_tokamax_splash:
-        if max_logit_value is not None:
-          attention_output = jax.vmap(partial(splash_kernel, max_logit_value=max_logit_value))(
-              query, key, value, decoder_segment_ids_tuple
-          )
-        else:
-          attention_output = jax.vmap(splash_kernel)(query, key, value, decoder_segment_ids_tuple)
+        kernel = partial(splash_kernel, max_logit_value=max_logit_value)
+        attention_output = jax.vmap(lambda q, k, v, d, s: kernel(q, k, v, d, sinks=s), in_axes=(0, 0, 0, 0, None))(
+            query, key, value, decoder_segment_ids_tuple, sinks
+        )
       else:
         attention_output = jax.vmap(splash_kernel, in_axes=(0, 0, 0, 0, None))(
             query, key, value, decoder_segment_ids_tuple, sinks