vllm-project
diff --git a/‎vllm/attention/layer.py‎
Lines changed: 7 additions & 50 deletions b/‎vllm/attention/layer.py‎
Lines changed: 7 additions & 50 deletions
diff --git a/‎vllm/attention/ops/vit_attn_wrappers.py‎
Lines changed: 2 additions & 8 deletions b/‎vllm/attention/ops/vit_attn_wrappers.py‎
Lines changed: 2 additions & 8 deletions
diff --git a/‎vllm/attention/utils/fa_utils.py‎
Lines changed: 8 additions & 0 deletions b/‎vllm/attention/utils/fa_utils.py‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎vllm/model_executor/models/dots_ocr.py‎
Lines changed: 0 additions & 8 deletions b/‎vllm/model_executor/models/dots_ocr.py‎
Lines changed: 0 additions & 8 deletions
diff --git a/‎vllm/model_executor/models/ernie45_vl.py‎
Lines changed: 0 additions & 9 deletions b/‎vllm/model_executor/models/ernie45_vl.py‎
Lines changed: 0 additions & 9 deletions
diff --git a/‎vllm/model_executor/models/glm4_1v.py‎
Lines changed: 1 addition & 11 deletions b/‎vllm/model_executor/models/glm4_1v.py‎
Lines changed: 1 addition & 11 deletions
diff --git a/‎vllm/model_executor/models/keye.py‎
Lines changed: 0 additions & 1 deletion b/‎vllm/model_executor/models/keye.py‎
Lines changed: 0 additions & 1 deletion
diff --git a/‎vllm/model_executor/models/paddleocr_vl.py‎
Lines changed: 0 additions & 15 deletions b/‎vllm/model_executor/models/paddleocr_vl.py‎
Lines changed: 0 additions & 15 deletions
@@ -56,53 +56,28 @@
 logger = init_logger(__name__)
 
 
-def check_upstream_fa_availability(dtype: torch.dtype):
-    if (
-        dtype in (torch.float16, torch.bfloat16)
-        and current_platform.is_cuda()
-        and current_platform.has_device_capability(80)
-    ):
-        from transformers.utils import is_flash_attn_2_available
-
-        return is_flash_attn_2_available()
-    if current_platform.is_rocm():
-        from importlib.util import find_spec
-
-        return find_spec("flash_attn") is not None
-    return False
-
-
 def maybe_get_vit_flash_attn_backend(
     attn_backend: AttentionBackendEnum,
-    use_upstream_fa: bool,
     attn_backend_override: AttentionBackendEnum | None = None,
 ) -> tuple[AttentionBackendEnum, Callable | None]:
     if current_platform.is_rocm():
         if envs.VLLM_ROCM_USE_AITER and envs.VLLM_ROCM_USE_AITER_MHA and on_gfx9():
             attn_backend = AttentionBackendEnum.ROCM_AITER_FA
-
         elif (
-            check_upstream_fa_availability(torch.get_default_dtype())
+            attn_backend_override is None
             and on_gfx9()
-            and attn_backend_override is None
+            and attn_backend == AttentionBackendEnum.FLASH_ATTN
         ):
-            attn_backend = AttentionBackendEnum.FLASH_ATTN
-            use_upstream_fa = True
+            pass
         else:
             return AttentionBackendEnum.TORCH_SDPA, None
-
     elif current_platform.is_cuda():
-        if (
-            attn_backend != AttentionBackendEnum.FLASH_ATTN
-            and check_upstream_fa_availability(torch.get_default_dtype())
-        ):
-            attn_backend = AttentionBackendEnum.FLASH_ATTN
-            use_upstream_fa = True
+        pass
     elif current_platform.is_xpu():
         assert attn_backend == AttentionBackendEnum.FLASH_ATTN, (
             "XPU platform only supports FLASH_ATTN as vision attention backend."
         )
-        use_upstream_fa = False
+        pass
     else:
         return AttentionBackendEnum.TORCH_SDPA, None
 
@@ -113,10 +88,7 @@ def maybe_get_vit_flash_attn_backend(
         if attn_backend == AttentionBackendEnum.ROCM_AITER_FA:
             from aiter import flash_attn_varlen_func
         else:
-            if use_upstream_fa:
-                from flash_attn import flash_attn_varlen_func
-            else:
-                from vllm.attention.utils.fa_utils import flash_attn_varlen_func
+            from vllm.attention.utils.fa_utils import flash_attn_varlen_func
     else:
         flash_attn_varlen_func = None
 
@@ -501,11 +473,6 @@ def __init__(
             attn_backend_override=attn_backend_override,
         )
 
-        # Some auto-selected backends can be upgraded
-        # to upstream flash attention if available.
-        # If vllm native fa is selected, we use it directly.
-        use_upstream_fa = False
-
         self.attn_backend = (
             backend
             if backend
@@ -521,7 +488,6 @@ def __init__(
         self.attn_backend, self._flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
-                use_upstream_fa,
                 attn_backend_override=attn_backend_override,
             )
         )
@@ -531,17 +497,8 @@ def __init__(
             AttentionBackendEnum.ROCM_AITER_FA,
         }
 
-        # this condition is just to make sure that the
-        # use_upstream_fa in the log is correct
-        if (
-            current_platform.is_rocm()
-            and self.attn_backend == AttentionBackendEnum.FLASH_ATTN
-        ):
-            use_upstream_fa = True
-
         logger.info_once(
-            f"MultiHeadAttention attn_backend: {self.attn_backend}, "
-            f"use_upstream_fa: {use_upstream_fa}"
+            f"Using {self.attn_backend} for MultiHeadAttention in multimodal encoder."
         )
 
     def forward(
 
@@ -27,15 +27,11 @@ def flash_attn_maxseqlen_wrapper(
     max_seqlen: torch.Tensor,
     batch_size: int,
     is_rocm_aiter: bool,
-    use_upstream_fa: bool,
 ) -> torch.Tensor:
     if is_rocm_aiter:
         from aiter import flash_attn_varlen_func
     else:
-        if use_upstream_fa:
-            from flash_attn import flash_attn_varlen_func
-        else:
-            from vllm.attention.utils.fa_utils import flash_attn_varlen_func
+        from vllm.attention.utils.fa_utils import flash_attn_varlen_func
     q, k, v = (einops.rearrange(x, "b s ... -> (b s) ...") for x in [q, k, v])
     output = flash_attn_varlen_func(
         q,
@@ -62,7 +58,6 @@ def flash_attn_maxseqlen_wrapper_fake(
     max_seqlen: torch.Tensor,
     batch_size: int,
     is_rocm_aiter: bool,
-    use_upstream_fa: bool,
 ) -> torch.Tensor:
     b, s, h, d = q.shape
     return torch.empty((s, b, h * d), dtype=q.dtype, device=q.device)
@@ -83,10 +78,9 @@ def vit_flash_attn_wrapper(
     max_seqlen: torch.Tensor,
     batch_size: int,
     is_rocm_aiter: bool,
-    use_upstream_fa: bool,
 ) -> torch.Tensor:
     return torch.ops.vllm.flash_attn_maxseqlen_wrapper(
-        q, k, v, cu_seqlens, max_seqlen, batch_size, is_rocm_aiter, use_upstream_fa
+        q, k, v, cu_seqlens, max_seqlen, batch_size, is_rocm_aiter
     )
 
 
 
@@ -18,6 +18,14 @@
     reshape_and_cache_flash = ops.reshape_and_cache_flash
     flash_attn_varlen_func = ops.flash_attn_varlen_func
     get_scheduler_metadata = ops.get_scheduler_metadata
+elif current_platform.is_rocm():
+    try:
+        from flash_attn import flash_attn_varlen_func  # noqa: F401
+    except ImportError as e:
+        raise ImportError(
+            "Rocm platform requires upstream flash-attn "
+            "to be installed. Please install flash-attn first."
+        ) from e
 
 
 def get_flash_attn_version(requires_alibi: bool = False) -> int | None:
 
@@ -11,7 +11,6 @@
 
 from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
-    check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
 )
 from vllm.config import VllmConfig
@@ -294,12 +293,10 @@ def __init__(
             torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        self.use_upstream_fa = False
 
         self.attn_backend, self.flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
-                self.use_upstream_fa,
                 attn_backend_override=attn_backend_override,
             )
         )
@@ -569,11 +566,6 @@ def __init__(
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if (
-            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
-            and check_upstream_fa_availability(torch.get_default_dtype())
-        ):
-            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
         self.out_hidden_size = config.hidden_size
         # Keep blocks for compatibility with other vision towers
         num_layers = (
 
@@ -38,7 +38,6 @@
 
 from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
-    check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
 )
 from vllm.config import VllmConfig
@@ -201,12 +200,9 @@ def __init__(
             attn_backend_override=attn_backend_override,
         )
 
-        self.use_upstream_fa = False
-
         self.attn_backend, self.flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
-                self.use_upstream_fa,
                 attn_backend_override=attn_backend_override,
             )
         )
@@ -498,11 +494,6 @@ def __init__(
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if (
-            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
-            and check_upstream_fa_availability(torch.get_default_dtype())
-        ):
-            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
 
     @property
     def dtype(self) -> torch.dtype:
 
@@ -47,10 +47,7 @@
 from transformers.video_utils import VideoMetadata
 
 from vllm.attention.backends.registry import AttentionBackendEnum
-from vllm.attention.layer import (
-    check_upstream_fa_availability,
-    maybe_get_vit_flash_attn_backend,
-)
+from vllm.attention.layer import maybe_get_vit_flash_attn_backend
 from vllm.config import VllmConfig
 from vllm.config.multimodal import BaseDummyOptions, VideoDummyOptions
 from vllm.distributed import get_tensor_model_parallel_world_size, parallel_state
@@ -296,12 +293,10 @@ def __init__(
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        self.use_upstream_fa = False
 
         self.attn_backend, self.flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
-                self.use_upstream_fa,
                 attn_backend_override=attn_backend_override,
             )
         )
@@ -730,11 +725,6 @@ def __init__(
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        if (
-            self.attn_backend != AttentionBackendEnum.FLASH_ATTN
-            and check_upstream_fa_availability(torch.get_default_dtype())
-        ):
-            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
 
     @property
     def dtype(self) -> torch.dtype:
 
@@ -418,7 +418,6 @@ def __init__(
         self.attn_backend, self.flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
-                use_upstream_fa=False,
                 attn_backend_override=attn_backend_override,
             )
         )
 
@@ -33,7 +33,6 @@
 
 from vllm.attention.backends.registry import AttentionBackendEnum
 from vllm.attention.layer import (
-    check_upstream_fa_availability,
     maybe_get_vit_flash_attn_backend,
 )
 from vllm.attention.ops.vit_attn_wrappers import (
@@ -582,7 +581,6 @@ def __init__(
         prefix: str = "",
         attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
         attn_backend_override: AttentionBackendEnum | None = None,
-        use_upstream_fa: bool = False,
     ) -> None:
         super().__init__()
 
@@ -612,11 +610,9 @@ def __init__(
         )
 
         self.attn_backend = attn_backend
-        self.use_upstream_fa = use_upstream_fa
         self.attn_backend, self.flash_attn_varlen_func = (
             maybe_get_vit_flash_attn_backend(
                 self.attn_backend,
-                self.use_upstream_fa,
                 attn_backend_override=attn_backend_override,
             )
         )
@@ -680,7 +676,6 @@ def forward(
                 max_seqlen,
                 batch_size,
                 self.attn_backend == AttentionBackendEnum.ROCM_AITER_FA,
-                self.use_upstream_fa,
             )
         elif self.attn_backend == AttentionBackendEnum.TORCH_SDPA:
             outputs = []
@@ -783,7 +778,6 @@ def __init__(
         *,
         attn_backend: AttentionBackendEnum = AttentionBackendEnum.TORCH_SDPA,
         attn_backend_override: AttentionBackendEnum | None = None,
-        use_upstream_fa: bool = False,
     ):
         super().__init__()
         self.embed_dim = config.hidden_size
@@ -796,7 +790,6 @@ def __init__(
             prefix=f"{prefix}.self_attn",
             attn_backend=attn_backend,
             attn_backend_override=attn_backend_override,
-            use_upstream_fa=use_upstream_fa,
         )
         self.layer_norm2 = nn.LayerNorm(self.embed_dim, eps=config.layer_norm_eps)
         self.mlp = SiglipMLP(
@@ -852,13 +845,6 @@ def __init__(
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        self.use_upstream_fa = False
-        if self.attn_backend not in {
-            AttentionBackendEnum.FLASH_ATTN,
-            AttentionBackendEnum.ROCM_AITER_FA,
-        } and check_upstream_fa_availability(torch.get_default_dtype()):
-            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
-            self.use_upstream_fa = True
         if self.attn_backend not in {
             AttentionBackendEnum.FLASH_ATTN,
             AttentionBackendEnum.TORCH_SDPA,
@@ -875,7 +861,6 @@ def __init__(
                     prefix=f"{prefix}.layers.{layer_idx}",
                     attn_backend=self.attn_backend,
                     attn_backend_override=attn_backend_override,
-                    use_upstream_fa=self.use_upstream_fa,
                 )
                 for layer_idx in range(config.num_hidden_layers)
             ]
Original file line number	Diff line number	Diff line change
`@@ -11,7 +11,6 @@`
`11`	`11`
`12`	`12`	`from vllm.attention.backends.registry import AttentionBackendEnum`
`13`	`13`	`from vllm.attention.layer import (`
`14`		`- check_upstream_fa_availability,`
`15`	`14`	`maybe_get_vit_flash_attn_backend,`
`16`	`15`	`)`
`17`	`16`	`from vllm.config import VllmConfig`
`@@ -294,12 +293,10 @@ def __init__(`
`294`	`293`	`torch.get_default_dtype(),`
`295`	`294`	`attn_backend_override=attn_backend_override,`
`296`	`295`	`)`
`297`		`- self.use_upstream_fa = False`
`298`	`296`
`299`	`297`	`self.attn_backend, self.flash_attn_varlen_func = (`
`300`	`298`	`maybe_get_vit_flash_attn_backend(`
`301`	`299`	`self.attn_backend,`
`302`		`- self.use_upstream_fa,`
`303`	`300`	`attn_backend_override=attn_backend_override,`
`304`	`301`	`)`
`305`	`302`	`)`
`@@ -569,11 +566,6 @@ def __init__(`
`569`	`566`	`dtype=torch.get_default_dtype(),`
`570`	`567`	`attn_backend_override=attn_backend_override,`
`571`	`568`	`)`
`572`		`- if (`
`573`		`- self.attn_backend != AttentionBackendEnum.FLASH_ATTN`
`574`		`- and check_upstream_fa_availability(torch.get_default_dtype())`
`575`		`- ):`
`576`		`- self.attn_backend = AttentionBackendEnum.FLASH_ATTN`
`577`	`569`	`self.out_hidden_size = config.hidden_size`
`578`	`570`	`# Keep blocks for compatibility with other vision towers`
`579`	`571`	`num_layers = (`
Original file line number	Diff line number	Diff line change
`@@ -38,7 +38,6 @@`
`38`	`38`
`39`	`39`	`from vllm.attention.backends.registry import AttentionBackendEnum`
`40`	`40`	`from vllm.attention.layer import (`
`41`		`- check_upstream_fa_availability,`
`42`	`41`	`maybe_get_vit_flash_attn_backend,`
`43`	`42`	`)`
`44`	`43`	`from vllm.config import VllmConfig`
`@@ -201,12 +200,9 @@ def __init__(`
`201`	`200`	`attn_backend_override=attn_backend_override,`
`202`	`201`	`)`
`203`	`202`
`204`		`- self.use_upstream_fa = False`
`205`		`-`
`206`	`203`	`self.attn_backend, self.flash_attn_varlen_func = (`
`207`	`204`	`maybe_get_vit_flash_attn_backend(`
`208`	`205`	`self.attn_backend,`
`209`		`- self.use_upstream_fa,`
`210`	`206`	`attn_backend_override=attn_backend_override,`
`211`	`207`	`)`
`212`	`208`	`)`
`@@ -498,11 +494,6 @@ def __init__(`
`498`	`494`	`dtype=torch.get_default_dtype(),`
`499`	`495`	`attn_backend_override=attn_backend_override,`
`500`	`496`	`)`
`501`		`- if (`
`502`		`- self.attn_backend != AttentionBackendEnum.FLASH_ATTN`
`503`		`- and check_upstream_fa_availability(torch.get_default_dtype())`
`504`		`- ):`
`505`		`- self.attn_backend = AttentionBackendEnum.FLASH_ATTN`
`506`	`497`
`507`	`498`	`@property`
`508`	`499`	`def dtype(self) -> torch.dtype:`
Original file line number	Diff line number	Diff line change
`@@ -418,7 +418,6 @@ def __init__(`
`418`	`418`	`self.attn_backend, self.flash_attn_varlen_func = (`
`419`	`419`	`maybe_get_vit_flash_attn_backend(`
`420`	`420`	`self.attn_backend,`
`421`		`- use_upstream_fa=False,`
`422`	`421`	`attn_backend_override=attn_backend_override,`
`423`	`422`	`)`
`424`	`423`	`)`