fix vl patch

wangxiyuan · wangxiyuan · commit 3ccb2c9eca5e · 2025-12-02T09:14:19.000+08:00
Signed-off-by: wangxiyuan &lt;wangxiyuan1007@gmail.com&gt;
diff --git a/vllm_ascend/patch/worker/patch_qwen3_vl.py b/vllm_ascend/patch/worker/patch_qwen3_vl.py
@@ -23,7 +23,6 @@
 from transformers.models.qwen3_vl.configuration_qwen3_vl import \
     Qwen3VLVisionConfig
 from vllm.attention.backends.registry import AttentionBackendEnum
-from vllm.attention.layer import check_upstream_fa_availability
 from vllm.model_executor.layers.activation import _ACTIVATION_REGISTRY
 from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
@@ -133,12 +132,6 @@ def __init__(
             dtype=torch.get_default_dtype(),
             attn_backend_override=attn_backend_override,
         )
-        use_upstream_fa = False
-        if (self.attn_backend != AttentionBackendEnum.FLASH_ATTN
-                and self.attn_backend != AttentionBackendEnum.ROCM_AITER_FA
-                and check_upstream_fa_availability(torch.get_default_dtype())):
-            self.attn_backend = AttentionBackendEnum.FLASH_ATTN
-            use_upstream_fa = True
 
         if self.attn_backend not in {
                 AttentionBackendEnum.FLASH_ATTN,
@@ -159,7 +152,6 @@ def __init__(
                 prefix=f"{prefix}.blocks.{layer_idx}",
                 use_data_parallel=use_data_parallel,
                 attn_backend=self.attn_backend,
-                use_upstream_fa=use_upstream_fa,
             ) for layer_idx in range(vision_config.depth)
         ])