update

shen-shanshan · shen-shanshan · commit 2b0e3e7e81b7 · 2025-11-29T10:18:27.000Z
Signed-off-by: shen-shanshan &lt;467638484@qq.com&gt;
diff --git a/vllm_ascend/models/__init__.py b/vllm_ascend/models/__init__.py
@@ -2,14 +2,6 @@
 
 
 def register_model():
-    # ModelRegistry.register_model(
-    #     "Qwen3VLMoeForConditionalGeneration",
-    #     "vllm_ascend.models.qwen3_vl:AscendQwen3VLMoeForConditionalGeneration")
-
-    # ModelRegistry.register_model(
-    #     "Qwen3VLForConditionalGeneration",
-    #     "vllm_ascend.models.qwen3_vl:AscendQwen3VLForConditionalGeneration")
-
     # There is no PanguProMoEForCausalLM in vLLM, so we should register it before vLLM config initialization
     # to make sure the model can be loaded correctly. This register step can be removed once vLLM support PanguProMoEForCausalLM.
     ModelRegistry.register_model(
diff --git a/vllm_ascend/models/qwen3_vl.py b/vllm_ascend/models/qwen3_vl.py
diff --git a/vllm_ascend/patch/worker/__init__.py b/vllm_ascend/patch/worker/__init__.py
@@ -28,4 +28,5 @@
 import vllm_ascend.patch.worker.patch_multimodal_merge  # noqa
 import vllm_ascend.patch.worker.patch_minicpm  # noqa
 import vllm_ascend.patch.worker.patch_qwen2_5_vl  # noqa
+import vllm_ascend.patch.worker.patch_qwen3_vl  # noqa
 import vllm_ascend.patch.worker.patch_rope  # noqa
diff --git a/vllm_ascend/patch/worker/patch_qwen2_5_vl.py b/vllm_ascend/patch/worker/patch_qwen2_5_vl.py
@@ -65,7 +65,7 @@ def forward(
         rotary_pos_emb_cos: torch.Tensor,
         rotary_pos_emb_sin: torch.Tensor,
         max_seqlen: torch.Tensor,
-        seqlens: torch.Tensor,
+        seqlens: torch.Tensor = None,
     ) -> torch.Tensor:
         # [s, b, c] --> [s, b, head * 3 * head_dim]
         x, _ = self.qkv(x)
diff --git a/vllm_ascend/patch/worker/patch_qwen3_vl.py b/vllm_ascend/patch/worker/patch_qwen3_vl.py
@@ -31,8 +31,7 @@
                                                  Qwen3_VisionPatchEmbed,
                                                  Qwen3_VisionPatchMerger,
                                                  Qwen3_VisionTransformer)
-
-from .vision import get_vit_attn_backend
+from vllm.model_executor.models.vision import get_vit_attn_backend
 
 
 class AscendQwen3_VisionBlock(nn.Module):
@@ -44,15 +43,13 @@ def forward(
             rotary_pos_emb_cos: torch.Tensor,
             rotary_pos_emb_sin: torch.Tensor,
             max_seqlen: torch.Tensor,  # Only used for Flash Attention
-            seqlens: torch.Tensor,  # Only used for xFormers
     ) -> torch.Tensor:
         x = x + self.attn(
             self.norm1(x),
             cu_seqlens=cu_seqlens,
             rotary_pos_emb_cos=rotary_pos_emb_cos,
             rotary_pos_emb_sin=rotary_pos_emb_sin,
             max_seqlen=max_seqlen,
-            seqlens=seqlens,
         )
 
         x = x + self.mlp(self.norm2(x))
@@ -70,7 +67,8 @@ def __init__(
         use_data_parallel: bool = False,
         attn_backend_override: AttentionBackendEnum | None = None,
     ) -> None:
-        super().__init__()
+        nn.Module.__init__(self)
+
         self.hidden_size = vision_config.hidden_size
         self.num_heads = vision_config.num_heads
         self.num_position_embeddings = vision_config.num_position_embeddings
@@ -197,18 +195,11 @@ def forward(
                              non_blocking=True)
         hidden_states = self.patch_embed(hidden_states)
 
-        # if isinstance(grid_thw, list):
-        #     grid_thw_list = grid_thw
-        #     grid_thw = torch.tensor(grid_thw, dtype=torch.int32)
-        # else:
-        #     grid_thw_list = grid_thw.tolist()
         if isinstance(grid_thw, list):
-            print("Vit grid_thw -> list", flush=True)
             grid_thw_list = grid_thw
             grid_thw = np.array(grid_thw, dtype=np.int32)
         else:
-            print("Vit grid_thw -> tensor", flush=True)
-            # grid_thw = grid_thw.to("cpu")
+            grid_thw = grid_thw.to("cpu")
             grid_thw_list = grid_thw.tolist()
             grid_thw = grid_thw.numpy()
 
@@ -221,15 +212,13 @@ def forward(
         rotary_pos_emb_sin = rotary_pos_emb_sin.to(hidden_states.device,
                                                    non_blocking=True)
 
-        cu_seqlens = torch.repeat_interleave(
-            grid_thw[:, 1] * grid_thw[:, 2],
-            grid_thw[:, 0]).cumsum(dim=0,
-                                   dtype=grid_thw.dtype
-                                   if torch.jit.is_tracing() else torch.int32)
-        cu_seqlens = torch.cat([cu_seqlens.new_zeros(1), cu_seqlens])
+        cu_seqlens = np.repeat(grid_thw[:, 1] * grid_thw[:, 2],
+                               grid_thw[:, 0]).cumsum(axis=0, dtype=np.int32)
+        cu_seqlens = np.concatenate([np.zeros(1, dtype=np.int32), cu_seqlens])
+        cu_seqlens = torch.from_numpy(cu_seqlens)
 
         hidden_states = hidden_states.unsqueeze(1)
-        max_seqlen, seqlens = self.compute_attn_mask_seqlen(cu_seqlens)
+        max_seqlen = self.compute_attn_mask_seqlen(cu_seqlens)
         cu_seqlens = cu_seqlens.to(self.device, non_blocking=True)
 
         deepstack_feature_lists = []
@@ -240,7 +229,6 @@ def forward(
                 rotary_pos_emb_cos=rotary_pos_emb_cos,
                 rotary_pos_emb_sin=rotary_pos_emb_sin,
                 max_seqlen=max_seqlen,
-                seqlens=seqlens,
             )
             if layer_num in self.deepstack_visual_indexes:
                 deepstack_merger_idx = self.deepstack_visual_indexes.index(
@@ -255,6 +243,7 @@ def forward(
         return hidden_states
 
 
+# NOTE: These will be removed after vllm-ascend is aligned with vllm latest main.
 Qwen3_VisionBlock.forward = AscendQwen3_VisionBlock.forward
 Qwen3_VisionTransformer.__init__ = AscendQwen3_VisionTransformer.__init__
 Qwen3_VisionTransformer.rot_pos_emb = AscendQwen3_VisionTransformer.rot_pos_emb