NVIDIA · Nekofish-L · Nov 11, 2025 · Nov 20, 2025 · Nov 25, 2025 · coderabbitai
@@ -571,6 +571,7 @@ class PositionalEmbeddingParams:
 
     # mRoPE params (currently, Qwen2/2.5-VL uses it)
     mrope_section: Optional[List[int]] = None
+    mrope_interleaved: bool = False
 
     def __post_init__(self) -> None:
         if self.type.is_deferred():

@@ -27,6 +27,7 @@
 from .modeling_qwen3 import Qwen3ForCausalLM
 from .modeling_qwen3_moe import Qwen3MoeForCausalLM
 from .modeling_qwen3_next import Qwen3NextForCausalLM
+from .modeling_qwen3vl import Qwen3VLModelTRT
 from .modeling_qwen_moe import Qwen2MoeForCausalLM
 from .modeling_seedoss import SeedOssForCausalLM
 from .modeling_siglip import SiglipVisionModel
@@ -35,41 +36,18 @@
 
 # Note: for better readiblity, this should have same order as imports above
 __all__ = [
-    "AutoModelForCausalLM",
-    "BertForSequenceClassification",
-    "CLIPVisionModel",
-    "DeepseekV3ForCausalLM",
-    "Exaone4ForCausalLM",
-    "Gemma3ForCausalLM",
-    "Gemma3VLM",
-    "HCXVisionForCausalLM",
-    "HunYuanDenseV1ForCausalLM",
-    "HunYuanMoEV1ForCausalLM",
-    "LlamaForCausalLM",
-    "LlavaNextModel",
-    "Mistral3VLM",
-    "MistralForCausalLM",
-    "MixtralForCausalLM",
-    "NemotronH_Nano_VL_V2",
-    "NemotronForCausalLM",
-    "NemotronHForCausalLM",
-    "NemotronNASForCausalLM",
-    "Phi3ForCausalLM",
-    "Phi4MMForCausalLM",
-    "Qwen2ForCausalLM",
-    "Qwen2ForProcessRewardModel",
-    "Qwen2ForRewardModel",
-    "Qwen2MoeForCausalLM",
-    "SiglipVisionModel",
-    "get_model_architecture",
-    "VilaModel",
-    "Qwen2VLModel",
-    "Qwen2_5_VLModel",
-    "Qwen3ForCausalLM",
-    "Qwen3MoeForCausalLM",
-    "Qwen3NextForCausalLM",
-    "GptOssForCausalLM",
-    "SeedOssForCausalLM",
+    "AutoModelForCausalLM", "BertForSequenceClassification", "CLIPVisionModel",
+    "DeepseekV3ForCausalLM", "Exaone4ForCausalLM", "Gemma3ForCausalLM",
+    "Gemma3VLM", "HCXVisionForCausalLM", "HunYuanDenseV1ForCausalLM",
+    "HunYuanMoEV1ForCausalLM", "LlamaForCausalLM", "LlavaNextModel",
+    "Mistral3VLM", "MistralForCausalLM", "MixtralForCausalLM",
+    "NemotronH_Nano_VL_V2", "NemotronForCausalLM", "NemotronHForCausalLM",
+    "NemotronNASForCausalLM", "Phi3ForCausalLM", "Phi4MMForCausalLM",
+    "Qwen2ForCausalLM", "Qwen2ForProcessRewardModel", "Qwen2ForRewardModel",
+    "Qwen2MoeForCausalLM", "SiglipVisionModel", "get_model_architecture",
+    "VilaModel", "Qwen2VLModel", "Qwen2_5_VLModel", "Qwen3ForCausalLM",
+    "Qwen3MoeForCausalLM", "Qwen3NextForCausalLM", "GptOssForCausalLM",
+    "SeedOssForCausalLM", "Qwen3VLModelTRT"
 ]
 
 if transformers.__version__ >= "4.45.1":

@@ -47,7 +47,11 @@ def __init__(
             pos_embd_params = PositionalEmbeddingParams(
                 type=PositionEmbeddingType.from_string(pos_type),
                 rope=RopeParams.from_config(config),
-            )
+                mrope_section=config.rope_scaling.get("mrope_section", None),
+                mrope_interleaved=config.rope_scaling.get(
+                    "mrope_interleaved", False))
+            if config.rope_scaling.get("mrope_interleaved", False):
+                fuse_qk_norm_rope = False
         else:
             pos_embd_params = PositionalEmbeddingParams(
                 type=PositionEmbeddingType.rope_gpt_neox,
@@ -114,6 +118,7 @@ def forward(
         attn_metadata: AttentionMetadata,
         residual: Optional[torch.Tensor],
         spec_metadata: Optional[SpecMetadata] = None,
+        mrope_config: Optional[dict] = None,
         **kwargs,
     ) -> torch.Tensor:
         if residual is None:
@@ -130,6 +135,7 @@ def forward(
             attn_metadata=attn_metadata,
             all_reduce_params=AllReduceParams(
                 enable_allreduce=not self.disable_allreduce),
+            mrope_config=mrope_config,
             **kwargs,
         )
 
@@ -184,6 +190,9 @@ def forward(
         position_ids: Optional[torch.IntTensor] = None,
         inputs_embeds: Optional[torch.FloatTensor] = None,
         spec_metadata: Optional[SpecMetadata] = None,
+        mrope_config: Optional[dict] = None,
+        # args for deepstack
+        deepstack_visual_embeds: Optional[list[torch.Tensor]] = None,
         **kwargs,
     ) -> torch.Tensor:
         if (input_ids is None) ^ (inputs_embeds is not None):
@@ -197,14 +206,20 @@ def forward(
         hidden_states = inputs_embeds
 
         residual = None
-        for decoder_layer in self.layers:
+        for layer_idx, decoder_layer in enumerate(self.layers):
             hidden_states, residual = decoder_layer(
                 position_ids=position_ids,
                 hidden_states=hidden_states,
                 attn_metadata=attn_metadata,
                 residual=residual,
                 spec_metadata=spec_metadata,
+                mrope_config=mrope_config,
             )
+            # add visual features to the hidden states of first several layers
+            if deepstack_visual_embeds is not None and layer_idx in range(
+                    len(deepstack_visual_embeds)):
+                hidden_states = hidden_states + deepstack_visual_embeds[
+                    layer_idx]
 
         hidden_states, _ = self.norm(hidden_states, residual)
         return hidden_states

@@ -23,7 +23,6 @@
 import triton
 import triton.language as tl
 from torch import nn
-from transformers import AutoConfig
 from transformers.configuration_utils import PretrainedConfig
 from transformers.modeling_rope_utils import rope_config_validation
 
@@ -319,7 +318,8 @@ def __init__(
         self.mlp_only_layers = mlp_only_layers
 
 
-AutoConfig.register("qwen3_next", Qwen3NextConfig)
+# since update transformers to 4.57.0, we do not need register it for autoconfig
+# AutoConfig.register("qwen3_next", Qwen3NextConfig)
 
 
 class Qwen3NextGate(nn.Module):