Modeling fix (#605)

mohiso22 · Mohit Soni · web-flow · commit 25236bb766b1 · 2025-11-04T18:04:41.000+05:30
Signed-off-by: Mohit Soni &lt;mohisoni@qti.qualcom.com&gt;
Co-authored-by: Mohit Soni &lt;mohisoni@qti.qualcom.com&gt;
diff --git a/QEfficient/transformers/models/modeling_auto.py b/QEfficient/transformers/models/modeling_auto.py
@@ -1413,6 +1413,8 @@ def kv_offload_generate(
                 if x.startswith("past_") or x.endswith("_RetainedState")
             ]
         )
+        if not_mllama:
+            lang_session.skip_buffers(vision_outputs.keys())
 
         # Get first token
         lang_inputs["input_ids"] = outputs["logits"].argmax(2)
diff --git a/QEfficient/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py b/QEfficient/transformers/models/qwen2_5_vl/modeling_qwen2_5_vl.py
@@ -953,6 +953,7 @@ def smart_resize(
         grid_height = grid_h * grid_w
         grid_width = patch_size * patch_size * temporal_patch_size * channel
         vision_size = grid_height // 4
+        vision_size = vision_size * num_frames
         grid_height = grid_height * batch_size
 
         vision = [

Original file line number	Diff line number	Diff line change
`@@ -1413,6 +1413,8 @@ def kv_offload_generate(`
`1413`	`1413`	`if x.startswith("past_") or x.endswith("_RetainedState")`
`1414`	`1414`	`]`
`1415`	`1415`	`)`
	`1416`	`+ if not_mllama:`
	`1417`	`+ lang_session.skip_buffers(vision_outputs.keys())`
`1416`	`1418`
`1417`	`1419`	`# Get first token`
`1418`	`1420`	`lang_inputs["input_ids"] = outputs["logits"].argmax(2)`