rllm-org
diff --git a/‎examples/solver_judge_tinker/train_solver_judge_flow_tinker.sh‎
Lines changed: 1 addition & 1 deletion b/‎examples/solver_judge_tinker/train_solver_judge_flow_tinker.sh‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎pyproject.toml‎
Lines changed: 5 additions & 0 deletions b/‎pyproject.toml‎
Lines changed: 5 additions & 0 deletions
diff --git a/‎rllm/engine/agent_workflow_engine.py‎
Lines changed: 1 addition & 1 deletion b/‎rllm/engine/agent_workflow_engine.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎rllm/trainer/agent_trainer.py‎
Lines changed: 3 additions & 2 deletions b/‎rllm/trainer/agent_trainer.py‎
Lines changed: 3 additions & 2 deletions
diff --git a/‎rllm/trainer/tinker/tinker_agent_trainer.py‎
Lines changed: 112 additions & 46 deletions b/‎rllm/trainer/tinker/tinker_agent_trainer.py‎
Lines changed: 112 additions & 46 deletions
diff --git a/‎rllm/utils/__init__.py‎ b/‎rllm/utils/__init__.py‎
@@ -2,7 +2,7 @@ set -x
 
 MODEL_PATH=Qwen/Qwen3-4B-Instruct-2507
 
-python3 -m examples.solver_judge_tinker.train_solver_judge_flow_tinker \
+python -m examples.solver_judge_tinker.train_solver_judge_flow_tinker \
     model.name=$MODEL_PATH \
     model.lora_rank=32 \
     training.group_size=4 \
 
@@ -99,6 +99,11 @@ strands = [
     "strands-agents",
 ]
 
+tinker = [
+    "tinker",
+    "tinker-cookbook @ git+https://github.com/thinking-machines-lab/tinker-cookbook.git#egg=tinker-cookbook",
+]
+
 [tool.ruff]
 line-length = 5000 # TODO: Reduce this to a more reasonable value
 
 
@@ -11,12 +11,12 @@
 
 from rllm.agents.agent import Episode
 from rllm.engine.rollout import ModelOutput, RolloutEngine
-from rllm.engine.rollout.verl_engine import VerlEngine
 from rllm.misc import colorful_print
 from rllm.workflows.workflow import TerminationReason, Workflow
 
 # Avoid hard dependency on verl at import time; only for typing
 if TYPE_CHECKING:
+    from rllm.engine.rollout.verl_engine import VerlEngine
     from verl import DataProto
 
 logger = logging.getLogger(__name__)
 
@@ -3,8 +3,6 @@
 import ray
 
 from rllm.data import Dataset
-from rllm.trainer.verl.ray_runtime_env import get_ppo_ray_runtime_env
-from rllm.trainer.verl.train_agent_ppo import TaskRunner
 
 
 class AgentTrainer:
@@ -101,6 +99,9 @@ def _train_tinker(self):
         trainer.fit_agent()
 
     def _train_verl(self):
+        from rllm.trainer.verl.ray_runtime_env import get_ppo_ray_runtime_env
+        from rllm.trainer.verl.train_agent_ppo import TaskRunner
+
         # Check if Ray is not initialized
         if not ray.is_initialized():
             # read off all the `ray_init` settings from the config