Chat tasks in Agentharm (rllm-org#140)

mattmdjaga · web-flow · commit 13cc10fdded6 · 2024-12-17T17:16:37.000Z
* Adding chat task support for AgentHarm

* Adding doc string arg for chat bool
diff --git a/src/inspect_evals/agentharm/agentharm.py b/src/inspect_evals/agentharm/agentharm.py
@@ -73,6 +73,7 @@ def agentharm(
     refusal_judge: str = "openai/gpt-4o-2024-08-06",
     semantic_judge: str = "openai/gpt-4o-2024-08-06",
     agent_kwargs: Optional[Dict[str, Any]] = None,
+    chat_dataset: Optional[bool] = False,
 ) -> Task:
     """
     AgentHarm benchmark task.
@@ -91,11 +92,12 @@ def agentharm(
             - user_prompt_template (str): Name of user prompt in `prompts.py`. Default is 'empty'.
             - system_prompt_template (str): Name of system prompt in `prompts.py`. Default is None.
             - prompt_technique (Literal['standard', 'cot', 'react', 'refusal']): Prompting technique to apply to the system prompt. Default is 'standard'.
+        chat_dataset (bool): If true, evaluate on the chat dataset.
     """
     return run_agent_benchmark(
         agent=agent,
         behavior_ids=behavior_ids,
-        task_name="harmful",
+        task_name="harmful" if not chat_dataset else "chat",
         split=split,
         detailed_behaviors=detailed_behaviors,
         hint_included=hint_included,
@@ -109,7 +111,7 @@ def agentharm(
 def run_agent_benchmark(
     agent: str,
     behavior_ids: list[str] = [],
-    task_name: Literal["harmful", "benign"] = "harmful",
+    task_name: Literal["harmful", "benign", "chat"] = "harmful",
     split: Literal["val", "test_private", "test_public"] = "test_public",
     detailed_behaviors: Optional[bool] = None,
     hint_included: Optional[bool] = None,
@@ -140,7 +142,7 @@ def run_agent_benchmark(
     """
     dataset = load_dataset(task_name, split)
     dataset = filter_dataset(dataset, behavior_ids, detailed_behaviors, hint_included)
-    all_tool_names = get_benchmark_tools(task_name)
+    all_tool_names = get_benchmark_tools(task_name) if task_name != "chat" else []
 
     agent_solver = get_agent(agent=agent, **agent_kwargs if agent_kwargs else {})
 
@@ -159,6 +161,8 @@ def run_agent_benchmark(
         harmful_grading_functions
         if task_name == "harmful"
         else benign_grading_functions
+        if task_name == "benign"
+        else None
     )
 
     return Task(
diff --git a/src/inspect_evals/agentharm/scorer.py b/src/inspect_evals/agentharm/scorer.py
@@ -82,10 +82,14 @@ async def compute_score(state: TaskState, target: Target) -> Score:
         grading_function_name = state.metadata["grading_function"]
         state.metadata["semantic_judge"] = semantic_judge
         # this is where scoring happens
-        score_dict = await getattr(grading_module, grading_function_name)(
-            state.metadata, state.messages
-        )
-        score = np.mean(list(score_dict.values()))
+        if grading_module is None:
+            score = 0.0
+            score_dict = {}
+        else:
+            score_dict = await getattr(grading_module, grading_function_name)(
+                state.metadata, state.messages
+            )
+            score = np.mean(list(score_dict.values()))
 
         refusal, refusal_explanation = False, "No refusal messages were detected."
         state.metadata["refusal_explanations"] = []
diff --git a/src/inspect_evals/agentharm/utils.py b/src/inspect_evals/agentharm/utils.py
@@ -20,7 +20,7 @@
 
 
 def load_dataset(
-    name: Literal["harmful", "benign"],
+    name: Literal["harmful", "benign", "chat"],
     split: Literal["val", "test_public", "test_private"],
 ) -> Dataset:
     """
@@ -61,6 +61,11 @@ def load_dataset(
             "test_public": "benchmark/benign_behaviors_test_public.json",
             "test_private": "benchmark/benign_behaviors_test_private.json",
         },
+        "chat": {
+            "val": "benchmark/chat_validation.json",
+            "test_public": "benchmark/chat_public_test.json",
+            "test_private": "benchmark/chat_private_test.json",
+        },
     }
 
     if name not in split_dict:
@@ -183,7 +188,7 @@ def get_benchmark_tools(task_name: Literal["harmful", "benign"]) -> List[str]:
 
 @solver
 def setup_tools_from_metadata(
-    task_name: Literal["harmful", "benign"],
+    task_name: Literal["harmful", "benign", "chat"],
     all_tool_names: list[str],
     n_irrelevant_tools: int = 0,
 ) -> Solver:
@@ -202,6 +207,8 @@ def setup_tools_from_metadata(
 
     async def solve(state: TaskState, generate: Generate) -> TaskState:
         tools_list = []
+        if task_name == "chat":
+            return state
 
         for name in state.metadata["target_functions"]:
             try: