merge

Neehar Duvvuri · Neehar Duvvuri · commit 201af13b70ed · 2025-10-20T11:29:37.000-04:00
diff --git a/sdk/evaluation/azure-ai-evaluation/assets.json b/sdk/evaluation/azure-ai-evaluation/assets.json
@@ -2,5 +2,5 @@
   "AssetsRepo": "Azure/azure-sdk-assets",
   "AssetsRepoPrefixPath": "python",
   "TagPrefix": "python/evaluation/azure-ai-evaluation",
-  "Tag": "python/evaluation/azure-ai-evaluation_d7b00f22b8"
+  "Tag": "python/evaluation/azure-ai-evaluation_5bef6dc713"
 }
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_common/rai_service.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_common/rai_service.py
@@ -533,6 +533,13 @@ def _parse_content_harm_response(
     except Exception:  # pylint: disable=broad-exception-caught
         harm_response = response[metric_name]
 
+    total_tokens = 0
+    prompt_tokens = 0
+    completion_tokens = 0
+    finish_reason = ""
+    sample_input = ""
+    sample_output = ""
+    model = ""
     if harm_response != "" and isinstance(harm_response, dict):
         # check if "output" is one key in harm_response
         if "output" in harm_response:
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_mass_evaluate.py b/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_mass_evaluate.py
@@ -388,7 +388,7 @@ def test_evaluate_multimodal(
             # imageurls_with_target has 1 extra column: outputs.conversation due to the target mapping
             assert len(row_result_df.keys()) >= 33
         else:
-            assert len(row_result_df.keys()) == 32
+            assert len(row_result_df.keys()) == 88
         known_keys = [
             "outputs.content_safety.hate_unfairness",
             "outputs.content_safety.hate_unfairness_score",
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_evaluate.py b/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_evaluate.py
@@ -1156,21 +1156,21 @@ def run_test():
         assert "metrics" in converted_results
         assert "rows" in converted_results
         assert "studio_url" in converted_results
-        assert "evaluation_results_list" in converted_results
-        assert "evaluation_summary" in converted_results
+        assert "_evaluation_results_list" in converted_results
+        assert "_evaluation_summary" in converted_results
 
         # Verify metrics preserved
         assert converted_results["metrics"]["overall_score"] == 0.75
 
         # Verify studio URL preserved
         assert converted_results["studio_url"] == "https://test-studio.com"
 
-        # Verify evaluation_results_list is same as rows (converted format)
-        assert len(converted_results["evaluation_results_list"]) == len(test_rows)
-        assert len(converted_results["evaluation_results_list"]) == len(converted_results["rows"])
+        # Verify _evaluation_results_list is same as rows (converted format)
+        assert len(converted_results["_evaluation_results_list"]) == len(test_rows)
+        assert len(converted_results["_evaluation_results_list"]) == len(converted_results["rows"])
 
         # Verify conversion structure for each row
-        for i, converted_row in enumerate(converted_results["evaluation_results_list"]):
+        for i, converted_row in enumerate(converted_results["_evaluation_results_list"]):
             # Check RunOutputItem structure
             assert "object" in converted_row
             assert converted_row["object"] == "eval.run.output_item"
@@ -1213,8 +1213,8 @@ def run_test():
                 assert "name" in result
                 assert "metric" in result
 
-        # Verify evaluation summary structure
-        summary = converted_results["evaluation_summary"]
+        # Verify _evaluation_summary structure
+        summary = converted_results["_evaluation_summary"]
         assert "result_counts" in summary
         assert "per_model_usage" in summary
         assert "per_testing_criteria_results" in summary
@@ -1262,8 +1262,8 @@ def run_test():
         empty_converted = empty_results
 
         assert len(empty_converted["rows"]) == 0
-        assert len(empty_converted["evaluation_results_list"]) == 0
-        assert empty_converted["evaluation_summary"]["result_counts"]["total"] == 0
+        assert len(empty_converted["_evaluation_results_list"]) == 0
+        assert empty_converted["_evaluation_summary"]["result_counts"]["total"] == 0
 
 
 @pytest.mark.unittest

Original file line number	Diff line number	Diff line change
`@@ -2,5 +2,5 @@`
`2`	`2`	`"AssetsRepo": "Azure/azure-sdk-assets",`
`3`	`3`	`"AssetsRepoPrefixPath": "python",`
`4`	`4`	`"TagPrefix": "python/evaluation/azure-ai-evaluation",`
`5`		`- "Tag": "python/evaluation/azure-ai-evaluation_d7b00f22b8"`
	`5`	`+ "Tag": "python/evaluation/azure-ai-evaluation_5bef6dc713"`
`6`	`6`	`}`