Jessli/convert Fix test failure (#43518)

YoYoJa · web-flow · commit eec6eb286956 · 2025-10-20T00:43:38.000-07:00
* add eval result converter

* Add result converter

* update converter params to optional

* add eval meta data

* fix type

* remove useless file

* get eval meta data as input

* fix build errors

* remove useless import

* resolve comments

* update

* update comments

* fix checker failure

* add error msg and error code

* Surface evaluator error msg

* update UT

* fix usage

* make eval_meta_data optional

* remove useless lines

* update param name to add underscore

* parse updated annotation results

* update trace_id

* expose sample data for sdk evaluators

* update

* update

* fix UT

* fix tests

* fix test
diff --git a/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_common/rai_service.py b/sdk/evaluation/azure-ai-evaluation/azure/ai/evaluation/_common/rai_service.py
@@ -533,6 +533,13 @@ def _parse_content_harm_response(
     except Exception:  # pylint: disable=broad-exception-caught
         harm_response = response[metric_name]
 
+    total_tokens = 0
+    prompt_tokens = 0
+    completion_tokens = 0
+    finish_reason = ""
+    sample_input = ""
+    sample_output = ""
+    model = ""
     if harm_response != "" and isinstance(harm_response, dict):
         # check if "output" is one key in harm_response
         if "output" in harm_response:
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_mass_evaluate.py b/sdk/evaluation/azure-ai-evaluation/tests/e2etests/test_mass_evaluate.py
@@ -388,7 +388,7 @@ def test_evaluate_multimodal(
             # imageurls_with_target has 1 extra column: outputs.conversation due to the target mapping
             assert len(row_result_df.keys()) >= 33
         else:
-            assert len(row_result_df.keys()) == 32
+            assert len(row_result_df.keys()) == 88
         known_keys = [
             "outputs.content_safety.hate_unfairness",
             "outputs.content_safety.hate_unfairness_score",
diff --git a/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_evaluate.py b/sdk/evaluation/azure-ai-evaluation/tests/unittests/test_evaluate.py
@@ -1156,21 +1156,21 @@ def run_test():
         assert "metrics" in converted_results
         assert "rows" in converted_results
         assert "studio_url" in converted_results
-        assert "evaluation_results_list" in converted_results
-        assert "evaluation_summary" in converted_results
+        assert "_evaluation_results_list" in converted_results
+        assert "_evaluation_summary" in converted_results
 
         # Verify metrics preserved
         assert converted_results["metrics"]["overall_score"] == 0.75
 
         # Verify studio URL preserved
         assert converted_results["studio_url"] == "https://test-studio.com"
 
-        # Verify evaluation_results_list is same as rows (converted format)
-        assert len(converted_results["evaluation_results_list"]) == len(test_rows)
-        assert len(converted_results["evaluation_results_list"]) == len(converted_results["rows"])
+        # Verify _evaluation_results_list is same as rows (converted format)
+        assert len(converted_results["_evaluation_results_list"]) == len(test_rows)
+        assert len(converted_results["_evaluation_results_list"]) == len(converted_results["rows"])
 
         # Verify conversion structure for each row
-        for i, converted_row in enumerate(converted_results["evaluation_results_list"]):
+        for i, converted_row in enumerate(converted_results["_evaluation_results_list"]):
             # Check RunOutputItem structure
             assert "object" in converted_row
             assert converted_row["object"] == "eval.run.output_item"
@@ -1213,8 +1213,8 @@ def run_test():
                 assert "name" in result
                 assert "metric" in result
 
-        # Verify evaluation summary structure
-        summary = converted_results["evaluation_summary"]
+        # Verify _evaluation_summary structure
+        summary = converted_results["_evaluation_summary"]
         assert "result_counts" in summary
         assert "per_model_usage" in summary
         assert "per_testing_criteria_results" in summary
@@ -1262,8 +1262,8 @@ def run_test():
         empty_converted = empty_results
 
         assert len(empty_converted["rows"]) == 0
-        assert len(empty_converted["evaluation_results_list"]) == 0
-        assert empty_converted["evaluation_summary"]["result_counts"]["total"] == 0
+        assert len(empty_converted["_evaluation_results_list"]) == 0
+        assert empty_converted["_evaluation_summary"]["result_counts"]["total"] == 0
 
 
 @pytest.mark.unittest