Add assigning special values to estimator params

olegkkruglov · olegkkruglov · commit 013fa3cc1e39 · 2024-09-20T17:35:48.000-07:00
diff --git a/sklbench/benchmarks/sklearn_estimator.py b/sklbench/benchmarks/sklearn_estimator.py
@@ -38,6 +38,7 @@
 )
 
 from ..datasets import load_dataset
+from ..datasets.special_params import assign_case_special_values_on_run
 from ..datasets.transformer import split_and_transform_data
 from ..utils.bench_case import get_bench_case_value
 from ..utils.common import convert_to_numpy, custom_format, get_module_members
@@ -511,8 +512,6 @@ def measure_sklearn_estimator(
     bench_case,
     task,
     estimator_class,
-    estimator_methods,
-    estimator_params,
 ):
     enable_modelbuilders = get_bench_case_value(
         bench_case, "algorithm:enable_modelbuilders", False
@@ -530,17 +529,31 @@ def measure_sklearn_estimator(
     )
     sklearnex_logging_stream = get_sklearnex_logging_stream()
 
+    is_dataset_sequence = (
+        get_bench_case_value(bench_case, "data:dataset_sequence") is not None
+    )
+    # TODO Consider if it is possible to do without additional dataset loading
+    if not is_dataset_sequence:
+        dataset_info = get_bench_case_value(bench_case, "data")
+        data, data_descriptor = load_dataset(bench_case, dataset_info)
+        assign_case_special_values_on_run(bench_case, data, data_descriptor)
+
+    # get estimator parameters
+    estimator_params = get_bench_case_value(
+        bench_case, "algorithm:estimator_params", dict()
+    )
+
+    # get estimator methods for measurement
+    estimator_methods = get_estimator_methods(bench_case)
+
     metrics = dict()
+
     estimator_instance = estimator_class(**estimator_params)
     for stage in estimator_methods.keys():
         for method in estimator_methods[stage]:
             if hasattr(estimator_instance, method):
                 method_instance = getattr(estimator_instance, method)
                 if method == "partial_fit":
-                    is_dataset_sequence = (
-                        get_bench_case_value(bench_case, "data:dataset_sequence")
-                        is not None
-                    )
                     if is_dataset_sequence:
                         function_to_measure = create_online_function_for_big_data(
                             bench_case, estimator_instance, method_instance, stage
@@ -606,14 +619,6 @@ def main(bench_case: BenchCase, filters: List[BenchCase]):
     estimator_class = get_estimator(library_name, estimator_name)
     task = estimator_to_task(estimator_name)
 
-    # get estimator parameters
-    estimator_params = get_bench_case_value(
-        bench_case, "algorithm:estimator_params", dict()
-    )
-
-    # get estimator methods for measurement
-    estimator_methods = get_estimator_methods(bench_case)
-
     # benchmark case filtering
     if not bench_case_filter(bench_case, filters):
         logger.warning("Benchmarking case was filtered.")
@@ -626,8 +631,6 @@ def main(bench_case: BenchCase, filters: List[BenchCase]):
             bench_case,
             task,
             estimator_class,
-            estimator_methods,
-            estimator_params,
         )
 
     result_template = {
@@ -648,6 +651,7 @@ def main(bench_case: BenchCase, filters: List[BenchCase]):
         "training": data_description["x_train"],
         "inference": data_description["x_test"],
     }
+    estimator_methods = get_estimator_methods(bench_case)
     for stage in estimator_methods.keys():
         data_descs[stage].update(
             {