PLAID-lib · casenave · Nov 1, 2025 · Nov 2, 2025 · Nov 3, 2025 · Nov 3, 2025
@@ -13,8 +13,13 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 
 ### Changed
 
+- (huggingface bridge) full parallel support in `from_generator`, with optimization of constant leaf detection (no large data communicated between processes).
+
 ### Fixes
 
+- (samples/features) add string support to globals.
+- (huggingface bridge) correct split_constant tree derivation, add heuristic for number of shards usage in push_to_dict, robustify infer_hf_features_from_value with respect to numpy arrays of strings, modernize update_dataset_card.
+
 ### Removed
 
 ## [0.1.10] - 2025-10-29

@@ -153,16 +153,25 @@ def get_mem():
 # Ganarators are used to handle large datasets that do not fit in memory:
 
 # %%
+gen_kwargs = {}
+gen_kwargs["train"] = {"shards_ids": [[0, 1]]}
+gen_kwargs["test"] = {"shards_ids": [[2]]}
+
 generators = {}
-for split_name, ids in main_splits.items():
-    def generator_(ids=ids):
-        for id in ids:
-            yield dataset[id]
+for split_name in gen_kwargs.keys():
+
+    def generator_(shards_ids):
+        for ids in shards_ids:
+            if isinstance(ids, int):
+                ids = [ids]
+            for id in ids:
+                yield dataset[id]
+
     generators[split_name] = generator_
 
 hf_datasetdict, flat_cst, key_mappings = (
     huggingface_bridge.plaid_generator_to_huggingface_datasetdict(
-        generators
+        generators, gen_kwargs
     )
 )
 print(f"{hf_datasetdict = }")