[SN-122]Add streamable export methods and update links (#1514)

smuttalb · web-flow · commit 9844d5d48ee7 · 2024-03-30T21:42:22.000+05:30
diff --git a/examples/annotation_import/import_labeled_dataset_image.ipynb b/examples/annotation_import/import_labeled_dataset_image.ipynb
@@ -3,6 +3,33 @@
   "nbformat_minor": 0,
   "metadata": {},
   "cells": [
+    {
+      "metadata": {},
+      "source": [
+        "<td>\n",
+        "   <a target=\"_blank\" href=\"https://labelbox.com\" ><img src=\"https://labelbox.com/blog/content/images/2021/02/logo-v4.svg\" width=256/></a>\n",
+        "</td>"
+      ],
+      "cell_type": "markdown"
+    },
+    {
+      "metadata": {},
+      "source": [
+        "<td>\n",
+        "<a href=\"https://colab.research.google.com/github/Labelbox/labelbox-python/blob/master/examples/annotation_import/import_labeled_dataset_image.ipynb\" target=\"_blank\"><img\n",
+        "src=\"https://colab.research.google.com/assets/colab-badge.svg\" alt=\"Open In Colab\"></a>\n",
+        "</td>\n",
+        "\n",
+        "\n",
+        "\n",
+        "\n",
+        "<td>\n",
+        "<a href=\"https://github.com/Labelbox/labelbox-python/blob/master/examples/annotation_import/import_labeled_dataset_image.ipynb\" target=\"_blank\"><img\n",
+        "src=\"https://img.shields.io/badge/GitHub-100000?logo=github&logoColor=white\" alt=\"GitHub\"></a>\n",
+        "</td>"
+      ],
+      "cell_type": "markdown"
+    },
     {
       "metadata": {},
       "source": [
@@ -229,8 +256,43 @@
     {
       "metadata": {},
       "source": [
-        "# Export data rows from the dataset\n",
-        "data_rows = [dr.uid for dr in dataset.export_data_rows()]\n",
+        "# Send a batch of data rows to the project"
+      ],
+      "cell_type": "markdown"
+    },
+    {
+      "metadata": {},
+      "source": [
+        "client.enable_experimental = True\n",
+        "\n",
+        "# Minimal ExportV2 parameters focused solely on data row IDs\n",
+        "export_params = {\n",
+        "    \"data_row_details\": True  # Only export data row details \n",
+        "}\n",
+        "\n",
+        "# Initiate the streamable export task from catalog\n",
+        "dataset = client.get_dataset(dataset.uid)  # Update with the actual dataset ID\n",
+        "export_task = dataset.export(params=export_params)\n",
+        "export_task.wait_till_done()\n",
+        "print(export_task)\n",
+        "\n",
+        "data_rows = []\n",
+        "\n",
+        "# Callback used for JSON Converter to correctly collect data row IDs\n",
+        "def json_stream_handler(output: lb.JsonConverterOutput):\n",
+        "    # Parse the JSON string to access the data\n",
+        "    data = json.loads(output.json_str)\n",
+        "\n",
+        "    # Correctly extract and append DataRow ID\n",
+        "    if 'data_row' in data and 'id' in data['data_row']:\n",
+        "        data_rows.append(data['data_row']['id'])\n",
+        "\n",
+        "# Process the stream if there are results\n",
+        "if export_task.has_result():\n",
+        "    export_task.get_stream(\n",
+        "        converter=lb.JsonConverter(),\n",
+        "        stream_type=lb.StreamType.RESULT\n",
+        "    ).start(stream_handler=json_stream_handler)\n",
         "\n",
         "# Randomly select 200 Data Rows (or fewer if the dataset has less than 200 data rows)\n",
         "sampled_data_rows = random.sample(data_rows, min(len(data_rows), 200))\n",
@@ -250,13 +312,52 @@
     {
       "metadata": {},
       "source": [
-        "queued_data_rows = project.export_queued_data_rows()\n",
-        "labels = []\n",
+        "# Create annotations payload"
+      ],
+      "cell_type": "markdown"
+    },
+    {
+      "metadata": {},
+      "source": [
+        "\n",
+        "# Set export parameters focused on data row details\n",
+        "export_params = {\n",
+        "    \"data_row_details\": True,  # Only export data row details\n",
+        "    \"batch_ids\": [batch.uid],  # Optional: Include batch ids to filter by specific batches\n",
+        "}\n",
+        "\n",
+        "# Initialize the streamable export task from project\n",
+        "export_task = project.export(params=export_params)\n",
+        "export_task.wait_till_done()\n",
+        "\n",
+        "data_rows = []\n",
+        "\n",
+        "def json_stream_handler(output: lb.JsonConverterOutput):\n",
+        "  data_row = json.loads(output.json_str)\n",
+        "  data_rows.append(data_row)\n",
         "\n",
-        "for datarow in queued_data_rows:\n",
+        "\n",
+        "if export_task.has_errors():\n",
+        "  export_task.get_stream(\n",
+        "  \n",
+        "  converter=lb.JsonConverter(),\n",
+        "  stream_type=lb.StreamType.ERRORS\n",
+        "  ).start(stream_handler=lambda error: print(error))\n",
+        "\n",
+        "if export_task.has_result():\n",
+        "  export_json = export_task.get_stream(\n",
+        "    converter=lb.JsonConverter(),\n",
+        "    stream_type=lb.StreamType.RESULT\n",
+        "  ).start(stream_handler=json_stream_handler)\n",
+        "\n",
+        "labels = []\n",
+        "for datarow in data_rows:\n",
         "    annotations_list = []\n",
-        "    folder = datarow['externalId'].split(\"/\")[0]\n",
-        "    id = datarow['externalId'].split(\"/\")[1]\n",
+        "    # Access the 'data_row' dictionary first\n",
+        "    data_row_dict = datarow['data_row']\n",
+        "    folder = data_row_dict['external_id'].split(\"/\")[0]\n",
+        "    id = data_row_dict['external_id'].split(\"/\")[1]\n",
+        "    \n",
         "    if folder == \"positive_image_set\":\n",
         "        for image in annotations['images']:\n",
         "            if image['file_name'] == id:\n",
@@ -275,17 +376,8 @@
         "                                name=class_name,\n",
         "                                value=Rectangle(start=Point(x=bbox[0], y=bbox[1]), end=Point(x=bbox[2]+bbox[0], y=bbox[3]+bbox[1]))\n",
         "                            ))\n",
-        "    image_data = ImageData(uid=datarow['id'])\n",
-        "    labels.append(Label(data=image_data, annotations=annotations_list))\n"
-      ],
-      "cell_type": "code",
-      "outputs": [],
-      "execution_count": null
-    },
-    {
-      "metadata": {},
-      "source": [
-        "print(labels)"
+        "    image_data = ImageData(uid=data_row_dict['id'])\n",
+        "    labels.append(Label(data=image_data, annotations=annotations_list))"
       ],
       "cell_type": "code",
       "outputs": [],