improved metadata nb (#1107)

ezekielemerson · zeke-emerson · web-flow · commit 6ac42983ece0 · 2023-05-25T09:12:18.000-04:00
Co-authored-by: ezekielemerson &lt;eemerson2325@gmail.com&gt;
diff --git a/examples/basics/data_row_metadata.ipynb b/examples/basics/data_row_metadata.ipynb
@@ -39,76 +39,36 @@
     {
       "metadata": {},
       "source": [
-        "### Installation"
+        "## Setup"
       ],
       "cell_type": "markdown"
     },
     {
       "metadata": {},
       "source": [
-        "!pip install -q --upgrade tensorflow-hub \\\n",
-        "                 scikit-learn \\\n",
-        "                 seaborn \\\n",
-        "                 \"labelbox[data]\""
+        "!pip install -q \"labelbox[data]\""
       ],
       "cell_type": "code",
-      "outputs": [
-        {
-          "output_type": "stream",
-          "name": "stdout",
-          "text": [
-            "\u001b[2K     \u001b[90m\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u001b[0m \u001b[32m9.8/9.8 MB\u001b[0m \u001b[31m42.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
-            "\u001b[2K     \u001b[90m\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u001b[0m \u001b[32m293.3/293.3 KB\u001b[0m \u001b[31m21.1 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
-            "\u001b[2K     \u001b[90m\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u001b[0m \u001b[32m189.2/189.2 KB\u001b[0m \u001b[31m9.2 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
-            "\u001b[2K     \u001b[90m\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u2501\u001b[0m \u001b[32m7.8/7.8 MB\u001b[0m \u001b[31m56.0 MB/s\u001b[0m eta \u001b[36m0:00:00\u001b[0m\n",
-            "\u001b[?25h  Preparing metadata (setup.py) ... \u001b[?25l\u001b[?25hdone\n",
-            "  Building wheel for pygeotile (setup.py) ... \u001b[?25l\u001b[?25hdone\n"
-          ]
-        }
-      ],
+      "outputs": [],
       "execution_count": null
     },
     {
       "metadata": {},
       "source": [
-        "## Setup"
-      ],
-      "cell_type": "markdown"
-    },
-    {
-      "metadata": {},
-      "source": [
-        "import random\n",
-        "import numpy as np\n",
-        "\n",
         "import labelbox as lb\n",
-        "from sklearn.random_projection import GaussianRandomProjection\n",
-        "import tensorflow as tf\n",
-        "import seaborn as sns\n",
-        "import tensorflow_hub as hub\n",
         "from datetime import datetime\n",
-        "from tqdm.notebook import tqdm\n",
-        "import requests\n",
         "from pprint import pprint\n",
         "from uuid import uuid4"
       ],
       "cell_type": "code",
       "outputs": [],
       "execution_count": null
     },
-    {
-      "metadata": {},
-      "source": [
-        "# API Key and Client\n",
-        "Provide a valid api key below in order to properly connect to the Labelbox Client."
-      ],
-      "cell_type": "markdown"
-    },
     {
       "metadata": {},
       "source": [
         "# Add your api key\n",
-        "API_KEY=\"\"\n",
+        "API_KEY = \"\"\n",
         "client = lb.Client(api_key=API_KEY)"
       ],
       "cell_type": "code",
@@ -158,20 +118,7 @@
         "pprint(metadata_ontologies, indent=2)"
       ],
       "cell_type": "code",
-      "outputs": [
-        {
-          "output_type": "stream",
-          "name": "stdout",
-          "text": [
-            "{ 'cko8s9r5v0001h2dk9elqdidh': DataRowMetadataSchema(uid='cko8s9r5v0001h2dk9elqdidh', name='tag', reserved=True, kind=<DataRowMetadataKind.string: 'CustomMetadataString'>, options=None, parent=None),\n",
-            "  'cko8sbczn0002h2dkdaxb5kal': DataRowMetadataSchema(uid='cko8sbczn0002h2dkdaxb5kal', name='split', reserved=True, kind=<DataRowMetadataKind.enum: 'CustomMetadataEnum'>, options=[DataRowMetadataSchema(uid='cko8sbscr0003h2dk04w86hof', name='train', reserved=True, kind=<DataRowMetadataKind.option: 'CustomMetadataEnumOption'>, options=None, parent='cko8sbczn0002h2dkdaxb5kal'), DataRowMetadataSchema(uid='cko8sc2yr0004h2dk69aj5x63', name='valid', reserved=True, kind=<DataRowMetadataKind.option: 'CustomMetadataEnumOption'>, options=None, parent='cko8sbczn0002h2dkdaxb5kal'), DataRowMetadataSchema(uid='cko8scbz70005h2dkastwhgqt', name='test', reserved=True, kind=<DataRowMetadataKind.option: 'CustomMetadataEnumOption'>, options=None, parent='cko8sbczn0002h2dkdaxb5kal')], parent=None),\n",
-            "  'cko8sbscr0003h2dk04w86hof': DataRowMetadataSchema(uid='cko8sbscr0003h2dk04w86hof', name='train', reserved=True, kind=<DataRowMetadataKind.option: 'CustomMetadataEnumOption'>, options=None, parent='cko8sbczn0002h2dkdaxb5kal'),\n",
-            "  'cko8sc2yr0004h2dk69aj5x63': DataRowMetadataSchema(uid='cko8sc2yr0004h2dk69aj5x63', name='valid', reserved=True, kind=<DataRowMetadataKind.option: 'CustomMetadataEnumOption'>, options=None, parent='cko8sbczn0002h2dkdaxb5kal'),\n",
-            "  'cko8scbz70005h2dkastwhgqt': DataRowMetadataSchema(uid='cko8scbz70005h2dkastwhgqt', name='test', reserved=True, kind=<DataRowMetadataKind.option: 'CustomMetadataEnumOption'>, options=None, parent='cko8sbczn0002h2dkdaxb5kal'),\n",
-            "  'cko8sdzv70006h2dk8jg64zvb': DataRowMetadataSchema(uid='cko8sdzv70006h2dk8jg64zvb', name='captureDateTime', reserved=True, kind=<DataRowMetadataKind.datetime: 'CustomMetadataDateTime'>, options=None, parent=None)}\n"
-          ]
-        }
-      ],
+      "outputs": [],
       "execution_count": null
     },
     {
@@ -200,18 +147,7 @@
         "tag_field"
       ],
       "cell_type": "code",
-      "outputs": [
-        {
-          "output_type": "execute_result",
-          "data": {
-            "text/plain": [
-              "DataRowMetadataSchema(uid='cko8s9r5v0001h2dk9elqdidh', name='tag', reserved=True, kind=<DataRowMetadataKind.string: 'CustomMetadataString'>, options=None, parent=None)"
-            ]
-          },
-          "metadata": {},
-          "execution_count": 19
-        }
-      ],
+      "outputs": [],
       "execution_count": null
     },
     {
@@ -229,7 +165,7 @@
     {
       "metadata": {},
       "source": [
-        "Option 1: Specify metadata with a list of DataRowMetadataField. This is the recommended option since it comes with validation for metadata fields."
+        "Option 1: Specify metadata with a list of `DataRowMetadataField` objects. This is the recommended option since it comes with validation for metadata fields."
       ],
       "cell_type": "markdown"
     },
@@ -261,7 +197,7 @@
     {
       "metadata": {},
       "source": [
-        "Option 2: Alternatively, you can specify the metadata fields with dictionary format without declaring the DataRowMetadataField objects.\n"
+        "Option 2: Alternatively, you can specify the metadata fields with dictionary format without declaring the `DataRowMetadataField` objects.\n"
       ],
       "cell_type": "markdown"
     },
@@ -281,7 +217,7 @@
         "}\n",
         "\n",
         "# Construct a dictionary of Enums options metadata\n",
-        "split_metadta_field_dict = {\n",
+        "split_metadata_field_dict = {\n",
         "    \"name\": \"split\",\n",
         "    \"value\": \"train\",\n",
         "}"
@@ -293,23 +229,22 @@
     {
       "metadata": {},
       "source": [
-        "# Upload Data Rows together with metadata\n",
+        "## Upload data rows together with metadata\n",
         "\n",
-        "Note: currently, there is a 30k limit on bulk uploading data rows containing metadata.\n",
-        "\n"
+        "See [Limits](https://docs.labelbox.com/docs/limits) for information on limits for uploading data rows in one API operation."
       ],
       "cell_type": "markdown"
     },
     {
       "metadata": {},
       "source": [
-        "# A simple example of uploading Data Rows with metadta\n",
+        "# A simple example of uploading Data Rows with metadata\n",
         "dataset = client.create_dataset(name=\"Simple Data Rows import with metadata example\")\n",
         "\n",
-        "data_row = {\"row_data\": \"https://storage.googleapis.com/labelbox-sample-datasets/Docs/basic.jpg\", \"external_id\": str(uuid4())}\n",
-        "data_row['metadata_fields'] = [tag_metadata_field, capture_datetime_field,  split_metadta_field] \n",
+        "data_row = {\"row_data\": \"https://storage.googleapis.com/labelbox-sample-datasets/Docs/basic.jpg\", \"global_key\": str(uuid4())}\n",
+        "data_row['metadata_fields'] = [tag_metadata_field, capture_datetime_field,  split_metadata_field_dict] \n",
         "# Also works with a list of dictionary as specified in Option 2. Uncomment the line below to try. \n",
-        "# data_row['metadata_fields'] = [tag_metadata_field_dict, capture_datetime_field_dict, split_metadta_field_dict]\n",
+        "# data_row['metadata_fields'] = [tag_metadata_field_dict, capture_datetime_field_dict, split_metadata_field_dict]\n",
         "\n",
         "task = dataset.create_data_rows([data_row])\n",
         "task.wait_till_done()"
@@ -321,70 +256,49 @@
     {
       "metadata": {},
       "source": [
-        "## Accessing Metadata\n",
+        "## Accessing metadata\n",
         "\n",
-        "You can examine individual Data Row, including its metadata."
+        "You can examine an individual data row, including its metadata."
       ],
       "cell_type": "markdown"
     },
     {
       "metadata": {},
       "source": [
-        "datarow = next(dataset.data_rows())\n",
-        "for metadata_field in datarow.metadata_fields:\n",
+        "data_row = next(dataset.data_rows())\n",
+        "for metadata_field in data_row.metadata_fields:\n",
         "  print(metadata_field['name'], \":\", metadata_field['value'])"
       ],
       "cell_type": "code",
-      "outputs": [
-        {
-          "output_type": "stream",
-          "name": "stdout",
-          "text": [
-            "tag : tag_string\n",
-            "split : train\n",
-            "captureDateTime : 2023-02-28T13:15:25.948052Z\n"
-          ]
-        }
-      ],
+      "outputs": [],
       "execution_count": null
     },
     {
       "metadata": {},
       "source": [
-        "You can bulk export metadata given Data Row Ids"
+        "You can bulk export metadata given data row IDs"
       ],
       "cell_type": "markdown"
     },
     {
       "metadata": {},
       "source": [
-        "datarows_metadata = mdo.bulk_export([datarow.uid])\n",
-        "len(datarows_metadata)"
+        "data_rows_metadata = mdo.bulk_export([data_row.uid])\n",
+        "len(data_rows_metadata)"
       ],
       "cell_type": "code",
-      "outputs": [
-        {
-          "output_type": "execute_result",
-          "data": {
-            "text/plain": [
-              "1"
-            ]
-          },
-          "metadata": {},
-          "execution_count": 23
-        }
-      ],
+      "outputs": [],
       "execution_count": null
     },
     {
       "metadata": {},
       "source": [
-        "# Upload/delete/update custom metadata to existing Data Rows\n",
+        "## Upload/delete/update custom metadata for existing data rows\n",
         "\n",
-        "For a complete tutorial on how to update, upload and delete custom metadata please follow the steps in this tutorial https://colab.research.google.com/github/Labelbox/labelbox-python/blob/master/examples/basics/custom_embeddings.ipynb \n",
+        "For a complete tutorial on how to update, upload and delete custom metadata please follow the steps in this [tutorial](https://colab.research.google.com/github/Labelbox/labelbox-python/blob/master/examples/basics/custom_embeddings.ipynb).\n",
         "\n"
       ],
       "cell_type": "markdown"
     }
   ]
-}
+}