Add tests.

qiuosier · qiuosier · commit 65bc43dc3d66 · 2023-06-24T11:17:41.000-04:00
diff --git a/tests/unitary/default_setup/jobs/test_jobs_pytorch_ddp.py b/tests/unitary/default_setup/jobs/test_jobs_pytorch_ddp.py
@@ -1,6 +1,9 @@
+#!/usr/bin/env python
+
+# Copyright (c) 2023 Oracle and/or its affiliates.
+# Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
+
 import json
-import os
-import sys
 import unittest
 import zipfile
 from unittest import mock
@@ -14,7 +17,6 @@
 )
 from ads.opctl.distributed.common import cluster_config_helper as cluster
 from ads.jobs.templates import driver_utils as utils
-from ads.jobs.templates import driver_pytorch as driver
 
 
 class PyTorchRuntimeHandlerTest(unittest.TestCase):
@@ -89,78 +91,60 @@ def test_translate_env(self):
             json.dumps({self.INPUT_SRC: self.INPUT_DST}),
         )
         self.assertNotIn(Handler.CONST_DEEPSPEED, envs)
+        # Test deepspeed env var
+        envs = Handler(DataScienceJob())._translate_env(
+            self.init_runtime().with_command("train.py", use_deepspeed=True)
+        )
+        self.assertIn(Handler.CONST_DEEPSPEED, envs)
 
-
-class PyTorchRunnerTest(unittest.TestCase):
-    TEST_IP = "10.0.0.1"
-    TEST_HOST_IP = "10.0.0.100"
-    TEST_HOST_OCID = "ocid_host"
-    TEST_NODE_OCID = "ocid_node"
-
-    def init_torch_runner(self):
-        with mock.patch(
-            "ads.jobs.templates.driver_pytorch.TorchRunner.build_c_library"
-        ), mock.patch("socket.gethostbyname") as GetHostIP, mock.patch(
-            "ads.jobs.DataScienceJobRun.from_ocid"
-        ) as GetJobRun:
-            GetHostIP.return_value = self.TEST_IP
-            GetJobRun.return_value = DataScienceJobRun(id="ocid.abcdefghijk")
-            return driver.TorchRunner()
-
-    @mock.patch.dict(os.environ, {driver.CONST_ENV_HOST_JOB_RUN_OCID: TEST_HOST_OCID})
-    def test_init_torch_runner_at_node(self):
-        runner = self.init_torch_runner()
-        self.assertEqual(runner.host_ocid, self.TEST_HOST_OCID)
-        self.assertEqual(runner.host_ip, None)
-
-    @mock.patch.dict(os.environ, {driver.CONST_ENV_JOB_RUN_OCID: TEST_NODE_OCID})
-    def test_init_torch_runner_at_host(self):
-        runner = self.init_torch_runner()
-        self.assertEqual(runner.host_ocid, self.TEST_NODE_OCID)
-        self.assertEqual(runner.host_ip, self.TEST_IP)
-
-    @mock.patch.dict(os.environ, {driver.CONST_ENV_HOST_JOB_RUN_OCID: TEST_HOST_OCID})
-    def test_wait_for_host_ip(self):
-        with mock.patch("ads.jobs.DataScienceJobRun.logs") as get_logs:
-            get_logs.return_value = [
-                {"message": f"{driver.LOG_PREFIX_HOST_IP} {self.TEST_HOST_IP}"}
-            ]
-            runner = self.init_torch_runner()
-            self.assertEqual(runner.host_ip, None)
-            runner.wait_for_host_ip_address()
-            self.assertEqual(runner.host_ip, self.TEST_HOST_IP)
-
-    @mock.patch.dict(
-        os.environ, {driver.CONST_ENV_LAUNCH_CMD: "torchrun train.py --data abc"}
-    )
-    def test_launch_cmd(self):
-        runner = self.init_torch_runner()
-        self.assertTrue(runner.launch_cmd_contains("data"))
-        self.assertFalse(runner.launch_cmd_contains("data1"))
+    @mock.patch("ads.jobs.builders.infrastructure.dsc_job.DSCJob.create")
+    def test_extract_env(self, *args):
+        """Tests extracting YAML specs from environment variables."""
+        job = DataScienceJob().create(self.init_runtime())
+        spec = Handler(job)._extract_envs(job.dsc_job)
         self.assertEqual(
-            runner.prepare_cmd(prefix="A=1"), "A=1 torchrun train.py --data abc"
+            spec,
+            {
+                "conda": {"type": "service", "slug": "pytorch110_p38_gpu_v1"},
+                "command": "torchrun distributed/minGPT-ddp/mingpt/main.py data_config.path=data/input.txt",
+                "replicas": 2,
+                "git": {
+                    "url": "https://github.com/pytorch/examples.git",
+                    "commit": "d91085d2181bf6342ac7dafbeee6fc0a1f64dcec",
+                },
+                "inputs": {"oci://bucket@namespace/path/to/input": "data/input.txt"},
+                "dependencies": {
+                    "pipPackages": '"package>1.0"',
+                    "pipRequirements": "distributed/minGPT-ddp/requirements.txt",
+                },
+            },
         )
 
-    @mock.patch.dict(os.environ, {Handler.CONST_CODE_ENTRYPOINT: "train.py"})
-    @mock.patch.object(sys, "argv", ["python", "hello", "--data", "abc"])
-    def test_prepare_cmd_with_entrypoint_args(self):
-        runner = self.init_torch_runner()
+    @mock.patch("ads.jobs.builders.infrastructure.dsc_job.DSCJob.create")
+    @mock.patch("ads.jobs.builders.infrastructure.dsc_job.DSCJob.run")
+    def test_create_job_runs(self, patched_run, *args):
+        test_ocid = "ocid-test"
+        patched_run.return_value = DataScienceJobRun(id=test_ocid)
+        job = DataScienceJob().create(self.init_runtime())
+        runtime = self.init_runtime()
+        main_run = runtime.run(job.dsc_job)
+        self.assertIsInstance(main_run, DataScienceJobRun)
+        self.assertEqual(main_run.id, test_ocid)
+        kwarg_list = [call_args.kwargs for call_args in patched_run.call_args_list]
         self.assertEqual(
-            runner.prepare_cmd(launch_args=["--key", "val"], prefix="A=1"),
-            "A=1 torchrun --key val train.py hello --data abc",
+            kwarg_list,
+            [
+                {
+                    "display_name": "None-0",
+                    "environment_variables": {"RANK": "0", "WORLD_SIZE": 2},
+                },
+                {
+                    "display_name": "None-1",
+                    "environment_variables": {
+                        "RANK": "1",
+                        "WORLD_SIZE": 2,
+                        "MAIN_JOB_RUN_OCID": test_ocid,
+                    },
+                },
+            ],
         )
-
-
-class LazyEvaluateTest(unittest.TestCase):
-    def test_lazy_evaluation(self):
-        def func(a, b):
-            return a + b
-
-        def func_with_error():
-            raise ValueError()
-
-        lazy_val = driver.LazyEvaluate(func, 1, 1)
-        self.assertEqual(str(lazy_val), "2")
-
-        lazy_val = driver.LazyEvaluate(func_with_error)
-        self.assertEqual(str(lazy_val), "ERROR: ")
diff --git a/tests/unitary/with_extras/jobs/__init__.py b/tests/unitary/with_extras/jobs/__init__.py
@@ -0,0 +1,4 @@
+#!/usr/bin/env python
+
+# Copyright (c) 2023 Oracle and/or its affiliates.
+# Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
diff --git a/tests/unitary/with_extras/jobs/test_pytorch_ddp.py b/tests/unitary/with_extras/jobs/test_pytorch_ddp.py
@@ -0,0 +1,94 @@
+#!/usr/bin/env python
+
+# Copyright (c) 2023 Oracle and/or its affiliates.
+# Licensed under the Universal Permissive License v 1.0 as shown at https://oss.oracle.com/licenses/upl/
+import os
+import sys
+import unittest
+from unittest import mock
+from ads.jobs import PyTorchDistributedRuntime, DataScienceJob, DataScienceJobRun
+from ads.jobs.builders.infrastructure.dsc_job_runtime import (
+    PyTorchDistributedRuntimeHandler as Handler,
+)
+from ads.jobs.builders.runtimes.pytorch_runtime import (
+    PyTorchDistributedArtifact,
+    GitPythonArtifact,
+)
+from ads.opctl.distributed.common import cluster_config_helper as cluster
+from ads.jobs.templates import driver_utils as utils
+from ads.jobs.templates import driver_pytorch as driver
+
+
+class PyTorchRunnerTest(unittest.TestCase):
+    TEST_IP = "10.0.0.1"
+    TEST_HOST_IP = "10.0.0.100"
+    TEST_HOST_OCID = "ocid_host"
+    TEST_NODE_OCID = "ocid_node"
+
+    def init_torch_runner(self):
+        with mock.patch(
+            "ads.jobs.templates.driver_pytorch.TorchRunner.build_c_library"
+        ), mock.patch("socket.gethostbyname") as GetHostIP, mock.patch(
+            "ads.jobs.DataScienceJobRun.from_ocid"
+        ) as GetJobRun:
+            GetHostIP.return_value = self.TEST_IP
+            GetJobRun.return_value = DataScienceJobRun(id="ocid.abcdefghijk")
+            return driver.TorchRunner()
+
+    @mock.patch.dict(os.environ, {driver.CONST_ENV_HOST_JOB_RUN_OCID: TEST_HOST_OCID})
+    def test_init_torch_runner_at_node(self):
+        runner = self.init_torch_runner()
+        self.assertEqual(runner.host_ocid, self.TEST_HOST_OCID)
+        self.assertEqual(runner.host_ip, None)
+
+    @mock.patch.dict(os.environ, {driver.CONST_ENV_JOB_RUN_OCID: TEST_NODE_OCID})
+    def test_init_torch_runner_at_host(self):
+        runner = self.init_torch_runner()
+        self.assertEqual(runner.host_ocid, self.TEST_NODE_OCID)
+        self.assertEqual(runner.host_ip, self.TEST_IP)
+
+    @mock.patch.dict(os.environ, {driver.CONST_ENV_HOST_JOB_RUN_OCID: TEST_HOST_OCID})
+    def test_wait_for_host_ip(self):
+        with mock.patch("ads.jobs.DataScienceJobRun.logs") as get_logs:
+            get_logs.return_value = [
+                {"message": f"{driver.LOG_PREFIX_HOST_IP} {self.TEST_HOST_IP}"}
+            ]
+            runner = self.init_torch_runner()
+            self.assertEqual(runner.host_ip, None)
+            runner.wait_for_host_ip_address()
+            self.assertEqual(runner.host_ip, self.TEST_HOST_IP)
+
+    @mock.patch.dict(
+        os.environ, {driver.CONST_ENV_LAUNCH_CMD: "torchrun train.py --data abc"}
+    )
+    def test_launch_cmd(self):
+        runner = self.init_torch_runner()
+        self.assertTrue(runner.launch_cmd_contains("data"))
+        self.assertFalse(runner.launch_cmd_contains("data1"))
+        self.assertEqual(
+            runner.prepare_cmd(prefix="A=1"), "A=1 torchrun train.py --data abc"
+        )
+
+    @mock.patch.dict(os.environ, {Handler.CONST_CODE_ENTRYPOINT: "train.py"})
+    @mock.patch.object(sys, "argv", ["python", "hello", "--data", "abc"])
+    def test_prepare_cmd_with_entrypoint_args(self):
+        runner = self.init_torch_runner()
+        self.assertEqual(
+            runner.prepare_cmd(launch_args=["--key", "val"], prefix="A=1"),
+            "A=1 torchrun --key val train.py hello --data abc",
+        )
+
+
+class LazyEvaluateTest(unittest.TestCase):
+    def test_lazy_evaluation(self):
+        def func(a, b):
+            return a + b
+
+        def func_with_error():
+            raise ValueError()
+
+        lazy_val = driver.LazyEvaluate(func, 1, 1)
+        self.assertEqual(str(lazy_val), "2")
+
+        lazy_val = driver.LazyEvaluate(func_with_error)
+        self.assertEqual(str(lazy_val), "ERROR: ")