Expose GPUs using device driver (#1366)

vishalbollu · web-flow · commit cca0fe8fcc6c · 2020-09-21T12:55:09.000-04:00
diff --git a/cli/local/docker_spec.go b/cli/local/docker_spec.go
@@ -124,7 +124,6 @@ func deployPythonContainer(api *spec.API, awsClient *aws.Client) error {
 		portBinding.HostPort = s.Int(*api.Networking.LocalPort)
 	}
 
-	runtime := ""
 	resources := container.Resources{}
 	if api.Compute != nil {
 		if api.Compute.CPU != nil {
@@ -134,15 +133,19 @@ func deployPythonContainer(api *spec.API, awsClient *aws.Client) error {
 			resources.Memory = api.Compute.Mem.Quantity.Value()
 		}
 		if api.Compute.GPU > 0 {
-			runtime = "nvidia"
+			resources.DeviceRequests = []container.DeviceRequest{{
+				Count: -1,
+				Capabilities: [][]string{
+					{"gpu"},
+				},
+			}}
 		}
 	}
 
 	hostConfig := &container.HostConfig{
 		PortBindings: nat.PortMap{
 			_defaultPortStr + "/tcp": []nat.PortBinding{portBinding},
 		},
-		Runtime:   runtime,
 		Resources: resources,
 		Mounts: []mount.Mount{
 			{
@@ -183,7 +186,13 @@ func deployPythonContainer(api *spec.API, awsClient *aws.Client) error {
 
 	err = docker.MustDockerClient().ContainerStart(context.Background(), containerInfo.ID, dockertypes.ContainerStartOptions{})
 	if err != nil {
-		return errors.Wrap(err, api.Identify())
+		if api.Compute.GPU == 0 {
+			return errors.Wrap(err, api.Identify())
+		}
+		err := retryWithNvidiaRuntime(err, containerConfig, hostConfig)
+		if err != nil {
+			return errors.Wrap(err, api.Identify())
+		}
 	}
 
 	return nil
@@ -195,7 +204,6 @@ func deployONNXContainer(api *spec.API, awsClient *aws.Client) error {
 		portBinding.HostPort = s.Int(*api.Networking.LocalPort)
 	}
 
-	runtime := ""
 	resources := container.Resources{}
 	if api.Compute != nil {
 		if api.Compute.CPU != nil {
@@ -205,7 +213,12 @@ func deployONNXContainer(api *spec.API, awsClient *aws.Client) error {
 			resources.Memory = api.Compute.Mem.Quantity.Value()
 		}
 		if api.Compute.GPU > 0 {
-			runtime = "nvidia"
+			resources.DeviceRequests = []container.DeviceRequest{{
+				Count: -1,
+				Capabilities: [][]string{
+					{"gpu"},
+				},
+			}}
 		}
 	}
 
@@ -233,7 +246,6 @@ func deployONNXContainer(api *spec.API, awsClient *aws.Client) error {
 		PortBindings: nat.PortMap{
 			_defaultPortStr + "/tcp": []nat.PortBinding{portBinding},
 		},
-		Runtime:   runtime,
 		Resources: resources,
 		Mounts:    mounts,
 	}
@@ -264,14 +276,19 @@ func deployONNXContainer(api *spec.API, awsClient *aws.Client) error {
 
 	err = docker.MustDockerClient().ContainerStart(context.Background(), containerInfo.ID, dockertypes.ContainerStartOptions{})
 	if err != nil {
-		return errors.Wrap(err, api.Identify())
+		if api.Compute.GPU == 0 {
+			return errors.Wrap(err, api.Identify())
+		}
+		err := retryWithNvidiaRuntime(err, containerConfig, hostConfig)
+		if err != nil {
+			return errors.Wrap(err, api.Identify())
+		}
 	}
 
 	return nil
 }
 
 func deployTensorFlowContainers(api *spec.API, awsClient *aws.Client) error {
-	serveRuntime := ""
 	serveResources := container.Resources{}
 	apiResources := container.Resources{}
 
@@ -287,7 +304,12 @@ func deployTensorFlowContainers(api *spec.API, awsClient *aws.Client) error {
 			serveResources.Memory = totalMemory - apiResources.Memory
 		}
 		if api.Compute.GPU > 0 {
-			serveRuntime = "nvidia"
+			serveResources.DeviceRequests = append(serveResources.DeviceRequests, container.DeviceRequest{
+				Count: -1,
+				Capabilities: [][]string{
+					{"gpu"},
+				},
+			})
 		}
 	}
 
@@ -301,7 +323,6 @@ func deployTensorFlowContainers(api *spec.API, awsClient *aws.Client) error {
 	}
 
 	serveHostConfig := &container.HostConfig{
-		Runtime:   serveRuntime,
 		Resources: serveResources,
 		Mounts:    mounts,
 	}
@@ -349,7 +370,13 @@ func deployTensorFlowContainers(api *spec.API, awsClient *aws.Client) error {
 
 	err = docker.MustDockerClient().ContainerStart(context.Background(), containerCreateRequest.ID, dockertypes.ContainerStartOptions{})
 	if err != nil {
-		return errors.Wrap(err, api.Identify())
+		if api.Compute.GPU == 0 {
+			return errors.Wrap(err, api.Identify())
+		}
+		err := retryWithNvidiaRuntime(err, serveContainerConfig, serveHostConfig)
+		if err != nil {
+			return errors.Wrap(err, api.Identify())
+		}
 	}
 
 	containerInfo, err := docker.MustDockerClient().ContainerInspect(context.Background(), containerCreateRequest.ID)
@@ -416,6 +443,30 @@ func deployTensorFlowContainers(api *spec.API, awsClient *aws.Client) error {
 	return nil
 }
 
+// Retries deploying a container requiring GPU using nvidia runtime, returns original error if isn't relevant, nil if successful and new error if a retry was attempted but failed
+func retryWithNvidiaRuntime(err error, containerConfig *container.Config, hostConfig *container.HostConfig) error {
+	// error message if device driver may look like 'could not select device driver "" with capabilities: [[gpu]]'
+	if !(strings.Contains(err.Error(), "could not select device driver") && strings.Contains(err.Error(), "gpu")) {
+		return err
+	}
+
+	if _, ok := docker.MustDockerClient().Info.Runtimes["nvidia"]; ok {
+		fmt.Println("retrying API deployment using nvidia runtime because device driver for GPU was not found")
+		hostConfig.Runtime = "nvidia"
+		hostConfig.Resources.DeviceRequests = nil
+		containerCreateRequest, err := docker.MustDockerClient().ContainerCreate(context.Background(), containerConfig, hostConfig, nil, "")
+		if err != nil {
+			return errors.Wrap(err, "failed to request a GPU")
+		}
+		err = docker.MustDockerClient().ContainerStart(context.Background(), containerCreateRequest.ID, dockertypes.ContainerStartOptions{})
+		if err != nil {
+			return errors.Wrap(err, "failed to run a container using nvidia runtime; it is recommended to use the latest Docker Engine (https://docs.docker.com/engine/install/) with nvidia-container-runtime or nvidia-container-toolkit (https://docs.docker.com/config/containers/resource_constraints/#gpu)")
+		}
+		return nil
+	}
+	return errors.Append(errors.Wrap(err, "failed to allocate GPU"), "\n\n* only NVIDIA gpus are supported\n* please make sure that you've set up nvidia-container-runtime or nvidia-container-toolkit for your Docker Engine correctly (https://docs.docker.com/config/containers/resource_constraints/#gpu)\n\nAlternatively, try deploying the API without requesting a GPU by updating `compute.gpu` in your API configuration yaml")
+}
+
 func GetContainersByAPI(apiName string) ([]dockertypes.Container, error) {
 	dargs := filters.NewArgs()
 	dargs.Add("label", "cortex=true")
diff --git a/cli/local/get.go b/cli/local/get.go
@@ -18,14 +18,14 @@ package local
 
 import (
 	"encoding/json"
+	"fmt"
 	"path/filepath"
 	"strings"
 
 	"github.com/cortexlabs/cortex/pkg/consts"
 	"github.com/cortexlabs/cortex/pkg/lib/docker"
 	"github.com/cortexlabs/cortex/pkg/lib/errors"
 	"github.com/cortexlabs/cortex/pkg/lib/files"
-	s "github.com/cortexlabs/cortex/pkg/lib/strings"
 	"github.com/cortexlabs/cortex/pkg/operator/schema"
 	"github.com/cortexlabs/cortex/pkg/types/spec"
 )
@@ -161,19 +161,14 @@ func GetAPI(apiName string) (schema.GetAPIResponse, error) {
 		apiContainer = containers[1]
 	}
 
-	apiPort := ""
-	for _, port := range apiContainer.Ports {
-		if port.PrivatePort == 8888 {
-			apiPort = s.Uint16(port.PublicPort)
-		}
-	}
+	apiPort := apiSpec.Networking.LocalPort
 
 	return schema.GetAPIResponse{
 		RealtimeAPI: &schema.RealtimeAPI{
 			Spec:     *apiSpec,
 			Status:   apiStatus,
 			Metrics:  apiMetrics,
-			Endpoint: "http://localhost:" + apiPort,
+			Endpoint: fmt.Sprintf("http://localhost:%d", *apiPort),
 		},
 	}, nil
 }
diff --git a/cli/local/validations.go b/cli/local/validations.go
@@ -21,10 +21,8 @@ import (
 	"math"
 	"net"
 	"path/filepath"
-	"runtime"
 	"strings"
 
-	"github.com/cortexlabs/cortex/pkg/consts"
 	"github.com/cortexlabs/cortex/pkg/lib/aws"
 	"github.com/cortexlabs/cortex/pkg/lib/docker"
 	"github.com/cortexlabs/cortex/pkg/lib/errors"
@@ -117,7 +115,6 @@ func ValidateLocalAPIs(apis []userconfig.API, projectFiles ProjectFiles, awsClie
 		return err
 	}
 
-	apisRequiringGPU := strset.New()
 	for i := range apis {
 		api := &apis[i]
 
@@ -128,37 +125,6 @@ func ValidateLocalAPIs(apis []userconfig.API, projectFiles ProjectFiles, awsClie
 		if api.Compute.CPU != nil && (api.Compute.CPU.MilliValue() > int64(dockerClient.Info.NCPU)*1000) {
 			api.Compute.CPU = k8s.NewQuantity(int64(dockerClient.Info.NCPU))
 		}
-
-		if api.Compute.GPU > 0 {
-			apisRequiringGPU.Add(api.Name)
-		}
-	}
-
-	if len(apisRequiringGPU) > 0 {
-		if _, ok := dockerClient.Info.Runtimes["nvidia"]; !ok {
-			if !strings.HasPrefix(strings.ToLower(runtime.GOOS), "linux") {
-				fmt.Printf("warning: %s will run without gpu access because the nvidia container runtime is not supported on your operating system; see https://docs.cortex.dev/troubleshooting/nvidia-container-runtime-not-found for more information\n\n", s.StrsAnd(apisRequiringGPU.SliceSorted()))
-			} else {
-				fmt.Printf("warning: %s will run without gpu access because your local machine doesn't have a gpu or the nvidia container runtime is not configured properly; see https://docs.cortex.dev/troubleshooting/nvidia-container-runtime-not-found for more information\n\n", s.StrsAnd(apisRequiringGPU.SliceSorted()))
-			}
-
-			for i := range apis {
-				api := &apis[i]
-				if apisRequiringGPU.Has(api.Name) {
-					api.Compute.GPU = 0
-				}
-				switch api.Predictor.Image {
-				case consts.DefaultImageONNXPredictorGPU:
-					api.Predictor.Image = consts.DefaultImageONNXPredictorCPU
-				case consts.DefaultImagePythonPredictorGPU:
-					api.Predictor.Image = consts.DefaultImagePythonPredictorCPU
-				}
-
-				if api.Predictor.Type == userconfig.TensorFlowPredictorType && api.Predictor.TensorFlowServingImage == consts.DefaultImageTensorFlowServingGPU {
-					api.Predictor.TensorFlowServingImage = consts.DefaultImageTensorFlowServingCPU
-				}
-			}
-		}
 	}
 
 	dups := spec.FindDuplicateNames(apis)