[TorchCodec] Late-init TorchVision imports

root670 · web-flow · commit c0ddf7853e38 · 2025-08-26T12:37:53.000-07:00
Differential Revision: D80824234 Pull Request resolved: #842
diff --git a/benchmarks/decoders/benchmark_decoders_library.py b/benchmarks/decoders/benchmark_decoders_library.py
@@ -47,6 +47,9 @@ def decode_first_n_frames(self, video_file, n):
     def decode_first_n_frames_description(self, n) -> str:
         return f"first {n} frames"
 
+    def init_decode_and_resize(self):
+        pass
+
     @abc.abstractmethod
     def decode_and_resize(self, video_file, pts_list, height, width, device):
         pass
@@ -107,9 +110,12 @@ def __init__(self, backend):
         self._backend = backend
         self._print_each_iteration_time = False
         import torchvision  # noqa: F401
-        from torchvision.transforms import v2 as transforms_v2
 
         self.torchvision = torchvision
+
+    def init_decode_and_resize(self):
+        from torchvision.transforms import v2 as transforms_v2
+
         self.transforms_v2 = transforms_v2
 
     def decode_frames(self, video_file, pts_list):
@@ -267,6 +273,7 @@ def __init__(
         self._color_conversion_library = color_conversion_library
         self._device = device
 
+    def init_decode_and_resize(self):
         from torchvision.transforms import v2 as transforms_v2
 
         self.transforms_v2 = transforms_v2
@@ -379,6 +386,7 @@ def __init__(
         self._seek_mode = seek_mode
         self._stream_index = int(stream_index) if stream_index else None
 
+    def init_decode_and_resize(self):
         from torchvision.transforms import v2 as transforms_v2
 
         self.transforms_v2 = transforms_v2
@@ -443,6 +451,7 @@ def __init__(
         self._device = device
         self._seek_mode = seek_mode
 
+    def init_decode_and_resize(self):
         from torchvision.transforms import v2 as transforms_v2
 
         self.transforms_v2 = transforms_v2
@@ -546,10 +555,12 @@ def __init__(self, stream_index: str | None = None):
 
         self.torchaudio = torchaudio
 
+        self._stream_index = int(stream_index) if stream_index else None
+
+    def init_decode_and_resize(self):
         from torchvision.transforms import v2 as transforms_v2
 
         self.transforms_v2 = transforms_v2
-        self._stream_index = int(stream_index) if stream_index else None
 
     def decode_frames(self, video_file, pts_list):
         stream_reader = self.torchaudio.io.StreamReader(src=video_file)
@@ -883,6 +894,7 @@ def run_benchmarks(
 
             if dataloader_parameters:
                 bp = dataloader_parameters.batch_parameters
+                decoder.init_decode_and_resize()
                 description = (
                     f"concurrency {bp.num_threads}"
                     f"batch {bp.batch_size}"