Collect a torch::stable wishlist in src/libtorchaudio/stable

pearu · pearu · commit 8bde9cef85dd · 2025-09-18T19:40:53.000+03:00
diff --git a/src/libtorchaudio/forced_align/cpu/compute.cpp b/src/libtorchaudio/forced_align/cpu/compute.cpp
@@ -1,12 +1,14 @@
+#include <libtorchaudio/stable/dispatch.h>
+#include <libtorchaudio/stable/ops.h>
 #include <libtorchaudio/utils.h>
 #include <torch/csrc/stable/library.h>
 
 namespace torchaudio {
 namespace alignment {
 namespace cpu {
 
-using torch::stable::Tensor;
 using torch::headeronly::ScalarType;
+using torch::stable::Tensor;
 
 // Inspired from
 // https://github.com/flashlight/sequence/blob/main/flashlight/lib/sequence/criterion/cpu/ConnectionistTemporalClassificationCriterion.cpp
@@ -34,17 +36,16 @@ void forced_align_impl(
   for (int i = 0; i < T * S; i++) {
     backPtr_a[i] = -1;
   }
-
-  auto logProbs_a = logProbs.accessor<scalar_t, 3>();
-  auto targets_a = targets.accessor<target_t, 2>();
-  auto paths_a = paths.accessor<target_t, 2>();
+  auto logProbs_a = torchaudio::stable::accessor<scalar_t, 3>(logProbs);
+  auto targets_a = torchaudio::stable::accessor<target_t, 2>(targets);
+  auto paths_a = torchaudio::stable::accessor<target_t, 2>(paths);
   auto R = 0;
   for (auto i = 1; i < L; i++) {
     if (targets_a[batchIndex][i] == targets_a[batchIndex][i - 1]) {
       ++R;
     }
   }
-  TORCH_CHECK(
+  STD_TORCH_CHECK(
       T >= L + R,
       "targets length is too long for CTC. Found log_probs length: ",
       T,
@@ -145,14 +146,16 @@ std::tuple<Tensor, Tensor> compute(
   STD_TORCH_CHECK(logProbs.is_cpu(), "log_probs must be a CPU tensor");
   STD_TORCH_CHECK(targets.is_cpu(), "targets must be a CPU tensor");
   STD_TORCH_CHECK(inputLengths.is_cpu(), "input_lengths must be a CPU tensor");
-  STD_TORCH_CHECK(targetLengths.is_cpu(), "target_lengths must be a CPU tensor");
+  STD_TORCH_CHECK(
+      targetLengths.is_cpu(), "target_lengths must be a CPU tensor");
   STD_TORCH_CHECK(
       logProbs.scalar_type() == ScalarType::Double ||
           logProbs.scalar_type() == ScalarType::Float ||
           logProbs.scalar_type() == ScalarType::Half,
       "log_probs must be float64, float32 or float16 (half) type");
   STD_TORCH_CHECK(
-      targets.scalar_type() == ScalarType::Int || targets.scalar_type() == ScalarType::Long,
+      targets.scalar_type() == ScalarType::Int ||
+          targets.scalar_type() == ScalarType::Long,
       "targets must be int32 or int64 type");
   STD_TORCH_CHECK(logProbs.is_contiguous(), "log_probs must be contiguous");
   STD_TORCH_CHECK(targets.is_contiguous(), "targets must be contiguous");
@@ -184,57 +187,33 @@ std::tuple<Tensor, Tensor> compute(
 
   const auto B = logProbs.size(0);
   const auto T = logProbs.size(1);
-  Tensor paths = torch::stable::new_empty(targets, {B, T});
-  torch::stable::zero_(paths);
-
-  switch (logProbs.scalar_type()) {
-  case ScalarType::Double: {
-    if (targets.scalar_type() == ScalarType::Long) {
-      forced_align_impl<double, ScalarType::Long>(logProbs, targets, blank, paths);
-    } else if (targets.scalar_type() == ScalarType::Int) {
-      forced_align_impl<double, ScalarType::Int>(logProbs, targets, blank, paths);
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-    break;
-  }
-  case ScalarType::Float: {
-    if (targets.scalar_type() == ScalarType::Long) {
-      forced_align_impl<float, ScalarType::Long>(logProbs, targets, blank, paths);
-    } else if (targets.scalar_type() == ScalarType::Int) {
-      forced_align_impl<float, ScalarType::Int>(logProbs, targets, blank, paths);
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-    break;
-  }
-  case ScalarType::Half: {
-    if (targets.scalar_type() == ScalarType::Long) {
-      forced_align_impl<c10::Half, ScalarType::Long>(logProbs, targets, blank, paths);
-    } else if (targets.scalar_type() == ScalarType::Int) {
-      forced_align_impl<c10::Half, ScalarType::Int>(logProbs, targets, blank, paths);
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-    break;
-  }
-  default: {
-    STD_TORCH_CHECK(false, "unreachable");
-  }
-  };
-
+  Tensor paths = torchaudio::stable::new_zeros(targets, {B, T});
+
+  STABLE_DISPATCH_FLOATING_TYPES_AND_HALF(
+      logProbs.scalar_type(), "forced_align_impl", [&] {
+        if (targets.scalar_type() == ScalarType::Long) {
+          forced_align_impl<scalar_t, ScalarType::Long>(
+              logProbs, targets, blank, paths);
+        } else {
+          forced_align_impl<scalar_t, ScalarType::Int>(
+              logProbs, targets, blank, paths);
+        }
+      });
   return std::make_tuple(paths, logProbs);
 }
 
-void boxed_forced_align_cpu(StableIValue* stack, uint64_t num_args, uint64_t num_outputs) {
+void boxed_forced_align_cpu(
+    StableIValue* stack,
+    uint64_t num_args,
+    uint64_t num_outputs) {
   STD_TORCH_CHECK(num_args == 5, "num_args must be 5");
   STD_TORCH_CHECK(num_outputs == 2, "num_outputs must be 2");
   std::tuple<Tensor, Tensor> res = compute(
-      /*logProbs*/to<Tensor>(stack[0]),
-      /*targets*/to<Tensor>(stack[1]),
-      /*logit_lengths*/to<Tensor>(stack[2]),
-      /*target_lengths*/to<Tensor>(stack[3]),
-      /*blank*/float(to<int64_t>(stack[4])));
+      /*logProbs*/ to<Tensor>(stack[0]),
+      /*targets*/ to<Tensor>(stack[1]),
+      /*logit_lengths*/ to<Tensor>(stack[2]),
+      /*target_lengths*/ to<Tensor>(stack[3]),
+      /*blank*/ float(to<int64_t>(stack[4])));
   stack[0] = from(std::get<0>(res));
   stack[1] = from(std::get<1>(res));
 }
diff --git a/src/libtorchaudio/forced_align/gpu/compute.cu b/src/libtorchaudio/forced_align/gpu/compute.cu
@@ -1,4 +1,6 @@
 #include <libtorchaudio/utils.h>
+#include <libtorchaudio/stable/TensorAccessor.h>
+#include <libtorchaudio/stable/dispatch.h>
 #include <torch/csrc/stable/library.h>
 
 #include <cub/cub.cuh>
@@ -20,9 +22,9 @@ using torch::headeronly::ScalarType;
 
 template <typename scalar_t, typename target_t>
 __global__ void falign_cuda_step_kernel(
-    const at::PackedTensorAccessor32<scalar_t, 3, at::RestrictPtrTraits>
+    const torchaudio::stable::PackedTensorAccessor32<scalar_t, 3, torchaudio::stable::RestrictPtrTraits>
         logProbs_a,
-    const at::PackedTensorAccessor32<target_t, 2, at::RestrictPtrTraits>
+    const torchaudio::stable::PackedTensorAccessor32<target_t, 2, torchaudio::stable::RestrictPtrTraits>
         targets_a,
     const int T,
     const int L,
@@ -33,9 +35,9 @@ __global__ void falign_cuda_step_kernel(
     int start,
     int end,
     int backPtrBufferLen,
-    at::PackedTensorAccessor32<scalar_t, 2, at::RestrictPtrTraits>
+    torchaudio::stable::PackedTensorAccessor32<scalar_t, 2, torchaudio::stable::RestrictPtrTraits>
         alphas_a,
-    at::PackedTensorAccessor32<int8_t, 2, at::RestrictPtrTraits>
+    torchaudio::stable::PackedTensorAccessor32<int8_t, 2, torchaudio::stable::RestrictPtrTraits>
         backPtrBuffer_a) {
   scalar_t kNegInfinity = -std::numeric_limits<scalar_t>::infinity();
   const int batchIndex =
@@ -122,15 +124,15 @@ void forced_align_impl(
   const scalar_t kNegInfinity = -std::numeric_limits<scalar_t>::infinity();
   using target_t = typename std::
       conditional<target_scalar_type == ScalarType::Int, int, int64_t>::type;
-  auto paths_a = paths.accessor<target_t, 2>();
+  auto paths_a = torchaudio::stable::accessor<target_t, 2>(paths);
   const int batchIndex =
       0; // TODO: support batch version and use the real batch index
   const int T = logProbs.size(1); // num frames
   const int N = logProbs.size(2); // alphabet size
   const int L = targets.size(1); // label length
   const int S = 2 * L + 1;
 
-  auto targetsCpu = torch::stable::cpu(targets);
+  auto targetsCpu = torchaudio::stable::cpu(targets);
   // backPtrBuffer stores the index offset fthe best path at current position
   // We copy the values to CPU after running every kBackPtrBufferSize of
   // frames.
@@ -147,8 +149,8 @@ void forced_align_impl(
   torch::stable::fill_(alphas, kNegInfinity);
 
   // CPU accessors
-  auto targetsCpu_a = targetsCpu.accessor<target_t, 2>();
-  auto backPtrCpu_a = backPtrCpu.accessor<int8_t, 2>();
+  auto targetsCpu_a = torchaudio::stable::accessor<target_t, 2>(targetsCpu);
+  auto backPtrCpu_a = torchaudio::stable::accessor<int8_t, 2>(backPtrCpu);
   // count the number of repeats in label
   int R = 0;
   for (int i = 1; i < L; ++i) {
@@ -189,8 +191,8 @@ void forced_align_impl(
     }
     falign_cuda_step_kernel<scalar_t, target_t>
         <<<1, kNumThreads, 0, defaultStream>>>(
-            logProbs.packed_accessor32<scalar_t, 3, at::RestrictPtrTraits>(),
-            targets.packed_accessor32<target_t, 2, at::RestrictPtrTraits>(),
+            torchaudio::stable::packed_accessor32<scalar_t, 3, torchaudio::stable::RestrictPtrTraits>(logProbs),
+            torchaudio::stable::packed_accessor32<target_t, 2, torchaudio::stable::RestrictPtrTraits>(targets),
             T,
             L,
             N,
@@ -200,15 +202,14 @@ void forced_align_impl(
             start,
             end,
             backPtrBufferLen,
-            alphas.packed_accessor32<scalar_t, 2, at::RestrictPtrTraits>(),
-            backPtrBuffer
-                .packed_accessor32<int8_t, 2, at::RestrictPtrTraits>());
+            torchaudio::stable::packed_accessor32<scalar_t, 2, torchaudio::stable::RestrictPtrTraits>(alphas),
+            torchaudio::stable::packed_accessor32<int8_t, 2, torchaudio::stable::RestrictPtrTraits>(backPtrBuffer));
     C10_CUDA_KERNEL_LAUNCH_CHECK();
     ++backPtrBufferLen;
     if (backPtrBufferLen == kBackPtrBufferSize || t == T - 1) {
       cpuDataTranferStream.synchronize();
       // GPU -> GPU copy
-      bufferCopy = backPtrBuffer.clone();
+      bufferCopy = torchaudio::stable::clone(backPtrBuffer);
       STD_TORCH_CHECK(bufferCopy.is_contiguous(), "unexpected fail, need to implement stable::Tensor::contiguous()")
       defaultStream.synchronize();
       at::cuda::setCurrentCUDAStream(cpuDataTranferStream);
@@ -227,8 +228,8 @@ void forced_align_impl(
   }
   cpuDataTranferStream.synchronize();
 
-  auto alphasCpu = torch::stable::cpu(alphas);
-  auto alphasCpu_a = alphasCpu.accessor<scalar_t, 2>();
+  auto alphasCpu = torchaudio::stable::cpu(alphas);
+  auto alphasCpu_a = torchaudio::stable::accessor<scalar_t, 2>(alphasCpu);
   int curIdxOffset = ((T - 1) % 2);
   int ltrIdx =
       alphasCpu_a[curIdxOffset][S - 1] > alphasCpu_a[curIdxOffset][S - 2]
@@ -294,50 +295,20 @@ std::tuple<Tensor, Tensor> compute(
   auto B = logProbs.size(0);
   auto T = logProbs.size(1); // num frames
 
-  Tensor paths = torch::stable::new_empty(targets, {B, T}, std::nullopt, aoti_torch_device_type_cpu());
-  torch::stable::zero_(paths);
+  Tensor paths = torchaudio::stable::new_zeros(targets, {B, T}, /*dtype=*/std::nullopt, /*layout=*/std::nullopt, /*device=*/torchaudio::stable::cpu_device());
 
-  switch (logProbs.scalar_type()) {
-  case ScalarType::Double: {
-    if (targets.scalar_type() == ScalarType::Long) {
-      forced_align_impl<double, ScalarType::Long>(logProbs, targets, blank, paths);
-    } else if (targets.scalar_type() == ScalarType::Int) {
-      forced_align_impl<double, ScalarType::Int>(logProbs, targets, blank, paths);
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-    break;
-  }
-  case ScalarType::Float: {
-    if (targets.scalar_type() == ScalarType::Long) {
-      forced_align_impl<float, ScalarType::Long>(logProbs, targets, blank, paths);
-    } else if (targets.scalar_type() == ScalarType::Int) {
-      forced_align_impl<float, ScalarType::Int>(logProbs, targets, blank, paths);
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-    break;
-  }
-  case ScalarType::Half: {
-    if (targets.scalar_type() == ScalarType::Long) {
-      forced_align_impl<c10::Half, ScalarType::Long>(logProbs, targets, blank, paths);
-    } else if (targets.scalar_type() == ScalarType::Int) {
-      forced_align_impl<c10::Half, ScalarType::Int>(logProbs, targets, blank, paths);
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-    break;
-  }
-  default: {
-    STD_TORCH_CHECK(false, "unreachable");
-  }
-  };
-  Tensor pathsCuda = torch::stable::new_empty(paths,
-                                              torchaudio::util::sizes(paths),
-                                              std::nullopt,
-                                              aoti_torch_device_type_cuda(),
-                                              logProbs.get_device_index());
-  torch::stable::copy_(pathsCuda, paths);
+  STABLE_DISPATCH_FLOATING_TYPES_AND_HALF(
+      logProbs.scalar_type(), "forced_align_impl", [&] {
+        if (targets.scalar_type() == ScalarType::Long) {
+          forced_align_impl<scalar_t, ScalarType::Long>(
+              logProbs, targets, blank, paths);
+        } else {
+          forced_align_impl<scalar_t, ScalarType::Int>(
+              logProbs, targets, blank, paths);
+        }
+      });
+
+  Tensor pathsCuda = torchaudio::stable::cuda(paths, logProbs.get_device_index());
   return std::make_tuple(pathsCuda, logProbs);
 }
 
diff --git a/src/libtorchaudio/utils.cpp b/src/libtorchaudio/utils.cpp
@@ -1,7 +1,6 @@
 #include <ATen/DynamicLibrary.h>
-#include <libtorchaudio/utils.h>
-
 #include <torch/csrc/stable/tensor.h>
+#include <libtorchaudio/utils.h>
 
 #ifdef USE_CUDA
 #include <cuda.h>
diff --git a/src/libtorchaudio/utils.h b/src/libtorchaudio/utils.h
@@ -1,45 +1,21 @@
 #pragma once
-#include <torch/csrc/stable/tensor_struct.h>
-#include <torch/csrc/stable/ops.h>
 
-#ifdef USE_CUDA
-#include <ATen/cuda/CUDAContext.h>
-#include <c10/cuda/CUDAException.h>
-#endif
+// TODO: replace the include libtorchaudio/stable/ops.h with
+// torch/stable/ops.h when torch::stable provides all required
+// features (torch::stable::item<T> or similar):
+#include <libtorchaudio/stable/ops.h>
 
 namespace torchaudio {
 
 namespace util {
-  inline std::vector<int64_t> sizes(const torch::stable::Tensor& t) {
-    auto sizes_ = t.sizes();
-    std::vector<int64_t> sizes(sizes_.data(), sizes_.data() + t.dim());
-    return sizes;
-  }
-
-  template <typename T>
-  T item(const torch::stable::Tensor& t) {
-    STD_TORCH_CHECK(t.numel() == 1, "item requires single element tensor input");
-    if (t.is_cpu()) {
-      return t.const_data_ptr<T>()[0];
-#ifdef USE_CUDA
-    } else if (t.is_cuda()) {
-      T value;
-      C10_CUDA_CHECK(cudaMemcpyAsync(&value, t.data_ptr(), sizeof(T), cudaMemcpyDeviceToHost));
-      return value;
-#endif
-    } else {
-      STD_TORCH_CHECK(false, "unreachable");
-    }
-  }
-
-  template <typename T>
-  T max(const torch::stable::Tensor& t) {
-    // TODO: eliminate const_cast after pytorch/pytorch#161826 is fixed
-    return item<T>(torch::stable::amax(const_cast<torch::stable::Tensor&>(t), {}));
-  }
+template <typename T>
+T max(const torch::stable::Tensor& t) {
+  return torchaudio::stable::item<T>(torch::stable::amax(t, {}));
 }
+} // namespace util
 
 bool is_rir_available();
 bool is_align_available();
 std::optional<int64_t> cuda_version();
+
 } // namespace torchaudio