Background Removal Pipeline

saddam213 · saddam213 · commit 5627a1800851 · 2024-03-09T12:49:28.000+13:00
diff --git a/OnnxStack.Core/Extensions/TensorExtension.cs b/OnnxStack.Core/Extensions/TensorExtension.cs
@@ -397,7 +397,7 @@ private static DenseTensor<float> ConcatenateAxis1(DenseTensor<float> tensor1, D
 
             // Copy data from the second tensor
             for (int i = 0; i < dimensions[0]; i++)
-                for (int j = 0; j < tensor1.Dimensions[1]; j++)
+                for (int j = 0; j < tensor2.Dimensions[1]; j++)
                     concatenatedTensor[i, j + tensor1.Dimensions[1]] = tensor2[i, j];
 
             return concatenatedTensor;
diff --git a/OnnxStack.Core/Image/OnnxImage.cs b/OnnxStack.Core/Image/OnnxImage.cs
@@ -64,6 +64,7 @@ public OnnxImage(DenseTensor<float> imageTensor, ImageNormalizeType normalizeTyp
         {
             var height = imageTensor.Dimensions[2];
             var width = imageTensor.Dimensions[3];
+            var hasTransparency = imageTensor.Dimensions[1] == 4;
             _imageData = new Image<Rgba32>(width, height);
             for (var y = 0; y < height; y++)
             {
@@ -74,14 +75,16 @@ public OnnxImage(DenseTensor<float> imageTensor, ImageNormalizeType normalizeTyp
                         _imageData[x, y] = new Rgba32(
                             DenormalizeZeroToOneToByte(imageTensor, 0, y, x),
                             DenormalizeZeroToOneToByte(imageTensor, 1, y, x),
-                            DenormalizeZeroToOneToByte(imageTensor, 2, y, x));
+                            DenormalizeZeroToOneToByte(imageTensor, 2, y, x),
+                            hasTransparency ? DenormalizeZeroToOneToByte(imageTensor, 3, y, x) : byte.MaxValue);
                     }
                     else
                     {
                         _imageData[x, y] = new Rgba32(
                             DenormalizeOneToOneToByte(imageTensor, 0, y, x),
                             DenormalizeOneToOneToByte(imageTensor, 1, y, x),
-                            DenormalizeOneToOneToByte(imageTensor, 2, y, x));
+                            DenormalizeOneToOneToByte(imageTensor, 2, y, x),
+                            hasTransparency ? DenormalizeOneToOneToByte(imageTensor, 3, y, x) : byte.MaxValue);
                     }
                 }
             }
@@ -337,6 +340,7 @@ private DenseTensor<float> NormalizeToZeroToOne(ReadOnlySpan<int> dimensions)
             var width = dimensions[3];
             var height = dimensions[2];
             var channels = dimensions[1];
+            var hasTransparency = channels == 4;
             var imageArray = new DenseTensor<float>(new[] { 1, channels, height, width });
             _imageData.ProcessPixelRows(img =>
             {
@@ -348,6 +352,8 @@ private DenseTensor<float> NormalizeToZeroToOne(ReadOnlySpan<int> dimensions)
                         imageArray[0, 0, y, x] = (pixelSpan[x].R / 255.0f);
                         imageArray[0, 1, y, x] = (pixelSpan[x].G / 255.0f);
                         imageArray[0, 2, y, x] = (pixelSpan[x].B / 255.0f);
+                        if (hasTransparency)
+                            imageArray[0, 3, y, x] = (pixelSpan[x].A / 255.0f);
                     }
                 }
             });
@@ -366,6 +372,7 @@ private DenseTensor<float> NormalizeToOneToOne(ReadOnlySpan<int> dimensions)
             var width = dimensions[3];
             var height = dimensions[2];
             var channels = dimensions[1];
+            var hasTransparency = channels == 4;
             var imageArray = new DenseTensor<float>(new[] { 1, channels, height, width });
             _imageData.ProcessPixelRows(img =>
             {
@@ -377,6 +384,8 @@ private DenseTensor<float> NormalizeToOneToOne(ReadOnlySpan<int> dimensions)
                         imageArray[0, 0, y, x] = (pixelSpan[x].R / 255.0f) * 2.0f - 1.0f;
                         imageArray[0, 1, y, x] = (pixelSpan[x].G / 255.0f) * 2.0f - 1.0f;
                         imageArray[0, 2, y, x] = (pixelSpan[x].B / 255.0f) * 2.0f - 1.0f;
+                        if (hasTransparency)
+                            imageArray[0, 3, y, x] = (pixelSpan[x].A / 255.0f) * 2.0f - 1.0f;
                     }
                 }
             });
diff --git a/OnnxStack.FeatureExtractor/Pipelines/BackgroundRemovalPipeline.cs b/OnnxStack.FeatureExtractor/Pipelines/BackgroundRemovalPipeline.cs
@@ -0,0 +1,209 @@
+﻿using Microsoft.Extensions.Logging;
+using Microsoft.ML.OnnxRuntime.Tensors;
+using OnnxStack.Core;
+using OnnxStack.Core.Config;
+using OnnxStack.Core.Image;
+using OnnxStack.Core.Model;
+using OnnxStack.Core.Video;
+using OnnxStack.FeatureExtractor.Common;
+using System;
+using System.Collections.Generic;
+using System.IO;
+using System.Linq;
+using System.Runtime.CompilerServices;
+using System.Threading;
+using System.Threading.Tasks;
+
+namespace OnnxStack.FeatureExtractor.Pipelines
+{
+    public class BackgroundRemovalPipeline
+    {
+        private readonly string _name;
+        private readonly ILogger _logger;
+        private readonly FeatureExtractorModel _model;
+
+        /// <summary>
+        /// Initializes a new instance of the <see cref="BackgroundRemovalPipeline"/> class.
+        /// </summary>
+        /// <param name="name">The name.</param>
+        /// <param name="model">The model.</param>
+        /// <param name="logger">The logger.</param>
+        public BackgroundRemovalPipeline(string name, FeatureExtractorModel model, ILogger logger = default)
+        {
+            _name = name;
+            _logger = logger;
+            _model = model;
+        }
+
+
+        /// <summary>
+        /// Gets the name.
+        /// </summary>
+        /// <value>
+        public string Name => _name;
+
+
+        /// <summary>
+        /// Loads the model.
+        /// </summary>
+        /// <returns></returns>
+        public Task LoadAsync()
+        {
+            return _model.LoadAsync();
+        }
+
+
+        /// <summary>
+        /// Unloads the models.
+        /// </summary>
+        public async Task UnloadAsync()
+        {
+            await Task.Yield();
+            _model?.Dispose();
+        }
+
+
+        /// <summary>
+        /// Generates the background removal image result
+        /// </summary>
+        /// <param name="inputImage">The input image.</param>
+        /// <returns></returns>
+        public async Task<OnnxImage> RunAsync(OnnxImage inputImage, CancellationToken cancellationToken = default)
+        {
+            var timestamp = _logger?.LogBegin("Removing video background...");
+            var result = await RunInternalAsync(inputImage, cancellationToken);
+            _logger?.LogEnd("Removing video background complete.", timestamp);
+            return result;
+        }
+
+
+        /// <summary>
+        /// Generates the background removal video result
+        /// </summary>
+        /// <param name="videoFrames">The input video.</param>
+        /// <returns></returns>
+        public async Task<OnnxVideo> RunAsync(OnnxVideo video, CancellationToken cancellationToken = default)
+        {
+            var timestamp = _logger?.LogBegin("Removing video background...");
+            var videoFrames = new List<OnnxImage>();
+            foreach (var videoFrame in video.Frames)
+            {
+                videoFrames.Add(await RunAsync(videoFrame, cancellationToken));
+            }
+            _logger?.LogEnd("Removing video background complete.", timestamp);
+            return new OnnxVideo(video.Info with
+            {
+                Height = videoFrames[0].Height,
+                Width = videoFrames[0].Width,
+            }, videoFrames);
+        }
+
+
+        /// <summary>
+        /// Generates the background removal video stream
+        /// </summary>
+        /// <param name="imageFrames">The image frames.</param>
+        /// <param name="cancellationToken">The cancellation token.</param>
+        /// <returns></returns>
+        public async IAsyncEnumerable<OnnxImage> RunAsync(IAsyncEnumerable<OnnxImage> imageFrames, [EnumeratorCancellation] CancellationToken cancellationToken = default)
+        {
+            var timestamp = _logger?.LogBegin("Extracting video stream features...");
+            await foreach (var imageFrame in imageFrames)
+            {
+                yield return await RunInternalAsync(imageFrame, cancellationToken);
+            }
+            _logger?.LogEnd("Extracting video stream features complete.", timestamp);
+        }
+
+
+        /// <summary>
+        /// Runs the pipeline
+        /// </summary>
+        /// <param name="inputImage">The input image.</param>
+        /// <param name="cancellationToken">The cancellation token.</param>
+        /// <returns></returns>
+        private async Task<OnnxImage> RunInternalAsync(OnnxImage inputImage, CancellationToken cancellationToken = default)
+        {
+            var souceImageTenssor = await inputImage.GetImageTensorAsync(_model.SampleSize, _model.SampleSize, ImageNormalizeType.ZeroToOne);
+            var metadata = await _model.GetMetadataAsync();
+            cancellationToken.ThrowIfCancellationRequested();
+            var outputShape = new[] { 1, _model.Channels, _model.SampleSize, _model.SampleSize };
+            var outputBuffer = metadata.Outputs[0].Value.Dimensions.Length == 4 ? outputShape : outputShape[1..];
+            using (var inferenceParameters = new OnnxInferenceParameters(metadata))
+            {
+                inferenceParameters.AddInputTensor(souceImageTenssor);
+                inferenceParameters.AddOutputBuffer(outputBuffer);
+
+                var results = await _model.RunInferenceAsync(inferenceParameters);
+                using (var result = results.First())
+                {
+                    cancellationToken.ThrowIfCancellationRequested();
+
+                    var resultTensor = result.ToDenseTensor(outputShape);
+                    if (_model.Normalize)
+                        resultTensor.NormalizeMinMax();
+
+                    var imageTensor = AddAlphaChannel(souceImageTenssor, result.GetTensorDataAsSpan<float>());
+                    return new OnnxImage(imageTensor, ImageNormalizeType.ZeroToOne);
+                }
+            }
+        }
+
+
+        /// <summary>
+        /// Adds an alpha channel to the RGB tensor.
+        /// </summary>
+        /// <param name="sourceImage">The source image.</param>
+        /// <param name="alphaChannel">The alpha channel.</param>
+        /// <returns></returns>
+        private static DenseTensor<float> AddAlphaChannel(DenseTensor<float> sourceImage, ReadOnlySpan<float> alphaChannel)
+        {
+            var resultTensor = new DenseTensor<float>(new int[] { 1, 4, sourceImage.Dimensions[2], sourceImage.Dimensions[3] });
+            sourceImage.Buffer.Span.CopyTo(resultTensor.Buffer[..(int)sourceImage.Length].Span);
+            alphaChannel.CopyTo(resultTensor.Buffer[(int)sourceImage.Length..].Span);
+            return resultTensor;
+        }
+
+
+        /// <summary>
+        /// Creates the pipeline from a FeatureExtractorModelSet.
+        /// </summary>
+        /// <param name="modelSet">The model set.</param>
+        /// <param name="logger">The logger.</param>
+        /// <returns></returns>
+        public static BackgroundRemovalPipeline CreatePipeline(FeatureExtractorModelSet modelSet, ILogger logger = default)
+        {
+            var model = new FeatureExtractorModel(modelSet.FeatureExtractorConfig.ApplyDefaults(modelSet));
+            return new BackgroundRemovalPipeline(modelSet.Name, model, logger);
+        }
+
+
+        /// <summary>
+        /// Creates the pipeline from the specified file.
+        /// </summary>
+        /// <param name="modelFile">The model file.</param>
+        /// <param name="deviceId">The device identifier.</param>
+        /// <param name="executionProvider">The execution provider.</param>
+        /// <param name="logger">The logger.</param>
+        /// <returns></returns>
+        public static BackgroundRemovalPipeline CreatePipeline(string modelFile, int sampleSize = 512, int deviceId = 0, ExecutionProvider executionProvider = ExecutionProvider.DirectML, ILogger logger = default)
+        {
+            var name = Path.GetFileNameWithoutExtension(modelFile);
+            var configuration = new FeatureExtractorModelSet
+            {
+                Name = name,
+                IsEnabled = true,
+                DeviceId = deviceId,
+                ExecutionProvider = executionProvider,
+                FeatureExtractorConfig = new FeatureExtractorModelConfig
+                {
+                    OnnxModelPath = modelFile,
+                    SampleSize = sampleSize,
+                    Normalize = false,
+                    Channels = 1
+                }
+            };
+            return CreatePipeline(configuration, logger);
+        }
+    }
+}

Original file line number	Diff line number	Diff line change
`@@ -64,6 +64,7 @@ public OnnxImage(DenseTensor<float> imageTensor, ImageNormalizeType normalizeTyp`
`64`	`64`	`{`
`65`	`65`	`var height = imageTensor.Dimensions[2];`
`66`	`66`	`var width = imageTensor.Dimensions[3];`
	`67`	`+ var hasTransparency = imageTensor.Dimensions[1] == 4;`
`67`	`68`	`_imageData = new Image<Rgba32>(width, height);`
`68`	`69`	`for (var y = 0; y < height; y++)`
`69`	`70`	`{`
`@@ -74,14 +75,16 @@ public OnnxImage(DenseTensor<float> imageTensor, ImageNormalizeType normalizeTyp`
`74`	`75`	`_imageData[x, y] = new Rgba32(`
`75`	`76`	`DenormalizeZeroToOneToByte(imageTensor, 0, y, x),`
`76`	`77`	`DenormalizeZeroToOneToByte(imageTensor, 1, y, x),`
`77`		`- DenormalizeZeroToOneToByte(imageTensor, 2, y, x));`
	`78`	`+ DenormalizeZeroToOneToByte(imageTensor, 2, y, x),`
	`79`	`+ hasTransparency ? DenormalizeZeroToOneToByte(imageTensor, 3, y, x) : byte.MaxValue);`
`78`	`80`	`}`
`79`	`81`	`else`
`80`	`82`	`{`
`81`	`83`	`_imageData[x, y] = new Rgba32(`
`82`	`84`	`DenormalizeOneToOneToByte(imageTensor, 0, y, x),`
`83`	`85`	`DenormalizeOneToOneToByte(imageTensor, 1, y, x),`
`84`		`- DenormalizeOneToOneToByte(imageTensor, 2, y, x));`
	`86`	`+ DenormalizeOneToOneToByte(imageTensor, 2, y, x),`
	`87`	`+ hasTransparency ? DenormalizeOneToOneToByte(imageTensor, 3, y, x) : byte.MaxValue);`
`85`	`88`	`}`
`86`	`89`	`}`
`87`	`90`	`}`
`@@ -337,6 +340,7 @@ private DenseTensor<float> NormalizeToZeroToOne(ReadOnlySpan<int> dimensions)`
`337`	`340`	`var width = dimensions[3];`
`338`	`341`	`var height = dimensions[2];`
`339`	`342`	`var channels = dimensions[1];`
	`343`	`+ var hasTransparency = channels == 4;`
`340`	`344`	`var imageArray = new DenseTensor<float>(new[] { 1, channels, height, width });`
`341`	`345`	`_imageData.ProcessPixelRows(img =>`
`342`	`346`	`{`
`@@ -348,6 +352,8 @@ private DenseTensor<float> NormalizeToZeroToOne(ReadOnlySpan<int> dimensions)`
`348`	`352`	`imageArray[0, 0, y, x] = (pixelSpan[x].R / 255.0f);`
`349`	`353`	`imageArray[0, 1, y, x] = (pixelSpan[x].G / 255.0f);`
`350`	`354`	`imageArray[0, 2, y, x] = (pixelSpan[x].B / 255.0f);`
	`355`	`+ if (hasTransparency)`
	`356`	`+ imageArray[0, 3, y, x] = (pixelSpan[x].A / 255.0f);`
`351`	`357`	`}`
`352`	`358`	`}`
`353`	`359`	`});`
`@@ -366,6 +372,7 @@ private DenseTensor<float> NormalizeToOneToOne(ReadOnlySpan<int> dimensions)`
`366`	`372`	`var width = dimensions[3];`
`367`	`373`	`var height = dimensions[2];`
`368`	`374`	`var channels = dimensions[1];`
	`375`	`+ var hasTransparency = channels == 4;`
`369`	`376`	`var imageArray = new DenseTensor<float>(new[] { 1, channels, height, width });`
`370`	`377`	`_imageData.ProcessPixelRows(img =>`
`371`	`378`	`{`
`@@ -377,6 +384,8 @@ private DenseTensor<float> NormalizeToOneToOne(ReadOnlySpan<int> dimensions)`
`377`	`384`	`imageArray[0, 0, y, x] = (pixelSpan[x].R / 255.0f) * 2.0f - 1.0f;`
`378`	`385`	`imageArray[0, 1, y, x] = (pixelSpan[x].G / 255.0f) * 2.0f - 1.0f;`
`379`	`386`	`imageArray[0, 2, y, x] = (pixelSpan[x].B / 255.0f) * 2.0f - 1.0f;`
	`387`	`+ if (hasTransparency)`
	`388`	`+ imageArray[0, 3, y, x] = (pixelSpan[x].A / 255.0f) * 2.0f - 1.0f;`
`380`	`389`	`}`
`381`	`390`	`}`
`382`	`391`	`});`