TensorStack-AI
diff --git a/‎OnnxStack.Console/Examples/StableDebug.cs‎
Lines changed: 3 additions & 1 deletion b/‎OnnxStack.Console/Examples/StableDebug.cs‎
Lines changed: 3 additions & 1 deletion
diff --git a/‎OnnxStack.Console/appsettings.json‎
Lines changed: 15 additions & 55 deletions b/‎OnnxStack.Console/appsettings.json‎
Lines changed: 15 additions & 55 deletions
diff --git a/‎OnnxStack.StableDiffusion/Common/IModelOptions.cs‎
Lines changed: 3 additions & 3 deletions b/‎OnnxStack.StableDiffusion/Common/IModelOptions.cs‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎OnnxStack.StableDiffusion/Config/ModelOptions.cs‎
Lines changed: 3 additions & 3 deletions b/‎OnnxStack.StableDiffusion/Config/ModelOptions.cs‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎OnnxStack.StableDiffusion/Enums/TokenizerType.cs‎
Lines changed: 10 additions & 0 deletions b/‎OnnxStack.StableDiffusion/Enums/TokenizerType.cs‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎OnnxStack.StableDiffusion/Services/PromptService.cs‎
Lines changed: 89 additions & 27 deletions b/‎OnnxStack.StableDiffusion/Services/PromptService.cs‎
Lines changed: 89 additions & 27 deletions
diff --git a/‎OnnxStack.UI/Models/ModelConfigTemplate.cs‎
Lines changed: 3 additions & 3 deletions b/‎OnnxStack.UI/Models/ModelConfigTemplate.cs‎
Lines changed: 3 additions & 3 deletions
@@ -43,7 +43,6 @@ public async Task RunAsync()
                 {
                     SchedulerType = SchedulerType.LMS,
                     Seed = 624461087,
-                    //Seed = Random.Shared.Next(),
                     GuidanceScale = 8,
                     InferenceSteps = 22,
                     Strength = 0.6f
@@ -54,6 +53,9 @@ public async Task RunAsync()
                     OutputHelpers.WriteConsole($"Loading Model `{model.Name}`...", ConsoleColor.Green);
                     await _stableDiffusionService.LoadModelAsync(model);
 
+                    schedulerOptions.Width = model.SampleSize;
+                    schedulerOptions.Height = model.SampleSize;
+
                     foreach (var schedulerType in model.PipelineType.GetSchedulerTypes())
                     {
                         schedulerOptions.SchedulerType = schedulerType;
 
@@ -14,7 +14,8 @@
 				"PadTokenId": 49407,
 				"BlankTokenId": 49407,
 				"TokenizerLimit": 77,
-				"EmbeddingsLength": 768,
+				"TokenizerLength": 768,
+				"TokenizerType": "One",
 				"ScaleFactor": 0.18215,
 				"SampleSize": 512,
 				"PipelineType": "StableDiffusion",
@@ -57,7 +58,8 @@
 				"PadTokenId": 49407,
 				"BlankTokenId": 49407,
 				"TokenizerLimit": 77,
-				"EmbeddingsLength": 768,
+				"TokenizerLength": 768,
+				"TokenizerType": "One",
 				"ScaleFactor": 0.18215,
 				"SampleSize": 512,
 				"PipelineType": "LatentConsistency",
@@ -93,56 +95,14 @@
 					}
 				]
 			},
-			{
-				"Name": "Photon",
-				"IsEnabled": true,
-				"PadTokenId": 49407,
-				"BlankTokenId": 49407,
-				"TokenizerLimit": 77,
-				"EmbeddingsLength": 768,
-				"ScaleFactor": 0.18215,
-				"SampleSize": 512,
-				"PipelineType": "StableDiffusion",
-				"Diffusers": [
-					"TextToImage",
-					"ImageToImage",
-					"ImageInpaintLegacy"
-				],
-				"DeviceId": 0,
-				"InterOpNumThreads": 0,
-				"IntraOpNumThreads": 0,
-				"ExecutionMode": "ORT_SEQUENTIAL",
-				"ExecutionProvider": "DirectML",
-				"ModelConfigurations": [
-					{
-						"Type": "Tokenizer",
-						"OnnxModelPath": "D:\\Repositories\\photon\\tokenizer\\model.onnx"
-					},
-					{
-						"Type": "Unet",
-						"OnnxModelPath": "D:\\Repositories\\photon\\unet\\model.onnx"
-					},
-					{
-						"Type": "TextEncoder",
-						"OnnxModelPath": "D:\\Repositories\\photon\\text_encoder\\model.onnx"
-					},
-					{
-						"Type": "VaeEncoder",
-						"OnnxModelPath": "D:\\Repositories\\photon\\vae_encoder\\model.onnx"
-					},
-					{
-						"Type": "VaeDecoder",
-						"OnnxModelPath": "D:\\Repositories\\photon\\vae_decoder\\model.onnx"
-					}
-				]
-			},
 			{
 				"Name": "InstaFlow",
 				"IsEnabled": true,
 				"PadTokenId": 49407,
 				"BlankTokenId": 49407,
 				"TokenizerLimit": 77,
-				"EmbeddingsLength": 768,
+				"TokenizerLength": 768,
+				"TokenizerType": "One",
 				"ScaleFactor": 0.18215,
 				"SampleSize": 512,
 				"PipelineType": "InstaFlow",
@@ -178,14 +138,14 @@
 				]
 			},
 			{
-				"Name": "DreamShaper XL",
+				"Name": "Stable Diffusion XL",
 				"IsEnabled": true,
 				"PadTokenId": 1,
 				"BlankTokenId": 49407,
 				"TokenizerLimit": 77,
-				"EmbeddingsLength": 768,
-				"DualEmbeddingsLength": 1280,
-				"IsDualTokenizer": true,
+				"TokenizerLength": 768,
+				"Tokenizer2Length": 1280,
+				"TokenizerType": "Both",
 				"ScaleFactor": 0.13025,
 				"SampleSize": 1024,
 				"PipelineType": "StableDiffusionXL",
@@ -200,23 +160,23 @@
 				"ModelConfigurations": [
 					{
 						"Type": "Tokenizer",
-						"OnnxModelPath": "D:\\Repositories\\dreamshaper-xl-1-0-Olive-Onnx\\tokenizer\\model.onnx"
+						"OnnxModelPath": "D:\\Repositories\\stable-diffusion-xl-base-1.0-Olive-Onnx\\tokenizer\\model.onnx"
 					},
 					{
 						"Type": "Tokenizer2",
-						"OnnxModelPath": "D:\\Repositories\\dreamshaper-xl-1-0-Olive-Onnx\\tokenizer_2\\model.onnx"
+						"OnnxModelPath": "D:\\Repositories\\stable-diffusion-xl-base-1.0-Olive-Onnx\\tokenizer_2\\model.onnx"
 					},
 					{
 						"Type": "Unet",
-						"OnnxModelPath": "D:\\Repositories\\dreamshaper-xl-1-0-Olive-Onnx\\unet\\model.onnx"
+						"OnnxModelPath": "D:\\Repositories\\stable-diffusion-xl-base-1.0-Olive-Onnx\\unet\\model.onnx"
 					},
 					{
 						"Type": "TextEncoder",
-						"OnnxModelPath": "D:\\Repositories\\dreamshaper-xl-1-0-Olive-Onnx\\text_encoder\\model.onnx"
+						"OnnxModelPath": "D:\\Repositories\\stable-diffusion-xl-base-1.0-Olive-Onnx\\text_encoder\\model.onnx"
 					},
 					{
 						"Type": "TextEncoder2",
-						"OnnxModelPath": "D:\\Repositories\\dreamshaper-xl-1-0-Olive-Onnx\\text_encoder_2\\model.onnx"
+						"OnnxModelPath": "D:\\Repositories\\stable-diffusion-xl-base-1.0-Olive-Onnx\\text_encoder_2\\model.onnx"
 					},
 					{
 						"Type": "VaeEncoder",
 
@@ -13,9 +13,9 @@ public interface IModelOptions : IOnnxModel
         int SampleSize { get; set; }
         float ScaleFactor { get; set; }
         int TokenizerLimit { get; set; }
-        int EmbeddingsLength { get; set; }
-        int DualEmbeddingsLength { get; set; }
-        bool IsDualTokenizer { get; set; }
+        int TokenizerLength { get; set; }
+        int Tokenizer2Length { get; set; }
+        TokenizerType TokenizerType { get; set; }
         DiffuserPipelineType PipelineType { get; set; }
         List<DiffuserType> Diffusers { get; set; }
         ImmutableArray<int> BlankTokenValueArray { get; set; }
 
@@ -16,9 +16,9 @@ public class ModelOptions : IModelOptions, IOnnxModelSetConfig
         public int PadTokenId { get; set; }
         public int BlankTokenId { get; set; }
         public int TokenizerLimit { get; set; }
-        public int EmbeddingsLength { get; set; }
-        public int DualEmbeddingsLength { get; set; }
-        public bool IsDualTokenizer { get; set; }
+        public int TokenizerLength { get; set; }
+        public int Tokenizer2Length { get; set; }
+        public TokenizerType TokenizerType { get; set; }
         public int SampleSize { get; set; } = 512;
         public float ScaleFactor { get; set; }
         public DiffuserPipelineType PipelineType { get; set; }
 
@@ -0,0 +1,10 @@
+namespace OnnxStack.StableDiffusion.Enums
+{
+    public enum TokenizerType
+    {
+        None = 0,
+        One = 1,
+        Two = 2,
+        Both = 3
+    }
+}
@@ -1,11 +1,11 @@
-using Microsoft.ML.OnnxRuntime;
-using Microsoft.ML.OnnxRuntime.Tensors;
+using Microsoft.ML.OnnxRuntime.Tensors;
 using OnnxStack.Core;
 using OnnxStack.Core.Config;
 using OnnxStack.Core.Model;
 using OnnxStack.Core.Services;
 using OnnxStack.StableDiffusion.Common;
 using OnnxStack.StableDiffusion.Config;
+using OnnxStack.StableDiffusion.Enums;
 using OnnxStack.StableDiffusion.Helpers;
 using System;
 using System.Collections.Generic;
@@ -40,6 +40,25 @@ public record EmbedsResult(DenseTensor<float> PromptEmbeds, DenseTensor<float> P
         /// <param name="negativePrompt">The negative prompt.</param>
         /// <returns>Tensor containing all text embeds generated from the prompt and negative prompt</returns>
         public async Task<PromptEmbeddingsResult> CreatePromptAsync(IModelOptions model, PromptOptions promptOptions, bool isGuidanceEnabled)
+        {
+            return model.TokenizerType switch
+            {
+                TokenizerType.One => await CreateEmbedsOneAsync(model, promptOptions, isGuidanceEnabled),
+                TokenizerType.Two => await CreateEmbedsTwoAsync(model, promptOptions, isGuidanceEnabled),
+                TokenizerType.Both => await CreateEmbedsBothAsync(model, promptOptions, isGuidanceEnabled),
+                _ => throw new ArgumentException("TokenizerType is not set")
+            };
+        }
+
+
+        /// <summary>
+        /// Creates the embeds using Tokenizer and TextEncoder
+        /// </summary>
+        /// <param name="model">The model.</param>
+        /// <param name="promptOptions">The prompt options.</param>
+        /// <param name="isGuidanceEnabled">if set to <c>true</c> is guidance enabled.</param>
+        /// <returns></returns>
+        private async Task<PromptEmbeddingsResult> CreateEmbedsOneAsync(IModelOptions model, PromptOptions promptOptions, bool isGuidanceEnabled)
         {
             // Tokenize Prompt and NegativePrompt
             var promptTokens = await DecodeTextAsIntAsync(model, promptOptions.Prompt);
@@ -50,31 +69,74 @@ public async Task<PromptEmbeddingsResult> CreatePromptAsync(IModelOptions model,
             var promptEmbeddings = await GenerateEmbedsAsync(model, promptTokens, maxPromptTokenCount);
             var negativePromptEmbeddings = await GenerateEmbedsAsync(model, negativePromptTokens, maxPromptTokenCount);
 
-            if (model.IsDualTokenizer)
-            {
-                /// Tokenize Prompt and NegativePrompt with Tokenizer2
-                var dualPromptTokens = await DecodeTextAsLongAsync(model, promptOptions.Prompt);
-                var dualNegativePromptTokens = await DecodeTextAsLongAsync(model, promptOptions.NegativePrompt);
+            if (isGuidanceEnabled)
+                return new PromptEmbeddingsResult(negativePromptEmbeddings.Concatenate(promptEmbeddings));
 
-                // Generate embeds for tokens
-                var dualPromptEmbeddings = await GenerateEmbedsAsync(model, dualPromptTokens, maxPromptTokenCount);
-                var dualNegativePromptEmbeddings = await GenerateEmbedsAsync(model, dualNegativePromptTokens, maxPromptTokenCount);
+            return new PromptEmbeddingsResult(promptEmbeddings);
+        }
 
-                var dualPrompt = promptEmbeddings.Concatenate(dualPromptEmbeddings.PromptEmbeds, 2);
-                var dualNegativePrompt = negativePromptEmbeddings.Concatenate(dualNegativePromptEmbeddings.PromptEmbeds, 2);
-                var pooledPromptEmbeds = dualPromptEmbeddings.PooledPromptEmbeds;
-                var pooledNegativePromptEmbeds = dualNegativePromptEmbeddings.PooledPromptEmbeds;
+        /// <summary>
+        /// Creates the embeds using Tokenizer2 and TextEncoder2
+        /// </summary>
+        /// <param name="model">The model.</param>
+        /// <param name="promptOptions">The prompt options.</param>
+        /// <param name="isGuidanceEnabled">if set to <c>true</c> is guidance enabled.</param>
+        /// <returns></returns>
+        private async Task<PromptEmbeddingsResult> CreateEmbedsTwoAsync(IModelOptions model, PromptOptions promptOptions, bool isGuidanceEnabled)
+        {
+            /// Tokenize Prompt and NegativePrompt with Tokenizer2
+            var promptTokens = await DecodeTextAsLongAsync(model, promptOptions.Prompt);
+            var negativePromptTokens = await DecodeTextAsLongAsync(model, promptOptions.NegativePrompt);
+            var maxPromptTokenCount = Math.Max(promptTokens.Length, negativePromptTokens.Length);
 
-                if (isGuidanceEnabled)
-                    return new PromptEmbeddingsResult(dualNegativePrompt.Concatenate(dualPrompt), pooledNegativePromptEmbeds.Concatenate(pooledPromptEmbeds));
+            // Generate embeds for tokens
+            var promptEmbeddings = await GenerateEmbedsAsync(model, promptTokens, maxPromptTokenCount);
+            var negativePromptEmbeddings = await GenerateEmbedsAsync(model, negativePromptTokens, maxPromptTokenCount);
 
-                return new PromptEmbeddingsResult(dualPrompt, pooledPromptEmbeds);
-            }
+            if (isGuidanceEnabled)
+                return new PromptEmbeddingsResult(
+                    negativePromptEmbeddings.PromptEmbeds.Concatenate(promptEmbeddings.PromptEmbeds),
+                    negativePromptEmbeddings.PooledPromptEmbeds.Concatenate(promptEmbeddings.PooledPromptEmbeds));
+
+            return new PromptEmbeddingsResult(promptEmbeddings.PromptEmbeds, promptEmbeddings.PooledPromptEmbeds);
+        }
+
+
+        /// <summary>
+        /// Creates the embeds using Tokenizer, Tokenizer2, TextEncoder and TextEncoder2
+        /// </summary>
+        /// <param name="model">The model.</param>
+        /// <param name="promptOptions">The prompt options.</param>
+        /// <param name="isGuidanceEnabled">if set to <c>true</c> is guidance enabled.</param>
+        /// <returns></returns>
+        private async Task<PromptEmbeddingsResult> CreateEmbedsBothAsync(IModelOptions model, PromptOptions promptOptions, bool isGuidanceEnabled)
+        {
+            // Tokenize Prompt and NegativePrompt
+            var promptTokens = await DecodeTextAsIntAsync(model, promptOptions.Prompt);
+            var negativePromptTokens = await DecodeTextAsIntAsync(model, promptOptions.NegativePrompt);
+            var maxPromptTokenCount = Math.Max(promptTokens.Length, negativePromptTokens.Length);
+
+            // Generate embeds for tokens
+            var promptEmbeddings = await GenerateEmbedsAsync(model, promptTokens, maxPromptTokenCount);
+            var negativePromptEmbeddings = await GenerateEmbedsAsync(model, negativePromptTokens, maxPromptTokenCount);
+
+            /// Tokenize Prompt and NegativePrompt with Tokenizer2
+            var dualPromptTokens = await DecodeTextAsLongAsync(model, promptOptions.Prompt);
+            var dualNegativePromptTokens = await DecodeTextAsLongAsync(model, promptOptions.NegativePrompt);
+
+            // Generate embeds for tokens
+            var dualPromptEmbeddings = await GenerateEmbedsAsync(model, dualPromptTokens, maxPromptTokenCount);
+            var dualNegativePromptEmbeddings = await GenerateEmbedsAsync(model, dualNegativePromptTokens, maxPromptTokenCount);
+
+            var dualPrompt = promptEmbeddings.Concatenate(dualPromptEmbeddings.PromptEmbeds, 2);
+            var dualNegativePrompt = negativePromptEmbeddings.Concatenate(dualNegativePromptEmbeddings.PromptEmbeds, 2);
+            var pooledPromptEmbeds = dualPromptEmbeddings.PooledPromptEmbeds;
+            var pooledNegativePromptEmbeds = dualNegativePromptEmbeddings.PooledPromptEmbeds;
 
             if (isGuidanceEnabled)
-                return new PromptEmbeddingsResult(negativePromptEmbeddings.Concatenate(promptEmbeddings));
+                return new PromptEmbeddingsResult(dualNegativePrompt.Concatenate(dualPrompt), pooledNegativePromptEmbeds.Concatenate(pooledPromptEmbeds));
 
-            return new PromptEmbeddingsResult(promptEmbeddings);
+            return new PromptEmbeddingsResult(dualPrompt, pooledPromptEmbeds);
         }
 
 
@@ -138,7 +200,7 @@ private Task<long[]> DecodeTextAsLongAsync(IModelOptions model, string inputText
         private async Task<float[]> EncodeTokensAsync(IModelOptions model, int[] tokenizedInput)
         {
             var inputDim = new[] { 1, tokenizedInput.Length };
-            var outputDim = new[] { 1, tokenizedInput.Length, model.EmbeddingsLength };
+            var outputDim = new[] { 1, tokenizedInput.Length, model.TokenizerLength };
             var metadata = _onnxModelService.GetModelMetadata(model, OnnxModelType.TextEncoder);
             var inputTensor = new DenseTensor<int>(tokenizedInput, inputDim);
             using (var inferenceParameters = new OnnxInferenceParameters(metadata))
@@ -164,8 +226,8 @@ private async Task<float[]> EncodeTokensAsync(IModelOptions model, int[] tokeniz
         private async Task<EncoderResult> EncodeTokensAsync(IModelOptions model, long[] tokenizedInput)
         {
             var inputDim = new[] { 1, tokenizedInput.Length };
-            var promptOutputDim = new[] { 1, tokenizedInput.Length, model.DualEmbeddingsLength };
-            var pooledOutputDim = new[] { 1, model.DualEmbeddingsLength };
+            var promptOutputDim = new[] { 1, tokenizedInput.Length, model.Tokenizer2Length };
+            var pooledOutputDim = new[] { 1, model.Tokenizer2Length };
             var metadata = _onnxModelService.GetModelMetadata(model, OnnxModelType.TextEncoder2);
             var inputTensor = new DenseTensor<long>(tokenizedInput, inputDim);
             using (var inferenceParameters = new OnnxInferenceParameters(metadata))
@@ -206,12 +268,12 @@ private async Task<EmbedsResult> GenerateEmbedsAsync(IModelOptions model, long[]
                 pooledEmbeds.AddRange(result.PooledPromptEmbeds);
             }
 
-            var embeddingsDim = new[] { 1, embeddings.Count / model.DualEmbeddingsLength, model.DualEmbeddingsLength };
+            var embeddingsDim = new[] { 1, embeddings.Count / model.Tokenizer2Length, model.Tokenizer2Length };
             var promptTensor = TensorHelper.CreateTensor(embeddings.ToArray(), embeddingsDim);
 
             //TODO: Pooled embeds do not support more than 77 tokens, just grab first set
-            var pooledDim = new[] { 1, model.DualEmbeddingsLength };
-            var pooledTensor = TensorHelper.CreateTensor(pooledEmbeds.Take(model.DualEmbeddingsLength).ToArray(), pooledDim);
+            var pooledDim = new[] { 1, model.Tokenizer2Length };
+            var pooledTensor = TensorHelper.CreateTensor(pooledEmbeds.Take(model.Tokenizer2Length).ToArray(), pooledDim);
             return new EmbedsResult(promptTensor, pooledTensor);
         }
 
@@ -236,7 +298,7 @@ private async Task<DenseTensor<float>> GenerateEmbedsAsync(IModelOptions model,
                 embeddings.AddRange(await EncodeTokensAsync(model, tokens.ToArray()));
             }
 
-            var dim = new[] { 1, embeddings.Count / model.EmbeddingsLength, model.EmbeddingsLength };
+            var dim = new[] { 1, embeddings.Count / model.TokenizerLength, model.TokenizerLength };
             return TensorHelper.CreateTensor(embeddings.ToArray(), dim);
         }
 
 
@@ -15,9 +15,9 @@ public class ModelConfigTemplate
         public int PadTokenId { get; set; }
         public int BlankTokenId { get; set; }
         public int TokenizerLimit { get; set; }
-        public bool IsDualTokenizer { get; set; }
-        public int EmbeddingsLength { get; set; }
-        public int DualEmbeddingsLength { get; set; }
+        public TokenizerType TokenizerType { get; set; }
+        public int TokenizerLength { get; set; }
+        public int Tokenizer2Length { get; set; }
         public float ScaleFactor { get; set; }
         public DiffuserPipelineType PipelineType { get; set; }
         public List<DiffuserType> Diffusers { get; set; } = new List<DiffuserType>();