Remove obsolete Beam Id

saddam213 · saddam213 · commit 4b26030ba3d1 · 2025-10-03T14:28:20.000+13:00
diff --git a/TensorStack.TextGeneration/Pipelines/DecoderPipeline.cs b/TensorStack.TextGeneration/Pipelines/DecoderPipeline.cs
@@ -198,10 +198,6 @@ protected virtual async Task<Sequence[]> BeamSearchAsync(O options, Cancellation
                         cancellationToken.ThrowIfCancellationRequested();
 
                         var beamCandidate = beam.Clone();
-                        beamCandidate.Id = beam.Id;
-                        if (initialPass)
-                            beamCandidate.Id = beamCandidates.Count;
-
                         beamCandidate.Tokens.Add(sample.TokenId);
                         beamCandidate.Score += sample.Score;
                         beamCandidate.PenaltyScore = GetLengthPenalty(beamCandidate, options.LengthPenalty);
@@ -329,13 +325,7 @@ protected virtual Sequence[] NormalizeAndSort(SequenceCollection sequences, O op
                 .Where(x => x.IsComplete)
                 .OrderByDescending(s => s.PenaltyScore)
                 .ToArray();
-
-            var beam = 0;
-            foreach (var sequence in resultSequences)
-            {
-                sequence.Id = beam++;
-            }
-
+ 
             sequences.Remove(resultSequences);
             sequences.Clear();
             return resultSequences;
diff --git a/TensorStack.TextGeneration/Pipelines/Florence/FlorencePipeline.cs b/TensorStack.TextGeneration/Pipelines/Florence/FlorencePipeline.cs
@@ -19,7 +19,7 @@ namespace TensorStack.TextGeneration.Pipelines.Florence
 {
     public class FlorencePipeline : EncoderDecoderPipeline<FlorenceOptions>,
          IPipeline<GenerateResult, FlorenceOptions>,
-         IPipelineStream<GenerateResult, FlorenceSearchOptions>
+         IPipeline<GenerateResult[], FlorenceSearchOptions>
     {
         private readonly FlorenceConfig _configuration;
         private readonly PreProcessor _preProcessor;
@@ -107,7 +107,7 @@ public virtual async Task<GenerateResult> RunAsync(FlorenceOptions options, IPro
         }
 
 
-        public virtual async IAsyncEnumerable<GenerateResult> RunAsync(FlorenceSearchOptions options, IProgress<RunProgress> progressCallback = null, [EnumeratorCancellation] CancellationToken cancellationToken = default)
+        public virtual async Task<GenerateResult[]> RunAsync(FlorenceSearchOptions options, IProgress<RunProgress> progressCallback = null, CancellationToken cancellationToken = default)
         {
             var textPrompt = _preProcessor.ProcessPrompt(options);
             var imagePrompt = _preProcessor.ProcessImage(options);
@@ -118,21 +118,24 @@ public virtual async IAsyncEnumerable<GenerateResult> RunAsync(FlorenceSearchOpt
             EncoderOutput = await RunEncoderAsync();
 
             var sequences = await BeamSearchAsync(options, cancellationToken);
-            foreach (var sequence in sequences)
+            var results = new GenerateResult[sequences.Length];
+            for (int beam = 0; beam < sequences.Length; beam++)
             {
+                var sequence = sequences[beam];
                 using (sequence)
                 {
                     var processedBeamOutput = _postProcessor.Process(options, sequence.Tokens);
-                    yield return new GenerateResult
+                    results[beam] = new GenerateResult
                     {
-                        Beam = sequence.Id,
+                        Beam = beam,
                         Score = sequence.Score,
                         PenaltyScore = sequence.PenaltyScore,
                         Result = processedBeamOutput.Result,
                         CoordinateResults = processedBeamOutput.CoordinateResults
                     };
                 }
             }
+            return results;
         }
 
 
diff --git a/TensorStack.TextGeneration/Pipelines/Other/SummaryPipeline.cs b/TensorStack.TextGeneration/Pipelines/Other/SummaryPipeline.cs
@@ -57,14 +57,14 @@ public async Task<GenerateResult[]> RunAsync(SearchOptions options, IProgress<Ru
 
             var sequences = await BeamSearchAsync(options, cancellationToken);
             var results = new GenerateResult[sequences.Length];
-            for (int i = 0; i < sequences.Length; i++)
+            for (int beam = 0; beam < sequences.Length; beam++)
             {
-                var sequence = sequences[i];
+                var sequence = sequences[beam];
                 using (sequence)
                 {
-                    results[i] = new GenerateResult
+                    results[beam] = new GenerateResult
                     {
-                        Beam = sequence.Id,
+                        Beam = beam,
                         Score = sequence.Score,
                         PenaltyScore = sequence.PenaltyScore,
                         Result = Tokenizer.Decode(sequence.Tokens)
diff --git a/TensorStack.TextGeneration/Pipelines/Phi/Phi3Pipeline.cs b/TensorStack.TextGeneration/Pipelines/Phi/Phi3Pipeline.cs
@@ -64,14 +64,14 @@ public async Task<GenerateResult[]> RunAsync(SearchOptions options, IProgress<Ru
 
             var sequences = await BeamSearchAsync(options, cancellationToken);
             var results = new GenerateResult[sequences.Length];
-            for (int i = 0; i < sequences.Length; i++)
+            for (int beam = 0; beam < sequences.Length; beam++)
             {
-                var sequence = sequences[i];
+                var sequence = sequences[beam];
                 using (sequence)
                 {
-                    results[i] = new GenerateResult
+                    results[beam] = new GenerateResult
                     {
-                        Beam = sequence.Id,
+                        Beam = beam,
                         Score = sequence.Score,
                         PenaltyScore = sequence.PenaltyScore,
                         Result = Tokenizer.Decode(sequence.Tokens)
@@ -82,6 +82,28 @@ public async Task<GenerateResult[]> RunAsync(SearchOptions options, IProgress<Ru
         }
 
 
+        /// <summary>
+        /// Gets the token processors.
+        /// </summary>
+        /// <param name="options">The options.</param>
+        /// <returns>ITokenProcessor[].</returns>
+        protected override ITokenProcessor[] GetTokenProcessors(GenerateOptions options)
+        {
+            return
+            [
+                new EOSTokenProcessor
+                (
+                    options.MinLength, // min length
+                    Tokenizer.EOS,
+                    32000, // <|endoftext|>
+                    32001, // <|assistant|> 
+                    32007  // <|end|>
+                ),
+                new MaxLengthTokenProcessor(options.MaxLength)
+            ];
+        }
+
+
         /// <summary>
         /// Initialize the Decoder cache
         /// </summary>
@@ -91,32 +113,15 @@ protected override async Task<Sequence> InitializeAsync(GenerateOptions options)
         {
             var modelMetadata = await Decoder.LoadAsync();
             var dataType = modelMetadata.Outputs[0].Value.ElementDataType;
-            var kvCache = new KVCacheDecoder(dataType, DecoderConfig.NumHeads, DecoderConfig.NumLayers, DecoderConfig.HiddenSize, DecoderConfig.NumKVHeads);
+            var kvCache = new KVCacheDecoder(dataType, DecoderConfig.NumHeads, DecoderConfig.NumLayers, DecoderConfig.HiddenSize, DecoderConfig.NumKVHeads, options.MaxLength);
             var sequence = new Sequence(kvCache, Tokenizer.BOS);
             sequence.Initialize(TokenizerOutput.Length);
 
-            var positionIds = GetPositionIds(modelMetadata, 0, TokenizerOutput.Length);
-            var attentionMask = new Tensor<long>([1, TokenizerOutput.Length], 1);
-            using (var parameters = new ModelParameters(modelMetadata))
-            {
-                // Inputs
-                parameters.AddInput(TokenizerOutput.InputIds);
-                if (positionIds != null)
-                    parameters.AddInput(positionIds);
-                parameters.AddInput(attentionMask);
-                foreach (var pastKeyValue in sequence.Cache)
-                    parameters.AddInput(pastKeyValue);
-
-                // Outputs
-                foreach (var output in modelMetadata.Outputs)
-                    parameters.AddOutput();
-
-                // Result
-                var modelResult = Decoder.RunInference(parameters);
-                modelResult[0].Dispose(); // logits
-                var presentKeyValues = modelResult.ToArray()[1..];
-                sequence.UpdateCache(presentKeyValues, false);
-            }
+            var position = TokenizerOutput.Length;
+            var inputIds = TokenizerOutput.InputIds;
+            var positionIds = GetPositionIds(modelMetadata, 0, position);
+            var attentionMask = new Tensor<long>([1, position], 1);
+            RunDecoderInternalAsync(modelMetadata, sequence, inputIds, positionIds, attentionMask, false);
             return sequence;
         }
 
@@ -128,11 +133,26 @@ protected override async Task<Sequence> InitializeAsync(GenerateOptions options)
         /// <returns>A Task&lt;Tensor`1&gt; representing the asynchronous operation.</returns>
         protected override async Task<Tensor<float>> RunDecoderAsync(Sequence sequence)
         {
-            var currentPosition = TokenizerOutput.Length + sequence.Tokens.Count;
             var modelMetadata = await Decoder.LoadAsync();
+            var position = TokenizerOutput.Length + sequence.Tokens.Count;
             var inputIds = new Tensor<long>([1, 1], sequence.Tokens[^1]);
-            var positionIds = GetPositionIds(modelMetadata, currentPosition);
-            var attentionMask = new Tensor<long>([1, currentPosition], 1);
+            var positionIds = GetPositionIds(modelMetadata, position);
+            var attentionMask = new Tensor<long>([1, position], 1);
+            return RunDecoderInternalAsync(modelMetadata, sequence, inputIds, positionIds, attentionMask, true);
+        }
+
+
+        /// <summary>
+        /// Runs the decoder
+        /// </summary>
+        /// <param name="modelMetadata">The model metadata.</param>
+        /// <param name="sequence">The sequence.</param>
+        /// <param name="inputIds">The input ids.</param>
+        /// <param name="positionIds">The position ids.</param>
+        /// <param name="attentionMask">The attention mask.</param>
+        /// <param name="useBranchCache">if set to <c>true</c> [use branch cache].</param>
+        private Tensor<float> RunDecoderInternalAsync(ModelMetadata modelMetadata, Sequence sequence, Tensor<long> inputIds, Tensor<long> positionIds, Tensor<long> attentionMask, bool useBranchCache)
+        {
             using (var parameters = new ModelParameters(modelMetadata))
             {
                 // Inputs
@@ -151,38 +171,17 @@ protected override async Task<Tensor<float>> RunDecoderAsync(Sequence sequence)
                 var modelResult = Decoder.RunInference(parameters);
                 using (var logitsResult = modelResult[0])
                 {
-                    var logits = logitsResult.ToTensor();
+                    var dimension = logitsResult.GetDimensions();
+                    var logits = logitsResult.ToTensor(dimension[1..]);
                     var presentKeyValues = modelResult.ToArray()[1..];
 
-                    sequence.UpdateCache(presentKeyValues, false);
-                    return logits.Reshape([logits.Dimensions[0], logits.Dimensions[2]]);
+                    sequence.UpdateCache(presentKeyValues, useBranchCache);
+                    return logits;
                 }
             }
         }
 
 
-        /// <summary>
-        /// Gets the token processors.
-        /// </summary>
-        /// <param name="options">The options.</param>
-        /// <returns>ITokenProcessor[].</returns>
-        protected override ITokenProcessor[] GetTokenProcessors(GenerateOptions options)
-        {
-            return
-            [
-                new EOSTokenProcessor
-                (
-                    options.MinLength, // min length
-                    Tokenizer.EOS,
-                    32000, // <|endoftext|>
-                    32001 // <|assistant|> 
-                   // 32007  // <|end|>
-                ),
-                new MaxLengthTokenProcessor(options.MaxLength)
-            ];
-        }
-
-
         /// <summary>
         /// Creates the Phi3Pipeline
         /// </summary>
diff --git a/TensorStack.TextGeneration/Pipelines/Whisper/WhisperPipeline.cs b/TensorStack.TextGeneration/Pipelines/Whisper/WhisperPipeline.cs
@@ -87,12 +87,12 @@ public async Task<GenerateResult[]> RunAsync(WhisperSearchOptions options, IProg
             {
                 await RunEncoderAsync(sample);
                 var sequences = await BeamSearchAsync(options, cancellationToken);
-                for (int i = 0; i < sequences.Length; i++)
+                for (int beam = 0; beam < sequences.Length; beam++)
                 {
-                    var sequence = sequences[i];
+                    var sequence = sequences[beam];
                     using (sequence)
                     {
-                        var existing = results.ElementAtOrDefault(i);
+                        var existing = results.ElementAtOrDefault(beam);
                         if (existing != null)
                         {
                             existing.Score += sequence.Score;
@@ -103,7 +103,7 @@ public async Task<GenerateResult[]> RunAsync(WhisperSearchOptions options, IProg
                         {
                             results.Add(new GenerateResult
                             {
-                                Beam = sequence.Id,
+                                Beam = beam,
                                 Score = sequence.Score,
                                 PenaltyScore = sequence.PenaltyScore,
                                 Result = Tokenizer.Decode(sequence.Tokens)
diff --git a/TensorStack.TextGeneration/Processing/KVCacheDecoder.cs b/TensorStack.TextGeneration/Processing/KVCacheDecoder.cs
@@ -13,6 +13,7 @@ public sealed class KVCacheDecoder : IKVCache
         private readonly int _numLayers;
         private readonly int _hiddenSize;
         private readonly int _numKVHeads;
+        private readonly int _maxLength;
         private OrtValue[] _values;
 
 
@@ -23,13 +24,14 @@ public sealed class KVCacheDecoder : IKVCache
         /// <param name="numHeads">The number heads.</param>
         /// <param name="numLayers">The number layers.</param>
         /// <param name="hiddenSize">Size of the hidden.</param>
-        public KVCacheDecoder(OrtType dataType, int numHeads, int numLayers, int hiddenSize, int numKVHeads)
+        public KVCacheDecoder(OrtType dataType, int numHeads, int numLayers, int hiddenSize, int numKVHeads, int maxLength)
         {
             _dataType = dataType;
             _numHeads = numHeads;
             _numLayers = numLayers;
             _hiddenSize = hiddenSize;
             _numKVHeads = numKVHeads;
+            _maxLength = maxLength;
         }
 
 
@@ -41,8 +43,8 @@ public KVCacheDecoder(OrtType dataType, int numHeads, int numLayers, int hiddenS
         /// <param name="numLayers">The number layers.</param>
         /// <param name="hiddenSize">Size of the hidden.</param>
         /// <param name="values">The cache values.</param>
-        private KVCacheDecoder(OrtType dataType, int numHeads, int numLayers, int hiddenSize, int numKVHeads, OrtValue[] values)
-            : this(dataType, numHeads, numLayers, hiddenSize, numKVHeads)
+        private KVCacheDecoder(OrtType dataType, int numHeads, int numLayers, int hiddenSize, int numKVHeads, int maxLength, OrtValue[] values)
+            : this(dataType, numHeads, numLayers, hiddenSize, numKVHeads, maxLength)
         {
             _values = values;
         }
@@ -109,7 +111,7 @@ public IKVCache Clone()
             for (int i = 0; i < _values.Length; i++)
                 cacheValues[i] = _values[i].Clone();
 
-            return new KVCacheDecoder(_dataType, _numHeads, _numLayers, _hiddenSize, _numKVHeads, cacheValues);
+            return new KVCacheDecoder(_dataType, _numHeads, _numLayers, _hiddenSize, _numKVHeads, _maxLength, cacheValues);
         }
 
 
diff --git a/TensorStack.TextGeneration/Processing/KVCacheEncoderDecoder.cs b/TensorStack.TextGeneration/Processing/KVCacheEncoderDecoder.cs
@@ -12,6 +12,8 @@ public sealed class KVCacheEncoderDecoder : IKVCache
         private readonly int _numHeads;
         private readonly int _numLayers;
         private readonly int _hiddenSize;
+        private readonly int _headDimension;
+
         private OrtValue[] _values;
 
         /// <summary>
@@ -24,6 +26,7 @@ public KVCacheEncoderDecoder(OrtType dataType, int numHeads, int numLayers, int
             _numHeads = numHeads;
             _numLayers = numLayers;
             _hiddenSize = hiddenSize;
+            _headDimension = _hiddenSize / _numHeads;
         }
 
 
@@ -58,8 +61,8 @@ public void Initialize(int initialSize)
         {
             _values = new OrtValue[_numLayers * 4];
             var allocator = OrtAllocator.DefaultInstance;
-            var decoderDims = new[] { 1L, _numHeads, 1, (_hiddenSize / _numHeads) };
-            var encoderDims = new[] { 1L, _numHeads, initialSize, (_hiddenSize / _numHeads) };
+            var decoderDims = new[] { 1L, _numHeads, 1, _headDimension };
+            var encoderDims = new[] { 1L, _numHeads, initialSize, _headDimension };
             for (var i = 0; i < _values.Length; ++i)
             {
                 if (i % 4 == 0)
diff --git a/TensorStack.TextGeneration/Processing/Sequence.cs b/TensorStack.TextGeneration/Processing/Sequence.cs
@@ -15,10 +15,10 @@ public sealed class Sequence : IDisposable
         /// </summary>
         /// <param name="cache">The cache.</param>
         /// <param name="bos">The bos.</param>
-        public Sequence(IKVCache cache, long bos)
+        public Sequence(IKVCache cache, params List<long> startSequence)
         {
-            Tokens = [bos];
             _cache = cache;
+            Tokens = startSequence;
         }
 
         /// <summary>
@@ -34,11 +34,6 @@ private Sequence(List<long> tokens, float score, IKVCache cache)
             _cache = cache;
         }
 
-        /// <summary>
-        /// Gets or sets the identifier.
-        /// </summary>
-        public int Id { get; set; }
-
         /// <summary>
         /// Gets the tokens.
         /// </summary>

Original file line number	Diff line number	Diff line change
`@@ -19,7 +19,7 @@ namespace TensorStack.TextGeneration.Pipelines.Florence`
`19`	`19`	`{`
`20`	`20`	`public class FlorencePipeline : EncoderDecoderPipeline<FlorenceOptions>,`
`21`	`21`	`IPipeline<GenerateResult, FlorenceOptions>,`
`22`		`- IPipelineStream<GenerateResult, FlorenceSearchOptions>`
	`22`	`+ IPipeline<GenerateResult[], FlorenceSearchOptions>`
`23`	`23`	`{`
`24`	`24`	`private readonly FlorenceConfig _configuration;`
`25`	`25`	`private readonly PreProcessor _preProcessor;`
`@@ -107,7 +107,7 @@ public virtual async Task<GenerateResult> RunAsync(FlorenceOptions options, IPro`
`107`	`107`	`}`
`108`	`108`
`109`	`109`
`110`		`- public virtual async IAsyncEnumerable<GenerateResult> RunAsync(FlorenceSearchOptions options, IProgress<RunProgress> progressCallback = null, [EnumeratorCancellation] CancellationToken cancellationToken = default)`
	`110`	`+ public virtual async Task<GenerateResult[]> RunAsync(FlorenceSearchOptions options, IProgress<RunProgress> progressCallback = null, CancellationToken cancellationToken = default)`
`111`	`111`	`{`
`112`	`112`	`var textPrompt = _preProcessor.ProcessPrompt(options);`
`113`	`113`	`var imagePrompt = _preProcessor.ProcessImage(options);`
`@@ -118,21 +118,24 @@ public virtual async IAsyncEnumerable<GenerateResult> RunAsync(FlorenceSearchOpt`
`118`	`118`	`EncoderOutput = await RunEncoderAsync();`
`119`	`119`
`120`	`120`	`var sequences = await BeamSearchAsync(options, cancellationToken);`
`121`		`- foreach (var sequence in sequences)`
	`121`	`+ var results = new GenerateResult[sequences.Length];`
	`122`	`+ for (int beam = 0; beam < sequences.Length; beam++)`
`122`	`123`	`{`
	`124`	`+ var sequence = sequences[beam];`
`123`	`125`	`using (sequence)`
`124`	`126`	`{`
`125`	`127`	`var processedBeamOutput = _postProcessor.Process(options, sequence.Tokens);`
`126`		`- yield return new GenerateResult`
	`128`	`+ results[beam] = new GenerateResult`
`127`	`129`	`{`
`128`		`- Beam = sequence.Id,`
	`130`	`+ Beam = beam,`
`129`	`131`	`Score = sequence.Score,`
`130`	`132`	`PenaltyScore = sequence.PenaltyScore,`
`131`	`133`	`Result = processedBeamOutput.Result,`
`132`	`134`	`CoordinateResults = processedBeamOutput.CoordinateResults`
`133`	`135`	`};`
`134`	`136`	`}`
`135`	`137`	`}`
	`138`	`+ return results;`
`136`	`139`	`}`
`137`	`140`
`138`	`141`
Original file line number	Diff line number	Diff line change
`@@ -57,14 +57,14 @@ public async Task<GenerateResult[]> RunAsync(SearchOptions options, IProgress<Ru`
`57`	`57`
`58`	`58`	`var sequences = await BeamSearchAsync(options, cancellationToken);`
`59`	`59`	`var results = new GenerateResult[sequences.Length];`
`60`		`- for (int i = 0; i < sequences.Length; i++)`
	`60`	`+ for (int beam = 0; beam < sequences.Length; beam++)`
`61`	`61`	`{`
`62`		`- var sequence = sequences[i];`
	`62`	`+ var sequence = sequences[beam];`
`63`	`63`	`using (sequence)`
`64`	`64`	`{`
`65`		`- results[i] = new GenerateResult`
	`65`	`+ results[beam] = new GenerateResult`
`66`	`66`	`{`
`67`		`- Beam = sequence.Id,`
	`67`	`+ Beam = beam,`
`68`	`68`	`Score = sequence.Score,`
`69`	`69`	`PenaltyScore = sequence.PenaltyScore,`
`70`	`70`	`Result = Tokenizer.Decode(sequence.Tokens)`
Original file line number	Diff line number	Diff line change
`@@ -87,12 +87,12 @@ public async Task<GenerateResult[]> RunAsync(WhisperSearchOptions options, IProg`
`87`	`87`	`{`
`88`	`88`	`await RunEncoderAsync(sample);`
`89`	`89`	`var sequences = await BeamSearchAsync(options, cancellationToken);`
`90`		`- for (int i = 0; i < sequences.Length; i++)`
	`90`	`+ for (int beam = 0; beam < sequences.Length; beam++)`
`91`	`91`	`{`
`92`		`- var sequence = sequences[i];`
	`92`	`+ var sequence = sequences[beam];`
`93`	`93`	`using (sequence)`
`94`	`94`	`{`
`95`		`- var existing = results.ElementAtOrDefault(i);`
	`95`	`+ var existing = results.ElementAtOrDefault(beam);`
`96`	`96`	`if (existing != null)`
`97`	`97`	`{`
`98`	`98`	`existing.Score += sequence.Score;`
`@@ -103,7 +103,7 @@ public async Task<GenerateResult[]> RunAsync(WhisperSearchOptions options, IProg`
`103`	`103`	`{`
`104`	`104`	`results.Add(new GenerateResult`
`105`	`105`	`{`
`106`		`- Beam = sequence.Id,`
	`106`	`+ Beam = beam,`
`107`	`107`	`Score = sequence.Score,`
`108`	`108`	`PenaltyScore = sequence.PenaltyScore,`
`109`	`109`	`Result = Tokenizer.Decode(sequence.Tokens)`