fix for edge case of exiting word

tikikun · hiento09 · commit 24b4b41ec6e1 · 2024-03-14T09:21:13.000+07:00
diff --git a/cpp/tensorrt_llm/nitro/controllers/tensorrtllm.cc b/cpp/tensorrt_llm/nitro/controllers/tensorrtllm.cc
@@ -119,9 +119,9 @@ GenerationInput::TensorPtr tensorrtllm::getTensorSingleStopWordList(int stopToke
 
 GenerationInput::TensorPtr tensorrtllm::getTensorChatMLStopWordList()
 {
-    std::vector<int32_t> stopWordsTokens = {28789, 28766, 321, 28730, 416, 28766, 28767, 2, 32000, 7, 8, 9, -1, -1, -1,
-        -1, -1, -1}; // Extend with -1 for increased length
-    return gptSession->getBufferManager().copyFrom(stopWordsTokens, ITensor::makeShape({1, 2, 9}), MemoryType::kGPU);
+    std::vector<int32_t> stopWordsTokens = { 28766, 321, 28730, 416, 28766, 28767, 2, 32000, 6, 7, 8, -1, -1, -1,
+        -1, -1}; // Extend with -1 for increased length
+    return gptSession->getBufferManager().copyFrom(stopWordsTokens, ITensor::makeShape({1, 2, 8}), MemoryType::kGPU);
 }
 
 GenerationInput tensorrtllm::createGenerationInput(std::vector<int32_t> inputIdsHost)
@@ -189,6 +189,7 @@ void inferenceThread(std::shared_ptr<inferenceState> inferState, std::vector<int
             // Valid prevPos, proceed with slicing the string from prevPos to the end
             std::string stringTok(text.begin() + inferState->prevPos, text.end());
             std::lock_guard<std::mutex> guard(inferState->queueMutex); // Protect access with a lock
+            std::cout << stringTok << std::endl;
             inferState->textsToStream.push(stringTok);
         }
         else if (inferState->prevPos >= text.size())

Original file line number	Diff line number	Diff line change
`@@ -119,9 +119,9 @@ GenerationInput::TensorPtr tensorrtllm::getTensorSingleStopWordList(int stopToke`
`119`	`119`
`120`	`120`	`GenerationInput::TensorPtr tensorrtllm::getTensorChatMLStopWordList()`
`121`	`121`	`{`
`122`		`- std::vector<int32_t> stopWordsTokens = {28789, 28766, 321, 28730, 416, 28766, 28767, 2, 32000, 7, 8, 9, -1, -1, -1,`
`123`		`- -1, -1, -1}; // Extend with -1 for increased length`
`124`		`- return gptSession->getBufferManager().copyFrom(stopWordsTokens, ITensor::makeShape({1, 2, 9}), MemoryType::kGPU);`
	`122`	`+ std::vector<int32_t> stopWordsTokens = { 28766, 321, 28730, 416, 28766, 28767, 2, 32000, 6, 7, 8, -1, -1, -1,`
	`123`	`+ -1, -1}; // Extend with -1 for increased length`
	`124`	`+ return gptSession->getBufferManager().copyFrom(stopWordsTokens, ITensor::makeShape({1, 2, 8}), MemoryType::kGPU);`
`125`	`125`	`}`
`126`	`126`
`127`	`127`	`GenerationInput tensorrtllm::createGenerationInput(std::vector<int32_t> inputIdsHost)`
`@@ -189,6 +189,7 @@ void inferenceThread(std::shared_ptr<inferenceState> inferState, std::vector<int`
`189`	`189`	`// Valid prevPos, proceed with slicing the string from prevPos to the end`
`190`	`190`	`std::string stringTok(text.begin() + inferState->prevPos, text.end());`
`191`	`191`	`std::lock_guard<std::mutex> guard(inferState->queueMutex); // Protect access with a lock`
	`192`	`+ std::cout << stringTok << std::endl;`
`192`	`193`	`inferState->textsToStream.push(stringTok);`
`193`	`194`	`}`
`194`	`195`	`else if (inferState->prevPos >= text.size())`