Mkulakow/fix output tokens by michalkulakowski · Pull Request #4282 · openvinotoolkit/model_server

michalkulakowski · 2026-06-10T14:01:57Z

🛠 Summary

JIRA/Issue if applicable.
Describe the changes.

🧪 Checklist

Unit tests added.
The documentation updated.
Change follows security best practices.
``

Copilot

Pull request overview

This PR fixes legacy streaming response generation so that token usage fields (prompt/completion/output tokens) are populated correctly in serialized streaming events—especially for the OpenAI Responses endpoint where usage is embedded in the response.completed / response.incomplete event payload.

Changes:

Set prompt/completion token usage on the API handler before calling serializeStreamingChunk() in legacy LM and VLM streaming finalization paths.
Add unit tests validating correct usage fields for Responses endpoint completed/incomplete events and for chat_completions usage SSE chunk behavior.

Reviewed changes

Copilot reviewed 3 out of 3 changed files in this pull request and generated 1 comment.

File	Description
`src/test/http_openai_handler_test.cpp`	Adds legacy servable streaming tests to assert correct token usage serialization for Responses and chat_completions.
`src/llm/language_model/legacy/servable.cpp`	Moves `set*TokensUsage()` calls before final `serializeStreamingChunk()` so usage is available during serialization.
`src/llm/visual_language_model/legacy/servable.cpp`	Same ordering fix as LM legacy servable for VLM legacy streaming finalization.

+    std::optional<uint32_t> maxTokensLimit;
+    const absl::Status parseStatus = apiHandler->parseRequest(maxTokensLimit, 0, std::nullopt);
+    ASSERT_TRUE(parseStatus.ok()) << parseStatus;
+    ctx->apiHandler = apiHandler;


michalkulakowski added 4 commits June 10, 2026 15:36

Fix reporting output tokens in responses for legacy pipelines

a41d43d

fix

38f7358

fix

04444d7

fix

07334e0

Copilot AI review requested due to automatic review settings June 10, 2026 14:01

Copilot started reviewing on behalf of michalkulakowski June 10, 2026 14:02 View session

Copilot AI reviewed Jun 10, 2026

View reviewed changes

Comment thread src/test/http_openai_handler_test.cpp

Comment on lines +5681 to +5684

std::optional<uint32_t> maxTokensLimit;

const absl::Status parseStatus = apiHandler->parseRequest(maxTokensLimit, 0, std::nullopt);

ASSERT_TRUE(parseStatus.ok()) << parseStatus;

ctx->apiHandler = apiHandler;

fix

a8c5c90

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Mkulakow/fix output tokens#4282

Mkulakow/fix output tokens#4282
michalkulakowski wants to merge 5 commits into
mainfrom
mkulakow/fix_output_tokens

michalkulakowski commented Jun 10, 2026

Uh oh!

Copilot AI left a comment

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

michalkulakowski commented Jun 10, 2026

🛠 Summary

🧪 Checklist

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants