VLM chat aplication via python jinja by dkalinowski · Pull Request #4235 · openvinotoolkit/model_server

dkalinowski · 2026-05-22T11:52:14Z

This change switches chat template application from GenAI to Python's Jinja for VLM & VLM_CB pipelines.

MMMU_VAL benchmark results

model	current application via minja	chat application via python jinja	llama.cpp
Qwen3-VL-8B-Instruct	0.51	0.5033	0.5122
Phi-3.5-vision-instruct-int8-ov	0.4322	0.4333
Qwen3.6-35B-A3B-int4-ov	0.226	0.2567

BFCL with new chat templates (multi-turn)

model	current application via minja	chat application via python jinja
Qwen3-VL-8B-Instruct	0.55	0.515
Qwen3.6-35B-A3B-int4-ov	0.226	TBD
Qwen3.5-35B-A3B-int4-ov	?	TBD

Copilot

Pull request overview

This PR updates the Visual Language Model (VLM) servables to support applying chat templates via a Python/Jinja processor (when Python support is enabled), including injecting <ov_genai_image_*> tags into the request JSON before template rendering, and adds exception handling around the C++ tokenizer chat-template path.

Changes:

Added RapidJSON-based rewriting of the request JSON to prepend image tags into messages[*].content before calling PyJinjaTemplateProcessor::applyChatTemplate (Python-enabled builds).
Wrapped tokenizer.apply_chat_template(...) in try/catch and improved error handling for invalid/missing chat templates (Python-disabled builds).
Added validation that the final prompt after template application is non-empty.

Reviewed changes

Copilot reviewed 2 out of 2 changed files in this pull request and generated 3 comments.

File	Description
src/llm/visual_language_model/legacy/servable.cpp	Adds Python/Jinja chat-template path with image-tag injection and improves error handling for chat-template application.
src/llm/visual_language_model/continuous_batching/servable.cpp	Mirrors the Python/Jinja chat-template path and image-tag injection for continuous batching, plus exception handling around tokenizer template application.

Comments suppressed due to low confidence (2)

src/llm/visual_language_model/legacy/servable.cpp:322

msg.HasMember("content") also asserts if the messages[chatTurnIndex] element is not an object. Guard with msg.IsObject() (or use msg.GetObject().FindMember) before HasMember to avoid crashes on unexpected request shapes.

                    if (chatTurnIndex < messages.Size()) {
                        auto& msg = messages[chatTurnIndex];
                        if (msg.HasMember("content") && msg["content"].IsString()) {
                            std::string newContent = imageTagString + msg["content"].GetString();
                            msg["content"].SetString(newContent.c_str(), newContent.length(), jsonDoc.GetAllocator());
                        }

src/llm/visual_language_model/continuous_batching/servable.cpp:126

msg.HasMember("content") asserts if messages[chatTurnIndex] is not an object. Guard with msg.IsObject() (or use msg.GetObject().FindMember) before HasMember to avoid crashes on unexpected request shapes.

                    if (chatTurnIndex < messages.Size()) {
                        auto& msg = messages[chatTurnIndex];
                        if (msg.HasMember("content") && msg["content"].IsString()) {
                            std::string newContent = imageTagString + msg["content"].GetString();
                            msg["content"].SetString(newContent.c_str(), newContent.length(), jsonDoc.GetAllocator());
                        }

save

35412e1

Copilot AI review requested due to automatic review settings May 22, 2026 11:52

dkalinowski added the DO NOT MERGE label May 22, 2026

Copilot started reviewing on behalf of dkalinowski May 22, 2026 11:53 View session

Copilot AI reviewed May 22, 2026

View reviewed changes

Comment thread src/llm/visual_language_model/legacy/servable.cpp Outdated

Comment thread src/llm/visual_language_model/continuous_batching/servable.cpp Outdated

Comment thread src/llm/visual_language_model/continuous_batching/servable.cpp Outdated

dkalinowski added 4 commits May 22, 2026 15:15

save

f69b420

Merge remote-tracking branch 'origin/main' into vlm-python-jinja

e4fbd04

Merge remote-tracking branch 'origin/main' into vlm-python-jinja

db9ce20

debug

40dcbf7

dkalinowski force-pushed the vlm-python-jinja branch from 99c9346 to 40dcbf7 Compare May 26, 2026 10:49

dkalinowski added 8 commits June 5, 2026 14:47

Some VLM chat templates dont have bos token

b2c15a8

Merge remote-tracking branch 'origin/main' into vlm-python-jinja

6d1c4fe

save

208c617

Merge remote-tracking branch 'origin/main' into vlm-python-jinja

bbdfd4f

Merge remote-tracking branch 'origin/main' into vlm-python-jinja

d95be3e

save

1e45176

safve

5cbb9b7

save

c097ab4

dkalinowski removed the DO NOT MERGE label Jun 10, 2026

dkalinowski requested review from dtrawins and michalkulakowski June 10, 2026 12:13

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

VLM chat aplication via python jinja#4235

VLM chat aplication via python jinja#4235
dkalinowski wants to merge 13 commits into
mainfrom
vlm-python-jinja

dkalinowski commented May 22, 2026 •

edited

Loading

Uh oh!

Copilot AI left a comment

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

Conversation

dkalinowski commented May 22, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Copilot AI left a comment

Choose a reason for hiding this comment

Pull request overview

Reviewed changes

Uh oh!

Uh oh!

Uh oh!

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

2 participants

dkalinowski commented May 22, 2026 •

edited

Loading