support Qwen3-ForceAligner

foldl · foldl · commit d414c63e46e3 · 2026-02-01T20:36:51.000+08:00
diff --git a/README.md b/README.md
@@ -33,6 +33,7 @@ LittleAcademia[<a href="https://github.com/foldl/little-academia"   style="text-
 
 **What's New:**
 
+* 2026-02-01: Qwen3-ForceAligner
 * 2026-01-31: Qwen3-ASR
 * 2026-01-21: Step3-VL
 * 2026-01-20: GLM-4.7-Flash
diff --git a/docs/models.md b/docs/models.md
@@ -448,6 +448,16 @@ Please use `--format completion` for these models.
 * Qwen3-ASR (`Qwen3ASRForConditionalGeneration`)
     * [x] [0.6B](https://huggingface.co/Qwen/Qwen3-ASR-0.6B/tree/5eb144179a02acc5e5ba31e748d22b0cf3e303b0), [1.7B](https://huggingface.co/Qwen/Qwen3-ASR-1.7B/tree/7278e1e70fe206f11671096ffdd38061171dd6e5)
 
+    Additional options (Use `--set X Y` to change values):
+    * `language`: default "auto".
+
+    * [x] [ForcedAligner-0.6B](https://huggingface.co/Qwen/Qwen3-ForcedAligner-0.6B/tree/c7cbfc2048c462b0d63a45797104fc9db3ad62b7)
+
+    Additional options (Use `--set X Y` to change values):
+    * `language`: default "Chinese". This affects how sentences are cutted into words. Each character is a "word" for Chinese. For other languages, words are separated by spaces.
+    * `delimiter`: default "". Time stamps are reported for "sentences": sentences are separated by this delimiter. For Chinese, when delimiter is empty, each character is treated as a sentence.
+    * `format`: default "srt". Format of output. "srt" or "json" are supported.
+
 ## RAG Models
 
 ### Text Embedding
diff --git a/models/qwen.cpp b/models/qwen.cpp
@@ -3012,7 +3012,9 @@ namespace chatllm::qwen::v3_asr
     class ChatHistoryEncoder : public v1::ChatHistoryEncoder
     {
     public:
+        typedef v1::ChatHistoryEncoder Base;
         void append_user(int round_idx, const Content &user, std::vector<int> &ids) const override;
+        void append_ai_opening(int round_idx, std::vector<int> &ids) const override;
     protected:
         void load_audio(const Content &user) const;
     public:
@@ -3028,9 +3030,13 @@ namespace chatllm::qwen::v3_asr
         Tokenizer(const BaseConfig &config);
         Tokenizer(const BaseConfig &config, BaseHistoryEncoder *encoder);
         void add_tokens(const std::map<std::string, int> &added_tokens);
+        std::string normalize_lang(const std::string &s) const;
     public:
         int asr_text_token_id;
         int timestamp_token_id;
+        std::string language = "auto";
+        std::string format   = "srt";
+        std::string delimiter = "";
     };
 
     Tokenizer::Tokenizer(const BaseConfig &config):
@@ -3056,7 +3062,7 @@ namespace chatllm::qwen::v3_asr
         im_start_token_id   = get_or_def("<|im_start|>");
         im_end_token_id     = get_or_def("<|im_end|>");
         asr_text_token_id   = get_or_def("<asr_text>");
-        timestamp_token_id  = get_or_def("<asr_text>");
+        timestamp_token_id  = get_or_def("<timestamp>");
         tp->OverrideTokenDecoding(asr_text_token_id, "<asr_text>");
     }
 
@@ -3068,14 +3074,17 @@ namespace chatllm::qwen::v3_asr
             ModelType type = ModelType::MODEL_TYPE_QWEN3_ASR, bool skip_lm_head = false);
         bool load_more(const json::JSON &config) override;
         void load(ModelLoader &loader) override;
+        void set_additional_args(const std::map<std::string, std::string> &args) override;
         void before_generate(const GenerationConfig &gen_config) override;
         void set_tokenizer(BaseTokenizer *tokenizer) override;
+        std::string normalize_lang(const std::string &s) const;
     public:
         v3::audio_tower::AudioEmbeddingGeneration audio;
     private:
         const int extended_vocab_size;
         std::map<std::string, int> added_tokens;
         bool aud_loaded = false;
+        std::map<std::string, std::string> support_languages;
     };
 
     ConditionalGeneration::ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config,
@@ -3100,6 +3109,20 @@ namespace chatllm::qwen::v3_asr
         enc->aud_config = &audio.config;
     }
 
+    std::string ConditionalGeneration::normalize_lang(const std::string &s) const
+    {
+        auto l = utils::to_lower(s);
+        return support_languages.count(l) > 0 ? support_languages.find(l)->second : "";
+    }
+
+    void ConditionalGeneration::set_additional_args(const std::map<std::string, std::string> &args)
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        tok->language   =  normalize_lang(utils::get_opt(args, "language", tok->language));
+        tok->format     = utils::to_lower(utils::get_opt(args, "format", tok->format));
+        tok->delimiter  =                 utils::get_opt(args, "delimiter", tok->delimiter);
+    }
+
     bool ConditionalGeneration::load_more(const json::JSON &config)
     {
         Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
@@ -3113,6 +3136,13 @@ namespace chatllm::qwen::v3_asr
             added_tokens.insert_or_assign(t, (int)std::atoi(kv.first.c_str()));
         }
 
+        tok_cfg = config["config.json"]["support_languages"];
+        if (!tok_cfg.IsArray()) return false;
+        for (auto &ele : tok_cfg.ArrayRange())
+        {
+            support_languages.insert_or_assign(utils::to_lower(ele.ToString()), ele.ToString());
+        }
+
         bool r = audio.load_more(this->config.dtype, this->config.hidden_size, config);
         if (r)
         {
@@ -3197,6 +3227,17 @@ namespace chatllm::qwen::v3_asr
         ids.push_back(tok->im_end_token_id);
         ids.push_back(tok->nl_token_id);
     }
+
+    void ChatHistoryEncoder::append_ai_opening(int round_idx, std::vector<int> &ids) const
+    {
+        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
+        Base::append_ai_opening(round_idx, ids);
+
+        if (tok->language.size() > 0)
+        {
+            tok->encode("language " + tok->language, ids);
+        }
+    }
 }
 
 namespace chatllm::qwen::v3_forcedaligner
@@ -3209,6 +3250,10 @@ namespace chatllm::qwen::v3_forcedaligner
     class ChatHistoryEncoder : public v3_asr::ChatHistoryEncoder
     {
     public:
+        void append_sys_prompt(std::vector<int> &ids) const override {}
+        void append_ai(int round_idx, const std::string &ai, std::vector<int> &ids) const override {}
+        void append_ai_opening(int round_idx, std::vector<int> &ids) const override {}
+        void append_user_opening(int round_idx, std::vector<int> &ids) const override {}
         void append_user(int round_idx, const Content &user, std::vector<int> &ids) const override;
     };
 
@@ -3237,9 +3282,6 @@ namespace chatllm::qwen::v3_forcedaligner
     protected:
         std::string fmt_time(double timestamp);
     public:
-        std::string language = "chinese";
-        std::string format   = "srt";
-        std::string delimiter = "";
         int pos_first_timestamp_token = 0;
         std::vector<word_seg> cleaned_words;
         std::vector<std::string> sentences;     // timestamp is reported for each "sentence".
@@ -3249,6 +3291,7 @@ namespace chatllm::qwen::v3_forcedaligner
     Tokenizer::Tokenizer(const BaseConfig &config):
         v3_asr::Tokenizer(config, &_chat_encoder)
     {
+        language = "Chinese";
     }
 
     class ConditionalGeneration : public v3_asr::ConditionalGeneration
@@ -3257,7 +3300,6 @@ namespace chatllm::qwen::v3_forcedaligner
         typedef v3_asr::ConditionalGeneration Base;
         ConditionalGeneration(const Config &config, const RuntimeConfig &runtime_config,
             ModelType type = (ModelType)MODEL_TYPE_QWEN3_ForcedAligner);
-        void set_additional_args(const std::map<std::string, std::string> &args) override;
         bool load_more(const json::JSON &config) override;
         std::vector<int> generate(const std::vector<int> &input_ids, const GenerationConfig &gen_config,
                                   const bool continuous,
@@ -3277,14 +3319,6 @@ namespace chatllm::qwen::v3_forcedaligner
         transformer->lm_head = create_lm_head(&w_ctx_, config.hidden_size, config.classify_num);
     }
 
-    void ConditionalGeneration::set_additional_args(const std::map<std::string, std::string> &args)
-    {
-        Tokenizer *tok = dynamic_cast<Tokenizer *>(tokenizer);
-        tok->language   = utils::to_lower(utils::get_opt(args, "language", tok->language));
-        tok->format     = utils::to_lower(utils::get_opt(args, "format", tok->format));
-        tok->delimiter  =                 utils::get_opt(args, "delimiter", tok->delimiter);
-    }
-
     bool ConditionalGeneration::load_more(const json::JSON &config)
     {
         auto r = Base::load_more(config);
@@ -3618,7 +3652,7 @@ namespace chatllm::qwen::v3_forcedaligner
             if (cleaned.size() < 1) continue;
 
             std::vector<std::vector<uint32_t>> words32;
-            if ("chinese" == language)
+            if ("Chinese" == language)
                 split_cjk(cleaned, words32);
             else
                 words32.push_back(cleaned);
@@ -3638,7 +3672,6 @@ namespace chatllm::qwen::v3_forcedaligner
         tok->sentences.clear();
 
         load_audio(user);
-        tok->encode("user", ids, true, false, true);
         tok->inject_audio_ids(ids, tok->vocab_size, tok->get_image_total_emb_vectors());
 
         if (tok->delimiter.size() > 0)
@@ -3647,7 +3680,7 @@ namespace chatllm::qwen::v3_forcedaligner
         }
         else
         {
-            if ("chinese" == tok->language)
+            if ("Chinese" == tok->language)
             {
                 std::vector<std::string> l;
                 utils::split(user.extract_text(" "), l);
@@ -3680,9 +3713,6 @@ namespace chatllm::qwen::v3_forcedaligner
 
         tok->pos_first_timestamp_token = (int)ids.size();
         tok->inject_words(tok->cleaned_words, ids);
-
-        ids.push_back(tok->im_end_token_id);
-        ids.push_back(tok->nl_token_id);
     }
 }
 
diff --git a/scripts/models.json b/scripts/models.json
@@ -4000,5 +4000,25 @@
                 }
             }
         }
+    },
+    "qwen3-forcedaligner": {
+        "brief": "Qwen3-ForcedAligner-0.6B supports timestamp prediction for arbitrary units within up to 5 minutes of speech in 11 languages.",
+        "default": "0.6b",
+        "license": "Apache License 2.0",
+        "variants": {
+            "0.6b": {
+                "default": "q8",
+                "quantized": {
+                    "q8": {
+                        "size": 984439424,
+                        "url": "chatllm_quantized_qwen3/qwen3-focedaligner-0.6b.bin"
+                    },
+                    "f16": {
+                        "size": 1840552064,
+                        "url": "chatllm_quantized_qwen3/qwen3-focedaligner-0.6b-f16.bin"
+                    }
+                }
+            }
+        }
     }
 }

Original file line number	Diff line number	Diff line change
`@@ -4000,5 +4000,25 @@`
`4000`	`4000`	`}`
`4001`	`4001`	`}`
`4002`	`4002`	`}`
	`4003`	`+ },`
	`4004`	`+ "qwen3-forcedaligner": {`
	`4005`	`+ "brief": "Qwen3-ForcedAligner-0.6B supports timestamp prediction for arbitrary units within up to 5 minutes of speech in 11 languages.",`
	`4006`	`+ "default": "0.6b",`
	`4007`	`+ "license": "Apache License 2.0",`
	`4008`	`+ "variants": {`
	`4009`	`+ "0.6b": {`
	`4010`	`+ "default": "q8",`
	`4011`	`+ "quantized": {`
	`4012`	`+ "q8": {`
	`4013`	`+ "size": 984439424,`
	`4014`	`+ "url": "chatllm_quantized_qwen3/qwen3-focedaligner-0.6b.bin"`
	`4015`	`+ },`
	`4016`	`+ "f16": {`
	`4017`	`+ "size": 1840552064,`
	`4018`	`+ "url": "chatllm_quantized_qwen3/qwen3-focedaligner-0.6b-f16.bin"`
	`4019`	`+ }`
	`4020`	`+ }`
	`4021`	`+ }`
	`4022`	`+ }`
`4003`	`4023`	`}`
`4004`	`4024`	`}`