Alibaba / Qwen / 公式ブログ / 2026/05/21 / 重要

Qwen3.5-LiveTranslate、リアルタイム多言語翻訳を multimodal に拡張

AIapidev

公式ブログ原文

公式ブログ原文: Qwen3.5-LiveTranslate

Alibaba Cloud Community は 2026年5月21日、Qwen3.5-LiveTranslate を紹介する公式ブログを公開しました。Qwen3.5-Omni を基盤に、音声と映像の文脈を使ってリアルタイム翻訳を行うモデルとして説明されています。

要点

Qwen3.5-LiveTranslate-Flash は Qwen3.5-Omni を土台にした同時通訳モデル
入力音声・出力テキストの対応言語が 18 から 60、出力音声が 10 から 29 に拡張
Readable Unit 技術により、リアルタイム翻訳の出力遅延を抑える設計が示された
音声 cloning、hotword、映像文脈による曖昧性解消が実務上の注目点

今回のブログ記事で語られていること

この記事は、Qwen3.5-LiveTranslate を「音声翻訳の新モデル」としてだけでなく、視覚情報も含めた同時通訳基盤として説明しています。モデルは Qwen3.5-Omni の Thinker-Talker 構成を使い、Thinker が音声と映像を含む入力から翻訳テキストを生成し、Talker が翻訳文と元音声をもとに音声出力を作る、という流れで紹介されています。単に聞こえた音を訳すのではなく、画面上の文字、対象物、場面の文脈を翻訳判断に使える点が大きな違いです。

ブログで強調されているのは、言語対応、遅延、声の保持、専門用語の四つです。入力音声と出力テキストの対応は 18 言語から 60 言語へ、出力音声は 10 言語から 29 言語へ広がりました。リアルタイム翻訳では Readable Unit というストリーミング strategy を使い、可読性と意味の一貫性を保ちながら、より早い出力を狙っています。さらに、話者の声質を保つ cross-lingual 音声 cloning と、固有名詞や業界用語を優先的に認識・翻訳する hotword 機能が示されています。

ユースケースとしては、国際会議、旅行、ライブ配信、古典中国語の翻訳、視覚情報による曖昧性解消が挙げられています。たとえば旅行先のメニュー、配信中の商品情報、会議で画面共有される資料は、音声だけでは翻訳しきれない文脈を持ちます。Qwen3.5-LiveTranslate は、そうした視覚情報を翻訳の根拠に加えることで、実際の業務や生活の場面に近い翻訳体験を目指していると読めます。

実務チームにとって重要なのは、性能表の優劣だけではありません。会議や配信では遅延がユーザー体験を決め、固有名詞の誤訳は信頼を落とします。音声 cloning は没入感を高める一方で、本人同意や利用範囲の管理が必要です。多言語カスタマーサポート、教育、グローバル営業、ライブコマースで検討するなら、翻訳精度、遅延、専門用語辞書、音声の取り扱い、ログ保存をまとめて評価すべきです。

実務で確認したいポイント

対象言語、話者数、音声品質、映像入力の条件を実データで試す
hotword 管理を商品名、顧客名、専門用語の運用に組み込めるか確認する
音声 cloning を使う場合、同意、保存、再利用、監査のルールを決める
リアルタイム会議・配信で許容できる遅延に収まるかを見る

どう読むべきか

Qwen3.5-LiveTranslate は、翻訳を「会話の後処理」から「リアルタイムな業務インターフェース」へ近づける更新です。多言語対応が必要なチームは、単体の翻訳精度だけでなく、映像文脈、用語統制、音声本人性まで含めて評価するのがよさそうです。