Mistral / リリースノート / 2026/02/04 / 重要
Mistral 2026年2月4日のリリースノート解説: Voxtral Transcribe 2
公式リリースノート
要点
- Voxtral Transcribe 2 が音声認識モデルとして追加された
- リアルタイム文字起こし、話者分離、低遅延、低価格が主要テーマ
- 音声エージェントや会議録、コンタクトセンターなどの入力レイヤーに関わる更新
今回のリリースノートで語られていること
この日の changelog は、Voxtral Transcribe 2 をモデルリリースとして記録しています。公式発表では、Voxtral Mini Transcribe V2 と Voxtral Realtime が紹介され、バッチ文字起こしとリアルタイム用途の両方を狙う構成になっています。重要なのは、単なる文字起こし精度だけでなく、speaker diarization、context biasing、word-level timestamps、13言語対応、低遅延、価格性能までまとめて押し出している点です。音声を扱うアプリでは、聞き取った内容が正しいことに加えて、誰が話したか、どの時点で話されたか、固有名詞をどれだけ拾えるか、会話中にどのくらい遅れず反映できるかが実用性を左右します。Voxtral Transcribe 2 はその複数の要件をまとめて改善しようとしている更新です。会議録やインタビュー分析だけでなく、リアルタイムの voice agent、カスタマーサポート、監査ログ、字幕生成などでは、STT の品質が後段の LLM 処理や検索の品質にも影響します。Mistral の文脈では、後続の Voxtral TTS と合わせて、音声入力から音声出力までを自社モデル群で支える方向性が見えてきます。
関係する人
- 音声認識、会議録、字幕、コンタクトセンターの機能を作るチーム
- STT の精度、価格、レイテンシを比較しているプロダクト担当
- 音声エージェントの入力部分を安定させたい開発者
確認しておきたいこと
- 対応言語と話者分離の品質を自社音声で確認する
- リアルタイム用途では遅延と誤認識時の復旧を検証する
- 後段の要約、検索、CRM 連携まで含めて評価する
どう読むべきか
Voxtral Transcribe 2 は、Mistral が音声入力の実運用要件をかなり強く意識していることを示す更新です。音声AIの入口を選ぶ際の比較候補として押さえておきたい内容です。