xAI / Grok のロゴ

xAI / Grok / リリースノート / 2026/04/15 / 通常

xAI 2026年4月15日(火)のリリースノート解説: Speech to Text GA で何ができるようになったか

AIGA

公式リリースノート

2026年4月15日の xAI API リリースノートでは、Speech to Text API の一般提供開始が告知されました。1行だけ見ると単純な機能追加に見えますが、実際には バッチリアルタイム の両方を持ち、整形済みテキスト、話者分離、マルチチャネル、単語単位タイムスタンプまで含めた、かなり本格的な音声入力APIとして公開された更新です。

要点

  • xAI の Speech to Text APIGA になり、本番利用前提の機能として扱えるようになった
  • 大きい音声ファイルのバッチ文字起こしだけでなく、WebSocket を使ったリアルタイム音声認識にも対応している
  • 単なる文字起こしではなく、単語ごとのタイムスタンプ話者分離マルチチャネルテキスト整形 まで含む
  • 対応言語は 25 言語超、入力形式は 12 種類、ファイル上限は 500MB と、実運用で必要な幅がかなり広い
  • xAI は音声を Grok Voice の周辺機能 ではなく、単独APIとして使える開発面まで広げ始めた

今回の更新で変わること

今回の更新で変わるのは、xAI の音声技術を 会話型音声エージェントの中だけ ではなく、より一般的な開発ユースケースに持ち出せるようになったことです。これまでも Grok Voice 由来の音声体験はありましたが、今回の GA で、文字起こし、通話分析、会議の議事録化、音声入力フォーム、リアルタイム支援のような用途に 単独の STT API として使いやすくなりました。

対象になりそうなユーザー・チーム

  • 音声エージェントや音声UIを作っている開発チーム
  • 通話録音や会議音声の文字起こし基盤を検討している人
  • 医療、法務、金融など、固有名詞や数値精度が重要な業務を扱う人
  • リアルタイム字幕、サポート支援、音声フォームのような低遅延処理を作りたい人

今回の更新項目の解説

Speech to Text API の一般提供

まず何が変わるのか

リリースノート上では Speech to Text is available と短く書かれていますが、実際にドキュメントを開くと、今回の公開範囲はかなり広いです。POST https://api.x.ai/v1/stt でのファイル文字起こしに加え、wss://api.x.ai/v1/stt でのリアルタイムストリーミングにも対応しています。つまり、後処理型の音声解析と、会話中に返すリアルタイム処理の両方がこの時点で揃っています。

押さえておきたいポイント

今回の本質は、ただ文字にする API ではないことです。xAI は次のような機能を最初から載せています。

  • 単語ごとの timestamp
  • speaker diarization による話者識別
  • multichannel 音声の独立処理
  • format=true による Inverse Text Normalization

特に format=true は、話し言葉の数値や金額、日付を自然な書き言葉に変換するため、コールセンターや業務記録で効きます。one hundred dollars$100 として正規化できるかどうかは、あとで人が読み返す効率を大きく左右します。

実務上の見どころ

対応フォーマットが 12 種類、ファイル上限が 500MB、対応言語が 25 言語超という点から見ると、xAI はかなり早い段階で PoC 用の軽量API ではなく 本番で雑多な音声を受けるAPI を狙っています。さらにドキュメントでは、電話、会議、動画、ポッドキャスト、テレフォニーのようなベンチ比較を出し、医療・法務・金融のような 固有名詞やエンティティ認識が重要な領域 に強いと打ち出しています。

押さえておきたいポイント

  • xAI の音声関連は、Grok Voice のデモから 単独APIの開発基盤 に進んだと見るのが自然です
  • 低遅延のリアルタイム処理と、精度重視の後処理型文字起こしを同じ系統で持てるのは実務上かなり扱いやすいです
  • 数値・金額・日付を整形できる点は、業務用途での可読性と後続処理に効きます
  • 同月後半の Grok Speech to Text and Text to Speech APIs 発表と合わせると、xAI が音声をひとつの本格的な製品面として押し出し始めた流れが見えます

今すぐ対応が必要か

  1. 音声入力や文字起こし基盤を比較中なら、xAI を候補に入れる価値があります
  2. すでに他社 STT を使っているなら、まずは 固有名詞精度 話者分離 リアルタイム遅延 の3点で比較したいです
  3. ただし既存基盤を即座に置き換えるより、まずは対象業務を切って評価するのが現実的です

結局、この日の更新をどう見るべきか

4月15日の更新は、xAI が 音声会話モデルを持っています という段階から、実務で使える音声入力APIを単独提供します という段階へ進んだ日です。読みどころは単なる GA 表記ではなく、リアルタイム性、整形能力、マルチチャネル、話者分離まで含めて、音声処理の土台をかなり広く公開した点にあります。