xAI / Grok / リリースノート / 2026/05/29 / 重要

xAI 2026年5月29日のリリースノート解説: STT、Context Compaction、WebSocket、Image Search

AIworkflowops

公式リリースノート

公式リリースノート: xAI API Release Notes

xAI は 2026年5月27日から29日にかけて、API リリースノートにストリーミング STT の Smart Turn、Context Compaction、WebSocket Responses API Mode、Web Search の画像検索対応を追加しました。音声、長いエージェント loop、低遅延接続、画像を含む検索をまたぐ、開発者向けの実装更新です。

要点

ストリーミング音声 to Text API が Smart Turn end-of-turn detection に対応した
Context Compaction API が利用可能になり、長い会話を短い context に圧縮して再利用できる
Responses API を長時間接続の WebSocket で動かす mode が追加された
Web Search で明示的な image search を有効化できるようになった
音声エージェント、長時間エージェントワークフロー、tool-heavy エージェント、画像を扱う検索体験を作る開発チームが確認したい更新

今回の更新で変わること

今回の xAI API リリースノートは、単一の大きなモデル発表というより、エージェント / 音声 / search アプリケーションを実装するための周辺機能をまとめて強くする更新です。Smart Turn は、ストリーミング STT で話者が発話を終えたかどうかを silence boundary で判定し、途中の間や数字列、口述中の pause で誤ってエンドポイントしにくくするための仕組みです。音声 UI では、早すぎる発話終了判定は会話の自然さを壊し、遅すぎる判定は応答待ちの遅延につながります。

Context Compaction は、長い会話やエージェント loop を短い context に圧縮して後続 request に再利用するための API です。長時間のコーディングエージェント、調査エージェント、サポートエージェントでは、やり取り、tool result、方針、制約が積み上がり、context が膨らみます。圧縮された context を再利用できると、コスト、time-to-first-トークン、長い task での応答品質を管理しやすくなります。

WebSocket Responses API Mode は、Responses API を単一の長時間 WebSocket connection 上で動かすための mode です。tool-heavy なエージェント workload では、複数 request / response の往復や tool call のたびに遅延が積み重なります。長く維持される接続を使えると、UI 上の応答性やエージェント loop の体感速度に効く可能性があります。

5月27日の Image Search in Web Search は、enable_image_search を使って Grok に関連画像を直接検索させ、response に Markdown image embeds を含められるようにする更新です。これは、検索結果をテキストだけで返す体験から、画像確認や visual evidence を含む調査体験へ広げるものです。

対象になりそうなユーザー・チーム

音声入力や音声エージェントを作る product / アプリケーション team
長い会話履歴や tool result を扱うエージェント platform team
Responses API を使った低遅延エージェント UI を作る frontend / backend team
画像検索や visual research を組み込む検索・調査アプリの開発者

実務で確認したいポイント

Smart Turn を使う場合は、誤エンドポイントの減少と、発話終了までの待ち時間のバランスを実データで確認してください。特に dictation、電話応対、数字や住所の読み上げ、専門用語を含む会話では、ユーザーが自然に話せるかをテストする必要があります。

Context Compaction は便利ですが、圧縮後の context に何が残り、何が落ちるかが重要です。エージェントの判断に必要な制約、ユーザー指示、未解決 task、tool result が失われると、コストは下がっても品質が落ちます。圧縮前後で回答や tool selection がどう変わるかを評価してください。

WebSocket mode は遅延と接続管理の問題です。再接続、認証、timeout、proxy、オブザーバビリティ、tool call の失敗時復旧を設計する必要があります。Image Search は、画像の出典、権利、表示サイズ、ユーザーへの説明、検索結果の安全性を UI 側で扱うことになります。

今すぐ対応が必要か

既存 API 利用者全員が即日対応する更新ではありません。ただし、音声エージェント、長時間エージェント、tool-heavy ワークフロー、画像検索をすでに作っているチームにとっては、評価候補に入れる価値があります。まずは小さなプロトタイプで遅延、コスト、品質、失敗時の挙動を測るのが現実的です。

結局、この更新をどう見るべきか

2026年5月末の xAI API 更新は、Grok を単発の chat モデルとして使う段階から、音声、検索、長時間エージェント、低遅延接続を組み合わせる実装面へ広げるものです。モデル性能だけでなく、会話の切れ目、context 管理、接続方式、検索出力の扱いまで含めて設計するチームほど、確認する価値があります。