xAI / Grok / リリースノート / 2026/05/29 / 重要
xAI 2026年5月29日のリリースノート解説: STT、Context Compaction、WebSocket、Image Search
公式リリースノート
xAI は 2026年5月27日から29日にかけて、API リリースノートに Streaming STT の Smart Turn、Context Compaction、WebSocket Responses API Mode、Web Search の画像検索対応を追加しました。音声、長い agent loop、低遅延接続、画像を含む検索をまたぐ、開発者向けの実装更新です。
要点
- Streaming Speech to Text API が Smart Turn end-of-turn detection に対応した
- Context Compaction API が利用可能になり、長い会話を短い context に圧縮して再利用できる
- Responses API を長時間接続の WebSocket で動かす mode が追加された
- Web Search で明示的な image search を有効化できるようになった
- 音声 agent、長時間 agent workflow、tool-heavy agent、画像を扱う検索体験を作る開発チームが確認したい更新
今回の更新で変わること
今回の xAI API リリースノートは、単一の大きなモデル発表というより、agent / voice / search application を実装するための周辺機能をまとめて強くする更新です。Smart Turn は、streaming STT で話者が発話を終えたかどうかを silence boundary で判定し、途中の間や数字列、口述中の pause で誤って endpoint しにくくするための仕組みです。音声 UI では、早すぎる発話終了判定は会話の自然さを壊し、遅すぎる判定は応答待ちの遅延につながります。
Context Compaction は、長い会話や agent loop を短い context に圧縮して後続 request に再利用するための API です。長時間の coding agent、調査 agent、support agent では、やり取り、tool result、方針、制約が積み上がり、context が膨らみます。圧縮された context を再利用できると、コスト、time-to-first-token、長い task での応答品質を管理しやすくなります。
WebSocket Responses API Mode は、Responses API を単一の長時間 WebSocket connection 上で動かすための mode です。tool-heavy な agent workload では、複数 request / response の往復や tool call のたびに latency が積み重なります。長く維持される接続を使えると、UI 上の応答性や agent loop の体感速度に効く可能性があります。
5月27日の Image Search in Web Search は、enable_image_search を使って Grok に関連画像を直接検索させ、response に Markdown image embeds を含められるようにする更新です。これは、検索結果をテキストだけで返す体験から、画像確認や visual evidence を含む調査体験へ広げるものです。
対象になりそうなユーザー・チーム
- 音声入力や voice agent を作る product / application team
- 長い会話履歴や tool result を扱う agent platform team
- Responses API を使った低遅延 agent UI を作る frontend / backend team
- 画像検索や visual research を組み込む検索・調査アプリの開発者
実務で確認したいポイント
Smart Turn を使う場合は、誤 endpoint の減少と、発話終了までの待ち時間のバランスを実データで確認してください。特に dictation、電話応対、数字や住所の読み上げ、専門用語を含む会話では、ユーザーが自然に話せるかをテストする必要があります。
Context Compaction は便利ですが、圧縮後の context に何が残り、何が落ちるかが重要です。Agent の判断に必要な制約、ユーザー指示、未解決 task、tool result が失われると、コストは下がっても品質が落ちます。圧縮前後で回答や tool selection がどう変わるかを評価してください。
WebSocket mode は latency と接続管理の問題です。再接続、認証、timeout、proxy、observability、tool call の失敗時復旧を設計する必要があります。Image Search は、画像の出典、権利、表示サイズ、ユーザーへの説明、検索結果の安全性を UI 側で扱うことになります。
今すぐ対応が必要か
既存 API 利用者全員が即日対応する更新ではありません。ただし、音声 agent、長時間 agent、tool-heavy workflow、画像検索をすでに作っているチームにとっては、評価候補に入れる価値があります。まずは小さな prototype で latency、コスト、品質、失敗時の挙動を測るのが現実的です。
結局、この更新をどう見るべきか
2026年5月末の xAI API 更新は、Grok を単発の chat model として使う段階から、音声、検索、長時間 agent、低遅延接続を組み合わせる実装面へ広げるものです。モデル性能だけでなく、会話の切れ目、context 管理、接続方式、検索出力の扱いまで含めて設計するチームほど、確認する価値があります。