OpenAI / ChatGPT / Codex / リリースノート / 2026/05/11 / 通常

OpenAI 2026年5月11日のリリースノート解説: Responses API の return_token_budget

AIworkflow

公式リリースノート

公式リリースノート: May 11, 2026: return_token_budget for Responses API web search

OpenAI は 2026年5月11日の API changelog で、Responses API の web search tool に return_token_budget を追加しました。長めの GPT-5+ 推論 web search runs を使いたい場合に opt in するための更新です。

要点

Responses API の web search tool に return_token_budget を追加
GPT-5+ 推論 web search runs を長くする用途に使う
high-effort research と評価 workloads が主な対象
長い検索・推論の品質とコスト、遅延を調整するためのパラメータ
すべての検索で使うというより、重い調査や評価向け

今回のリリースノートで語られていること

今回の OpenAI API changelog は、Responses API の web search tool に return_token_budget を追加したことを案内しています。このパラメータは、longer GPT-5+ 推論 web search runs に opt in するためのものとして説明されています。つまり、通常の短い検索補助ではなく、より多くの情報を読み、比較し、推論して返す必要がある high-effort research や評価 workloads を想定した更新です。

web search を使うエージェントや調査アプリでは、検索結果を少し参照するだけでよいケースと、複数ソースを比較し、時系列や根拠を整理し、最終判断まで行うケースがあります。後者では、モデルが検索結果を十分に読み込み、出力に必要な情報を保持するためのトークン budget が品質に効きます。一方で、トークン budget を増やすと遅延やコストも増えやすくなります。return_token_budget は、そうしたトレードオフを明示的に調整するためのパラメータとして理解できます。

実務上は、すべての web search 呼び出しで大きな budget を指定するのではなく、調査の重さに応じて使い分ける設計が必要です。たとえば、法規制、競合分析、技術仕様比較、評価データ作成、ニュースの真偽確認などでは、短い検索よりも深い推論 run が必要になることがあります。一方で、UI上の軽い補足や単純な最新情報確認では、過剰な budget は無駄になります。

また、評価 workloads で使う場合は、同じプロンプト・同じ設定で再現性を見たいことが多いため、budget の設定を実験条件として記録しておくべきです。web search を伴う評価では、検索時点、ソース、モデルの推論 effort、トークン budget が結果に影響します。API wrapper や社内SDKにこのパラメータを露出するなら、標準値と上限、利用許可のルールを決めておくと運用しやすくなります。

対象になりそうなチーム

Responses API と web search tool を使う開発チーム
research エージェント、競合調査、fact-checking、評価ワークロードを構築するチーム
トークン budget、遅延、コストを管理する platform / FinOps team

実務で確認したいポイント

return_token_budget は品質改善に効く可能性がありますが、コストと遅延も変わります。heavy research 用の preset と、軽量検索用の preset を分け、ログに設定値を残すことを検討したいところです。

結局、この更新をどう見るべきか

return_token_budget は、web search を「少し検索する機能」から「深く調査する推論ワークフロー」へ寄せるための調整点です。高品質な調査エージェントには有用ですが、使いどころと上限設計が重要です。