OpenAI / ChatGPT / Codex / 公式ブログ / 2026/05/27 / 重要
OpenAI、WarpのGPT-5.5活用とCodexによる自己改善型Tax AIを紹介
公式ブログ原文
OpenAI は 2026年5月27日、Warp の GPT-5.5 活用事例と、Thrive Holdings / Crete と共同で構築した Codex-driven self-improving tax agents の技術記事を公開しました。どちらも coding agents が単なる補助から、開発・運用プロセスを回す仕組みに近づいていることを示す内容です。
要点
- Warp は GPT-5.5 を使い、terminal / cloud / open-source workflows にまたがる agent orchestration を進めている
- Warp は Open Agentic Development として、人が objectives を定義し agents が plan、code、test、PR を進めるモデルを説明している
- OpenAI / Thrive Holdings / Crete の Tax AI は Codex を使い、実務 corrections を evals と改善 task に変換する loop を構築した
- Tax AI は pilot season で 7,000 tax returns を処理したと説明されている
- coding agents の実務導入では、trace、eval、human correction、deployment feedback を設計に入れる必要がある
今回のブログ記事で語られていること
Warp の記事では、terminal が coding agents の作業場所として自然な位置にあるという見方が示されています。Warp は modern terminal として始まり、command workflows、collaboration、AI-native interface を持つ product ですが、coding agents が日常の engineering workflow に入るにつれ、commands、context、collaboration、review が集まる terminal が agent orchestration の起点になると捉えています。Warp は terminal client を open source 化し、OpenAI が founding sponsor になったことと合わせて、Open Agentic Development というモデルを打ち出しました。
Open Agentic Development では、人間が objectives を定義し、agents が work plan を立て、code を書き、tests を実行し、pull requests を開きます。重要なのは、agent が人間の代わりに無制限に動くというより、人間が監督しやすい単位に作業を構造化することです。Warp の文脈では、local terminal、cloud execution、open-source collaboration がつながり、agent が作業の一部を引き受けながら、開発者が review と方向づけを続ける体験が中心になります。
Tax AI の記事は、Codex を使った自己改善型 agent の作り方を、より実務的に説明しています。OpenAI の forward deployed engineers / researchers と Thrive Holdings の engineers は、Crete の 30以上の accounting firms と連携し、複雑な tax returns の準備を支援する Tax AI を構築しました。対象は 1040 と 1041 tax returns で、medium-to-large complexity filings では data entry だけで 1 return あたり 8時間かかることもあると説明されています。pilot season では 7,000 tax returns を処理したとされています。
この事例のポイントは、Tax AI が単に tax form を自動生成するだけではなく、production use から structured signals を作り、Codex によって改善 loop を回すことです。実務者の correction が失敗を示し、product traces がその correction を evals に変換し、その finding が Codex にとって修正すべき hill になります。従来は、engineer が edge case を調べ、prompt や code を直し、再検証する必要がありました。OpenAI は、eval infrastructure、practitioner access、real-world environments、Codex の agentic capabilities を組み合わせることで、この loop を自律的に近づけられると説明しています。
Warp と Tax AI は業界も用途も違いますが、共通しているのは agent workflow の設計です。Warp は software development の planning / coding / testing / PR workflow を agent に開き、Tax AI は accountant corrections と production traces を eval-driven improvement loop に変えています。どちらも、frontier model の性能だけでなく、作業をどう分解し、どこで人間が監督し、どの feedback を次の改善に使うかが成否を分けます。
実務で coding agents を導入するチームは、prompt や model choice だけを見ても足りません。artifact の保存、trace、test、eval、review、rollback、security boundary、production feedback を最初から設計する必要があります。OpenAI の 5月27日発表は、Codex / GPT-5.5 を使う agentic workflow が、developer productivity だけでなく、専門業務の continuous improvement loop にも広がっていることを示しています。
対象になりそうなチーム
- Codex / GPT-5.5 を software development、terminal workflow、open-source maintenance に使う engineering team
- tax、finance、legal、operations など専門業務に AI agents を組み込みたい product / domain team
- eval infrastructure、production traces、human feedback loop を設計する AI platform team
実務で確認したいポイント
Warp 型の agentic development では、agent が作る plan、branch、commit、test result、pull request をどの粒度で review するかを決めます。Terminal や cloud execution に agent を入れる場合、credential、filesystem access、network access、secret handling の境界も明確にしてください。
Tax AI 型の自己改善 loop では、現場の correction をどう structured signal に変換するか、evals が本当に実務品質を測っているか、Codex が提案した修正をどの test / review gate に通すかが重要です。専門業務ほど、agent の改善が法務・監査・品質保証に接続されます。
結局、この更新をどう見るべきか
OpenAI の 5月27日発表は、coding agents が「コードを書く道具」から「実務 feedback を改善 loop に変える基盤」へ進んでいることを示します。導入判断では、model performance よりも、trace、eval、human review、security boundary を含めた workflow design を重視すべきです。