OpenAI / ChatGPT / Codex / 公式ブログ / 2026/05/27 / 重要

OpenAI、WarpのGPT-5.5活用とCodexによる自己改善型Tax AIを紹介

AIworkflow

公式ブログ原文

公式ブログ原文: Warp’s big bet on building open source with GPT-5.5

OpenAI は 2026年5月27日、Warp の GPT-5.5 活用事例と、Thrive Holdings / Crete と共同で構築した Codex-driven self-improving tax エージェントの技術記事を公開しました。どちらもコーディングエージェントが単なる補助から、開発・運用プロセスを回す仕組みに近づいていることを示す内容です。

要点

Warp は GPT-5.5 を使い、terminal / cloud / open-source ワークフローにまたがるエージェント orchestration を進めている
Warp は Open Agentic Development として、人が objectives を定義しエージェントが plan、code、テスト、PR を進めるモデルを説明している
OpenAI / Thrive Holdings / Crete の Tax AI は Codex を使い、実務 corrections を evals と改善 task に変換する loop を構築した
Tax AI は pilot season で 7,000 tax returns を処理したと説明されている
コーディングエージェントの実務導入では、trace、eval、human correction、deployment フィードバックを設計に入れる必要がある

今回のブログ記事で語られていること

Warp の記事では、terminal がコーディングエージェントの作業場所として自然な位置にあるという見方が示されています。Warp は modern terminal として始まり、command ワークフロー、collaboration、AI-native interface を持つ product ですが、コーディングエージェントが日常の engineering ワークフローに入るにつれ、commands、context、collaboration、確認が集まる terminal がエージェント orchestration の起点になると捉えています。Warp は terminal client を open source 化し、OpenAI が founding sponsor になったことと合わせて、Open Agentic Development というモデルを打ち出しました。

Open Agentic Development では、人間が objectives を定義し、エージェントが work plan を立て、code を書き、テストを実行し、pull requests を開きます。重要なのは、エージェントが人間の代わりに無制限に動くというより、人間が監督しやすい単位に作業を構造化することです。Warp の文脈では、local terminal、cloud execution、open-source collaboration がつながり、エージェントが作業の一部を引き受けながら、開発者が確認と方向づけを続ける体験が中心になります。

Tax AI の記事は、Codex を使った自己改善型エージェントの作り方を、より実務的に説明しています。OpenAI の forward deployed エンジニア / researchers と Thrive Holdings のエンジニアは、Crete の 30以上の accounting firms と連携し、複雑な tax returns の準備を支援する Tax AI を構築しました。対象は 1040 と 1041 tax returns で、medium-to-large complexity filings では data entry だけで 1 return あたり 8時間かかることもあると説明されています。pilot season では 7,000 tax returns を処理したとされています。

この事例のポイントは、Tax AI が単に tax form を自動生成するだけではなく、production use から structured signals を作り、Codex によって改善 loop を回すことです。実務者の correction が失敗を示し、product traces がその correction を evals に変換し、その finding が Codex にとって修正すべき hill になります。従来は、エンジニアが edge case を調べ、プロンプトや code を直し、再検証する必要がありました。OpenAI は、eval infrastructure、practitioner access、real-world environments、Codex の agentic capabilities を組み合わせることで、この loop を自律的に近づけられると説明しています。

Warp と Tax AI は業界も用途も違いますが、共通しているのはエージェントワークフローの設計です。Warp は software development の計画 / コーディング / testing / PR ワークフローをエージェントに開き、Tax AI は accountant corrections と production traces を eval-driven improvement loop に変えています。どちらも、frontier モデルの性能だけでなく、作業をどう分解し、どこで人間が監督し、どのフィードバックを次の改善に使うかが成否を分けます。

実務でコーディングエージェントを導入するチームは、プロンプトやモデル choice だけを見ても足りません。artifact の保存、trace、テスト、eval、確認、ロールバック、セキュリティ boundary、production フィードバックを最初から設計する必要があります。OpenAI の 5月27日発表は、Codex / GPT-5.5 を使う agentic ワークフローが、開発者 productivity だけでなく、専門業務の continuous improvement loop にも広がっていることを示しています。

対象になりそうなチーム

Codex / GPT-5.5 を software development、terminal ワークフロー、open-source maintenance に使う engineering team
tax、finance、法務、operations など専門業務に AI エージェントを組み込みたい product / domain team
eval infrastructure、production traces、human フィードバック loop を設計する AI platform team

実務で確認したいポイント

Warp 型の agentic development では、エージェントが作る plan、branch、commit、テスト result、pull request をどの粒度で確認するかを決めます。Terminal や cloud execution にエージェントを入れる場合、認証情報、filesystem access、network access、secret handling の境界も明確にしてください。

Tax AI 型の自己改善 loop では、現場の correction をどう structured signal に変換するか、evals が本当に実務品質を測っているか、Codex が提案した修正をどのテスト / 確認 gate に通すかが重要です。専門業務ほど、エージェントの改善が法務・監査・品質保証に接続されます。

結局、この更新をどう見るべきか

OpenAI の 5月27日発表は、コーディングエージェントが「コードを書く道具」から「実務フィードバックを改善 loop に変える基盤」へ進んでいることを示します。導入判断では、モデルパフォーマンスよりも、trace、eval、human 確認、セキュリティ boundary を含めたワークフロー設計を重視すべきです。