OpenAI / ChatGPT / Codex / 公式ブログ / 2025/10/06 / 重要

OpenAI 2025年10月6日の公式発表解説: AgentKit、新Evals、RFT for agents

公式ブログ原文

公式ブログ原文: Introducing AgentKit, new Evals, and RFT for agents

OpenAI は 2025年10月6日、開発者がエージェントをprototypeからproductionへ速く進めるための AgentKit、拡張された evals capabilities、エージェント向け reinforcement fine-tuning を発表しました。

要点

AgentKit、新しいEvals、RFT for agents が発表された
エージェント開発を試作から本番運用へ進めるためのツール群
本番エージェントでは、構築だけでなく評価、改善、監視が重要
開発者、AIプラットフォーム、プロダクト、セキュリティが確認したい

今回のブログ記事で語られていること

この発表は、OpenAIがエージェント開発の実務基盤を強化していることを示します。エージェントは、モデルがツールを使い、複数ステップのタスクを進め、外部システムと連携するアプリケーションです。試作は比較的簡単でも、本番にするには、ワークフロー設計、ツール権限、評価、失敗時処理、ログ、監視、継続改善が必要です。AgentKit、拡張Evals、RFT for agents は、この本番化の課題へ対応するものです。

AgentKit は、エージェントを構築するための部品や開発体験を提供するものとして読めます。Evalsの拡張は、エージェントがタスクを正しく完了できるか、どこで失敗するかを測るために重要です。RFT for agents は、特定のエージェント行動やワークフローに合わせて性能を改善する可能性があります。これらが揃うことで、単発のプロンプト実験から、評価され改善されるエージェント開発へ移行しやすくなります。

ただし、エージェント本番化では安全性が欠かせません。外部API、社内データ、メール、CRM、ファイル、決済などへ接続する場合、権限管理と人間確認が必要です。企業は、エージェントが何を読めるか、何を実行できるか、失敗時にどう止めるかを設計し、Evalsで継続的に検証するべきです。

関係するチーム

エージェント開発者、AIプラットフォーム、プロダクトエンジニア
セキュリティ、SRE、DevOps、ガバナンス担当
業務自動化や社内AIワークフローを作るチーム

実務で確認したいこと

AgentKitで作るエージェントの権限とツール範囲を定義する
Evalsで成功率、失敗モード、安全性を継続測定する
RFTを使う場合、学習データと評価基準を監査する

結局、今回のブログ記事をどう読むべきか

AgentKit、Evals、RFT for agents は、エージェント開発を本番運用へ近づける発表です。開発者は構築速度だけでなく、評価と安全運用を中心に設計すべきです。