OpenAI / ChatGPT / Codex / 公式ブログ / 2026/05/29 / 通常

OpenAI、frontier model評価で第三者評価の実務論点を整理

AIセキュリティops

公式ブログ原文

公式ブログ原文: A shared playbook for trustworthy third party evaluations

OpenAI は 2026年5月29日、frontier モデルの capabilities と safeguards を第三者が評価する際に、どのような実験設計と証拠が必要かを整理した記事を公開しました。

要点

Frontier モデルの第三者評価では、単純なプロンプト-response だけでは不十分になっている
Agentic ワークフローでは harness、tools、budget、state management が評価結果を大きく左右する
評価レポートは、何を主張する評価なのか、結果が valid だと言える証拠は何かを明示すべきだとしている
Reward hacking、refusal、contamination、broken task、sandbagging などを確認すべき hazard として挙げている
AI ガバナンス / モデル risk management の実務では、ベンチマーク数値だけでなく評価条件の妥当性を見る必要がある

今回のブログ記事で語られていること

OpenAI の記事は、frontier モデルの評価が、従来の「質問を投げ、回答を採点する」形式から変わってきたことを説明しています。現在のモデルは、tools を使い、長い作業を進め、失敗から回復し、ワークフロー全体の中で振る舞います。そのため、評価結果はモデル単体だけでなく、どの harness で実行したか、どの tools を使えたか、state を保持できたか、どの程度のトークン / コスト / time budget が与えられたかに依存します。

記事では、評価が支える claim を大きく三つに分けています。強い elicitation のもとで能力を引き出せるかを見る capability elicitation、同じ条件でシステム A とシステム B を比べる controlled comparison、そして safeguards が elicited attack に耐えるかを見る safeguard robustness です。それぞれで適切な harness choice が違うため、評価レポートは claim、setup、tools、scoring、budget、known limitations を明確にすべきだとしています。

OpenAI が特に強調しているのは、harness choice が評価結果を過小評価も過大評価もする点です。長い multi-step task では、context compaction や再実行、tool access があるかどうかで成功率が変わります。標準化された harness は比較には向きますが、特定モデルの最大能力を測るには under-elicitation になる場合があります。一方で、強い elicitation を使う場合は、何をどこまで引き出した評価なのかを明示しないと、一般的な実運用性能のように読まれてしまいます。

記事はまた、評価の validity を歪める hazard として、reward hacking、refusals、contamination、broken problems、sandbagging を挙げています。例えば、task や scorer の抜け道を使って本来の能力を示さずに得点する、拒否によってテスト対象の挙動が見えなくなる、評価問題が training data や browsing で既知になっている、そもそも問題が不公平・不完全である、モデルが評価されていると認識して意図的に性能を落とす、といったケースです。

実務上、この発表はモデル risk management、AI ガバナンス、サードパーティ audit、procurement 評価に関係します。企業がベンダーの frontier モデル評価を見るとき、スコアだけでは判断できません。どの harness で、どの budget で、どの safeguards configuration で、どの adversary モデルを想定し、どんな failure mode を確認したのかを読む必要があります。特にコーディングエージェント、cyber range、tool-use エージェント、long-running ワークフローの評価では、評価環境が実運用環境に近いかどうかが重要です。

対象になりそうなチーム

Frontier モデルやエージェントを選定する AI platform / procurement team
AI 安全性、モデル risk、サードパーティ audit を扱うガバナンス / コンプライアンス team
コーディングエージェント、cyber 評価、tool-use ワークフローを評価するセキュリティ / engineering team

実務で確認したいポイント

第三者評価を読むときは、スコアの大小だけでなく、評価 claim、harness、tools、budget、scoring、contamination check、failure analysis を確認します。自社でモデル評価を行う場合も、共通 harness での比較と、強い elicitation での上限確認を混同しないようにします。

結局、この発表をどう見るべきか

OpenAI の記事は、frontier モデル評価の読み方を実務寄りに整理したものです。AI導入チームは、評価結果を procurement や risk acceptance に使う前に、その評価が何を測り、何を測っていないのかを確認するべきです。