OpenAI / ChatGPT / Codex / 公式ブログ / 2025/09/25 / 重要

OpenAI 2025年9月25日の公式発表解説: GDPval と実世界タスク評価

公式ブログ原文

公式ブログ原文: Measuring the performance of our models on real-world tasks

OpenAI は 2025年9月25日、44職種にまたがる経済的価値のある実世界タスクでモデル性能を測る新しい評価 GDPval を発表しました。

要点

GDPval は実世界の経済的価値があるタスクでモデル性能を測る評価
44職種を対象にし、従来のベンチマークより業務影響に近い評価を目指す
企業は自社業務に近い評価セットを持つ必要がある
AI評価、経営企画、HR、業務改革チームが確認したい

今回のブログ記事で語られていること

GDPval は、AIモデルの性能をより現実の業務に近い形で測ろうとする評価です。OpenAIは、44職種にまたがる経済的価値のある実世界タスクでモデルを評価すると説明しています。従来のベンチマークは、数学、コード、知識問題など特定能力を測るのに役立ちますが、企業が知りたいのは「実際の仕事でどのくらい役立つのか」です。GDPvalはその問いに近づくための試みです。

業務でAIを使う場合、モデルがテストで高得点でも、自社のタスクで成果が出るとは限りません。営業資料作成、法務レビュー、財務分析、カスタマーサポート、研究調査、コード修正、教育支援など、職種ごとに必要な文脈、品質基準、失敗コストが異なります。経済的価値のあるタスクで評価することは、AI導入のROIや労働市場への影響を考える上で重要です。

企業は、GDPvalのような公開評価を参考にしつつ、自社独自の評価セットを作るべきです。社内で頻出する実タスク、過去の成果物、専門家レビュー基準、許容できない失敗を定義し、モデル更新ごとに比較する必要があります。今回の発表は、AI評価が学術的ベンチマークから業務価値の測定へ広がっていることを示しています。

関係するチーム

AI評価、経営企画、業務改革、HR、データ分析
各職種の業務オーナー、専門家レビュアー
AIプラットフォーム、モデル選定、コスト管理担当

実務で確認したいこと

自社の職種別タスクに近い評価セットを作る
正答率だけでなく時間削減、品質、失敗コストを測る
モデル更新時に業務タスクで回帰テストを行う

結局、今回のブログ記事をどう読むべきか

GDPval は、AIモデル評価を実際の仕事の価値に近づける発表です。企業は公開ベンチマークだけでなく、自社業務に即した評価を持つ必要があります。