OpenAI / ChatGPT / Codex / 公式ブログ / 2025/08/07 / 重要

OpenAI 2025年8月7日の公式発表解説: GPT-5 の safe-completions

AIセキュリティ

公式ブログ原文

公式ブログ原文: From hard refusals to safe-completions: toward output-centric safety training

OpenAI は 2025年8月7日、GPT-5 における safe-completions approach を説明しました。単純な hard refusal から、出力内容を中心に安全性と有用性を両立する訓練へ移る考え方です。

要点

GPT-5 では safe-completions により、安全性と有用性の両立を目指す
hard refusal だけでなく、dual-use prompt に対して安全な範囲で助ける方針
セキュリティ、医療、化学など二面性のある領域で重要
プロダクト、AI安全性、ガバナンス担当が確認したい発表

今回のブログ記事で語られていること

safe-completions は、AIの安全性を「危険そうな質問を拒否するかどうか」だけでなく、「最終的な出力が安全かどうか」で考えるアプローチです。従来のhard refusalは、リスクのあるトピックを広く拒否することで安全側に倒せますが、正当な学習、研究、防御、業務利用まで妨げることがあります。GPT-5では、dual-use prompt、つまり良い目的にも悪い目的にも使える質問に対して、危険な具体手順や悪用支援は避けつつ、安全で有用な説明を返す方向が示されています。

これは実務上とても重要です。サイバーセキュリティ、医療、法律、化学、バイオ、金融などでは、同じ情報が防御や教育にも悪用にも使われ得ます。すべて拒否すれば専門家の正当な利用を阻害し、すべて答えれば悪用リスクが増えます。出力中心の安全訓練は、どこまで一般的な説明をし、どこから具体的な危険手順を避けるかを細かく制御する考え方です。

企業利用者にとっては、モデルの拒否挙動や安全応答の変化を評価する必要があります。既存アプリケーションで「拒否されること」を前提にしていたフローや、逆に詳細回答を期待していた専門業務では、GPT-5への切り替えで出力が変わる可能性があります。安全性が高まっても、自社の利用ポリシー、監査、専門家レビュー、ドメイン別ガードレールは引き続き必要です。

関係するチーム

AI安全性、プロダクト、モデル評価、ガバナンス
セキュリティ、医療、バイオ、化学などdual-use領域の担当者
OpenAI APIを使う開発者、リスク管理チーム

実務で確認したいこと

GPT-5への切り替え前に拒否挙動と安全応答を評価する
dual-use領域では自社ポリシーとモデル挙動の差分を確認する
安全な説明と危険な具体手順の境界をレビューする

結局、今回のブログ記事をどう読むべきか

safe-completions は、AI安全性をより実用的にするための重要な考え方です。企業はモデルの安全応答を評価し、自社ガードレールと組み合わせる必要があります。