OpenAI / ChatGPT / Codex / 公式ブログ / 2025/10/29 / 重要

OpenAI 2025年10月29日の公式発表解説: gpt-oss-safeguard

公式ブログ原文

公式ブログ原文: Introducing gpt-oss-safeguard

OpenAI は 2025年10月29日、安全分類に使う open-weight reasoning models として gpt-oss-safeguard を発表しました。開発者が独自ポリシーを適用し、反復改善できることが焦点です。

要点

gpt-oss-safeguard は安全分類向けの open-weight reasoning models
開発者が提供したポリシーに基づいてコンテンツを分類する
カスタムポリシーを自社サービスに合わせて運用しやすくする狙い
Trust & Safety、モデレーション、AIプロダクト開発に関係する

今回のブログ記事で語られていること

gpt-oss-safeguard は、AIアプリケーションの安全分類を、ベンダー固定の一律ルールだけでなく、開発者が定義するポリシーに合わせて運用するためのモデルとして紹介されています。OpenAI は open-weight reasoning models として公開し、開発者が独自の安全ポリシーを適用し、反復しながら改善できると説明しています。これは、コンテンツモデレーション、ユーザー投稿審査、AI応答の安全確認、社内チャットボットの利用制御などで重要です。

従来の安全分類は、あらかじめ決められたカテゴリやAPIの判断に合わせる場面が多くありました。しかし、実際のサービスでは、業種、国、ユーザー年齢、ブランド基準、法規制、利用規約によって許容範囲が変わります。たとえば、医療、教育、金融、ゲーム、SNS、企業内ナレッジでは、それぞれ危険な発話や制限すべき内容が違います。gpt-oss-safeguard のような仕組みは、ポリシーを明示して分類させることで、自社ルールとの整合性を高める方向にあります。

一方で、open-weight であることは自由度と責任の両方を意味します。開発者は、モデルを置くだけで安全になると考えるのではなく、ポリシー文書の品質、評価データ、誤分類時の対応、ログ、監査、モデル更新を運用しなければなりません。今回の発表は、安全対策がブラックボックスの外部APIから、開発者が説明可能に管理する構成へ広がる動きとして読むべきです。

関係するチーム

Trust & Safety、セキュリティ、AIガバナンス
プロダクト開発、プラットフォーム、MLOps
法務、コンプライアンス、カスタマーサポート

実務で確認したいこと

自社の安全ポリシーをモデルに渡せる粒度まで明文化する
誤分類、境界ケース、国・年齢別ルールの評価セットを用意する
open-weight モデルの運用、更新、監査ログの責任者を決める

結局、今回のブログ記事をどう読むべきか

gpt-oss-safeguard は、安全分類を自社ポリシーに近づけるための開発者向けモデルです。導入側は、モデル選定だけでなく、ポリシー設計と継続評価を運用に組み込む必要があります。