OpenAI / ChatGPT / Codex / 公式ブログ / 2025/10/29 / 重要

OpenAI 2025年10月29日の公式発表解説: gpt-oss-safeguard 技術レポート

公式ブログ原文

公式ブログ原文: gpt-oss-safeguard technical report

OpenAI は 2025年10月29日、gpt-oss-safeguard-120b と gpt-oss-safeguard-20b の技術レポートを公開し、ポリシーに基づく安全分類能力と評価結果を説明しました。

要点

gpt-oss-safeguard-120b と 20b は gpt-oss から post-trained されたモデル
提供されたポリシーを読んで、コンテンツをラベル付けする用途
基礎モデルとの比較を含む baseline safety evaluations を提供
安全評価、モデル監査、開発者向け導入判断に関係する

今回のブログ記事で語られていること

この技術レポートは、gpt-oss-safeguard を実際に導入する開発者やリスク管理担当者が確認すべき評価資料です。OpenAI は、gpt-oss-safeguard-120b と gpt-oss-safeguard-20b を、gpt-oss モデルから post-trained した open-weight reasoning models と説明しています。これらのモデルは、与えられたポリシーを読み、そのポリシーに基づいてコンテンツをラベル付けするために訓練されています。

重要なのは、分類カテゴリがモデル内に固定されているだけではなく、外部から与えるポリシーを読み解いて判断する点です。これにより、サービスごとの利用規約や安全基準を反映しやすくなります。技術レポートでは、gpt-oss-safeguard の能力と baseline safety evaluations が示され、基礎となる gpt-oss モデルを比較対象として扱っています。導入側は、モデルサイズ、推論コスト、分類精度、誤判定の傾向、ポリシー文の書き方を検討する必要があります。

ただし、技術レポートの評価結果は出発点です。自社の実データ、言語、ユーザー層、攻撃パターン、規制条件に合わせた追加評価が必要です。特に日本語や多言語の投稿、曖昧な比喩、業界用語、危険な指示の迂回表現では、汎用評価だけでは不十分な可能性があります。今回のレポートは、開発者が安全分類モデルを説明可能に導入するための材料として読むべきです。

関係するチーム

AI安全評価、Trust & Safety、MLOps
プロダクト開発、セキュリティ、法務
モデレーション基盤やAIゲートウェイを運用するチーム

実務で確認したいこと

120b と 20b の精度、コスト、レイテンシの使い分けを検証する
自社ポリシー文での分類精度を実データで評価する
baseline evaluation だけでなく、日本語・業界固有ケースを追加する

結局、今回のブログ記事をどう読むべきか

技術レポートは、gpt-oss-safeguard を本番安全分類に使う前の評価資料です。導入側は、OpenAIの評価を起点に、自社ポリシーと実データで検証する必要があります。