OpenAI / ChatGPT / Codex / リリースノート / 2026/06/04 / 通常

OpenAI API 2026年6月4日のリリースノート解説: GPT-4.1系モデルでDPO ファインチューニングをサポート

AIapideveloper

公式リリースノート

OpenAI は API 変更履歴の 2026年6月4日更新で、v1/fine_tuning における direct preference optimization、いわゆる DPO ファインチューニングの対象モデルを広げました。対象は gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14 です。

要点

GPT-4.1 系の3つの snapshot で DPO ファインチューニングが使えるようになりました。
対象は gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14 です。
通常の教師ありファインチューニングだけでなく、好ましい応答と好ましくない応答の比較を使った調整が選択肢になります。
サポート、営業、レビュー、分類、エージェント応答など、出力の「好み」や運用品質を揃えたいチームに関係します。

今回の更新で変わること

今回の更新は、新しいモデルの発表ではなく、既存の GPT-4.1 系 snapshot に対してファインチューニングの選択肢を広げるものです。OpenAI の変更履歴では、DPO ファインチューニングのサポート対象として gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14 が明示されています。GPT-4.1 は4月に API へ追加された系列で、通常の手順 following やコーディング、長いコンテキスト用途で使われるモデル群です。そこに DPO が加わることで、単に正解データを覚えさせるだけでなく、複数の応答候補のうち「どちらが自社の基準に合うか」を反映しやすくなります。

DPO ファインチューニングが効く場面は、正解がひとつに決まりにくい業務です。たとえば、カスタマーサポートの回答の丁寧さ、営業メールのトーン、社内ナレッジ検索後の要約の粒度、コードレビューコメントの厳しさ、リスク分類の保守的な振る舞いなどは、単純な入出力ペアだけでは調整しにくいことがあります。好ましい応答と避けたい応答のペアを使えるなら、チーム固有の品質基準をモデルに反映する余地が広がります。

一方で、DPO は「評価データを作れば自動的に良くなる」ものではありません。比較ペアの質が悪いと、モデルは表面的な文体やラベルの偏りだけを学ぶ可能性があります。どの応答を好ましいとするかは、業務部門、法務、セキュリティ、ブランド、サポート品質の基準とつながります。GPT-4.1、mini、nano のどれを対象にするかも、品質、速度、費用、用途で分ける必要があります。今回の更新は、ファインチューニングの適用範囲が広がったというより、モデル選定と評価データ設計をより丁寧に行う余地が増えた更新として読むのがよさそうです。

対象になりそうなユーザー・チーム

OpenAI API で GPT-4.1 系モデルを使い、応答品質を自社基準に寄せたい開発チーム
サポート、営業、審査、レビュー、社内アシスタントなど、応答の好ましさを評価できる業務部門
ファインチューニングデータ、評価セット、モデル選定を管理する AI プラットフォーム担当
GPT-4.1 mini / nano を低コスト用途で使いながら、品質差を縮めたいチーム

実務で確認したいポイント

まず、DPO に使う比較データをどう作るかを決める必要があります。既存ログから良い応答と悪い応答を選ぶ場合も、利用者の好みだけでなく、事実性、規約遵守、トーン、機密情報の扱い、回答拒否の基準を一緒に見てください。

次に、GPT-4.1、GPT-4.1 mini、GPT-4.1 nano のどれでファインチューニングするかを分けて評価します。高品質が必要なワークフローと、低遅延・低コストが重要なワークフローでは、同じ DPO データでも採用判断が変わります。fine-tuned モデルを本番に入れる前に、未調整モデル、教師ありファインチューニング、DPO ファインチューニングの差を同じ評価セットで比較しておきたいです。

結局、この更新をどう見るべきか

今回の OpenAI API 更新は、GPT-4.1 系モデルを業務ごとの応答基準へ近づけるための選択肢を増やすものです。DPO ファインチューニングは強力ですが、価値はモデル名よりも比較データの品質と評価設計で決まります。すでに GPT-4.1 系を使っているチームほど、どの応答品質を標準化したいのかを先に言語化してから試すべき更新です。