OpenAI / ChatGPT / Codex / リリースノート / 2026/06/04 / 通常
OpenAI API 2026年6月4日のリリースノート解説: GPT-4.1系モデルでDPO ファインチューニングをサポート
公式リリースノート
OpenAI は API 変更履歴 の 2026年6月4日更新で、v1/fine_tuning における direct preference optimization、いわゆる DPO ファインチューニング の対象モデルを広げました。対象は gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14 です。
要点
- GPT-4.1 系の3つの snapshot で DPO ファインチューニング が使えるようになりました。
- 対象は
gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14です。 - 通常の教師あり ファインチューニング だけでなく、好ましい応答と好ましくない応答の比較を使った調整が選択肢になります。
- サポート、営業、レビュー、分類、エージェント応答など、出力の「好み」や運用品質を揃えたいチームに関係します。
今回の更新で変わること
今回の更新は、新しいモデルの発表ではなく、既存の GPT-4.1 系 snapshot に対して ファインチューニング の選択肢を広げるものです。OpenAI の 変更履歴 では、DPO ファインチューニング のサポート対象として gpt-4.1-2025-04-14、gpt-4.1-mini-2025-04-14、gpt-4.1-nano-2025-04-14 が明示されています。GPT-4.1 は4月に API へ追加された系列で、通常の 手順 following や コーディング、長いコンテキスト用途で使われるモデル群です。そこに DPO が加わることで、単に正解データを覚えさせるだけでなく、複数の応答候補のうち「どちらが自社の基準に合うか」を反映しやすくなります。
DPO ファインチューニング が効く場面は、正解がひとつに決まりにくい業務です。たとえば、カスタマーサポートの回答の丁寧さ、営業メールのトーン、社内ナレッジ検索後の要約の粒度、コードレビューコメントの厳しさ、リスク分類の保守的な振る舞いなどは、単純な入出力ペアだけでは調整しにくいことがあります。好ましい応答と避けたい応答のペアを使えるなら、チーム固有の品質基準をモデルに反映する余地が広がります。
一方で、DPO は「評価データを作れば自動的に良くなる」ものではありません。比較ペアの質が悪いと、モデルは表面的な文体やラベルの偏りだけを学ぶ可能性があります。どの応答を好ましいとするかは、業務部門、法務、セキュリティ、ブランド、サポート品質の基準とつながります。GPT-4.1、mini、nano のどれを対象にするかも、品質、速度、費用、用途で分ける必要があります。今回の更新は、ファインチューニング の適用範囲が広がったというより、モデル選定と評価データ設計をより丁寧に行う余地が増えた更新として読むのがよさそうです。
対象になりそうなユーザー・チーム
- OpenAI API で GPT-4.1 系モデルを使い、応答品質を自社基準に寄せたい開発チーム
- サポート、営業、審査、レビュー、社内アシスタントなど、応答の好ましさを評価できる業務部門
- ファインチューニング データ、評価セット、モデル選定を管理する AI プラットフォーム担当
- GPT-4.1 mini / nano を低コスト用途で使いながら、品質差を縮めたいチーム
実務で確認したいポイント
まず、DPO に使う比較データをどう作るかを決める必要があります。既存ログから良い応答と悪い応答を選ぶ場合も、利用者の好みだけでなく、事実性、規約遵守、トーン、機密情報の扱い、回答拒否の基準を一緒に見てください。
次に、GPT-4.1、GPT-4.1 mini、GPT-4.1 nano のどれで ファインチューニング するかを分けて評価します。高品質が必要なワークフローと、低遅延・低コストが重要なワークフローでは、同じ DPO データでも採用判断が変わります。fine-tuned モデル を本番に入れる前に、未調整モデル、教師あり ファインチューニング、DPO ファインチューニング の差を同じ評価セットで比較しておきたいです。
結局、この更新をどう見るべきか
今回の OpenAI API 更新は、GPT-4.1 系モデルを業務ごとの応答基準へ近づけるための選択肢を増やすものです。DPO ファインチューニング は強力ですが、価値はモデル名よりも比較データの品質と評価設計で決まります。すでに GPT-4.1 系を使っているチームほど、どの応答品質を標準化したいのかを先に言語化してから試すべき更新です。