Anthropic / Claude / Claude Code / 公式ブログ / 2026/05/05 / 通常

Anthropic 2026年5月5日の公式研究解説: Model Spec Midtraining

AIセキュリティ

公式ブログ原文

公式ブログ原文: Model Spec Midtraining: Improving How Alignment Training Generalizes

Anthropic Alignment Science は 2026年5月5日、Model Spec Midtraining: Improving How Alignment Training Generalizes を公開しました。製品機能のリリースではありませんが、AI モデルが alignment training からどのように一般化するか、agentic misalignment をどう減らすかに関わる公式研究発表です。

要点

モデル Spec Midtraining は、pre-training 後・alignment ファインチューニング前にモデル Spec についての synthetic documents を学習させる手法
同じ alignment ファインチューニングでも、midtraining に使うモデル Spec によってモデル behavior の一般化が変わると説明されている
Anthropic は MSM により agentic misalignment を大幅に減らせると述べている
モデル Spec / Constitution のような方針文書が、単なるポリシーではなくモデル behavior の事前条件になり得る
AI ガバナンス、モデル評価、安全性 research に関係する発表

今回のブログ記事で語られていること

今回の記事は、モデルの alignment を、最終段階のファインチューニングだけでなく、その前にどのような仕様や価値観をモデルへ埋め込むかという観点から扱っています。Anthropic は、モデル behavior を intended behavior に近づけるためにモデル Spec や Constitution のような文書を使う考え方を説明し、その標準的な方法が demonstrations、つまり望ましい応答例に基づくファインチューニングであると位置づけています。しかし、同じファインチューニングをしても、モデルが未見の状況でどう一般化するかは安定しない可能性があります。

モデル Spec Midtraining は、その問題に対して、pre-training の後、alignment ファインチューニングの前に、モデル Spec について議論する synthetic documents を学習させる手法です。記事では、同じ alignment ファインチューニングを受けた2つのモデルでも、MSM で使ったモデル Spec が違えば、その後の一般化が異なる values を採用する方向へ変わり得ると説明されています。つまり、spec は人間が読むポリシー document であるだけでなく、モデルが後続の alignment data をどう解釈するかを形づくる training signal になり得るということです。

実務的に見ると、この研究は「安全性を評価用プロンプトで測る」だけでは足りないことを示します。企業が LLM を agentic ワークフローに使う場合、モデルが明示されていない状況でどう振る舞うか、tool use や long-horizon tasks でどの目標を優先するかが重要です。Anthropic は、MSM によって agentic misalignment を大幅に減らしたと説明しており、これはエージェントが自律的に作業するほど、alignment の一般化が重要になることを示しています。

また、モデル Spec の内容そのものも論点になります。どの spec がより良い一般化を生むのか、どの values をどう明文化するのか、spec と downstream ファインチューニング / 評価 / deployment ポリシーの整合をどう取るのかは、研究だけでなく AI ガバナンスの課題です。社内向けエージェントを作る企業にとっても、システムプロンプトやポリシーだけでなく、モデル・エージェントの設計思想、評価セット、失敗時の behavior を一貫して管理する必要があります。

対象になりそうなチーム

AI 安全性 / alignment research を追う研究者
agentic AI を業務導入する platform / ガバナンス team
モデル behavior、ポリシーコンプライアンス、評価を設計する開発者
high-stakes domain で LLM の一般化リスクを評価する risk / セキュリティ team

実務で確認したいポイント

まず、agentic ワークフローの評価で、既知タスクの成功率だけでなく未見状況での一般化を確認します。ポリシーに書いた通り動くかではなく、曖昧な場面で何を優先するかをテストします。

次に、自社の AI ポリシー、システムプロンプト、評価 criteria が互いに矛盾していないかを確認します。モデルやエージェントに与える「仕様」が曖昧だと、ファインチューニングやプロンプト engineering だけで一貫性を保つのは難しくなります。

結局、この発表をどう見るべきか

モデル Spec Midtraining は、alignment を最後のファインチューニングだけで解決するのではなく、モデルが方針文書をどう内面化し、後続訓練からどう一般化するかを扱う研究です。agentic AI が広がるほど、こうした一般化の制御は、製品機能と同じくらい重要な基盤になります。