Google Gemma / リリースノート / 2026/06/10 / 重要

Google Gemma、DiffusionGemmaでテキスト拡散モデルを公開

AIdev

公式リリースノート

Google は 2026年6月10日、Gemma ファミリーの新しい実験的オープンモデル「DiffusionGemma」を公開し、公式ドキュメントを更新しました。DiffusionGemma は Google DeepMind が開発した 26B A4B の Mixture-of-Experts 構成を土台に、従来の逐次的な自己回帰生成ではなく、離散拡散でトークン列をまとめて生成・修正していくモデルです。

要点

DiffusionGemma は、テキスト生成で拡散モデルの考え方を使う Gemma 系の実験的オープンウェイトモデルです
256トークンの「キャンバス」を並列にノイズ除去し、専用 GPU 上で最大4倍の高速なテキスト生成を狙う設計です
モデルカードでは、最大 256K トークンのコンテキスト、テキストと画像入力への対応、Hugging Face、Kaggle、Vertex AI での提供が示されています

何が変わったのか

今回の更新で重要なのは、Gemma のモデル一覧に DiffusionGemma が追加され、概要、モデルカード、技術解説、Hugging Face での実行手順が公式ドキュメントとして公開された点です。モデルカードでは、DiffusionGemma が Gemma 4 の MoE アーキテクチャをベースにしながら、生成時にはブロック単位の拡散サンプリングを使うことが説明されています。

通常の多くの LLM は、前のトークンをもとに次のトークンを1つずつ生成します。DiffusionGemma はこの逐次ボトルネックを避けるため、ランダムなトークン列から始めて、256トークン単位のキャンバスを段階的に修正します。公式解説では、1人のユーザーに対して遊休になりがちな計算資源を使い、1トークンずつではなく複数トークンを同時に更新する考え方が示されています。

モデルカードでは、低レイテンシの生成、高速な推論、長文コンテキスト、マルチモーダル入力、思考モードが読みどころです。一方で、実験的なモデルであるため、品質、安定性、安全性、既存の自己回帰モデルとの差分を検証なしに本番前提で扱うべきではありません。特に、応答の一貫性、コード生成、長文生成、視覚入力を含むタスクでは、従来モデルと同じ評価軸だけで比較すると判断を誤る可能性があります。

実務で確認したいポイント

AI 基盤を運用するチームは、まず DiffusionGemma を「Gemma の新モデル」として扱い、Gemini や Vertex AI の一般的な更新と混同しないことが重要です。Hugging Face、Kaggle、Vertex AI で利用経路が示されているため、検証環境では取得元、ライセンス、モデルサイズ、推論ランタイム、GPU メモリ、レイテンシ、スループットを確認する必要があります。

次に、従来の自己回帰モデルと同じプロンプトで比較するだけでなく、DiffusionGemma が得意とする並列的な生成や長めの出力で評価するべきです。短いチャット応答、コード補完、エージェントの中間推論、長文生成では期待する品質や速度が異なるため、タスク別にベンチマークを分けるのが現実的です。

また、オープンウェイトモデルとして導入する場合は、安全性評価、利用ログ、プロンプト・出力の保持、社内データとの接続範囲を明確にする必要があります。高速化だけを理由に置き換えるのではなく、既存モデルと併用しながら、どのワークロードで効果があるかを測る段階的な導入が向いています。

影響を受ける人

影響を受けるのは、オープンモデルを評価している機械学習基盤チーム、推論基盤を運用するインフラ担当者、エージェントやコパイロット機能を作る開発者、長文・マルチモーダル処理を検証するデータサイエンスチームです。特に、ユーザー単位のレイテンシや GPU 利用効率を重視するチームにとっては、自己回帰モデル以外の生成方式を評価する入口になります。

一方で、業務アプリケーションにすぐ組み込むチームは慎重に読むべきです。DiffusionGemma は実験的な公開モデルであり、既存の Gemma や Gemini と同じ運用保証を前提にできるわけではありません。モデルの能力だけでなく、提供経路、実行環境、評価手順、ガードレール、失敗時のフォールバックを含めて確認する必要があります。

どう読むべきか

今回の更新は、単なる高速化ニュースではなく、テキスト生成の実装方式に別の選択肢が増えたという意味で読むべきです。DiffusionGemma は、1トークンずつ生成する前提を見直し、キャンバス単位で並列に生成・修正する方向を試しています。

導入判断では、速度の数字だけを見ず、タスクごとの品質、推論コスト、運用の複雑さ、既存評価基盤との相性を確認してください。特に AI エージェントやリアルタイム支援機能では、低レイテンシが体験に直結しますが、正確性や安定性の評価を省略すると本番運用で問題になります。まずは限定的な検証対象を選び、既存モデルとの比較結果を記録するのが安全です。