Googleが「DiffusionGemma」を発表！拡散技術で最大4倍高速に

タイプライターから「印刷機」へ：DiffusionGemmaの革新

Googleは、テキスト生成の処理を劇的に高速化する新しいアプローチを検証するための実験的オープンモデル「DiffusionGemma」を発表しました。このモデルはオープンライセンスであるApache 2.0の下で公開され、パラメータサイズが26B（260億パラメータ）のMoE（Mixture of Experts：複数の異なる専門モデルを組み合わせた構造）アーキテクチャを採用しています。

DiffusionGemma: 4x faster text generation

An overview of DiffusionGemma, an exceptionally fast text generation model with up to 4x faster speeds.

従来の自己回帰型（1トークンずつ順次テキストを生成する方式）の大規模言語モデル（LLM）とは異なり、DiffusionGemmaは「テキスト全体を同時に生成・洗練する」という全く新しいデコード（出力処理）プロセスを導入しています。これにより、特定の専用グラフィックボード（GPU）上で動作させる際、従来の自己回帰モデルと比較して最大4倍の推論速度を実現します。

なぜGPUをフル活用できるのか？テキスト拡散（Text Diffusion）の仕組み

従来の自己回帰モデルによるテキスト生成は、1文字（トークン）ずつ左から右へ文字を打ち出していく「タイプライター」のようなプロセスでした。クラウド上のサーバー環境であれば、数千件のユーザーリクエストをまとめて同時に処理できるため効率的ですが、個人のデバイスでローカルに実行する場合、ハードウェアが次の1文字を計算するたびに長い「待機時間」が発生し、GPUやTPUなどの計算資源が十分に活用されないというボトルネックがありました。

この無駄を根本から見直したのが、DiffusionGemmaに採用されたテキスト拡散（Text Diffusion）技術です。画像生成AIがランダムな砂嵐のようなノイズから少しずつ鮮明な絵を作り上げるのと同様に、本モデルも段落全体のノイズからステップ（反復処理）を経て明瞭な文章へと段階的に変換していきます。

「言葉を一つずつ予測するのではなく、256トークンの段落全体のブロックを同時に生成する。これにより、ハードウェアの計算処理能力を最大限に引き出すことができる」

この方式は、推論プロセスを順次処理のタイプライターから、一度のプレスでページ全体のテキストを同時に印刷する「巨大な印刷機」へと進化させるアプローチです。

双方向アテンションがもたらすSudoku解法

テキスト全体を一度に考慮しながら生成できるため、DiffusionGemmaには「双方向アテンション（双方向の注意機構）」が備わっています。通常のLLMは過去のテキストのみを考慮して未来の言葉を予測しますが、双方向アテンションでは生成中のテキスト全体の相関関係を前後にわたって考慮できます。これにより、以下のような新しい動作パターンやタスク処理が可能となります。

複雑なマークダウン（文書記述の構文ルール）の閉じタグや構造を完璧に処理し、閉じ忘れなどのミスを防ぐ。
HTMLや各種プログラムコードを生成する際に、文脈全体を見通しながら超高速でレンダリング（出力・描画）する。
「Sudoku（数独）」のような、ある部分の正解が「後に出力する予定のすべての文字」に論理的に依存するタスクにおいて、無類の実力を発揮する。

実際にAI開発コミュニティのUnslothによるファインチューニング（特定の用途に合わせた微調整）を施されたDiffusionGemmaは、従来の自己回帰モデルが苦手としていた数独のパズル解法を難なく処理するデモを披露し、その優れた論理性を証明しています。

オンデバイス推論におけるトレードオフとハードウェアの適性

DiffusionGemmaは、主にローカル（自身の端末上）でのインタラクティブな用途や低同時並行の推論処理において真価を発揮します。その一方で、いくつかの重要な技術的制限やトレードオフも存在します。導入にあたって留意すべき点は以下の通りです。

クラウド上での大量処理には不向き：クラウド環境のように高QPS（1秒あたりの問い合わせ要求数）をバッチ処理でこなすシーンでは自己回帰モデルの方が効率的であり、DiffusionGemmaの並列生成はかえって運用コストを押し上げる可能性があります。
Apple Silicon Macなどのユニファイドメモリ環境での制限：CPUとGPUが同一メモリを共有するユニファイドメモリ（統一メモリ）を採用したMac環境では、推論時のネックが演算速度（計算の速さ）ではなくメモリ帯域幅（データの読み書き速度）にあるため、GPUのような劇的な加速効果が得られない場合があります。
標準生産用のモデルとしての位置づけ：高品質な本番運用向けシステムとしては、従来の自己回帰型モデルであるGemma 4が依然として推奨されるため、DiffusionGemmaはあくまで実験的な位置づけとして提供されます。

ローカルAIの体験を塗り替える高速デコードの未来

DiffusionGemmaの登場は、AIのローカル推論におけるレスポンス速度のボトルネックを解消する重要な転換点です。特にリアルタイムのインライン編集や迅速なプロトタイピングにおいて、通信遅延（レイテンシー）を感じさせない極めてインタラクティブな開発者体験とユーザー体験を提供します。テキスト拡散という新アプローチの技術検証が進むことで、将来的なオンデバイスAIの処理速度と表現力はより一層強固なものへと進化していくことが期待されます。

参考URL：https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/