Google TPUでLLM推論を高速化:拡散モデルによる推測デコーディングで最大3倍の高速化を実現
Google Cloudの研究者チームは、LLMの推論速度を向上させる新しい手法「DFlash」(diffusion-style speculative decoding)を開発しました。
従来の推測デコーディングは逐次的な処理がボトルネックとなっていましたが、DFlashは拡散モデルを活用し、複数の候補トークンを一度に生成することで、Google TPU v5p上で最大6倍の高速化を達成しました。
特に複雑な計算タスクでは、既存手法であるEAGLE-3と比較して2.29倍の高速化を実現し、LLMのパフォーマンス向上に貢献しています。
Google Cloudの技術者らが、大規模言語モデル(LLM)の推論速度を劇的に向上させる新しい技術を開発しました。具体的には、GoogleのTPU(Tensor Processing Unit)上で、拡散モデル(Diffusion Model)の考え方を取り入れた「ブロック拡散型推測デコーディング」を実装したとのことです。これにより、平均で3.13倍のトークン/秒という大幅な高速化を実現しました。
従来のLLM推論のボトルネック
現在のLLMの推論は、基本的に「自己回帰的(autoregressive)」な処理で行われています。これは、モデルが次のトークンを生成するたびに、その都度フルで計算(フォワードパス)を行う必要があるためです。この逐次的な処理は、TPUのようなAIアクセラレータが持つ並列計算能力を十分に活用できていませんでした。
推測デコーディング(Speculative Decoding)は、小さな「ドラフトモデル」が複数のトークンを予測し、大きな「ターゲットモデル」がそれを一括で検証することで、この遅延を軽減する手法です。しかし、ドラフトモデル自体が逐次的にトークンを生成する仕組みであるため、その予測段階でボトルネックが生じていました。
ブロック拡散によるパラダイムシフト
このボトルネックを解消するのが、「ブロック拡散(Block Diffusion)」という新しいアプローチです。従来の逐次的な予測(O(K))とは異なり、ブロック拡散はモデルが次の単語を一つずつ推測するのではなく、トークンの塊(ブロック)全体を一度に「描画(paint)」するように機能します。
このDFlashという手法は、ターゲットモデルから抽出された隠れ情報(hidden features)を利用して、単一のフォワードパスで大量のドラフトトークンを生成します。これにより、予測段階の計算量がO(1)に劇的に削減され、TPUの高速な行列演算ユニット(MXU)との相性が非常に良くなったとのことです。
TPU環境での技術的課題克服
この革新的なDFlashをGoogle TPU上で動かすには、単なるコード移植以上の再設計が必要でした。特に、TPUの高性能な大規模サービスで使われる「ページ付きアテンション(Paged Attention)」と、DFlashの非因果的なブロック拡散という性質が根本的に衝突していました。
この問題を解決するため、研究チームは「デュアルキャッシュ」というアーキテクチャを設計しました。ターゲットモデルは高性能なページ付きKVキャッシュを維持しつつ、ドラフトモデルは特殊な静的JAX配列パスを使用することで、TPUネイティブな性能を保ちながらDFlashの機能を実現したと説明しています。
結論:AI推論の未来への影響
今回の成果は、LLMの推論効率を根本から変える可能性を秘めています。DFlashは、AIハードウェアの特性を深く理解した上で、ソフトウェアアーキテクチャを最適化した成功例です。この技術がオープンソースのvLLM TPU推論エコシステムに組み込まれたことで、実用的な高速化が実現しました。今後、より複雑なタスクや大規模なモデルにおけるAIサービスの応答速度向上に大きく貢献すると見られています。
原文の冒頭を表示(英語・3段落のみ)
MAY 4, 2026
Yarong Mu
Senior Staff Software Engineer
※ 著作権に配慮し、引用は冒頭3段落までです。続きは元記事をご覧ください。