谷歌TPU加速LLM推理:扩散式推测解码实现3倍加速

#Tech

谷歌TPU加速LLM推理:扩散式推测解码实现3倍加速

加州圣地亚哥大学(UCSD)的研究人员在谷歌TPU上成功实现了基于扩散机制的推测解码技术DFlash,并在开源vLLM框架中整合。

DFlash采用O(1)复杂度,替代了传统顺序式推测解码的O(K)流程,显著降低了推理延迟。

测试结果显示,DFlash在TPU v5p上平均token每秒增加3.13倍,在处理复杂数学任务时可达6倍的峰值加速,且整体服务速度比EAGLE-3提升了2.29倍。

该技术通过双缓存机制处理注意力机制,优化了上下文管理,并解决了元数据偏差问题,充分发挥了TPU的并行计算能力。

查看原文开头(英文 · 仅前 3 段)

MAY 4, 2026

Yarong Mu

Senior Staff Software Engineer

※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。

阅读原文 ↗