谷歌TPU加速LLM推理:扩散式推测解码实现3倍加速
加州圣地亚哥大学(UCSD)的研究人员在谷歌TPU上成功实现了基于扩散机制的推测解码技术DFlash,并在开源vLLM框架中整合。
DFlash采用O(1)复杂度,替代了传统顺序式推测解码的O(K)流程,显著降低了推理延迟。
测试结果显示,DFlash在TPU v5p上平均token每秒增加3.13倍,在处理复杂数学任务时可达6倍的峰值加速,且整体服务速度比EAGLE-3提升了2.29倍。
该技术通过双缓存机制处理注意力机制,优化了上下文管理,并解决了元数据偏差问题,充分发挥了TPU的并行计算能力。
查看原文开头(英文 · 仅前 3 段)
MAY 4, 2026
Yarong Mu
Senior Staff Software Engineer
※ 出于版权考虑,仅引用前 3 段。完整内容请阅读原文。