2.DFlash - 研究人员找到了将大语言模型加速 8.5 倍的方法？ - 新鲜讯息

DFlash是一种轻量级块扩散模型，专为推测性解码而设计。它能够实现高效、高质量的并行绘图。

投机解码（Speculative Decoding） 是一种相当有效的方法，可解决传统大语言模型推理中的“单令牌（逐词）生成”瓶颈。

其工作流程是：先由一个小型草稿模型生成多个后续令牌，再由大型目标模型通过一次前向传播并行验证它们。

如果某个位置的令牌被验证为错误，则保留该位置之前的所有正确令牌，并从此处继续生成。该方法的最终输出质量绝不会劣于传统解码方式。

然而，当前投机解码中使用的草稿模型仍然是逐个预测令牌的。这导致草稿生成阶段本身成为了新的瓶颈，使得实际场景中的加速比通常只能达到 2–3 倍。

DFlash 是一项新技术，它用轻量级的**块扩散模型（Block Diffusion Model）**取代了自回归草稿模型，能够在一个前向传播中并行预测所有令牌。

无论投机预测的令牌数量有多少，草稿生成的计算开销都保持恒定。

此外，草稿模型会接收来自目标模型多个层的隐藏特征，并将这些特征注入到草稿生成的每一层中。得益于这种上下文信息的注入，其预测精度相比无此机制的模型有了显著提升。

如上方演示所示，传统解码的速度为 48.5 令牌/秒，而 DFlash 在同一模型上达到了 415 令牌/秒，且没有任何质量损失。

该技术目前已集成到 vLLM、SGLang 和 Transformers 框架中。针对 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等众多模型的草稿模型也已上架 HuggingFace。

KV 缓存（KV-Caching） 是加速大语言模型推理的另一项核心技术。关于它的详细介绍，可参考这篇文章。https://x.com/_avichawla/status/2034902650534187503

https://github.com/EsnBl0ckdev/dflash

推荐站内搜索：最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……

ZhouSa.com-周飒博客

2.DFlash - 研究人员找到了将大语言模型加速 8.5 倍的方法？