小红书提出大模型推理加速算法 HASS 刷新 SOTA 在大模型推理领域,投机采样是一种被广泛使用的无损加速算法。近期一些投机采样的工作将大模型的上下文信息(例如 hidden states 和 KV cache)引入草稿模型,可以充分... admin /新鲜讯息 /2024-10-12 /0 评论 /94 阅读