国产开源推理引擎“赤兔”发布了 v0.4 版本,大幅提升了一体机推理部署场景的性能和稳定性,适配昇腾、英伟达、沐曦、海光,支持 DeepSeek、Qwen、GLM、Kimi 等模型。
Chitu(赤兔)是由清华系 AI Infra 明星创企——清程极智联合清华大学团队发布的开源项目。赤兔定位于「生产级大模型推理引擎」,充分考虑企业 AI 落地从小规模试验到大规模部署的渐进式需求,专注于提供以下重要特性:
- 多元算力适配:不仅支持 NVIDIA 最新旗舰到旧款的多系列产品,也为国产芯片提供优化支持。
- 全场景可伸缩:从纯 CPU 部署、单 GPU 部署到大规模集群部署,赤兔引擎提供可扩展的解决方案。
- 长期稳定运行:可应用于实际生产环境,稳定性足以承载并发业务流量。
在今年三月首个版本发布时,赤兔通过底层算子优化(如 GeMM、MoE 的指令级重构)和编译技术创新,首次实现在无 FP8 硬件单元的算力芯片上原生运行 FP8 高精度模型,赋能众多存量算力芯片推理 DeepSeek-R1 满血版大模型。
还没有评论,来说两句吧...