
3 月 22 日,南京,聊聊生成式 AI 应用构建

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源模型 - https://github.com/xorbitsai/inference。无论你是研究者,开发者,或是数据科学家,都可以通过 Xorbits Inference 与最前沿的 AI 模型,发掘更多可能。
Xinference 的功能和亮点有:
* * 🌟 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
* * ⚡️ 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
* * 🖥 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
* * ⚙️ 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
* * 🌐 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
* * 🔌 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。
📢 Xinference v1.3.1 发布! 🎉
🚀 Qwen 新推理模型 QwQ 支持,全新官方维护的 Xllamacpp 现已推出,支持 continuous batching 并发推理!
🔧 重要变更提醒:
当前默认依然使用 llama-cpp-python,要启用 Xllamacpp,请设置环境变量:USE_XLLAMACPP=1。
未来版本计划:
✅ v1.5.0:默认切换到 Xllamacpp
❌ v1.6.0:移除 llama-cpp-python
🚀 社区版
🔧 更新指南
📦 pip: pip install 'xinference==1.3.1'
🐳 Docker: 直接拉取最新版本,或在镜像内运行 pip 更新。
📜 更新日志
✨ 新增模型
🧠 LLM:
* 🌟 QwQ-32B
* 🌙 Moonlight-16B-A3B
* 🔬 InternVL2.5-MPO
🔥 新功能
* 🏗️ 全新 llama.cpp Python binding:Xllamacpp —— 由 Xinference 官方维护,支持 continuous batching 并发推理!
* 🏆 Qwen2.5-VL 现支持 AWQ 量化格式,提升推理效率!
* 🧠 新增模型能力选择项:reasoning_content 参数,可在 UI 上选择解析推理内容。
🛠️ BUG 修复
* 🖼️ 修复 jina-clip-v2 仅传入图像文本时报 无属性错误 的问题。
* ⚙️ 兼容 mlx-lm v0.21.5,提高稳定性。
* 📦 修复 Dockerfile 中 ffmpeg 和 ffprobe 依赖问题。
* 🚀 解决 Langchain-Chatchat 传递 max_tokens=None 时报错的问题。
* 🏗️ 修复 Qwen2.5-VL 在 modelscope 中的模型 ID。
* 📝 解决 create_embedding 传入多余参数导致的错误。
* 💬 修复 qwen2.5-vl-7b 无法聊天的问题。
🎨 UI 相关
* 🔊 为 音频模型 添加模型能力选项,增强可用性!
* 📋 模型列表新增复制按钮,一键复制 模型 UID 等属性,提升使用体验!
🏢 企业版
🔗 全面分布式推理支持,包括优化的 vLLM/sglang 引擎,支持 全国产化推理!
📩 欢迎联系 @首席客服 了解更多详情!
🔥 立即体验 v1.3.1,探索更强大的 AI 推理能力! 🚀
我们感谢每一位参与的社区伙伴对 Xinference 的帮助和支持,也欢迎更多使用者和开发者参与体验和使用 Xinference。
欢迎您在 https://github.com/xorbitsai/inference 给我们一个 星标,这样你就可以在 GitHub 上及时收到每个新版本的通知。
还没有评论,来说两句吧...