Xinference v2.3.0 发布:主流模型多格式支持升级与企业版 1.0 正式上线

Xorbits Inference(Xinference)是一个性能强大且功能全面的分布式推理框架,适用于大语言模型(LLM)、语音识别模型及多模态模型等多种场景。通过 Xinference,研究者、开发者及数据科学家可以一键部署自定义模型或内置的前沿开源模型,充分发掘 AI 潜力。

核心功能亮点

  • 极简部署:大幅简化大语言模型、语音识别及多模态模型的部署流程,单命令即可完成。
  • 丰富模型库:内置众多中英文前沿大语言模型(如 Baichuan、ChatGLM2 等),并持续快速更新。
  • 异构计算加速:基于 GGML 技术,协同利用 GPU 与 CPU 进行推理,有效降低延迟并提升吞吐量。
  • 灵活接口:提供 OpenAI 兼容的 RESTful API(含 Function Calling)、RPC、命令行及 Web UI 等多种交互方式。
  • 分布式集群:支持分布式部署与内置资源调度,实现不同规模模型在集群机器间的按需调度。
  • 开放生态:无缝对接 LangChain、LlamaIndex、Dify 及 Chatbox 等流行第三方库。

v2.3.0 版本更新日志

主要特性与模型支持

本次版本进一步完善了主流模型在不同推理引擎(vLLM、Transformers)及模型格式(量化模型、GGUF)下的支持,重点涵盖以下模型:

  • GLM-5
  • Kimi-K2.5
  • MiniMax-M2.5
  • Qwen3.5:重点修复并完善了其在多个推理引擎下的兼容性问题,显著提升了不同运行环境中的部署稳定性。

新功能与增强

  • vLLM 引擎:新增对 Qwen3.5 的支持;新增 seed 与 repetition_penalty 参数,用于精度测试与更精细的推理控制。
  • Transformers 引擎:新增对 Qwen3.5 的支持。
  • 配置优化:持续更新模型 JSON 配置,全面提升模型兼容性。

Bug 修复

  • 修复 WorkerWrapperBase.init() 中 rpc_rank 参数冲突问题。
  • 修复 qwen3-vl-embedding 在 vLLM 引擎下的检查异常。
  • 修复多 GPU 环境下的聊天推理问题。
  • 修复 Qwen3.5 在 vLLM 下因缺少 generation_config.json 导致的启动失败问题。
  • 修复 UI 表单默认值初始化错误。

文档更新

  • 新增 v2.2.0 发布说明。
  • 修正若干文档细节。

安装指南

您可以通过以下方式安装或更新至 v2.3.0:

  • Pip 安装:pip install 'xinference==2.3.0'
  • Docker:拉取最新版镜像,或在容器内使用 pip 进行更新。

Xinference 企业版 1.0 正式发布

我们很高兴地宣布,Xinference 企业版 1.0 正式推出。这标志着 Xinference 的企业级能力已进入稳定阶段,旨在为大规模生产环境提供更可靠的支持。

© 版权声明
THE END
喜欢就支持以下吧
点赞7赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容