Xinference v2.3.0 发布：主流模型多格式支持升级与企业版 1.0 正式上线-百云游资源网

Xorbits Inference（Xinference）是一个性能强大且功能全面的分布式推理框架，适用于大语言模型（LLM）、语音识别模型及多模态模型等多种场景。通过 Xinference，研究者、开发者及数据科学家可以一键部署自定义模型或内置的前沿开源模型，充分发掘 AI 潜力。

核心功能亮点

极简部署：大幅简化大语言模型、语音识别及多模态模型的部署流程，单命令即可完成。
丰富模型库：内置众多中英文前沿大语言模型（如 Baichuan、ChatGLM2 等），并持续快速更新。
异构计算加速：基于 GGML 技术，协同利用 GPU 与 CPU 进行推理，有效降低延迟并提升吞吐量。
灵活接口：提供 OpenAI 兼容的 RESTful API（含 Function Calling）、RPC、命令行及 Web UI 等多种交互方式。
分布式集群：支持分布式部署与内置资源调度，实现不同规模模型在集群机器间的按需调度。
开放生态：无缝对接 LangChain、LlamaIndex、Dify 及 Chatbox 等流行第三方库。

v2.3.0 版本更新日志

主要特性与模型支持

本次版本进一步完善了主流模型在不同推理引擎（vLLM、Transformers）及模型格式（量化模型、GGUF）下的支持，重点涵盖以下模型：

GLM-5
Kimi-K2.5
MiniMax-M2.5
Qwen3.5：重点修复并完善了其在多个推理引擎下的兼容性问题，显著提升了不同运行环境中的部署稳定性。

新功能与增强

vLLM 引擎：新增对 Qwen3.5 的支持；新增 seed 与 repetition_penalty 参数，用于精度测试与更精细的推理控制。
Transformers 引擎：新增对 Qwen3.5 的支持。
配置优化：持续更新模型 JSON 配置，全面提升模型兼容性。

Bug 修复

修复 WorkerWrapperBase.init() 中 rpc_rank 参数冲突问题。
修复 qwen3-vl-embedding 在 vLLM 引擎下的检查异常。
修复多 GPU 环境下的聊天推理问题。
修复 Qwen3.5 在 vLLM 下因缺少 generation_config.json 导致的启动失败问题。
修复 UI 表单默认值初始化错误。

文档更新

新增 v2.2.0 发布说明。
修正若干文档细节。

安装指南

您可以通过以下方式安装或更新至 v2.3.0：

Pip 安装：pip install 'xinference==2.3.0'
Docker：拉取最新版镜像，或在容器内使用 pip 进行更新。

Xinference 企业版 1.0 正式发布

我们很高兴地宣布，Xinference 企业版 1.0 正式推出。这标志着 Xinference 的企业级能力已进入稳定阶段，旨在为大规模生产环境提供更可靠的支持。

【站长推荐】购买会员可免费下载全站资源。
【提示】本站只提供资源，不提供技术支持，介意勿下！！
【公告】没有基础小白不要下载，站长不教！！
本站提供的资源，都来自网络，版权争议与本站无关，所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途，否则，一切后果请用户自负，我们不保证内容的长久可用性，通过使用本站内容随之而来的风险与本站无关，您必须在下载后的24个小时之内，从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序，请支持正版软件，购买注册，得到更好的正版服务。如果有侵权之处请第一时间联系我们删除。敬请谅解

THE END