开云体育

华为昇腾推理对决:开源vLLM vs 官方MindIE数据说话「Qwen与DeepSeek推理实测」开云体育

2025-06-19
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

华为昇腾推理对决:开源vLLM vs 官方MindIE数据说话「Qwen与DeepSeek推理实测」开云体育

  华为昇腾推理引擎MindIE和开源vLLM Ascend在单卡推理、多卡并行和多并发处理等维度展开对比测试。

  2.实验基于开源模型服务平台GPUStack进行,保证复现性和易用性,快速完成部署与测试。

  3.结果显示,vLLM Ascend在中小模型单卡部署场景下表现更优,但在高并发和多卡部署场景中,MindIE更具优势。

  4.总体来说,两者在不同部署场景下各有优势,实际选型应结合业务需求、资源条件和生态支持情况综合判断。

  5.GPUStack作为开源MaaS平台,有效简化了vLLM Ascend和MindIE的部署和配置流程,推动国产AI基础设施体系的发展。

  ,并原生支持 Atlas 800 A2 系列和 Atlas 300i Duo(昇腾 910B 和 310P),但其

  开源社区也在积极推进对昇腾 NPU 的支持。尤其值得关注的是,近段时间

  ,实现了对 Atlas 800 A2 系列的支持(预计在 2025 年 Q3 支持 Atlas 300i Duo)。其

  系统地评估 vLLM Ascend 与 MindIE 在实际推理场景中的性能差异

  集成了 MindIE、vLLM(vLLM Ascend)、llama-box

  (llama.cpp)等多个后端,避免了用户在部署过程中反复踩坑和冗长的环境配置流程。平台原生支持昇腾上的多种模型类型,包括

  兼容昇腾的多机多卡推理场景,其中 vLLM 和 llama-box 已实现多机分布式推理支持,MindIE 分布式功能也在开发计划中

  :无缝支持 Apple Mac、Windows PC 和 Linux 服务器上各种供应商(NVIDIA、AMD、Apple、昇腾、海光、摩尔线程、天数智芯)的 GPU。

  :支持各种模型,包括大语言模型 LLM、多模态 VLM、图像模型、语音模型、文本嵌入模型和重排序模型。

  :支持与 llama-box(llama.cpp 和 stable-diffusion.cpp)、vox-box、vLLM 和 Ascend MindIE 等多种推理后端的灵活集成。

  :自动评估模型资源需求、后端和架构兼容性、操作系统兼容性以及其他与部署相关的因素。

  调试昇腾设备在实际操作中远比 NVIDIA 环境复杂,尤其在依赖项编译、推理引擎集成等方面常常阻碍开发流程。

  ,为后续选型和优化提供直接的数据支持。因此,我们将在 GPUStack 上

  根据文档要求完成对应版本的 NPU 驱动和 Docker 运行时的安装后,通过 Docker 启动 GPUStack 服务

  指定管理界面的访问端口(使用 Atlas 300i Duo 的用户,可以参照安装文档选择对应的 310P 镜像,vLLM Ascend 暂不支持 310P):

  -v /usr/local/dcmi:/usr/local/dcmi \

  -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \

  -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \

  -v /etc/ascend_install.info:/etc/ascend_install.info \

  -v gpustack-data:/var/lib/gpustack \

  查看容器日志确认 GPUStack 是否正常运行(需要注意的是,昇腾 NPU

  ),将导致 GPUStack 无法正常使用 NPU。在此情况下,需先停止占用 NPU 的其他容器,释放设备资源):

  若容器日志显示服务启动正常,使用以下命令获取 GPUStack 控制台的初始登录密码:

  /var/lib/gpustack/initial_admin_password

  在浏览器中通过服务器 IP 和自定义的 9090 端口访问 GPUStack 控制台(

  ),使用默认用户名 admin 和上一步获取的初始密码登录。登录 GPUStack 后,在资源菜单即可查看识别到的 NPU 资源

  。由于本文聚焦单机性能对比,相关集群部署内容不作展开,感兴趣的读者可参考前文提到的官方安装文档获取详细说明。

  部署模型,国内网络推荐从 ModelScope 部署。在 GPUStack UI,选择

  从 ModelScope 分别部署以下模型,并分别选择 MindIE 和 vLLM 后端,部署不同后端的模型服务。由于 MindIE 和 vLLM 后端默认的独占显存参数设置,当前资源不足以运行所有模型,本文将根据需要灵活停止和启动不同的模型进行测试。

  GPUStack 提供了智能计算模型资源需求和分配资源的自动化调度功能,对于 7B 模型和 14B 模型,默认仅会分配单卡。如果想强制分配更多的卡数量:

  完成后,模型运行如下所示(注:根据所需,停止和启动不同模型进行测试):

  切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  本文基于 GPUStack 的能力进行性能对比测试,更深入的性能测试可以使用 EvalScope 等工具进行。

  以下为 DeepSeek R1 Distill Qwen 7B 模型在昇腾 910B 上的推理性能数据对比:

  测试 DeepSeek-R1-Distill-Qwen-7B(双卡并行)

  切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  以下为 DeepSeek R1 Distill Qwen 7B 模型在双卡昇腾 910B 上的推理性能数据对比:

  切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  以下为 DeepSeek R1 Distill Qwen 14B 模型在单卡昇腾 910B 上的推理性能数据对比:

  切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  以下为 DeepSeek R1 Distill Qwen 14B 模型在双卡昇腾 910B 上的推理性能数据对比:

  测试 DeepSeek-R1-Distill-Qwen-32B(双卡并行)

  切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  以下为 DeepSeek R1 Distill Qwen 32B 模型在双卡昇腾 910B 上的推理性能数据对比:

  切换到 6 模型对比,重复选择 vLLM Ascend 运行的模型测试 6 并发请求;

  以下为 Qwen3 32B 模型在双卡昇腾 910B 上的推理性能数据对比:

  以单卡部署的 DeepSeek R1 7B 和 Qwen3 14B 为例,vLLM 在 TTFT(首 token 延迟)方面普遍低于 MindIE,部分模型在吞吐上也略有提升,显示出其在延迟敏感型应用中具有一定优势。

  在多并发测试中,vLLM 能够在保持较低延迟的同时实现与 MindIE 相当甚至略高的吞吐表现,说明其在并发请求调度和资源利用方面具备一定优势。

  在双卡部署的多种模型测试中,MindIE 在吞吐率方面显著优于 vLLM,TPOT 延迟也表现更优。这一差距主要源于 MindIE 对图模式和融合算子的优化支持,而当前 vLLM Ascend 仍处于单算子模式,尚未充分释放多卡性能。随着社区计划发布 vLLM Ascend 0.9,该瓶颈有望得到改善。

  vLLM 目前更适用于单卡可运行的小型模型、延迟敏感和交互式应用场景;而 MindIE 更适合追求吞吐效率的大模型多卡部署。实际选型应结合业务需求、资源条件和生态支持情况综合判断。

  ,尽管在多卡并行等场景下仍存在一定差距,但其作为开源项目的发展潜力不可忽视。伴随社区与厂商的持续协作,

  易用性、可维护性、社区活跃度,以及对新的模型、新的加速技术的支持能力,都是构建国产 AI 推理生态不可或缺的要素

  。vLLM Ascend 正是这样一个探索的开端,也为更多开发者提供了参与昇腾生态建设的可能。

  在本次测试过程中,为了更高效地在昇腾硬件上部署 vLLM Ascend 和 MindIE 推理服务,作者采用了开源模型服务平台 GPUStack。该平台已适配昇腾、海光等多种国产 GPU 架构,有效简化了 vLLM Ascend 和 MindIE 的部署和配置流程,显著减少了环境配置的时间成本,使测试工作得以专注于模型本身的表现与分析。

  ,GPUStack 的定位在于为模型推理、微调等场景和硬件适配之间提供稳定中间层。目前已有摩尔线程、天数智芯、寒武纪等厂商基于该平台进行了适配。未来,

  期待有更多国产 GPU 厂商加入,共同推动更统一、更高效的开源 AI 基础设施。

  。从 MindIE 到 vLLM,从底层驱动到模型服务平台,每一个环节的开源努力,都是对自主可控技术路线的真实推动。

  未来,我们期待更多项目以开放的姿态汇聚在一起,共同构建真正具备竞争力的国产 AI 基础设施体系。

搜索