开云体育

清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行开云APP下载

2025-06-10
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!清华大学开源项目突破大模型算力瓶颈:RTX 4090 单卡实现 DeepSeek-R1 满血运行

  感谢IT之家网友小星_14地板轰鸣有鲫雪狐的线 日消息,现阶段用户使用 DeepSeek-R1 的主要途径无外乎云服务及“本地部署”,但官网服务器频频宕机、个人部署多为参数量缩水 90% 的蒸馏版。因此,一般用户要想在普通硬件上运行起真正的 DeepSeek-R1 满血版可以说很难很难,而租赁服务器的成本就算是开发者也倍感压力。

  团队与趋境科技联合发布 KTransformers(IT之家注:发音为 Quick Transformers)开源项目本周宣布迎来重大更新,成功破解千亿级大模型本地部署难题,突破标志着大模型推理从“云端垄断”走向“普惠化”的重要一步。

  如图所示,KTransformers团队于 2 月 10 日成功在 24 GB 显存 + 382GB 内存的 PC 上实现本地运行 DeepSeek-R1、V3 的 671B 满血版,速度提高 3~28 倍。

  据官方介绍,KTransformers 是一个灵活的、以 Python 为中心的框架,其设计核心是可扩展性、通过用一行代码实现和注入一个优化模块,用户就能访问兼容 Transformers 的界面、符合 OpenAI 和 Ollama 标准的 RESTful API,甚至是类似 ChatGPT 的简化网页用户界面。

  该技术首次支持在单张 24GB 显存的消费级显卡(如 RTX 4090D)上运行 DeepSeek-R1 / V3 的 671B 参数满血版,预处理速度最高达 286 tokens/s,推理生成速度达 14 tokens/s,彻底改写了 AI 大模型依赖昂贵云服务器的历史格局。

  DeepSeek-R1 基于混合专家(MoE)架构,其核心是将任务分配给不同专家模块,每次推理仅激活部分参数。团队创新性地将非共享稀疏矩阵卸载至 CPU 内存处理,结合高速算子优化,显存需求从传统 8 卡 A100 的 320GB 压缩至单卡 24GB。

  此外,他们通过减少 CPU / GPU 通信断点,实现单次解码仅需一次完整的 CUDA Graph 调用,生成速度优化至 14 tokens/s,功耗仅 80W,整机成本约 2 万元,仅为传统 8 卡 A100 方案的 2%。

  必须要说明的是,KTransformers 并非一个单纯的推理框架,也不限于 DeepSeek 模型,它可以兼容各式各样的 MoE 模型和算子,能够集成各种各样的算子,做各种组合的测试,同时还提供了 Windows、Linux 的平台的支持,感兴趣的用户可自行尝试。

  当然,要想使用 KTransformers也有一点硬性条件,而不是说只要有一张 RTX 4090 就能无障碍运行。先决条件要保证:

搜索