DeepSeek满血微调秘籍开源！站在巨人肩膀打造私有模型一手教程在此开云APP下载

开云体育NEWS CENTER

您当前位置：首页 > 开云体育

2025-05-29

浏览次数：次

　　微调DeepSeek-V3/R1，低成本打造高质量私有模型、提高业务竞争力，或许才是当下行业内更迫切的需求。

　　就在刚刚，已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱，它包含：

　　提供灵活的并行策略配置接口，包括数据并行、模型并行、专家并行、ZeRO和Offload等，以适应不同硬件规模。

　　6710亿参数规模的DeepSeek-V3/R1低成本微调，仅需以下几步，即可快速完成。

　　数据集的每一行应为一个聊天对话列表。例如：[{“role”: “user”, “content”: “你好，最近怎么样？”}, {“role”: “assistant”, “content”: “我很好。今天有什么可以帮你的吗？”}]

　　[{“role”: “user”, “content”: “火烧赤壁曹操为何不拨打119求救？”}, {“role”: “assistant”, “content”: “因为在三国时期，还没有电话和现代的消防系统，所以曹操无法拨打119求救。”}]

　　在准备好数据集和模型权重后，可使用Colossal-AI 提供的一键启动脚本。

　　对于资金充裕的开发团队，也可以使用上述脚本，将并行度高效扩展至数百及数千卡，快速完成DeepSeek-V3/R1-671B全参微调或并行加速。

　　对于预算有限，又想借助强化学习构建自己的类DeepSeek-R1模型， Colossal-AI也提供了解决方案，并利用小模型对算法进行了验证。

　　同时，在GRPO章节，Colossal-AI团队还提供了验证过程中的部分发现及各种参数的详细描述，可供参考。

　　代码中设计了可灵活配置奖励函数的模板，因此，用户可根据自己的具体情况设计自己的奖励函数体系。

　　由下图可以看到，即使是3B的模型，平均奖励与模型回复长度随着时间逐步增长。

　　随着训练的进行，我们可以看到一些有意思的例子。例如随着训练迭代，模型开始了自我纠正：

　　Colossal-AI在深耕大模型预训练降本增效的基础上，致力于进一步成为开发者开箱即用的最佳后训练工具，帮助用户基于开源模型，低成本快速构建私有模型。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。