开云体育
DeepSeek研究框架(2025)的开云体育官方介绍docx
《计算机行业点评报告:DeepSeek搅动了全球AI的“一池春水”(推荐)*计算机*刘熹》——2025-02-03
《美国对华AI限制加剧,自主可控大势所趋——AI算力“卖水人”系列(4)(推荐)*计算机*刘熹》——2025-01-24
《计算机行业事件点评:我国中部最大智算中心投产,国产算力景气上行(推荐)*计算机*刘熹》——2025-01-14
DeepSeek代表中国力量引领了全球AI创新,给全球AI格局带来了新变化,极大的提振了国内AI产业信心,并给全球AI工作者提供了新的技术路径,看好由DeepSeek发布带来的AI全产业、尤其是国内AI全产业机遇,包括AI应用、端侧AI、算力等方向。
DeepSeek(深度求索)成立于2023年7月,由量化资管公司幻方量化创立,DeepSeek专注于开发先进的大语言模型(LLM)和相关技术。2024年1月5日,发布第一个大模型DeepSeekLLM;12月26日,上线并同步开源,DeepSeek-V3采用FP8训练,性能对其世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet。2025年1月20日,发布DeepSeek-R1,DeepSeek-R1在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。DeepSeek-R1推出后广受关注,据Appfigures、SensorTower报告,1月26日以来,深度求索(DeepSeek)发布的DeepSeekAI智能助手爆火,在全球140个市场的应用商店下载榜上排名第一。
DeepSeekV3和R1模型基于Transformer架构,采用了MLA和DeepSeekMoE两大核心技术,引入了多令牌预测、FP8混合精度训练等创新技术,显著提升了模型的训练效率和推理性能。DeepSeek创始人梁文锋表示“V2模型没有海外回来的人,都是本土的”。DeepSeek代表中国本土AI大模型,也代表开源AI走在了全球AI市场的前列。
1)DeepSeek成为了全球AI的一条“鲶鱼”。DeepSeek发布或导致全球AI格局变化,中美AI形势生变,全球AI被“鲶鱼”激活。预计美系AI会不断反应,全球AI模型迭代和发布频率将提速,投入继续加大。自1月20日DeepSeek-R1发布以来,OpenAI连续发布了Agent
2)DeepSeek驱动国产AI估值重塑。我们认为:长期以来,算力和技术是制约国内AI估值的主要因素,DeepSeek在国内AI芯片受限的环境里,通过本土AI团队,探索出一条“算法创新+有限算力”的新路径,极大地提振了国内AI产业信心。DeepSeek-R1的推出或同时打破了抑制国产AI产业的技术和算力这两项天花板,将驱动国产AI软件硬件迎估值重塑。
3)DeepSeek是开源AI的“ChatGPT时刻”。OpenAICEO首次承认OpenAI的闭源策略“站在了历史错误的一边”。DeepSeek-R1开源将会吸引更多人参与到大模型研发中,并通过蒸馏等技术显著提升推理AI、小模型的性能,将大幅加速全球AI创新,加速AI推理进程,普惠AI、AI平权将驱动DeepSeek迅速推广,近期全球CSP大厂密集上架DeepSeek能力也验证了这点,我们预计KillerAPP的诞生或将临近。
uDeepSeek推动AGI时代到来,关注AI应用、端侧AI、算力三大主线)AI应用:DeepSeek的创新带来成本极致优化,带来AI普惠、AI平权,将加速AI应用的创新,国内AI应用将受益于DeepSeek实现能力显著提升,应用上游的模型API的价格下降也将驱动应用厂商的商业模式快速成熟。
2)AI端侧:DeepSeek支持用户进行“模型蒸馏”,并通过DeepSeek-R1的输出,蒸馏了6个小模型开源给社区。端侧AI能力过去受限于端侧AI计算影响,DeepSeek将显著提升端侧小模型的能力,进而提升AI终端能力。
3)算力:DeepSeekV3论文中557.6万美元成本,导致市场对算力需求产生了疑虑。当前,我们看好DeepSeek驱动的AI应用渗透加速所带来的算力总量的需求提升。根据杰文斯悖论(JevonsParadox):该悖论指出当我们希望通过技术进步来提高资源效率时,可能会导致资源的消耗增加。比如说,当引入节能电器和照明时,消费者通常会使用更多的电力。当车辆燃油效率提高时,消费者倾向于驾驶更多车辆或选择更大的车辆,从而消耗了更多的资源。我们预计DeepSeek带来的大模型推理成本的优化,将加速AI的普及推广,和下游应用的商业模式构建,并推动AI算力进入由终端用户需求驱动的长增长周期。此外,DeepSeek针对有限算力的技术创新也降低了大模型训练门槛,驱动训练需求增长。
DeepSeek-R1代表中国力量引领了全球AI产业创新,或将提振AI产业信心,推动AI应用、AI端侧创新加速,并将利好AI算力需求实现长期增长,维持计算机行业“推荐”评级。
1)AI应用:科大讯飞、金山办公、万兴科技、虹软科技、新开普、鼎捷数智、三六零、云从科技、拓尔思、第四范式、福昕软件、合合信息、光云科技、明源云、卫宁健康、万达信息、同花顺、恒生电子、金证股份、用友网络、金蝶国际、泛微网络、焦点科技、新致软件、中科星图。
2)端侧AI:恒玄科技、软通动力、中科蓝汛、乐鑫科技、中科创达、云天励飞。
3)算力:海光信息、寒武纪、中科曙光、华勤技术、浪潮信息、紫光股份、中国长城、英维克、飞荣达、曙光数创、润泽科技、网宿科技、云赛智联、软通动力、中国软件国际、华丰科技、欧陆通、沃尔核材、并行科技、光环新网、神州数码、中际旭创、新易盛、数据港、电科数字、恒为科技等。
u风险提示:大模型产业发展不及预期、中美博弈加剧、宏观经济影响下游需求、市场竞争加剧、相关标的公司业绩不及预期等。
1.2、DeepSeek母公司幻方量化,早期确立AI战略为后续出圈埋下伏笔
1.3、DeepSeek重视年轻团队且兼具深厚技术底蕴,薪酬对标字节跳动研发岗1.4、DeepSeek产品家族全梳理
1.5、DeepSeek日活远超同期ChatGPT,下载量霸榜全球140个市场移动应用榜首1.6、DeepSeek获得海内外市场认可,中国AI产业首次步入引领位置
2.3、开源大模型:打破OpenAI等闭源模型生态,提升世界对中国AI大模型认知2.4、DeepSeekR1Zero核心创新点——RL(强化学习)替代SFT(有监督微调)2.5、DeepSeekR1:高质量冷启动数据+多阶段训练,将强推理能力泛化
3.1、DeepSeek打开低成本推理模型边界,加速AI应用布局进程3.2、DeepSeekR1蒸馏赋予小模型高性能,端侧AI迎来奇点时刻
DeepSeek是一家于2023年成立的中国初创企业,创始人是AI驱动量化对冲基金幻方量化的掌门人梁文锋。从股权结构图显示,DeepSeek由四名自然人通过五层控股掌握100%股份(其中梁文锋间接持股比例83.29%,直接持股1%,累计84.2945%)。
创始人梁文锋出生于广东湛江,浙江大学毕业,拥有信息与电子工程学系本科和硕士学位,2008年起开始带领团队使用机器学习等技术探索全自动量化交易,2015年幻方量化正式成立。2021年,幻方量化的资产管理规模突破千亿大关,跻身国内量化私募领域的“四大天王”之列。2023年梁文锋宣布正式进军通用人工智能领域,创办DeepSeek,专注于做真正人类级别的人工智能。
1.2、DeepSeek母公司幻方量化,早期确立AI战略为后续出圈埋下伏笔
母公司幻方量化确立以AI为发展方向。2016年,幻方量化第一个由深度学习算法模型生成的股票仓位上线实盘交易,使用GPU进行计算。随后不久,该公司明确宣布AI为主要发展方向。
量化投资全面AI化驱动囤卡需求,为后续蜕变埋下伏笔。复杂的模型计算需求使得单机训练遭遇算力瓶颈,训练需求和有限的计算资源产生矛盾,幻方需要解决算力受限难题。于是幻方在2019年成立了一家AI基础研究公司,并推出自研的“萤火一号”AI集群,搭载500块显卡。2021年,幻方又斥资10亿元建设“萤火二号”,为AI研究提供算力支持。幻方在构建AI算力过程中的“囤卡”动作为它赢得了市场机会。作为国内早期的英伟达芯片大买家之一,2022年其用于科研支持的闲时算力高达1533万GPU时,大大超越了后来很多大模型公司。
资料来源:公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明8
1.3、DeepSeek重视年轻团队且兼具深厚技术底蕴,薪酬水平对标字节跳动研发岗
团队以年轻化为主,具备深厚技术底蕴。创始人梁文锋曾在36氪的采访中,给出了DeepSeek的员工画像:“都是一些Top高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人。自2023年5月诞生以来,DeepSeek始终维持约150人的精英团队,推行无职级界限、高度扁平化的文化,以此激发研究灵感,高效调配资源。早在2022年,幻方量化便着手为DeepSeek筹建AI团队,至2023年5月DeepSeek正式成立时,团队已汇聚近百名卓越工程师。如今,即便不计杭州的基础设施团队,北京团队亦拥有百名工程师。技术报告的致谢栏揭示,参与DeepSeekV3研发的工程师阵容,已壮大至139人。
团队薪酬水平对标字节跳动研发岗位,且不限制人才的算力使用。据36氪资料显示,DeepSeek薪酬水平对标的字节研发,“根据人才能拿到的字节offer,再往上加价”;同时只要梁文锋判断技术提案有潜力,DeepSeek给人才的算力,“不限”。
有搜索、推荐、广告等业务数据的处理经验;有规模中文网页数据收集和清洗经验者优先
500元/天,4天一周,6个月;非北京地区学生来京实习有租房补助3000元/月
资料来源:华尔街见闻,国海证券研究所请务必阅读报告附注中的风险提示和免责声明9
代码大模型,提供了236B和16B两种版本。DeepSeekCoderV2的API服务也同步上线元/百万输出」。
首款通用大语言模型,且同步开源了7B和67B两种不同规模的模型,甚至将模型训练过程中产生的9个checkpoints也一并公开,
Meta的同级别模型LLaMA270B,并在近20个中英文的公开评测榜单上表现更佳。
多模态AI技术上的初步尝试,尺寸为7B与1.3B,模型和技术论文同步开源。
通用MoE大模型的开源发布,DeepSeek-V2使用了MLA(多头潜在注意力机制),将模型的显存占用率降低至传统MHA的5%-13%
Chat模型聚焦通用对话能力,Code模型聚焦代码处理能力合二为一,更好的对齐了人类偏好,
DeepSeekV2系列收官之作,全面提升了包括数学、代码、写作、角色扮演等在
2024年12月26日DeepSeek-V3开源发布,训练成本估算只有550万美金性能上全面对标海外领军闭源模型,生成速度也大幅提升。
2024年8月16日DeepSeek-Prover-数学定理证明模型在高中和大学数学定理证明测试中均超越了多款知名的开源模型。
发布并开源,开放了思维链输出功能,将模型开源License统一变更为MIT许可证,并明确用户协议允许“模型蒸馏”。
文生3D模型,可从一句话生成高质量的三维模型,实现了AIGC从2D平面到3D立体空间的跨越。
型27B三种尺寸,在各项指标上极具优势。2025年1月27日DeepSeekJanus-Pro开源发布的多模态模型。
开源了国内首个MoE(混合专家架构)大模型DeepSeekMoE:全新架构,支持中英,免费商用,在2B、16B、145B等多个尺度上均领先
资料来源:公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明10
1.4.1、DeepSeekV3性能位居全球领先水平,代码/数学/中文能力测试表现优异
在具体的测试集上,DeepSeek-V3在知识类任务上接近当前表现最好的模型Claude-3.5-Sonnet-1022;长文本/代码/数学/中文能力上均处于世界一流模型位置。
资料来源:DeepSeek官方公众号请务必阅读报告附注中的风险提示和免责声明11
DeepSeek-R1性能比较OpenAI-o1。DeepSeek-R1在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAIo1正式版。DeepSeekR1同步登录DeepSeek官网或官方App。网页或者app端打开“深度思考”模式,即可调用最新版DeepSeek-R1完成各类推理任务。
开放的许可证和用户协议。DeepSeek在发布并开源R1的同时,同步在协议授权层面也进行了如下调整:1)模型开源License统一使用MIT,开源仓库(包括模型权重)统一采用标准化、宽松的MITLicense,完全开源,不限制商用,无需申请。2)产品协议明确可“模型蒸馏”;为了进一步促进技术的开源和共享,支持用户进行“模型蒸馏”,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
资料来源:DeepSeek官方公众号请务必阅读报告附注中的风险提示和免责声明12
DeepSeekV3模型定价:随着性能更强、速度更快的DeepSeek-V3更新上线,模型API服务定价也将调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元。
资料来源:DeepSeek官方公众号请务必阅读报告附注中的风险提示和免责声明13
1.5、DeepSeek日活远超同期ChatGPT,下载量霸榜全球140个市场移动应用榜首
DeepSeek远超同期ChatGPT,AI格局或迎来重塑。2025年1月15日,DeepSeek官方App正式发布,并在iOS/Android各大应用市场全面上线。数据显示,DeepSeek在上线万的成就,相较之下,同期ChatGPT则耗费244天才实现相同日活。DeepSeek在发布的前18天内累计下载量达到1600万次,峰值日下载量高达500万次,几乎是ChatGPT同期900万次下载量的两倍。此外,DeepSeek在全球140个市场中的移动应用下载量排行榜上位居榜首。
资料来源:公司官网,苹果APPStore,SensorTower请务必阅读报告附注中的风险提示和免责声明14
1.6、DeepSeek获得海内外市场认可,中国AI产业首次步入引领位置
英伟达表示,DeepSeek为推理、数学和编码等任务提供了“最先进的推理能力”“高推理效率”以及“领先的准确性”。
Meta首席AI科学家YannLecun表示“DeepSeek-R1面世与其说意味着中国公司在AI领域正在超越美国公司,不如说意味着开源大模型正在超越闭源。”
OpenAI首席执行官SamAltman首次承认OpenAI的闭源策略“站在了历史错误的一边”。
微软COE纳德拉表示,公司的DeepSeekR1模型展现了真正的创新力。
国内黑神话制作人悟空冯冀表示,DeepSeek可能是个国运级别的科技成果。
1.7、微软/英伟达/亚马逊/腾讯/华为等一众科技巨头拥抱DeepSeek
微软、英伟达、亚马逊、英特尔、AMD等科技巨头陆续上线DeepSeek模型服务。
6)腾讯:DeepSeek-R1大模型可一键部署至腾讯云‘HAI’上,开发者仅需3分钟就能接入调用。
使用低秩联合压缩方法减少注意力计算的缓存需求,同时保持多头注意力的性能。
2、自我演化与顿悟时刻:模型通过RL自动学习复杂的推理行为,如自我验证和反思。随着训练过程的深入,模型逐步提升了复杂任务的解答能力,并在推理任务上显现突破性的性能提升。
1、冷启动数据引入:从零开始的RL容易导致初期性能不稳定,为此设计了包含高质量推理链的冷启动数据集。该数据提高了模型的可读性和训练初期的稳定性。
2、推理导向的强化学习:通过多轮RL,进一步优化模型在数学、编程等推理密集型任务中的表现。
3、监督微调与拒绝采样:使用RL检查点生成额外的推理和非推理任务数据,进一步微调模型。
4、全场景强化学习:在最终阶段结合多种奖励信号,提升模型的有用性和安全性。
活37B参数。DeepSeek基本架构包括MLA(多头潜在注意力机制)及DeepSeekMoE,以及创新性提出MTP(多tokens预测)的训练目标,同时与此前的V2模型对比,V3还引入了无辅助损失的负载均衡。
预训练阶段V3基于14.8万亿高质量tokens上进行,后训练阶段通过有监督微调+强化学习实现。在与同类模型性能对比上,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。
MLA从传统的MHA(多头注意力机制)出发,MHA是通过运行多个注意力头来捕捉输入序列中不同方面的关联,提高模型自然语言处理任务上的性能。在训练过程中,MHA会将输入数据生成键、值和查询向量,对于每个头,都执行一次ScaledDot-ProductAttention(缩放点积注意力)运算,最后,所有头的输出会被拼接(concatenate)在一起,然后再通过一个线性层进行融合,得到最终的注意力输出向量。通过这种方式,多头注意力能够并行地从不同的角度对输入序列进行注意力处理,提高了模型理解和捕捉复杂依赖关系的能力。在实践中,多头注意力能显著提升Transformer模型在自然语言处理和其他序列数据处理任务上的性能。
处理长序列时MHA会面临计算和内存效率上的局限性,MLA显著降低计算及内存占用问题。MLA的核心思想则是使用低秩分解(LoRA)来近似Key和Value的投影,以在推理期间减少键值缓存(KVcache),显著降低计算和内存占用的复杂度。
MoE架构:传统MoE架构的主要优势是利用稀疏激活的性质,将大模型拆解成若干功能模块,每次计算仅激活其中一小部分,而保持其余模块不被使用,从而大大降低了模型的计算与学习成本,能够在同等计算量的情况下产生性能优势。
DeepSeekMoE在传统MoE架构之上,更新了两个主要的策略:1)细粒度专家分割:在保持模型参数和计算成本一致的情况下,用更精细的颗粒度对专家进行划分,更精细的专家分割使得激活的专家能够以更灵活和适应性更强的方式进行组合;2)共享专家隔离:采用传统路由策略时,分配给不同专家的token可能需要一些共同的知识或信息,因此多个专家可能会有参数冗余。专门的共享专家致力于捕获和整合不同上下文中的共同知识,有助于构建一个具有更多专业专家且参数更高效的模型。
负载均衡:MoE架构下容易产生每次都由少数几个专家处理所有tokens的情况,而其余大量专家处于闲置状态,此外,若不同专家分布在不同计算设备上,同样会造成计算资源浪费以及模型能力局限;负载均衡则类似一个公平的“裁判”,鼓励专家的选择趋于均衡,避免出现上述专家激活不均衡的现象。DeepSeek在专家级的负载均衡外,提出了设备级的负载均衡,确保了跨设备的负载均衡,大幅提升计算效率,缓解计算瓶颈。
DeepSeekV3采用了FP8混合精度训练框架。在训练过程中,大部分核心计算内核均采用FP8精度实现。例如,在前向传播、激活反向传播和权重反向传播中,输入数据均使用FP8格式,而输出结果则使用BF16或FP32格式。这种设计使得计算速度相较于原始BF16方法提升一倍。
FP8格式是一种低精度的数据格式,具有较小的存储空间和计算开销。通过使用FP8格式,DeepSeek能够在有限的计算资源下,实现更高的计算效率。例如,在处理大规模数据集时,FP8格式可以显著减少显存的占用,从而提高模型的训练速度。
DeepSeek-V3采用了一种名为DualPipe的创新流水线并行策略。与传统的单向流水线B)不同,DualPipe采用双向流水线设计,即同时从流水线的两端馈送micro-batch。这种设计可以显著减少流水线气泡(PipelineBubble),提高GPU利用率。
2.2.5、英伟达PTX:位于CUDA与机器代码之间,实现细粒度控制与性能优化
英伟达PTX(并行线程执行)是专门为其GPU设计的中间指令集架构,位于高级GPU编程语言(如CUDAC/C++或其他语言前端)和低级机器代码(流处理汇编或SASS)之间。PTX是一种接近底层的指令集架构,将GPU呈现为数据并行计算设备,因此能够实现寄存器分配、线程/线程束级别调整等细粒度优化,这些是CUDAC/C++等语言无法实现的。
DeepSeekV3采用定制的PTX(并行线程执行)指令并自动调整通信块大小,这大大减少了L2缓存的使用和对其他SM的干扰。PTX允许对GPU硬件进行细粒度控制,这在特定场景下可以带来更好的性能。
资料来源:新智元,量子位公众号请务必阅读报告附注中的风险提示和免责声明24
2.3、开源大模型:打破OpenAI等闭源模型生态,提升世界对中国AI大模型认知
开源即代码层面开源,可以调用与进行二次开发。开源免费调用有助于先行占据市场份额,成为规则制定者,率先拓展生态粘性。如,谷歌将安卓开源,获得了全球78%的移动端市场份额,覆盖手机、电视、汽车等使用场景。
DeepSeekV3与R1模型实现了开源,采用MIT协议。开源社区具备较高活跃度,DeepSeek的开源模型在GitHub上吸引了大量开发者关注,代码提交次数超过2万次,斯坦福、麻省理工等顶尖学府已将其作为研究工具开源社区。这产生多方面影响:
对大模型发展:这提升了世界对中国AI大模型能力的认知,一定程度打破了OpenAI与Anthropic等高级闭源模型的封闭生态。DeepSeekR1在多个测试指标中对标OpenAIo1,通过模型开源,也将大模型平均水平提升至类OpenAIo1等级。
图:DeepSeekMoE对比传统MoE架构对下游生态:优质的开源模型可更好用于垂类场景,即使用者针对自身需求蒸馏,或用自有数据训练,从而适合具体下游场景;此外,模型训推成本降低,将带来使用场景的普及,带动
资料来源:DeepSeek官网,新浪财经,国海证券研究所请务必阅读报告附注中的风险提示和免责声明25
2.4、DeepSeekR1Zero核心创新点——RL(强化学习)替代SFT(有监督微调)
DeepSeek探索LLM在没有任何监督数据的情况下发力推理能力的潜力,通过纯RL(强化学习)的过程实现自我进化。具体来说,DS使用DeepSeek-V3-Base作为基础模型,并使用GRPO(群体相对策略优化)作为RL框架来提高模型在推理中的性能。在训练过程中,DeepSeek-R1-Zero自然而然地出现了许多强大而有趣的推理行为。
经过数千次RL步骤后,DeepSeek-R1-Zero在推理基准测试中表现出卓越的性能。例如,AIME2024的pass@1分数从15.6%增加到71.0%,在多数投票的情况下,分数进一步提高到86.7%,与OpenAI-o1-0912的性能相当
2.4.1、DeepSeek强化学习核心框架——GRPO(群体相对策略优化)
GRPO相对PPO节省了与策略模型规模相当的价值模型,大幅缩减模型训练成本。
传统强化学习更多使用PPO(近端策略优化),PPO中有3个模型,分别是参考模型(referencemodel)、奖励模型(rewardmodel)、价值模型(valuemodel),参考模型作为稳定参照,与策略模型的输出作对比;奖励模型根据策略模型的输出效果给出量化的奖励值,价值模型则根据对策略模型的每个输出预测未来能获得的累计奖励期望。ppo中的价值模型规模与策略模型相当,由此带来巨大的内存和计算负担。
GRPO(群里相对策略优化)中省略了价值模型,采用基于组的奖励归一化策略,简言之就是策略模型根据输入q得到输出o(1,2,3),再计算各自的奖励值r(1,2,3),而后不经过价值模型,而是制定一组规则,评判组间价值奖励值的相对关系,进而让策略模型以更好的方式输出。
模型训练过程中会迎来顿悟时刻。引用DeepSeek相关论文中的表述,GRPO强化学习框架下,不是人类教模型如何解决问题,而仅仅为其提供正确的激励措施,模型会自主开发高级问题解决策略,模型训练过程中会出现“Ahamoment”,这表示模型意识到了更好的解决办法并重新评估,为问题分配更多思考时间。
这些顿悟时刻是模型思维能力跃升的关键。据DeepSeek的研究,模型的进步并非均匀渐进的。在强化学习过程中,响应长度会出现突然的显著增长,这些跳跃点往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟,暗示着某种深层的认知突破。
图:GRPO相对传统PPO强化学习方式对比u例如模型在解决这个√a-√(a+x)=x的问题时,模型突然
停下来说Wait,wait.Wait.ThatsanahamomentIcanflaghere(等等、等等、这是个值得标记的啊哈时刻),随后重新审视了整个解题过程。这种类似人类顿悟的行为完全是自发产生的,而不是预先设定的。
2.5、DeepSeekR1:高质量冷启动数据+多阶段训练,将强推理能力泛化
纯强化学习后出来的DeepSeekR1zero存在可读性差以及语言混乱等问题,主要因其全通过奖惩信号来优化其行为,没有任何人类示范的标准答案作为参考,因此DeepSeek团队使用冷启动+多阶段训练推出DeepSeekR1模型。
具体训练步骤:1)高质量冷启动数据:与DeepSeekR1zero同理,以DeepSeekv3base作为强化学习的起点,但为了克服可读性差的问题,选择可读性更强的cot(长思维链)数据作为冷启动数据,包括以可读格式收集DeepSeek-R1Zero输出,并通过人工注释者进行后处理来提炼结果。2)面向推理的强化学习,这与DeepSeekR1zero的强化学习过程相同,但是在RL期间引入语言一致性奖励,虽然语言对齐可能会造成一定的性能损失,但是提高了可读性。3)抑制采样和监督微调,拒绝采用指模型训练过程中生成的一些不符合特定标准或质量要求的样本数据进行舍弃,同时选取了v3的SFT数据集一部分作为微调数据。4)全场景强化学习,属于一个二级强化学习阶段,目的是与人类偏好保持一致。
核心观点:DeepSeek在推动降本、强推理三大层面驱动下,有望加速AI应用普及度迎来跨越式提升。
OpenAI上线-mini,加速低成本推理模型边界。2025年2月1日,OpenAI深夜上线-mini系列推理模型,其也是OpenAI系列推理模型中最具性价比的模型。性能方面,o3-mini在数学、编程、科学等领域表现优异,以数学能力为例,o3-mini(low)达到了与o1-mini相当的水平;o3-mini(medium)能力媲美满血版o1;o3-mini(high)表现超越o1系列一众模型。对比DeepSeek-R1在数学能力、编程能力上的测试结果,DeepSeekR1处于OpenAIo3-mini(medium)水平。
DeepSeek价格优势仍大幅领先于OpenAI系列推理模型。DeepSeek定价为百万tokens输入0.014美元(缓存命中,未命中则0.55美元),百万tokens输出价格2.19美元;o3-mini百万tokens输入价格0.55美元(缓存命中,未命中则1.1美元),百万tokens输出价格为4.4美元。
资料来源:DeepSeek官网,OpenAI官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明31
3.1.1、强化学习框架下,代码/教育/医疗等垂直领域有望迎来大规模部署
结合前述的DeepSeekR1在GRPO强化学习框架下的技术创新,在仅有极少标注数据的情况下,DeepSeekR1模型在数学/代码等能力上表现出色,其原因主要为数学、代码领域更容易制定相关的对比规则,可以在不依靠人类标注和给出倾向性答案的前提下,模型自己选出优势解。例如DeepSeek训练R1的时候,奖励模型建模基于准确率+格式奖励。
我们认为数学/代码/教育/医疗等具备标准答案输出领域,低成本模型得到大规模应用或将是必然趋势。据MarketResearchFuture数据显示,2024年中国AI教育市场规模将突破7993亿元。据华经情报网数据,我国AI代码生成市场规模有望从2023年65亿美元迅速增长至2028年的330亿元。根据弗若斯特沙利文的报告,中国的AI医疗市场预计从2023年的88亿元迈向2033年的3157亿元,复合年增长率高达43.1%。
资料来源:36氪,华经情报网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明32
R1-Zero展现出强大的通用推理能力。它不仅在数学竞赛中取得惊人成绩,更重要的是,R1-Zero不仅是在模仿思考,而是真正发展出了某种形式的推理能力。
DeepSeek最终目标:AGI。传统的AI训练方法可能一直在重复于让AI模仿人类的思维方式。通过纯粹的强化学习,AI系统似乎能够发展出更原生的问题解决能力,而不是被限制在预设的解决方案框架内。虽然R1-Zero在输出可读性上存在明显缺陷,但这个缺陷本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法,却难以用常规语言解释一样。这提示我们:真正的通用人工智能可能需要完全不同于人类的认知方式。
资料来源:infoQ,国海证券研究所请务必阅读报告附注中的风险提示和免责声明33
蒸馏法具有强大的潜力,端侧小模型爆发在即。如下表所示,只需提取DeepSeek-R1的输出即可使高效的DeepSeekR1-7B全面优于GPT-4o-0513等非推理模型,DeepSeek-R1-14B在所有评估指标上都超过了QwQ-32BPreview,而DeepSeek-R1-32B和DeepSeek-R1-70B在大多数基准测试中明显超过了o1-mini。此外,我们发现将RL应用于这些蒸馏模型会产生显着的进一步收益。我们认为这值得进一步探索,因此在这里只提供简单的SFT蒸馏模型的结果。
DeepSeek产品协议明确可“模型蒸馏”。DeepSeek决定支持用户进行“模型蒸馏”,已更新线上产品的用户协议,明确允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
资料来源:公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明34
全球端侧AI市场规模预计从2022年的152亿美元增长到2032年的1436亿美元。这一近十倍的增长不仅反映了市场对边缘AI解决方案的迫切需求,也预示着在制造、汽车、消费品等多个行业中,边缘AI技术将发挥越来越重要的作用。
在资源受限的设备上部署性能强大的模型,必须面对内存与计算能力的双重挑战,自2023年起,随着参数量低于10B的模型系列如Meta的LLaMA、Microsoft的Phi系列等的涌现,LLMs在边缘设备上运行的可行性逐步明朗。
资料来源:公司官网,国海证券研究所请务必阅读报告附注中的风险提示和免责声明35
●DeepSeekV3模型训练成本达278.8万H800小时,共花费557.6万美元。对比OpenAI、Anthropic、LlaMA3等模型,DeepSeekV3单次训练成本显著降低,主要系DeepSeek公司通过优化模型结构、模型训练方法、针对性GPU优化等部分,提升了模型训练过程中的算力使用效率。
表:DeepSeekV3训练成本(假设H800租赁价格为2美元/每GPU小时)
模型训练方法Pre-Train针对性GPU优化图:DeepSeekV3节省训练成本的方法,包括调整模型结构、训
请务必阅读报告附注中的风险提示和免责声明37资料来源:DeepSeek论文,国海证券研究所(注:表格为DeepSeekV3官方训练费用,不包含此前对架构、算法、或数据进行研究和实验的相关费用)
●据Semianalysis,DeepSeek大致拥有10000张H800GPU芯片、10000张H100GPU芯片以及大量H20GPU芯片,用于模型训练/推理、研究等任务。其估计,DeepSeek的总服务器资本支出(CapEx)约为13亿美元(约90亿元人民币),其中仅集群运营成本就高达7.15亿美元。
●DeepSeekV3论文中557.6万美元成本,仅为预训练中消耗的GPU计算成本,但模型完整训练成本包括研发、数据清洗、人员薪资、硬件总拥有成本TCO(服务器、电力、冷却系统、数据中心维护)等,会带来训练总成本体量更高。作为对比,Anthropic训练Claude3.5Sonnet的成本就高达数千万美元。
资料来源:Semianalysis,国海证券研究所请务必阅读报告附注中的风险提示和免责声明38
4.2、Jevons悖论:AI计算提效引总需求提升,NVH100租赁价格上涨
●AI的演进路径中,推理成本不断下降,计算效率持续提高是长期趋势。例如:算法进步的速度约为每年4倍,即每年达到相同能力所需的计算量减少到四分之一;AnthropicCEODario甚至认为,这一进步速度可能达到10倍。
●Jevons悖论:技术进步提高了资源使用效率,效率提高降低了资源使用成本,成本下降刺激了资源需求的增长,需求增长可能超过效率提升带来的节约,最终导致资源总消耗增加。
●短期训练侧算力需求或受影响,但DeepSeek推理价格下降吸引更多用户调用模型,带来英伟达H100GPU的租赁价格提升,故表明算力需求量短期仍呈提升趋势,中长期推理算力需求有望持续增长。
表:大模型成本持续下降,效率提升表:V3/R1发布后,AWS多地H100GPU价格上涨,H200也更难获
2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
擅长策划,商业地产住房地产暖场活动美陈圈层活动嘉年华市集生活节文化节团建拓展客户答谢会
第15课钢铁长城【课件】(25张PPT+内嵌视频)部编版历史八年级下学期.pdf
原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者