开云体育
开云APP下载年轻才俊DeepSeek:如何在AI大模型领域颠覆常规?
在人工智能的浪潮中,一支年轻且充满激情的团队正在迅速崛起,他们就是DeepSeek。近期,这个团队发布的DeepSeek-v3大模型,以其仅为Llama3405B模型算力的1/11,却成功超越了前者的表现,令整个AI行业为之震惊。随着DeepSeek-v3的问世,围绕该团队的种种传闻纷至沓来,其中最引人注目的无疑是“雷军愿以千万年薪挖角DeepSeek研究员罗福莉”的神秘消息,这不仅把科技圈推向了焦点,也令整个网络对这个神秘团队充满了好奇。
那么,DeepSeek究竟隐藏了怎样的魅力,以至于引发如此多的关注?深入分析后,你会发现这支团队的最大特色便是年轻与充满活力。团队中,应届生和在读生所占比例相当高,尤其是清华和北大的优质应届生,更是团队的领军人物。在这些年轻面孔中,已经有不少人在学术界崭露头角,比如有成员在DeepSeek研究的同时,其博士论文也荣获了奖项。许多成员从DeepSeek-LLMv1起便参与其中,逐渐发展成为团队的核心力量。
DeepSeek的核心成员,如高华佐与曾旺丁,都是MLA架构的关键创新者。MLA(Multi-head Latent Attention)是DeepSeek-V2中的一项重要创新,大幅降低了计算量与推理显存,为DeepSeek-V2的成功奠定了基础。而曾旺丁则是来自北京邮电大学,其导师是著名的张洪刚教授。
此外,DeepSeek-V2的另一项核心成就GRPO,也引起了业界的广泛关注。GRPO是PPO算法的变种,显著减少了训练资源的需求,背后离不开年轻研究员的辛勤付出。核心作者邵智宏与朱琪豪等人在DeepSeek实习期间便完成了此项工作的研究。邵智宏是清华大学交互式人工智能(CoAI)课题组的博士生,导师为黄民烈教授,其研究聚焦于自然语言处理和深度学习。而朱琪豪则是北大计算机学院的博士,专注于深度代码学习,并发表了多篇影响力论文。
DeepSeek的创始人梁文锋在团队建设中展现了独到的眼光,他强调应重视团队的核心技术岗位,主要由应届生及一两年经验的毕业生填补。这一理念贯穿于DeepSeek的人才招聘与培养过程,吸引并留住了大量年轻才俊。
除了成员年轻化,DeepSeek还具备另一个显著特点,即极其重视模型算法与硬件工程的有机结合。在DeepSeek-v3的科研论文中,竟有多达200位作者参与到这一工程,他们不仅负责AI算法与数据,还在硬件优化与算力提升上贡献良多。这样的软硬件协同设计,使DeepSeek能够以极低的算力实现大模型的高效训练,这背后全凭一批既懂算法又懂工程的年轻人才。
其运作模式令人联想到了AI巨头OpenAI,二者在用人方针和发展策略上有许多相似之处。或许在不久的将来,DeepSeek将成为中国AI公司中,以组织形式最接近OpenAI的代表。返回搜狐,查看更多