DeepSeek团队中的部分清华人(转载)

在过去的一周,来自杭州的初创公司“深度搜索”推出的一系列AI大模型引发了国内外科技界的广泛关注和震撼。DeepSeek的核心开发团队中不乏清华大学的校友,我们作了初步搜索,本文所有资料均来源于公开网络,并经过仔细查证。我们特别强调,DeepSeek的成就是集体的胜利,本文仅作为资料的收集与整理。

DeepSeek-V2涉及到一个关键算法GRPO。DeepSeek-Math问世,其中提出了GRPO(Group Relative Policy Optimization)。GRPO是PPO的一种变体RL算法,放弃了critic模型,而是从群体得分中估算baseline,显著减少了训练资源的需求。该论文有三个共同第一作者,其中排第一位的是邵智宏,其介绍如下:

邵智宏,清华大学计算机系交互式人工智能课题组博士,导师为黄民烈教授。曾在微软研究院工作。加入DeepSeek后参与了 DeepSeek-Prover、DeepSeek-Coder-v2 等多个重要项目,也是DeepSeek R1的核心作者。

此外还有:

赵成钢,分别于2021、2024年获清华大学计算机系学士、硕士学位。他曾在衡水中学信息学竞赛班深造,并在CCF NOI(全国青少年信息学奥林匹克竞赛)2016中获得银牌。进入清华大学后,他大二时便加入了清华学生超算团队,并三次助力团队夺得世界大学生超算竞赛冠军。在DeepSeek,赵成钢担任训练/推理基础架构工程师的角色。值得一提的是,他曾在英伟达北京公司实习长达八个月,这段经历无疑为他在DeepSeek的工作奠定了坚实的基础。

2025年1月22日,DeepSeek在预印本平台发布了推理模型DeepSeek-R1的论文,题为“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”(DeepSeek-R1:通过强化学习激励大模型的推理能力),有18位核心贡献者(Core Contributors),其中4位来自清华,在高校中并列第一。他们是邵智宏、苟志斌、吴作凡和马仕镕(排名不分先后)。除了上面已介绍的邵智宏,其他多位团队成员如下(不仅仅是DeepSeek R1的贡献者):

苟志斌(音),清华大学信息科学与工程研究所三年级硕士生,他优化了DeepSeek-R1的强化学习框架,降低了训练能耗,积极推动开源生态建设。是DeepSeek-R1算法的核心作者之一。

吴作凡(部分网络资料称其为中山大学博士生,但未查到),2021年清华大学交叉信息学院(姚班)学士,高中毕业自安徽师大附中,曾获第28届国际信息学奥林匹克竞赛(IOI2016)的金牌。他是DeepSeek-R1算法的核心作者之一。

任之洲(部分网络资料误称其为中山大学博士生,实为美国伊利诺伊大学香槟分校博士),2020年清华大学交叉信息学院(姚班)学士,高中毕业于绍兴一中,曾获第28届国际信息学奥林匹克竞赛(IOI2016)的金牌。中学期间还曾获得NOIP普及组一等奖、NOIP提高组一等奖、NOI2014金牌等大量荣誉。

马仕镕,2021年清华大学计算机系学士,后就读于清华大学深圳国际研究生院。他是DeepSeek-R1算法的核心作者之一。阿里巴巴达摩院暑期实习生。主要研究方向为NLP,具体包括文本纠错、文本生成等,在EMNLP、ICASSP等NLP相关会议上发表若干篇文章,在CCL等国际和国内NLP算法竞赛上多次获奖。

“半个清华人”:郭达雅,2023年从中山大学博士毕业。博士期间在清华大学联合培养。在NeurIPS、ICLR、AAAI、ACL、EMNLP等顶会发表了多篇论文,2021年入围全球AI华人新星百强,2020年还获得微软学者称号。

不完全统计其他还有:

解振达(音),2023年清华大学高等研究院博士。

游凯超,2020年清华大学软件学院学士,现清华大学博士生,vLLM的核心贡献者。

还没有评论,发表第一个评论吧推荐阅读

站务

全部专栏