DeepSeek团队中的部分清华人（转载）

guan_15631596462191

02-04 10:47

在过去的一周，来自杭州的初创公司“深度搜索”推出的一系列AI大模型引发了国内外科技界的广泛关注和震撼。DeepSeek的核心开发团队中不乏清华大学的校友，我们作了初步搜索，本文所有资料均来源于公开网络，并经过仔细查证。我们特别强调，DeepSeek的成就是集体的胜利，本文仅作为资料的收集与整理。

DeepSeek-V2涉及到一个关键算法GRPO。DeepSeek-Math问世，其中提出了GRPO（Group Relative Policy Optimization）。GRPO是PPO的一种变体RL算法，放弃了critic模型，而是从群体得分中估算baseline，显著减少了训练资源的需求。该论文有三个共同第一作者，其中排第一位的是邵智宏，其介绍如下：

邵智宏，清华大学计算机系交互式人工智能课题组博士，导师为黄民烈教授。曾在微软研究院工作。加入DeepSeek后参与了 DeepSeek-Prover、DeepSeek-Coder-v2 等多个重要项目，也是DeepSeek R1的核心作者。

此外还有：

赵成钢，分别于2021、2024年获清华大学计算机系学士、硕士学位。他曾在衡水中学信息学竞赛班深造，并在CCF NOI（全国青少年信息学奥林匹克竞赛）2016中获得银牌。进入清华大学后，他大二时便加入了清华学生超算团队，并三次助力团队夺得世界大学生超算竞赛冠军。在DeepSeek，赵成钢担任训练/推理基础架构工程师的角色。值得一提的是，他曾在英伟达北京公司实习长达八个月，这段经历无疑为他在DeepSeek的工作奠定了坚实的基础。

2025年1月22日，DeepSeek在预印本平台发布了推理模型DeepSeek-R1的论文，题为“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”（DeepSeek-R1：通过强化学习激励大模型的推理能力），有18位核心贡献者（Core Contributors），其中4位来自清华，在高校中并列第一。他们是邵智宏、苟志斌、吴作凡和马仕镕（排名不分先后）。除了上面已介绍的邵智宏，其他多位团队成员如下（不仅仅是DeepSeek R1的贡献者）：

苟志斌（音），清华大学信息科学与工程研究所三年级硕士生，他优化了DeepSeek-R1的强化学习框架，降低了训练能耗，积极推动开源生态建设。是DeepSeek-R1算法的核心作者之一。

吴作凡（部分网络资料称其为中山大学博士生，但未查到），2021年清华大学交叉信息学院（姚班）学士，高中毕业自安徽师大附中，曾获第28届国际信息学奥林匹克竞赛（IOI2016）的金牌。他是DeepSeek-R1算法的核心作者之一。

任之洲（部分网络资料误称其为中山大学博士生，实为美国伊利诺伊大学香槟分校博士），2020年清华大学交叉信息学院（姚班）学士，高中毕业于绍兴一中，曾获第28届国际信息学奥林匹克竞赛（IOI2016）的金牌。中学期间还曾获得NOIP普及组一等奖、NOIP提高组一等奖、NOI2014金牌等大量荣誉。

马仕镕，2021年清华大学计算机系学士，后就读于清华大学深圳国际研究生院。他是DeepSeek-R1算法的核心作者之一。阿里巴巴达摩院暑期实习生。主要研究方向为NLP，具体包括文本纠错、文本生成等，在EMNLP、ICASSP等NLP相关会议上发表若干篇文章，在CCL等国际和国内NLP算法竞赛上多次获奖。

“半个清华人”：郭达雅，2023年从中山大学博士毕业。博士期间在清华大学联合培养。在NeurIPS、ICLR、AAAI、ACL、EMNLP等顶会发表了多篇论文，2021年入围全球AI华人新星百强，2020年还获得微软学者称号。

不完全统计其他还有：

解振达（音），2023年清华大学高等研究院博士。

游凯超，2020年清华大学软件学院学士，现清华大学博士生，vLLM的核心贡献者。

还没有评论，发表第一个评论吧推荐阅读

国际科技教育举报

guan_15631596462191

22篇文章 | 45人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

DeepSeek团队中的部分清华人（转载）

guan_15631596462191

guan_15631596462191

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏