GitHub持续爆料华为盘古大模型开发乱象,华为诺亚方舟实验室到底出了什么问题?

​Github链接: https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317

评论1:

实名,身份说明后置。

王云鹤在2月底确认将要就职诺亚主任后决定离职。我离职时,王云鹤应当已经完成了实验室的权力整合,报告发布时已经出走了多名原“四纵”技术核心,我认为王云鹤本人应对报告的真实性问题负领导责任。

看到报告时我的真实想法:我亲眼看着训的好好的模型,怎么测出来这么脑残的分的?我能接受分低,接受不了脑残!两篇报告都没我的署名真是太谢谢了。

身份说明:清华大学计算机系2024届博士,前诺亚方舟实验室AI系统工程天才少年曹焕琦。2025年3月离职,在诺亚期间主要支撑“四纵”的MoE模型训练infra,也参与了135Bv3的预训练看护。系统工程的地位比较独立,同时需要支撑双方的模型训练和推理,我出于个人审美和道德要求选择主要对接“四纵”。

不是,这么中二的名字你们喊口号的时候真的不想笑吗,可能我确实不够符合吹哨兄弟这样的天生华为人吧

评论2:

作为已经离职但曾参与过135Bv3的人,来回答一下这个问题吧。

当时四野领导在清明前突然说要尽快发布135B report,其实是担心r2和qwen3可能快发布了。所以很多同事假期疯狂赶report。等report发布后,团队成员很快就接收到关于预训练评测指标不正常的反馈。

团队成员立刻进行了定位,发现135 report的预训练评测问题主要是两个:1 部分测试集只测了100条的子集。因为团队平时为了快速评测,构建了一个小的综合测试集,从常用的测试集里面各采样了100条。写report时间紧急,错误的把子集结果放到了论文里面,这也是为什么论文的结果里会有很多小数点为0的情况。2 部分测试集由于评测方式没对齐,结果不可比。比如race这种选择题类型的测试集,之前的开源评测是根据每个选项的补全ppl来选择正确答案,135是把所有选项都放到prompt里面,让模型从ABCD选正确答案,这种评测方式分数会高非常多,最多会差40多分。我们错误的直接拿了其他模型的论文结果来做对比,而不是跟deepseek v3一样把所有模型都按同样的方式重做一遍评测。

当团队成员在重新做了公平的评测准备更新report的时候,却遭到某四野领导极力反对,他怕引起进一步的舆论。后续团队成员收到更多关于评测结果的反馈,再次要求更新report,再次被该领导否决。

总之四野已经是一个官僚组织了,135Bv3的作者里很多是完全没参与这个项目的,很多付出了心血的同事却不能署名。因为哪些人可以署名也是需要四野领导评审和决策的。论文更新也是如此。已经完全背离学术道德和规范了。

最后再解释一下:如果想造假,不会造的这么拙劣,搞大模型的人一眼就可以看出这个表不正常。如果想造假,也不会让Drop比对比模型低20多分。可以说我们菜,我们赶工,但绝对没有造假意图。

还有这篇“讨贼王云鹤檄文”的Github链接:https://github.com/knemik97/Manifesto-against-the-Plagiarist-Yunhe-Wang

王云鹤,1991年生于黑龙江。2018年博士毕业进入华为,经历不到7年时间,于2025年2月中旬,从小模型实验室主任任上,正式顶替姚骏,被任命为诺亚方舟实验室主任(这一位置的前任包括大家耳熟能详的杨强、李航等,王云鹤可谓德不配位),摇身一变成为了原本对手团队的直接领导,为其直接“抢果子”而非“赛马”提供了直接方便。

在此之后,他可以名正言顺地领导Infra团队人力(主要来自AI系统组),并要走所有的数据、核心代码,和本就稀少的计算资源,用来实验他的“套壳核心技术秘密”、“水印去除技术”。

在他上来之前,大家可能都没怎么听说华为大模型有什么动静吧。现在,王云鹤就是诺亚方舟实验室的主任。这也是近期各大媒体,包括 机器之心、新智元和量子位上每天都能头条看到华为消息的主要原因(这三大公众号的头条,价格不菲)。这个人的知乎、小红书等社交媒体,都是实名,因为他是一个极其喜欢宣传的人。

因此,很多声音认为其所谓的“内斗”在大厂是再正常不过的一件事,这件事也不例外。我窃以为是完全不正确的。我知道很多人不齿华为国产化的路线,认为其是“行业百草枯”,但我们可以从大的角度看一下这个问题。

华为诺亚方舟实验室下的大模型团队,大部分是才华横溢的香港、985和海归博士,以及部分动手能力极强的硕士。进入大模型时代,其核心使命除了训好各类的语言、多模态理解和生成模型之外,还肩负着硬件国产化的使命,其团队全部的语言模型训练,都有严格的“只用昇腾”的规定。这一规定,从公司的角度讲,是希望纯昇腾训练模型的效果能被大众认可。然而,王云鹤及其团队不但技术水平低下,且极为急功近利,无视国产化使命,无组织无纪律,在项目的大部分时间公然使用英伟达的芯片训练模型。

搞过算法,接触过AI模型训练的人都知道,昇腾芯片环境需要大量的配置,唐睿明、尚利峰团队——“真正的盘古团队”,从2023年初开始踩坑,排查并升级了mindspore, 昇腾芯片等一系列国产化软硬件协同时的问题。他们的同学、朋友此时可能因为使用非国产化芯片而快速积累认知,快速成长,从而在人才稀缺的大模型市场有了很多更好的待遇和机会。但他们却选择沉下心来,陪伴昇腾、陪伴PanGu一整套小米加步枪的训练基建,一起成长,只为了搞好自己的大模型,无论从哪一个角度讲,无论,这都是对国产化,对自主可控模型训练功不可没的贡献。

在其他团队在项目开始阶段频频踩坑时,王云鹤充耳不闻。在其他团队有些成果的时候,王云鹤闻味而来,企图先用“词表巧换技”占据先机。在某天才少年向姚骏(时任诺亚方舟实验室主任)指出王云鹤的小模型实验室开始套壳的时候,王云鹤对他说“你不愿意在这待着你就滚”。在王云鹤彻底成为诺亚方舟实验室主任的时候,他野心毕露,开始疯狂宣传其“小模型实验室训练出的超级大模型”,向领导邀功,向诚实的AI学术研究人员们秀其敝帚。

此外,在学术界,王云鹤抱着Dacheng Tao的大腿劣币驱逐良币,操纵NeurIPS论文审稿使其“水货”文章被录用。并主导引进了Fisher Yu这一劣迹斑斑、PUA女学生致死的所谓计算机科学家来诺亚当吉祥物。矛盾的是,却极为喜欢用论文来“秀肌肉”,被其发论文的Pangu Ultra MoE模型,其中的核心算法技术全部来自于唐睿明、尚利峰团队,但是测试却使用了套壳的模型,导致指标“几乎和DeepSeek一模一样”,完全是“彼之金玉,装吾之敝帚”。

王云鹤,就是诺亚方舟实验室里的祁同伟,他因为给人家捻发票捻得好手眼通天,有恃无恐。村里的野狗,都能被他拉来当警犬。这完全是一起有组织、有预谋的窃取“真正的盘古团队”的胜利果实行为。

王云鹤此刻在内网,仍不认罪,且拒绝正面回答一切问题,并称其“独特的训练技巧”经过了领导的决策。他对上没有担当,同时仰仗其他团队的成果却毫无尊重。另外,值得注意的是,他在内网完全否认718B存在强行赛马的事实,也不正面回应套壳,即“不存在两个718B”。

社区要警惕王云鹤,是因为他还在压榨原四纵的残余力量,加班加点地训练完一个真正的718B。虽然这一模型没有战胜套壳导致了唐睿明、尚利峰团队赛马失败,但是王云鹤还在把他当“胜负手”,当作自己可以摇身一变重回“白莲花”的一技“还我漂漂拳”。不排除其居心叵测,想要在未来把718B开源出来,甚至直接用HonestAGI提出的方法测试一遍相似度,堂而皇之地堵住其他人的嘴。当然,这一模型的原生表现应该较差,不会和报告中一致,王云鹤肯定会祭出祖传的“测试集训练术”。倘若真有那一天,希望有条件跑起来的大厂、各实验室,可以尝试考验模型对测试集的熟悉程度。看看我们这位考生,是不是背熟了高考卷子,来到了学术诚信这一严肃无比的考场!

据不完全统计,经王云鹤此举,受影响而离开华为的大模型预训练、后训练核心人员超过40人,其中天才少年若干,17, 18级干部不计其数。另外,AI圈的其他研究者们看到华为的内部乱象,是否还愿意把青春献给中国芯片上的大模型,我要打一个问号。如今很多国企都有昇腾的订单,如果他们的前方只剩王云鹤这样的人替他们积累训练经验,中国的AI发展又会倒退多少年?

身在华为,王云鹤今天造假的是718B,明天就可能是大国重器上的通信计算设备,无人机的控制系统,作战通信终端的核心元件。。。

因此,王云鹤及其小模型实验室团队,其剽窃套壳行为必须受到审判。其小模型实验室中所有不学无术、只想摘果子的成员,势必要被钉在中国大模型发展的耻辱柱上,遗臭万年。

回应

关于135B dense模型指标的质疑:https://github.com/HW-whistleblower/True-Story-of-Pangu/issues/317:

此报告撰写过程中,王云鹤已然上任(理智的人可以分析arxiv报告上载时间)。与Pangu Ultra MoE完全一致,在文章攥写过程中,可笑的是,大部分被挂名的、实际做事的被列为Contributor的研究者,在论文撰写过程中对其存在、进度全然不知。其只挑选了唐睿明、尚利峰团队的一小部分成员对其倾囊相授,将所有问题、技术点等凝练成文中方法及之前的部分。而对于模型的实际效果和测试集表现,小模型团队大包大揽,唐睿明、尚利峰成员几乎全然不知,或者是被剥夺了抗议的权利,最终导致报告中列出了假到极致的训练测试集后的结果。

与尊重学术道德的DeepSeek团队不同,理智的人可以仔细搜索作者名单每个人,这篇文章的Core Contributor几乎全是领导,而不是实际的技术人员,文章作者共有52位,源于王云鹤和某领导沆瀣一气,得出的**“幸运52”**这一决策,可谓恬不知耻,毫无学术道德。

陆续也有他人回答,此处可以参阅issue区

从匿名、AI生成等角度,无脑喷之前论文和这个仓库的所有人。我建议你们试试,如果你家里有着家属和孩子依靠着你从事的这份工作,你能不能和《让子弹飞》的六子一样,切开肚子给人看看你里面有几碗粉?

站务

全部专栏