科大讯飞刘聪：假如对大模型算法没把握，错一个东西，三个月就过去了

谭婧在充电
谭婧在充电官方账号

偏爱人工智能（数据、算法、算力、场景）。 2023-11-03 13:13

500

丨谭婧在现场

自始至终，无论是科大讯飞董事长刘庆峰，还是科大讯飞研究院院长刘聪，他们都在强调一个事实：

目前，国内与国际顶尖大模型对比还存在综合实力、平台能力等差距，要正视差距，并且以最先进水平为目标，奋起直追。

比起在C-Eval榜单排名靠前，且把GPT-4“挤出”榜单前十，并对此特意宣传的团队来说，科大讯飞两位重量级演讲人都表现出开诚布公与推诚相待。

刘庆峰董事长的原话是：“跟GPT-4比，我们还有要学习的地方，还有一个奋斗努力的过程。”

“奋斗努力”这件事，字越少，事越大。

而“亲爱的数据”在与刘聪院长的进一步交流中，他谈道：“假如对大模型算法没把握，错一个东西，三个月就过去了。”

500

在他这句表达的背后隐含着对训练技巧关键所在的熟悉与了解。

据谭老师了解，因训练周期天然属性使然，刘聪院长谈到的数字是确数，不是一个夸张的比喻。

他的话很清楚地表达出大模型训练中的高风险，以及走错路后要付出的高昂代价。从一个侧面反映出训练大模型的真实难度；也反映出按既定时间节点如期完成任务的挑战性。

再则，大模型高水平实战经验等于直接省大钱，毫不为过。

发布会现场，除了坦诚之外，刘庆峰董事长的演讲充满激情，显得对明年上半年追上GPT-4胸有成竹。

（一）最先进的底座模型（LLM）

“哪有什么百模大战？（反问语气）”是谭老师一直以来的观点。

“百模大战”是停留在新闻标题上的一个有误导性说法。从技术角度，将底座模型（LLM），开源微调模型，行业垂直模型等不同类型大模型放在一起比较。相当于把不在一个难度级别的事物强拉在一起比较。

这种“有名字都算”的盘点办法，让“百模大战”最后谁能取胜，成为一个伪命题。

殊不知，一部分模型可能是用基础性开源模型微调而来，尤其是模型在不开放测试，或者不开源代码，只有新闻通稿和市场发布会的情况下。

为什么不适合放在一起PK？

有的是历经大语言模型构建的四个主要阶段（预训练、有监督微调、奖励建模和强化学习）的大模型。

还有的是在开源大模型上“微调”。

从头预训练大模型的经验会积累大量训练技巧，这是持续创新的基础，十分珍贵。而直接用现成大模型加行业数据微调，本质上，相对缺少研发过程，还是在使用别人的现成产品。

这两种类型的大模型的较量，从技术角度讲不是一个量级。

然而，不能矫枉过正的是，技术含量上虽有高低之分，但模型使用价值又是另外一回事，面对不同的市场业务需求，需要不同的对应方法。比如，讯飞联合行业龙头共同发布12个行业大模型，加速产业落地。

关键在于，企业级技术服务服从于市场需求，仅强调技术单一维度并不可取。

现在处于稳定竞争阶段，也是基座模型比拼的重要阶段，我们聊回到技术。

“百模大战”这种说法给人一种误导，看样子上上下下干得热闹，似乎有重复建设，用力过猛，努力过剩之嫌。实际上，真正下决心和有实力“炼”大模型的厂商屈指可数。

竞争在头部高度集中，其他选手连陪跑都算不上。

那些“号称在炼”的厂家，有夸大自身技术实力、刷存在感的嫌疑。

更有甚者在优秀的开源大模型LLAMA2“问世”后已经默默放弃了。“百模大战”不如说是“起名大赛”，典谟训诰的书页都被翻烂了。

发布大模型广而告之，谁放弃了会张扬？

一条少有人走的路，有人假装在走。

而一些愿意参与大模型生态的开发者，更被误导到一条歪路上。

技术圈存在一种风气，觉得除了“卷”大模型，此外其他东西都没有技术含量，没有深度，不屑于做；

而美国的一些开发者反应快速而务实，比如大模型知名工具LangChain，将提示词（Prompt）的管理和编排做得很好，是个“拼接”小能手，并且LangChain还有很多实用的玩法，就不一一展开。

一些轻巧创新的“小部件”推动大模型的生态向繁荣发展，并且能够更好更快地探索大模型的用处，而大模型的用处急需各行各业的“脑洞”和“奇思妙想”。

科大讯飞董事长刘庆峰在讨论大模型真正价值时候，就指出：“面向社会刚需，应用为王。”

说到底，全球范围内比拼的是：在技术不落后于人的基础上，大模型用处越多越好。

真正地训练一个千亿或者万亿参数规模的的国产大模型，是异常艰难的长途跋涉，尤其是在当下的外部资源条件恶劣的情况下。

混淆令那些真正在探索国产技术路线、敢于投入的人损失了应有的尊重。尊严倒是其次。这种误导会增加交易成本，资源需流动到急用之处。

在这一点上，刘聪院长的观点是，“所谓”的百模大战，真正做通用大模型（讯飞的提法是1），再加N（大模型落地领域N）的参赛选手，肯定没有那么多。大浪淘沙，最后只会剩下极少数头部玩家。

底座能力在头部玩家中比拼。

从2023年2月开始，竞争形势几经变化，这个阶段竞争的里程碑在哪里？

刘聪院长给出的答案是：“从现在到年底，或者再往后推，最终会逐步产生分化。从真正的，全面对标GPT-3.5到对标GPT-4，哪家国产大模型最先做到，这是一个关键节点。”

他的语气特别强调：“不是单点达到GPT-3.5的单项指标，单点到达没有意义。”

极力提高模型能力是头部厂商一致追求，而对大模型能力维度的理解，头部厂商之间会有所不同。

另一家头部厂商的“定义”则是用理解、生成、逻辑和记忆能力四大维度作为衡量指标。科大讯飞的定义是七大能力：文本生成，语言理解，知识问答，逻辑推理，数学能力，代码能力，多模态能力。

为什么讯飞的定义相对更详细呢？

刘聪院长谈道：“就以多语言这个维度为例，做通用人工智能，我们曾反复强调不是只做中文大模型。你连英文能力都不具备，那叫什么通用？未来大模型能力肯定会拓展到其他多语种。”

从未来发展大趋势来讲，

第一个最重要是底座模型，第二个是算力，第三个是应用落地，第四个是生态。

真正的竞争，存在于真正的竞争对手之间。

（二）多模态技术路线

两个月前的8月15日，也就是讯飞星火认知大模型V2.0升级发布之日，代码能力和多模态能力升级。

当时，多模态这个技术路线，很多人还没有意识到其重要性，虽然多位业内顶级专家均表态过：多模态是通用人工智能必经之路。

而在9月25日，微软公布GPT-4V (ision) 的166页技术报告，才消除一些业界争论。大语言模型预训练方法整体上趋于稳定，而多模态技术路线仍有很多“未解之谜”。

虽然GPT-4V (ision)给出了一些参考答案，但是若要在此后再跟进多模态技术的团队，也彻底丧失了先机。更糟糕的是，依然面临较多不确定性，更不要谈多模态训练数据规模可能10倍于文本数据。

技术维度分，刘聪院长把模型类型分为四种：

第一类，认知大模型。ChatGPT先以语言大模型为核心, 从底座模型衍生出行业大模型。语义为主，视觉为辅。这类参数规模较大。

第二类，做视觉大模型，文生图是较为广泛的应用。参数规模不如第一类大。

第三类，语音大模型，讯飞已经在做了，会在合适的时间给大家揭晓。

第四类，说法较多，存在争议，个别模型较为出名，比如天气预报大模型，蛋白质结构预测大模型。这类模型的处理的数据跟前几类数据不大一样，比如，天气预报数据的维度特别高。

刘聪把第四类叫做“特定任务”大模型。

这四类全部都叫大模型。

回顾讯飞的历程，5月6日星火大模型发布的时候，只简单展示了一些多模态能力。而在8月15日发布V2.0那个阶段，讯飞已经形成统一框架，把多模态信息有机地组织起来。

刘聪院长谈道：“星火大模型第一次发布的时候，有人会质疑，讯飞又没做图像，怎么能做得到？其实在五月份的时候就对多模态有一定预判。”

可以看到，讯飞8月15日多模态能力的发布早于GPT-4多模态进展信息的披露。

500

刘聪院长的观点在我看来，即便是10月24日这个时间段，多模态技术也还在起步阶段，即使是GPT-4V（ision）拥有细颗粒度的理解能力，也有很大提升空间。

这个空间是兵家必争之地。

可以观察到，在多模态这一块的布局，讯飞较早起步，并且预判准确。多模态技术给星火大模型带来效果和能力的加持。

（三）算力和算力平台

大模型对算力极为依赖。

云计算是一种选择，国产AI芯片也是一种选择。但无论选择哪种形式，“大算力”是确定性的。

500

在这方面，刘聪院长谈道：“客观来说，一两千张卡不够，训练GPT-4需要3000-4000P的算力，也就说万卡级别。

这是准入门槛。

因此，这体现出和跟华为共同发布这个飞星一号平台的一个重要意义”。

刘庆峰董事长则对讯飞与华为攻关团队亲切称呼——联合特战队。

他还谈到一些双方团队合作的细节，两支团队高强度同期配合，通宵彻夜加班也是同步，成了真正意义上的“并肩作战”；

华为团队久在合肥支援，讯飞直接把员工家属接到合肥团聚……

所以，才这次有基于昇腾生态的“飞星一号”平台正式发布。

头部玩家一定会按照既定目标向更大参数规模前进。

500

并且，算力平台作为大模型基础设施是保障。合作分工上，华为负责底座能力层面，而科大讯飞则更多投入于应用和算法。

预训练新范式兴起，大模型新的软件栈正在形成之中，而算力平台是承上启下的重要一层。

早期尤其需要专门的算力团队提供保障性服务，能为整个研发进程，加速提效，这种合作是非常难得的。

谭老师直言而论，谁和华为合作的早，谁就越早拥有这种优势。

并且，华为新一代昇腾芯片性能参数，星火大模型训练和推理的效率值均属于商业机密，市场上也并无公开参考的先例和数据。

国产算力平台从不好用到好用需要过程。刘庆峰董事长谈道：“算法在新硬件上跑，需要验证结果。”他认为：“如果谁都不往前走一步，且没有能坚定地提供底座的厂商，那始终无法自立自强。”

讯飞对这一投入拿出了一种“非干不可”的态度。

大模型训练到达某个阶段，才有资格迎接下个阶段的挑战，而不是以前的直接复用上一阶段的核心经验，有些难题只有遇到了才知道。

并且，更好效果的小一些的模型会来自大模型的Scale Down。

显然，人工智能老牌玩家在人才和组织研发方面的经验是长期积累而来的，主力研发团队稳定，相互探讨，高效配合，有着精进技术的氛围。

刘聪院长谈到这一点时，颇为轻松，“研究院一千多号人里面有算法、平台、工程，还有一些资源相关的团队，各个方向之间的协同性很好，大家没有内耗。这个东西我觉得它不是短期形成的，是长期的，是讯飞十几年以来积累和传承。”

回到大模型的真正价值点应用上。

这一次，科大讯飞进一步升级智能编程助手iFlyCode2.0，代码能力超越ChatGPT；向科研人员推出了星火科研助手；在擅长的教育领域，发布心理伙伴“小星”，关爱青少年心理健康应用；发布启发互动式英语AI答疑辅学讯飞AI学习机；发布讯飞星火医疗大模型，讯飞晓医APP为个人和家庭提供AI健康助手。此外，讯飞机器人超脑平台升级，并推出大模型+具身智能的人形机器人。

（完）

500

《我看见了风暴：人工智能基建革命》，作者：谭婧

500

科技举报

谭婧在充电

偏爱人工智能（数据、算法、算力、场景）。 |

243篇文章 | 9124人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

科大讯飞刘聪：假如对大模型算法没把握，错一个东西，三个月就过去了

谭婧在充电
谭婧在充电官方账号

谭婧在充电

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

科大讯飞刘聪：假如对大模型算法没把握，错一个东西，三个月就过去了

谭婧在充电 谭婧在充电官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

谭婧在充电
谭婧在充电官方账号