写在「文心一言」发布前夕

本文首发于航通社,原创文章未经授权禁止转载

航通社微信:lifeissohappy 微博:@航通社

  比当然可以比,有什么不能比的。

500

  文 / 书航 2023.3.15

  这篇写得非常急,因为过了 12 点还不推送,这些预测就发不出去了。但此前我一直打听多方消息,到了这个时候,感觉把它们整理出来还是对大家有点用处。

  百度从官宣有「文心一言」这么个东西到发布成品用了一个月多一点,这件事本身并不稀奇。因为文心一言和文心大模型的关系就是 ChatGPT 和 GPT-3 的关系。

  百度的大模型已经训练很久了,做个前端应用出来没那么难。相信这一个月的时间里,绝大部分都是用在谈商务合作,找人宣传,内部测试各种刁钻古怪的用例,以及找 bug 上面。

  百度的工具箱里不只有文心大模型,还有支撑它的底层技术,包括它使用自研芯片来训练。BAT 均宣布了自研芯片用于内部训练,百度对外宣布的「昆仑」已经到第二代,采用 7nm 制程,同时也强调通用性。而第三代会在明年部署。

  尽管百度也会将自己的各个模块比如芯片层、框架层和模型层等分别拓展其对外兼容性和开发者生态,但它依然认为,都是自己家的东西协同起来,效果肯定好于一堆通用的方案拼起来的(我们倒是可以将华为的5G技术和OpenRAN阵营,或者x86、ARM阵营和RISC-V阵营之间的比较,作为这个观点的证据)。

  今天 GPT-4 就发布了,但非常值得注意的是 OpenAI 这一次公布的技术细节少之又少,跟以前作为慷慨的服务于全人类的非盈利研究机构的感觉大不一样。这也说明如果某个东西真的是好东西,制作它的人不可能太慷慨。

  所有人都在注视「中国的 ChatGPT」,放眼全球似乎也只有中国有机会在现在的时间点做出美国公司之外开发的竞品。能做出来有这个东西,跟这东西是不是一样的品质,是两个不同的问题。

  复旦做的 MOSS 发布倒是最早,但被骂的很惨。当然作为学术实验项目,口碑不与未来的应用前景关联,所以可能不是最重要的东西。真正要出产品的公司,其实都在猛打预防针,不断降低国内外关注者的心理预期。具体地说,就是先肯定自己现在一定是做不出 ChatGPT 这么好的效果,会出更多问题,会更笨拙。

  比如,小冰前阵子说的「小冰链」的说辞是,在全功能但高成本、低效率的大模型中,拆出一部分可以快速商用的做成产品,可能加上一些人工调优,会比当前的小冰模型更胜任聊天机器人等角色。即使不考虑类 GPT 的技术,小冰此前也自主实现了其中一些用例,比如文章、图片、视频的生成,以及尽可能的多轮对话。这些已经做出来的东西,其实也没必要扔掉,反正外面看来都是在同一个黑箱里面。

  那么,百度可能会怎样说呢?如果我们浏览百度的工具箱,可以发现除了芯片和全技术栈之外,还有一个东西很可能被忽略:知识图谱。

  目前我们知道的百度知识图谱最新数据来自 2020 年,具体表述是「百度打造了世界上最大的多源异构知识图谱,拥有超过 50 亿实体和 5500 亿事实,并在不断演进和更新,每天的调用次数超过 400 亿次」。

  在深度学习突飞猛进的同时,知识图谱似乎已经被人遗忘,也长久没有进展。然而此前一直有很多 AI 研究人员相信直接建立实体与事件的对应关系,是让「黑箱」变白,让 AI 决策过程透明化的关键。当然我们知道,截至目前这并没有发生。

  主要问题是建立知识图谱的过程太让人抓狂了。如果部分采用机器生成,那就可能产生错误的对应关系——就像百度有时候会在搜索框下面提取出的让人啼笑皆非的「答案」。(谷歌也这样。一个著名的例子是它把研究杀灭 WannaCry 勒索病毒的科学家标注为了该病毒的作者。)

  如果用人工来梳理——开什么玩笑,是吧?

  但是现在,假设 GPT 及同类技术可以产出符合伦理规范,符合逻辑,而且正确率高于商业应用所需要的阈值的答案,那么这部分人类打标签的工作,包括标记知识图谱,以及清洗深度学习语料等工作,如果可以让成熟的 GPT 自己内循环的话,就不再是看起来不可能的任务了。

  所以,即使中文的优质语料没有英文那么多,也有可能通过成熟的 GPT 们代替人工清理过往的素材,核对和搭建知识图谱,再喂进去实现自我增强。当然,这只是一种理论上的假设。

  实际上,不论是否将知识图谱,或其它现有资源融入文心大模型,现在我们已知它的问题就不算少了。在「文心一格」也就是画图应用中,经常出现 prompt 不能正确认知的情况,我或许可以在明天摸到「文心一言」的时候一起举例说明。

  但是,一个可能证明了他们将知识图谱引入大模型的例子,是文心一格可以正确了解「米线」「佛跳墙」这些中国菜肴,它们翻译过后可能产生歧义。相信百度会特别用力宣传这方面的例子,因为它们刚成立时侯的宣传语就是「更懂中文」。

  为了扬长避短,避免在算力上正面交锋,以上各种说法都是为了挽救一部分需要训练才能涌现的能力。涌现能力是 all or nothing,跟 ChatGPT 比了不行是意料之中的,如果有地方胜出,那就是意外收获嘛。

  国产目前就是从 me too 到 me better 的阶段,比当然可以比,MOSS 都可以比,有什么不能比的。这就是明天我们面对「文心一言」时候应有的正确预期。

站务

全部专栏