中国大模型研发应用现状,与美国差距比想象小

1. 腾讯科技发了两个深度访谈,一个是月之暗面的杨植麟,融资了90亿中国最多,坚定地以开发AGI为目标,算是技术派代表。一个是投资人朱啸虎,非常务实,只想投大模型应用落地,算是市场派代表。两人对比十分鲜明,但都提供了不少信息,可以了解中国大模型研发与应用的现状。

2. 2023年上半年和下半年,中国风投市场对大模型底层研发的态度区别非常明显,下半年明显转冷。决定性因素是Meta开源了Llma2,70亿-700亿个参数,非常适合中国创业者。有了开源模型,创业者可以不用自己搭大模型搞底层研发了,直接用开源模型加行业数据,做To B应用,给特定企业。这种训练占用的资源不多,有的一个卡就能开干。

3. 朱啸虎说中国应用发展得很不错,比美国好,中国这边创业氛围就是擅长找应用场景。有一些大模型应用企业真的觉得挺好,但因为不是To C的,群众不知道。如AI面试软件,减少校招成本,面了上百万人,可以连续对话。再如一家用AIGC技术做视频广告的,产品效果特别好,马上就变现赚钱了。这确实是有,一些开发者是在小众领域深耕,如给小孩生成照片套图。管它背后的技术水平高低,最后出来的产品客户认可付钱,就是目标。

4. 中国投资人不敢投大模型的原因是,怕开源。如果投了好多亿,也不见得能有多高水平,然后美国来个开源,别家直接用比你投大钱开发的还好。这个投资风险太大,不如直接用开源软件做应用,这是看得见的成功概率大的赛道。有个概念,叫PMF(Product/Market Fit),就是说产品要找到市场应用。这词成了关键,就是投资人立刻要看PMF,如果有,那么不需要投大模型,直接用开源就能赚钱。如果没有PMF,那也没啥好投的。这就是中国大模型投资转冷的逻辑,用开源的就好。

5. 杨植麟对AGI充满信息,开发了Kimichat,特点是无损信息压缩。从阿里等大公司融了大钱,招了80人的团队开发AGI。杨也知道要应用落地,但认为基础是对大模型技术的掌握。Kimichat可以看一个20万字的长文本,然后和人一直聊这个,因为是对信息的理解是无损的,表现有独到之处。杨对技术开发很有激情,感觉确实取得了不少技术进展,速度不慢。也就是自己搭大模型,在里面搞原创研发,也有中国公司能做。

6. 另一个信息是,美国限制GPU卡中国研发,没那么重要了。因为做大模型堆几十万个高端GPU,只是一个方向。基于对scaling laws的理解,大模型研发完全有多种可能。只要对AI的研发理解深度跟得上美国,加上中国搞应用的积极性,中国大模型进步速度不会慢。

500

站务

全部专栏