陈根:Sora引发全民大讨论,为什么是一种悲哀?

文/陈根

最近,OpenAI发布了一个多模态的新应用功能Sora,几乎在一夜之间引发了我们全民的关注,不论是什么领域的人员,都想表达一番自己的看法。从胡大V到扮演着网络“教父”的红大V,还有各种专家与权威人士,都对Sora发表了指点江山的各种观点。

我把这些观点总结了一下,无非就是三种,第一种是追捧,认为Sora非常厉害,将带领AI发生新的技术变革与技术跃迁,引发新一轮的国力竞争;第二种就是藐视,认为Sora没那么厉害,然后找各种细节的漏洞来证明OpenAI的新技术并没有那么先进;第三种就是和稀泥,好坏都讲,最终就是正确的废话。

500

但不论如何,从GPT到Sora,能够引发全民关注与热议,这至少对于科技发展的土壤构建是有好处的。至少从社会面对科技形成了一种共识,那就是人工智能竞争与革命的时代真的来了。那么我为什么会从这种全民大讨论中看到悲哀呢?

原因很简单,就是所有的讨论几乎都是停留在口嗨的层面。不论是大V的,还是指点江山的“教父”,他们只是为了从中获取社会的关注,甚至一些上市公司开始借势鼓吹,然后借机哄抬股价收割股民。悲哀的地方在于,这不是一件引发如此关注的事件,因为这是OpenAI技术发展必然到来的结果。

Sora是什么?其实就是GPT从文本向音频、视频等维度进行了升级,按照当前时髦的名词来说就是2023年我们炒作了一年的AIGC概念。但在2023年财联社跟我的一些访谈节目中,我多次明确指出,当前我们的AIGC最大的问题就在于不论是从算力还是技术层面,我们都还没有达到AIGC,而更多的只是停留在CG动漫的那种初级生成阶段。

500

这也就让我们很容易理解,为什么这次Sora出来之后,就引发了大家的关注。因为我们炒作了一年的AICG,结果被Sora给真正实现出来了,就是OpenAI让人工智能对视频、音频实现了真正的跃迁,并且是只要一句文字或者一段文字,Sora就能理解这些文本的内容,然后生成数字孪生级的视觉效果。这就让2023年在PPT中,在新闻发布会中不断的遥遥领先的那些人工智能企业们再次被集体打脸。

不过打脸不重要,只要脸皮厚,很快那些擅长于炒作的企业就会开始筹备并举办新的新闻发布会,会很快向大家宣布他们在Sora的这些AIGC技术上又马上要超越了,又马上要成为宇宙第一了。

其实Sora的出现是意料之中的事情,我曾经在《ChatGPT:读懂人工智能新纪元》这本书里就明确提出,未来到底是AIGC包含ChatGP,还是ChatGP包含AIGC目前还不好下结论,但很大的概率是ChatGP包含AIGC。原因很简单,OpenAIChatGPT从本质上来说,最大的技术突破就在于寻找到了一种让机器能够具备理解人类语言逻辑的能力。

500

那么之前没有朝视频、音频的多模态方向去发展,核心原因在于两方面:一方面是这些大模型技术还没有获得大规模的应用实测,对于技术是否存在着致命性的BUG还很难把握,因此需要先通过GPT的文本模式对技术进行测试与修正;其次在于算力的制约,因为从文本到音频到视频的算力都不是一个量级,而英伟达的生产产能也无法在一夜之间就能满足OpenAI对于技术扩展的算力需求。

也就是说,当OpenAI解决了这两个问题之后,从文本跃迁到视频是必然到来的结果。这是必然的技术趋势,必然的结果,根本就不存在所谓的Sora的出现就会让AI从当前可能需要10年才能实现进入通用AI阶段,然后就缩短到了1、2年的这种稀奇古怪的说法。

我在这里可以非常明确的说,能不能实现AGI,或者什么时候能够实现通用人工智能的核心根本不在于Sora的出现与否,而在于OpenAI什么时候能够找到有效治疗机器幻觉这种病的方法。治疗机器幻觉这种病和Sora这种技术,根本就不是一回事。而这也正是我看到的悲哀,悲哀就在于机器幻觉的病或许很快就能找到治疗与解决的方法,但是人类胡说八道扮演“神”的病或许很难看到被治愈的希望。

科技发展的前提是创新,科技发展的原则是技术规律,科技发展的核心是强大的研发投入,科技发展的根本是不断地在失败坚持。如果没有这些精神、条件,依靠口嗨,最终注定是一场难以挽回的灾难,就如曾经的芯片产业一样。

全部专栏