“AI教母”刷屏,美国为什么盯上“空间智能”?

这两天,科技圈被“AI教母”李飞飞的创业项目刷屏了!

她投身的是一个革命性的AI技术——纯视觉的“空间智能”。

纯视觉的“空间智能”是什么意思呢?

大概就是,她要创造一种可以在三维空间进行类人推理的纯视觉AI。

比如,当你在打篮球的时候,通过连续的视觉观察就可以推理判断出篮球大体的运动方向、着地反弹的高度等信息,李飞飞就是想让视觉AI也具备这样的能力。

AI大模型的“二次革命”

按照李飞飞在TED大会上的演讲,空间智能是通过理解物体之间的关系,从中得到新的发现或预测,让机器可以像人类一样进行更复杂的视觉推理,进而采取更贴合实际的行动。

按照她的这种解释,“空间智能”将让AI大模型具备三维空间的视觉推理能力。

目前的AI大模型,还无法理解三维世界的运行逻辑,没能真正建立起对三维世界的“常识”,所以它现在只能在虚拟空间玩“文生图”和“文生视频”的游戏,无法从虚拟空间走进物理空间创造生产力价值。

未来,这将带来一个严重的问题——基于现有的AI大模型,将无法打造“赛博物理系统”,也就是CPS。

因此,空间智能可以看做是AI大模型的“二次革命”,它的目的就是要让AI大模型去理解“三维物理世界”的规则,然后跟物理世界的机械系统进行“数智融合”,形成跟人一样灵活的具身智能。

从这一点上说,李飞飞的创业项目意义重大,一旦获得成功,AI大模型将可以走出虚拟空间智能操控物理世界,美国版的“数智经济”就真的要来了,他们会走出一条与中国5G、6G的“感知智能”完全不同的“视觉智能”数智化路线。

李飞飞一直被称为“AI 教母”,她开发的ImageNet大规模图像数据集,帮助人类开创了新一代能可靠识别物体的计算机视觉技术,是ChatGPT的底层技术之一,这一次的创业项目同样具有开创性价值。

她展示了一张“猫伸出爪子要把玻璃杯推向桌子边缘”的照片,来帮助观众理解何为“空间智能”——人类大脑通常这一瞬间可以评估玻璃杯的几何形状、玻璃杯在真实三维世界中的位置、杯子与桌子、猫和其他物体的关系,并且可以预测接下来会发生什么,采取行动。

到目前为止,人类都是通过各种传感器来建立“空间智能”的,包括雷达传感器、重力传感器、光线传感器、速度传感器等的组合,如果走向“纯视觉”,其带来的变化将是革命性的。

从公开资料来看,李飞飞团队当前聚焦于“具身智能”,研究将AI大模型接入机器人,无需额外数据和训练,即可把复杂指令转化成具体行动规划,这一点将颠覆波士顿动力等的智能机器人路线,它们都使用了大量的智能传感器来帮助获得空间信息。

中美的“两条”数智化路线

此前,中国的数智经济领跑全球,走了与美国完全不同的路线。

中国是基于“5G+传感器+自动化AI”打造数智经济,“自动化AI”更多追求AI的可解释性、鲁棒性,基于逻辑推理进行编程来创造AI,而不依赖于大量数据训练和自学习的方式。

可解释AI的优点,是不会像AI大模型一样出现“幻觉”。所以,它更适合在高精密的工业、航天等领域进行应用,且三维世界的空间信息是通过各种模态的智能传感器来获得,可靠性也非常高,但是成本也高。

但李飞飞的纯视觉“空间智能”方法,将可以绕过“多模态的智能传感器”获得空间信息,其实这和我们人的智能机制就非常像,人仅仅通过视觉观察和简单推理就可以捕获绝大部分的空间信息,是不需要空间传感器来获得信息的。

所以,给物理空间中增加很多感知单元,对于AI来讲可能是一种冗余和增加成本的设计,而“空间智能”这种纯视觉的方式,就非常适合高经济性的日常生活中场景使用,比如自动驾驶、家用机器人,我们看特斯拉自动驾驶就是纯视觉的方向,它的经济性就非常好,避免了激光雷达、超声波雷达、毫米波雷达等的成本。

对于中美这两条数智化路线的区别,我可以再举一个例子:

数智时代,为了获得土壤的温度、湿度信息,人们将需要在土壤中植入温度、深度“传感器”,但其实人类还有另一套方法,就是可以通过纯视觉AI来观察地表上的“雨、雪、风、霜、露、虫、鸟、植被”等各种自然信息,来大致判断出土壤的温度和湿度,就像诸葛亮一样,只要仰观天文、俯察地理,就能推理获得很多气象信息。

所以,如果做一个比喻的话,李飞飞想要做的纯视觉“空间智能”,就是想要打造很多个“诸葛亮”,让这些“诸葛亮”去观察和推理空间信息,而不用很多个传感器和空间数智基础设施的组合来收集信息。

这样做的优点很明显,就是“空间智能”的适应性、灵活性会非常强,经济性也会非常好,它不需要额外的空间基础设施的配合,它的数智化能力完全取决于自身,而不依赖于它周边的数智基础设施和各种传感器。

这让我联想到了中国各大城市都在规划的庞大的数智基础设施建设,中国到处都可见“智能社会”的影子。举一个例子,很多专家在城市的自动驾驶方面,鼓动地方政府进行“人-车-路-云-网”协同的全面数智基础设施建设,这背后将是一笔笔非常巨大的投资,而这些投资是必要的吗?

这种“激进数智化”,本质上就是一种“数智乌托邦”思维,将来可能带来严重的“债务陷阱”。

事实上,如果李飞飞的“空间智能”方向成立,自动驾驶将不可以需要“人-车-路-云-网”的协同,这在未来极有可能是一种“高成本、反效率、反市场”的设计。

人类发展数智化,应该有一个基本的前提——就是它要拥有效率优势、成本优势、高可靠性和高容错性,数智化应该以一种“低成本”“非冗余”“高容错”的方式进行推进,而不是像发展房地产一样先不断堆砌基础设施,搞“三平一通”。

结语

中国基于5G/6G“感知智能”的数智化航线要坚定的走下去,因为它非常适用于高精度、海量的工业设备场景,但美国纯视觉的“空间智能”数智化航线也有其场景价值,它们在经济性和灵活性方面更胜一筹。

作为《数智经济》的作者,我谨慎地提醒那些秉持“数智基建大跃进”思维的专家,人类的数智化航线还不甚清晰,中美两条发展路线各有优劣,未来还将会面临适应性抉择,在这一个过程中,将需要面对各种“暗礁险滩”,而现在就把钱都花出去造了一条“豪华巨轮”,后面如果这条航道走不下去、想改变航道,老百姓还能付得起拆掉“豪华巨轮”的成本吗?

站务

  • 观网评论4月爆款文章↓

    4月初,美国财长耶伦访华,一时间“中国产能过剩论”被炒作起来,观察者网专栏作者陈经从“三个美国女人”的独特角度,阐释了中国产能包括新能源产能对世界经济的贡献,还对美国政......

最近更新的专栏

全部专栏