或许人工智能跑偏了-突破之道,在于构建统一的三维世界模型,让AI获得真正的常识

500

近年来,人形机器人虽然能跳舞、能打拳,动作看起来挺灵活,但离真正走进我们的生活,还差得很远。问题出在哪儿呢?主要在于它们和外界打交道的方式太"死板"——只能在预设好的环境里活动,只能操作特定的东西。

这背后的关键瓶颈,其实是"视觉"。现在的机器人主要靠二维图像来认东西,只能认出"这是个杯子""那是张桌子",但完全无法预知这个东西的全貌——它真实的三维形状是怎样的、是硬的还是软的、是固体还是液体。这种"只认标签、不懂实质"的理解方式,带来了两个致命缺陷:

第一,它做事前没法预测后果。因为它脑子里既没有三维模型,也没有物理引擎,不知道"如果这样做了,接下来会发生什么"。比如,让它从桌面上抓取一个和水杯挨在一起的苹果,因为它根本不了解苹果和水杯的三维结构和物理属性,所以完全无法预判自己的机械臂在移动苹果的过程中会碰翻旁边的水杯。

第二,做错了也不知道怎么补救。当它真的把水杯碰翻了,液体开始流淌时,它无法理解"这是一个需要立即处理的紧急状况"。由于它对水杯这个物体没有完整的三维和物理理解,它不知道应该第一时间伸手扶起水杯以防止更多液体流出,更想不到需要去擦拭桌面。它只会"愣在原地",或者继续执行"拿苹果"的原始指令,对自己制造的混乱视而不见。

但我们的世界是立体的,是三维的。真想在这个世界里自如活动,机器人也必须学会三维看世界。现在唯一比较成熟的自动驾驶技术,它就是靠把道路、车辆、行人都理解成三维物体,并对其行为进行预测才能安全行驶、及时避让的。

同样的问题也出现在AI生图和视频上。为什么它们老是出bug,很难真正用在商业上?就是因为AI只在二维平面上"画画",脑子里没有统一的三维模型。这导致生成的内容严重缺乏常识,bug层出不穷:

比如生成一张喝咖啡的图,左右手弄反,并且穿过椅子背

500

生成水面倒影的图,倒影错了位置,实体发生了变化,倒影不做镜像变化

500

生成一个人戴着耳机的图,耳机线竟然穿过耳朵

500

生成一个出现猫的视频,猫穿过人体,出现在画面中

更有甚者,猫的腿只要经过人体就会出现错乱

想让机器人真正进入家庭,我们必须解决两个核心问题:第一,让它真正理解三维世界;第二,让它能预测自己动作的后果,也能预测周围人和物会怎么变化。否则,花大价钱请回来的机器人保姆,可能连倒了的醋瓶都不会扶,反而整天打碎盘子、扯坏衣服,甚至不小心伤到人。

AI生成图片时先根据提示词拆解出物体和行为以及风格,然后构建出物体的三维模型,再依据行为构建出物体的关系和状态,再生成总体的三维模型和贴图,最后根据风格生成图像

机器人识别的流程不再仅仅是给二维图片大小标签,而是识别出物体后,结合物体的空间位置信息进行建模,生成三维模型,再结合物体属性、三维模型、空间位置对自己及空间中存在的可行动物进行行为预测,根据预测用最优的方案采取行动,就如同所有动物那样。这样才能使机器人是可感知可接触的,不然永远只能在工厂里,或者使用范围受限,让人类去迁就机器人

在软件层面,我们需要让机器视觉学会从复杂的三维场景里精准识别目标——就像玩"抓大鹅"游戏那样,能从一堆杂物里快速找出匹配的物品。

AI生成图片时先根据提示词拆解出物体和行为以及风格,然后构建出物体的三维模型,再依据行为构建出物体的关系和状态,再生成总体的三维模型和贴图,最后根据风格生成图像

AI生成视频的时候是在AI生图的基础上,根据提示词不断重复行为对物体的影响,进而生成合理的视频,提高合理性,一致性,不会穿帮,让AI生成图片和生成视频成为生产力工具,而不是玩具.

视觉识别与AI生图生视频,本质上是一套核心算法的两个互逆过程,就像一个方程式的两边。视觉识别是从2D图像出发,反推出3D世界的结构、属性和行为;而AI生图生视频则是依据描述构建3D模型,再生成符合物理规律的2D画面或视频。

美国正推进的"星际之门"计划,其万亿美元投资所指向的,很可能正是要构建这个能精确描述现实世界的"核心算法"。

归根结底,无论是让机器人融入生活,还是让AI生成内容成为可靠的生产力,我们都必须跨越从“二维感知”到“三维理解”的认知鸿沟。

只有这样,机器才能从执行指令的工具,蜕变为能在我们复杂、动态的现实世界中自主交互、可靠协作的真正智能体,而AI创作也将从猎奇的玩具,升华为构建元宇宙、驱动数字经济的坚实基座。

500

站务

全部专栏