一句话一个塞尔达,谷歌这次真有点吓人了。

要说 AI 圈最不缺的,可能就是 Demo 战神。宣传片隔三岔五炸裂,实际真上手各有各的拉。

500 但世超这还是第一次,看到买家秀比卖家秀还震撼的世界模型。。。

没错,我说的就是谷歌最新推出的 Project Genie。

500

Project Genie 推出即爆火,谷歌 DeepMind 官推十二小时狂卷四千多转发,近两万赞,一万收藏。

500

有老哥趁机内涵 R 星,有了 Project Genie,“ 我们将能够在 GTA6 正式发布之前完成 GTA6 的开发。”

500

还有更夸张点的哥们儿,直接把 Project Genie 和 GPT-2 相提并论。GPT-2 之于 AI 界是什么地位,大伙儿懂得都懂。

500

其实 Project Genie 的底层模型不是新东西,接的是去年 8 月谷歌发布的世界模型 Genie 3。

500 不过这回,Project Genie 把 Genie 3 和 Nano Banana Pro 揉在一起,来了一波可玩性大升级。

Genie 3 官方示例

500

有些差友可能不太了解世界模型,这东西和视频模型不一样,它的目标不是生成一段视频,而是搭建一个能探索交互的,无限生成的物理世界。大伙儿可以把它想象成我的世界无边界版。

根据谷歌的官方博客,Project Genie 的功能主要分成三大部分:世界草图、世界探索和世界再合成。

简单来说,世界草图指输入场景提示词和角色提示词,Nano Banana Pro 负责画面草图生成,先给你看看视觉效果满不满意,你想用第一视角还是第三视角;再交给 Genie 3 实时生成可探索的物理世界,这就是世界探索;最后,世界再合成让我们可以基于已有提示词,继续修改世界的样子。

不像以前只有几个 Demo 案例能用,现在直接实现人人按需定制。

500 比如在官方的示例中,场景提示词输入 “ 一个有很多珊瑚的海底世界 ”,角色描述是 “ 一只金鱼 ”,下面是返回的结果:

500

或者随手拍一张生活照片,瞬间能动起来,这效果,你就说有没有双人成行那味儿吧。

500

甚至可以随时中断退出原世界,只换角色,只换背景都可以,一致性强,操作自由度也相当高。

500

至少从官方案例来看,不只画面精细度提升了不少,以前世界模型场景崩崩崩、操作掉帧卡顿的老毛病也改掉了。

当然,看完官方案例肯定也有差友觉得,就这?感觉跟以前没啥本质区别啊? 还是 WASD 逛街,研究这玩意儿到底有啥意义?

500 那如果。。。大伙儿私底下的测试效果是这样呢?

注意烟盒和纸屑的碰撞

500

或者这样?

500

还有这样?

500

要是大伙儿怀疑上面这些案例是不是非实录,纯玩梗,这还有证据可查。

500

相比起来,什么 Vibe Coding,AI 帮忙写代码开发游戏,世超宣布,Project Genie 才是游戏界 next level。

只是水友肯定玩爽了,就是不知道要有多少游戏厂商来敲谷歌的门了。。。

500

不过大伙儿别看 Project Genie 现在这么神,其实很长时间,不少人对世界模型都持深深的怀疑态度。

不说它到底能不能真参透物理世界,通向大模型都做不到的 AGI了。。。

500 就说这玩意对视觉数据要求极高,再掺上各种动作数据,训练烧着比大模型多好几倍的算力,连部署难度都相当大,费力研究这么多年,结果效果还是一般般。。。

像之前 Genie 3 刚推出,只准看不准玩的时候,世超也是用谷歌发布的各种 Demo 云过一番的。

总的来说还行,要说惊艳不至于。就是那种,我知道 Genie 3 在业内,世界模型这个领域已经是最顶的,可这矬子里的大个儿看起来也不过如此,像场景渲染没做好的小游戏。

500

500 类似的,我们之前还尝试过李飞飞教授 World Labs 推出的 Marble 世界模型,效果只能说和 Project Genie 有很远的距离。

分辨率刷新率比较低,操作卡顿;对物理世界的理解不够到位,经常上天入地;模型记忆有限,开始看见的人,转个头就消失等等。

这些问题不只在 Marble,而是长期存在各个团队开发的各种世界模型里,让这玩意儿看起来相当难用。

啊?就这么穿过去了吗?

500

500 但是这回 Project Genie 一出现,看谁还说世界模型没用,这世界模型可太棒了。

虽然不能保证它现在一定能做出多精美的游戏,距离 《 头号玩家 》 那种科幻片更是差得远,但至少只要技术再成熟点,不要太多时间,和语言大模型、视频生成模型一样,它的应用前景会变得相当广泛。

比如以前用 AI 做广告,受限视频生成时长,要把一个个几十秒一分钟的小片段费好大劲拼起来,还得小心翼翼维护主体别崩,不能前一秒是小米,后一秒是法拉利。

还有我们后期做视频,经常要手搓一些很复杂的 3D 模型或者场景,相当费时费力。

500

而以后有了 Project Genie 这一类世界模型,只要先用提示词,或者给一张提前生成好的图片,一键就能把它们变成 3D 物体、3D 场景,想要什么画面都不成问题。

500 有说好的就有说不好的,也有人试用 Project Genie 以后表示体验一般的,没那么流畅,偶尔卡顿,还有时间限制。

500

谷歌官方也表示,Project Genie 还有很大改进空间。生成的结果可能和你给的提示词、图片有出入,和现实物理规律也有差异;角色有时会变得难控制,或者动作延迟较高;每生成一次只能用 60 秒。

不管是啥样,世超是真想亲自尝尝咸淡。结果谷歌坏得很,目前 Project Genie 只提供给美国谷歌 Ultra 账号使用,还要年龄验证 18+。

可能是知道大伙儿的 Pro 账号都是怎么 py 来的,感觉谷歌对 Pro 限制得厉害,越来越不好用了。

500

500 但问题不大,毕竟刚出现的新东西大家都宝贝得很。可一旦有了第一个做出来的,技术普及只是时间问题。

从自然语言模型的研究到 GPT-2,走过了漫长的几十年;而从 GPT-2 到现在语言模型大乱斗,只用两年多。

刚起步的世界模型,顶多算个有点好玩的玩具。当然,它也可能和语言模型一样,正站在一个我们还没注意到的起点上。

图片、资料来源:

Project Genie 官方播客、World Labs 官网、X

https://gabetherielist.artstation.com/projects/e0Dw0b

500

站务

全部专栏