对标Sora，GPT4o，被截胡的谷歌开始反击

酷玩实验室
酷玩实验室官方账号

05-16 09:52

好家伙，这两天的硅谷比我老家的大集都热闹。

每年5月份的都是谷歌I/O大会主场，最新版本的安卓，谷歌最新的AI都是在I/O大会上发布的，没想到就在I/O大会前一天，OpenAI来了个截胡，让自家的新模型GPT4o刷了屏。

但从今天凌晨的I/O来看，谷歌还是那个横贯硅谷25年的老大哥，不仅带来了和GPT4o同样效果的个人助理，甚至还带来了反击Sora的Veo模型。不过我认为接连两场的发布会，更重要的是向全世界展示了硅谷的大厂们，正在用AI做一些什么。

GPT4o？谷歌：我也有

劈柴（谷歌CEO的中文诨名）上来没讲技术，直接"duang，duang"展示了几个AI在谷歌应用中的案例，比如在谷歌相册中，当你忘了自己车的牌照，就可以直接问AI，它会帮你从存在谷歌相册中的所有照片寻找车牌的照片，当你想查看自家小孩的游泳成长历程，谷歌相册也会帮你按顺序排好。

500

谷歌相册能有这般能力，都是基于自家的Gemini大模型，期间劈柴一直强调，自家的Gemini是原生的多模态大模型，这背后针对的是谁，OpenAI和它的GPT4o最清楚。

劈柴统领全文后，就是谷歌的各个部门负责人上来演讲了，与前几年大不同，这次DeepMind率先登场，这支打造出AlphaGo而举世闻名的团队，今年已经和谷歌其它AI研究团队彻底完成整合，成为了目前谷歌公司中，唯一研发AI的部门。

500

这也是DeepMind首次登上I/O，出场即巅峰，可以看出谷歌对于AI的重视。DeepMind也未辜负众望，甩出了两个王炸——Project Astra和Veo。

Project Astra是谷歌目前打造AI助理的计划，按照谷歌的想法，未来的AI助理，不止是通过文字和人类交流，它应该能看人类所看，听人类所听，并且反应迅速，不能有延迟感。这不就是GPT4o么？这针锋相对的味道，太冲了。下面是Project Astra的演示视频，强烈推荐观看，尤其是找眼镜那段，绝了！并且，这次谷歌也吸取了Gemini发布时教训，特意强调，这是一镜到底的视频。

接下来，还介绍了最新的Imagen3文生图模型，效果确实不错，但也没有到领先Midjourney，Dall-E的地步。同样的情况也发生在音乐模型上。只不过到了视频模型Veo这里，谷歌的声音就大了很多。

下面这个视频是由Veo生成的，老爷们可以先看看。Veo目前可以生成高品质，1080P，超过1分钟时长的视频。这1分多钟可以是由一句提示词生成，也可以是由多个提示词组而生成。下面演示的这个视频就是由4个提示词组生成的。不知道大家感觉怎么样，整体看下来，我觉得它已经超过目前的Runway，但是和Sora相比，还略逊一点，但Veo优势在它支持多个提示词，来生成一个长视频，这是Sora目前做不到的一点。

总之，牌桌上多一个玩家，肯定是用户收益，希望能早点用上这样的视频模型吧。

Gemini：更快，更长，更便宜

自从谷歌放弃了PaLM和Bard，转投到Gemini下，这个模型的成长速度飞快。一年多的时间，已经进化到1.5版本了。这次I/O上，谷歌把Gemini1.5 Pro版本的大模型进行了蒸馏，推出了Gemini1.5 Flash版。这个版本的相应速度更快，每Token的价格更便宜，但是处理复杂问题的时候，就不如Pro版了。也就是说，这是介于Nano和Pro版本之间的一个模型。按照老罗的话说，谷歌现在有了，小杯（Nano），中杯（Flash），大杯（Pro）和超大杯（Ultra）。

500

Gemini除了增加型号，在单个窗口的Token数量上也是猛增，目前单次对话已经支持到一百万了。这是什么概念呢？你可以上传1500页的PDF，或30000行的代码，甚至是1个小时的视频，AI都可以对上面这些数据进行分析。这也是目前大模型当中，唯一支持一百万Token对话的，可以说是遥遥领先了。不过谷歌似乎还不满足，劈柴说今后会把这个数字提升到两百万！

500

AI已经渗透到谷歌产品血液中I/O剩下的部分都是在讲AI如何和自家产品结合的。我这里举几个例子，大家感受下。

当你网购的鞋子，尺码小了，只需要跟AI说一声，Gemini会自动从你的邮箱里获取订单信息，从里面分析出退货地址，然后自动从快递官网给你下单取货，你唯一要做的，就是在最后确认下运费的价格。

500

遇到不会的问题，打开搜索引擎输入文字或图片是最常见的做法，而现在有了Gemini的加持，谷歌已经可以根据视频来搜索回答问题了。比如I/O中的演示：眼前的黑胶唱机不工作了，支臂不停的"抽搐"，把这段录下来，发给谷歌，就会得到相应的解决办法。

500

另外一个令我印象深刻的例子，就是谷歌家的多APP联动，演示中，邮箱中塞满了来自客户的账单，Gemini站出来，直接就帮助把这些账单用Excel给列好了，并且分类非常清楚，还会把相应的账单照片放到云盘里归类好。

说到这，日常很少用Email的老爷们可能感受不深，这样想一下，你是个个体户老板，每天微信上都有收不完的转账，以前你还得拿小本本记，在截屏备份，有了AI后，它把每一笔收款的都记录到Excel中，并且都谁给的，什么时间，买了啥都分类记好，然后再把截屏备份，放在一个AI创建好带有日期的文件夹内。这是不是很爽？

500

最后一个例子就是关于通话的，当AI检测到你通话中有诈骗话术的时候，会跳出窗口提示你——目前的通话中疑似诈骗，银行不会让你转移资金，建议挂断电话。

500

能把AI集成到如此多的APP中，纵观世界上，目前也只有谷歌一家能做到这一点。安卓，Gmail，Youtube，WorkSpace不仅市占率非常高，并且基本上贯通了日常用的场景，像OpenAI，它要想做到以上，需要一家，一家的敲开其它APP大门才可以。

我们到底需要怎么样的AI？

大家有没有发现，AI进化的速度慢下来了，GPT5迟迟不见踪影，其他家也没有什么更聪明的模型出来，这是为啥？

根据ScalingLaw来看，想要更强大的模型，需要从数据，算法，算力来看，目前AI基本上已经把互联网上的资料"吃干抹净"，算法没有大突破，算力部署也被能源所限制。这么一看，我们离那种高智商AI还有很遥远的距离，对吧？

但是，我们真的需要如此的AI么？我想说出一个逆天回答：大多数的情况下，可能不需要！

以我用GPT4的经验来看，关于知识类的回答，它已经有百分之90的正确率，也就是说你问它任何一个问题，它都可以以本科生的水平来回答你。只是对于数学等强逻辑回答，它还是个初中生。但对于日常生活来讲，解数学题不是其中的主旋律，如何让AI参与到其中才是。

OpenAI的GPT4o以及今天的Project Astra都是大厂们给出的类似解，现在的AI应该在更多的感官途径上展示出的它的能力。

而今天谷歌另外一个重点，也让我们窥探到了在打通系统和主流APP的情况下，AI到底能给我们带来多大的方便。不过很可惜，在短时间内，我们可能很难感受到。想要腾讯，阿里等一众大厂互通，是不容易的一件事。

连续两天的发布会，也许在提醒我们，相比一个能解微积分，在每个行业都是顶级专家的AI，我们可能更需要一个普通的AI穿插在我们生活中。

科技举报

酷玩实验室

1476篇文章 | 50462人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

对标Sora，GPT4o，被截胡的谷歌开始反击

酷玩实验室
酷玩实验室官方账号

酷玩实验室

热点

站务

观察员小助手

【观学院线下招募】沈逸：新一届美国总统已来，但美国和世界将去向何方？

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

对标Sora，GPT4o，被截胡的谷歌开始反击

酷玩实验室 酷玩实验室官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

酷玩实验室
酷玩实验室官方账号