对标Sora,GPT4o,被截胡的谷歌开始反击

好家伙,这两天的硅谷比我老家的大集都热闹

每年5月份的都是谷歌I/O大会主场,最新版本的安卓,谷歌最新的AI都是在I/O大会上发布的,没想到就在I/O大会前一天,OpenAI来了个截胡,让自家的新模型GPT4o刷了屏。

但从今天凌晨的I/O来看,谷歌还是那个横贯硅谷25年的老大哥,不仅带来了和GPT4o同样效果的个人助理,甚至还带来了反击Sora的Veo模型。不过我认为接连两场的发布会,更重要的是向全世界展示了硅谷的大厂们,正在用AI做一些什么。

GPT4o?谷歌:我也有

劈柴(谷歌CEO的中文诨名)上来没讲技术,直接"duang,duang"展示了几个AI在谷歌应用中的案例,比如在谷歌相册中,当你忘了自己车的牌照,就可以直接问AI,它会帮你从存在谷歌相册中的所有照片寻找车牌的照片,当你想查看自家小孩的游泳成长历程,谷歌相册也会帮你按顺序排好。

500

谷歌相册能有这般能力,都是基于自家的Gemini大模型,期间劈柴一直强调,自家的Gemini是原生的多模态大模型,这背后针对的是谁,OpenAI和它的GPT4o最清楚。

劈柴统领全文后,就是谷歌的各个部门负责人上来演讲了,与前几年大不同,这次DeepMind率先登场,这支打造出AlphaGo而举世闻名的团队,今年已经和谷歌其它AI研究团队彻底完成整合,成为了目前谷歌公司中,唯一研发AI的部门。

500

这也是DeepMind首次登上I/O,出场即巅峰,可以看出谷歌对于AI的重视。DeepMind也未辜负众望,甩出了两个王炸——Project Astra和Veo

Project Astra是谷歌目前打造AI助理的计划,按照谷歌的想法,未来的AI助理,不止是通过文字和人类交流,它应该能看人类所看,听人类所听,并且反应迅速,不能有延迟感。这不就是GPT4o么?这针锋相对的味道,太冲了。下面是Project Astra的演示视频,强烈推荐观看,尤其是找眼镜那段,绝了!并且,这次谷歌也吸取了Gemini发布时教训,特意强调,这是一镜到底的视频。

接下来,还介绍了最新的Imagen3文生图模型,效果确实不错,但也没有到领先Midjourney,Dall-E的地步。同样的情况也发生在音乐模型上。只不过到了视频模型Veo这里,谷歌的声音就大了很多。

下面这个视频是由Veo生成的,老爷们可以先看看。Veo目前可以生成高品质,1080P,超过1分钟时长的视频。这1分多钟可以是由一句提示词生成,也可以是由多个提示词组而生成。下面演示的这个视频就是由4个提示词组生成的。不知道大家感觉怎么样,整体看下来,我觉得它已经超过目前的Runway,但是和Sora相比,还略逊一点,但Veo优势在它支持多个提示词,来生成一个长视频,这是Sora目前做不到的一点。

总之,牌桌上多一个玩家,肯定是用户收益,希望能早点用上这样的视频模型吧。

Gemini:更快,更长,更便宜

自从谷歌放弃了PaLM和Bard,转投到Gemini下,这个模型的成长速度飞快。一年多的时间,已经进化到1.5版本了。这次I/O上,谷歌把Gemini1.5 Pro版本的大模型进行了蒸馏,推出了Gemini1.5 Flash版。这个版本的相应速度更快,每Token的价格更便宜,但是处理复杂问题的时候,就不如Pro版了。也就是说,这是介于Nano和Pro版本之间的一个模型。按照老罗的话说,谷歌现在有了,小杯(Nano),中杯(Flash),大杯(Pro)和超大杯(Ultra)。

500

Gemini除了增加型号,在单个窗口的Token数量上也是猛增,目前单次对话已经支持到一百万了。这是什么概念呢?你可以上传1500页的PDF,或30000行的代码,甚至是1个小时的视,AI都可以对上面这些数据进行分析。这也是目前大模型当中,唯一支持一百万Token对话的,可以说是遥遥领先了。不过谷歌似乎还不满足,劈柴说今后会把这个数字提升到两百万

500

AI已经渗透到谷歌产品血液中I/O剩下的部分都是在讲AI如何和自家产品结合的。我这里举几个例子,大家感受下。

当你网购的鞋子,尺码小了,只需要跟AI说一声,Gemini会自动从你的邮箱里获取订单信息,从里面分析出退货地址,然后自动从快递官网给你下单取货,你唯一要做的,就是在最后确认下运费的价格。

500

遇到不会的问题,打开搜索引擎输入文字或图片是最常见的做法,而现在有了Gemini的加持,谷歌已经可以根据视频来搜索回答问题了。比如I/O中的演示:眼前的黑胶唱机不工作了,支臂不停的"抽搐",把这段录下来,发给谷歌,就会得到相应的解决办法。

500

另外一个令我印象深刻的例子,就是谷歌家的多APP联动,演示中,邮箱中塞满了来自客户的账单,Gemini站出来,直接就帮助把这些账单用Excel给列好了,并且分类非常清楚,还会把相应的账单照片放到云盘里归类好。

说到这,日常很少用Email的老爷们可能感受不深,这样想一下,你是个个体户老板,每天微信上都有收不完的转账,以前你还得拿小本本记,在截屏备份,有了AI后,它把每一笔收款的都记录到Excel中,并且都谁给的,什么时间,买了啥都分类记好,然后再把截屏备份,放在一个AI创建好带有日期的文件夹内。这是不是很

500

最后一个例子就是关于通话的,当AI检测到你通话中有诈骗话术的时候,会跳出窗口提示你——目前的通话中疑似诈骗,银行不会让你转移资金,建议挂断电话。

500

能把AI集成到如此多的APP中,纵观世界上,目前也只有谷歌一家能做到这一点。安卓,Gmail,Youtube,WorkSpace不仅市占率非常高,并且基本上贯通了日常用的场景,像OpenAI,它要想做到以上,需要一家,一家的敲开其它APP大门才可以。

我们到底需要怎么样的AI?

大家有没有发现,AI进化的速度慢下来了,GPT5迟迟不见踪影,其他家也没有什么更聪明的模型出来,这是为啥?

根据ScalingLaw来看,想要更强大的模型,需要从数据,算法,算力来看,目前AI基本上已经把互联网上的资料"吃干抹净",算法没有大突破,算力部署也被能源所限制。这么一看,我们离那种高智商AI还有很遥远的距离,对吧?

但是,我们真的需要如此的AI么?我想说出一个逆天回答:大多数的情况下,可能不需要!

以我用GPT4的经验来看,关于知识类的回答,它已经有百分之90的正确率,也就是说你问它任何一个问题,它都可以以本科生的水平来回答你。只是对于数学等强逻辑回答,它还是个初中生。但对于日常生活来讲,解数学题不是其中的主旋律,如何让AI参与到其中才是

OpenAI的GPT4o以及今天的Project Astra都是大厂们给出的类似解,现在的AI应该在更多的感官途径上展示出的它的能力。

而今天谷歌另外一个重点,也让我们窥探到了在打通系统和主流APP的情况下,AI到底能给我们带来多大的方便。不过很可惜,在短时间内,我们可能很难感受到。想要腾讯,阿里等一众大厂互通,是不容易的一件事。

连续两天的发布会,也许在提醒我们,相比一个能解微积分,在每个行业都是顶级专家的AI,我们可能更需要一个普通的AI穿插在我们生活中。

站务

最近更新的专栏

全部专栏