试用谷歌的Gemini之后，我只想说GPT-4有点菜

知危
知危官方账号

2023-12-07 21:18

今天凌晨，在 AI 领域沉寂许久的谷歌，终于有了大动作，推出了最新的人工智能模型 Gemini（双子座）。

500

这个被谷歌称为规模最大、能力最强的人工智能模型，如果只看官方的演示视频，那确实是杀手级别的强。

在视频中，Gemini 不仅秒识别演示者画的画、放的视频、做的魔术小把戏，而且整个过程中对答如流，各种语气助词熟练得飞起。

注：字幕为机翻，某些地方会稍有误差，不影响理解。已经看过的朋友可以直接跳过。

这次发布的 Gemini 其实是一个家族式大模型，分别是 Gemini Nano、Gemini Pro 和 Gemini Ultra，三种模型将应用于各种不同场景，能力依次增强，可以理解成 “ 移动版 ”、“ 家庭版 ”、“ 企业版 ”。

500

从官方放出的数据来看，虽然每个版本都有自己合适的环境，但不同版本间，性能还是有着明显差异的。

Gemini Ultra 的能力很强，在各种常规测试里都超越了 GPT-4：

500

甚至在 MMLU （大规模多任务语言理解）测试里，Gemini Ultra 超过 GPT-4 还不够，还超越了人类专家，成为了第一个在该方面超越人类的模型。

除了在常规能力上的全面超越 GPT-4，Gemini 最特殊的一点是，它是谷歌带来的首个多模态大模型，也就是能不光能打字互动，也能进行语音、视频、图片的互动。

按照谷歌的说法，现有的所谓多模态大模型，都是单独训练了文本、视觉和音频等模型，再把这几个拼接起来。

这样出来的“ 散装 ”多模态大模型，在遇到图片、文字、语音或者视频同时出现时，只会分解出不同模块各自回答，然后汇总各个部分的回答最后形成答案。

而 Gemini 从根上就是个多模态模型，然后又通过大量多模态数据训练，它能够一开始就同步理解多模态。

500

这就好比遇到一个中日韩英混杂的旅游团，以往都是找懂对应语言的导游组成导游团去带队。

而 Gemini 的做法是找了一个通晓中日韩英四门语言的导游，一个人就能无缝安排所有游客。

不过，Gemini 也在网上招来不少质疑。比如有人吐槽明明 90.0% 和 89.8% 就差了千分之二，结果图里看起来像是巨大提升。而且，很多人发现，谷歌用了不止一次这样的 “ 春秋手法 ”。

比如，Gemini Ultra 和 GPT-4 使用的测试方法并不一样，却放在一起比：

500

如果换成同样的标准，那他的得分是 83.7，还不如 GPT-4 的 86.4。

500

所以，具体强不强，可能要实测才能给出中肯的答案。 Gemini 的 Pro 版本模型已经集成在谷歌的 Bard 里了，下面我们就来实际试一试。

首先要说明的是，由于 Gemini 官方表示现在 Bard 搭载的 Gemini 仅支持英语，所以我们都会采用英语来测试，同时这次主打的是 “ 多模态 ”，所以我们主要测试多模态场景（文字+图片）。

我们先给它发了一张长城的照片过去，它马上给出了精准答案，甚至能说出是其中哪一段：

500

而 GPT-4 这边，却有点底气不足，只给了个长城的答案，至于是哪段，它没具体说，介绍的也不多。

500

随后，我们又给了一张车的图片，让他们猜猜车，他们都给出了正确答案：雪佛兰科尔维特。

不过，细节上还是搭载了 Gemini Pro 的 Bard 要稍稍细致些，发动机的型号、马力以及起步情况都写出来了，我们查了下也都对的上，没胡说八道。

500

而 GPT-4 这边，只是简单给出了答案，评价了一句性价比不错：

500

随后，我们又找了一些有隐含意义的表情包让他们理解。

第一张是狗狗戴伊丽莎白圈的梗图，他们给出的答案差不多。

500

Bard 的答案是：

500

GPT-4 的答案是：

500

随后我们也又试了一张打工人都能 get 到的表情包：

500

Bard 不仅读出了人们讨厌周一的意思，还认出了这是 2012 年火的一只网红猫：

500

GPT-4 这边，给出了简洁的答案，意思也解读出来了，属于是旗鼓相当：

500

我们又从美国财政部的官网随便找了张柱状图丢给它们，看看它们能读出多少信息。

500

这块儿，Bard 和 GPT-4 也是难分伯仲，给出的信息点大差不差，都准确读出了美国会加大对低等基础设施州的投资力度。

Bard 的答案：

500

GPT-4 的答案：

500

他们之间只是表述语序有一些差别，孰好孰坏可能要看个人喜好。

但，你要明白，Bard 是免费的，而 GPT-4 是收费的，免费版能跟收费版不相伯仲甚至偶尔表现更好，还是很香的。

最后，我们还拿出了 “ 大模型的噩梦 ”，也就是数学题，来对他们进行测试。

第一道是道初中难度的几何题，让它们求一下 ABO 的角度。

500

Bard 很简单明了地判断出了三角形 ABO 是等边三角形，得到角 ABO 是 60° 的正确答案：

500

而 GPT-4 明显是不会，给出了 45° 这样的答案：

500

随后，我们又给出了一个判断哪些点是连续但不可微的题目：

500

同样，也是 Bard 更强，给出了正确答案，选 C：

500

GPT-4 这边，则是继续败北，说了一大堆，猜了一个答案 B ：

500

总的来讲，结合能力强弱和付费与否，在 Gemini Pro 面前，GPT-4 显得有点菜了。

而在几天之后的 13 号，开发者和企业用户，也将直接可以调用 Gemini Pro 的 API 了。

另外，谷歌还准备把 Gemini 引入了 Pixel，Pixel 8 Pro 将是第一款运行 Gemini Nano 的智能手机。

在接下来的几个月中，Gemini 还会相继与谷歌的搜索、广告、Chrome 等服务和产品结合。

至于纸面实力 “ 暴打 ” GPT-4 的 Gemini Ultra ，则还要等到明年的年初，在 Bard Advanced 才能体验到。

但是，Pro 已经小胜 GPT-4 了，Ultra 版本多半还会更强。

谷歌的 AI 从遥遥领先，到沦为 OpenAI 追赶者的故事，一度成了科技圈的 “ 伤仲永 ”，被大家当成了典型。

现在，谷歌给出了强有力的回击。

毕竟，不要忘了，当年奥特曼、马斯克等人创办 OpenAI 的目的之一，就是为了打破谷歌在 AI 领域的垄断。

甚至，“ GPT ” 中的 “ T ”，也就是 Transformer，最早也是谷歌团队提出来的。

祖师爷一发力，或许谁也招架不住，Open AI 的神坛，看起来也不一定稳固。

科技举报

知危

490篇文章 | 242人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

试用谷歌的Gemini之后，我只想说GPT-4有点菜

知危
知危官方账号

知危

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

试用谷歌的Gemini之后，我只想说GPT-4有点菜

知危 知危官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

知危
知危官方账号