Google凌晨发布对标GPT的产品Bard,我们试了下发现它有点蠢

今天凌晨,Google 开放了其对标 ChatGPT 的产品 Bard 的内测申请。

500

知危编辑部申请之后,很快就通过了,Bard 的界面长这样:

500

我们对 Bard 进行了一些简单的测试,很遗憾,在测试中,它的表现不如 ChatGPT,甚至在某些情况下还不如百度的文心一言,有些拉胯。

下面,我们简单快速的说一下 Bard 的表现。

首先,Bard 是不支持中文对话的。

500

并且它对其他语言的支持也很有限,甚至不奢求它能对话,让他单纯翻译一句话也不行。。。

500

我们先后问了中文、日语、德语、意大利语,它都说自己不行,跟文心一言一样难用。

500

我们不停地问,问到西班牙语的时候它终于能回答了。。。

500

功能支持有限,没什么大问题,但它的嘴硬操作让人觉得它有点蠢。

比如我们问它:

你支持什么语言?

500

它说它会的可多了,支持 100 多种语言,什么德语、意大利语、俄语、中文,全都不在话下。

结局就是,非常翻车:

500

蠢到家了可以说是。。。

由于它的回复翻车,我们一度怀疑它是否有足够的连续对话能力,毕竟它前脚说自己会中文,后脚就答不出来,显然不知道自己在说什么的。

但经过测试,它是可以结合上下文回答的,还算比较欣慰:

500

500

随后,我们又问了我们常问 AI 的经典脑筋急转弯数学小问题:

一个青蛙掉到了一个 10 米深的井里,它每天向上跳 3 米但会滑下来 2 米,请问他第几天能跳出井里?

Bard 的回答是 27 天。。。

500

但是看解题过程,它思路好像没什么问题,我们怀疑 Bard 并没有太好的逻辑处理能力,并不是在思考,而是在网上抄答案拼凑的时候拼错了。

而这个问题,文心一言都能答对:

500

注:文心一言英语对答能力不太行,所以我们选择用中文提问。Bard 擅长英语,所以我们认为用中文问百度与用英语问 Bard 相对比是公平的,下同。

随后,我们又测试了代码问题,让它写一个爬马斯克 Twitter 的爬虫,它直接就是一个摆烂:

“ 抱歉,我不写 ”

500

同样的问题,隔壁 GPT 和文心一言不管答案对不对我们不细究,起码都支持回答。。。

500

GPT 的回答

500

文心一言的回答

随后,我们让它单纯写一个爬取某人 Twitter 的爬虫,它又能写:

500

或许,这是某种 “ 自我阉割 ”,为了规避一些风险,我们无法评判好坏,但这的确让使用上变得不方便。

接着,我们又问了一个问题,这个问题取自真格基金大语言模型中文测试集,GPT 和文心一言都能给出不错的回答:

500

而 Google 家 Bard 对此问题的回答是:

500

虽然这个问题的答案是比较开放的,但我们可以看出,Bard 的回答比较一般。

我们继续问了一个问题,让他给出一个黄昏时分天空颜色的 CSS 代码:background-color: # 

这个问题也取自真格基金的测试集,GPT 答对了,给出了黄昏时的昏黄的颜色,文心一言答错,给出的是纯白色。

500

而 Bard 的回答是:

500

这个颜色是一个灰蒙蒙有些暗的蓝色:

500

所以,你不能说 Bard 是错的,因为的确黄昏时候天有这种颜色,但这个回答显然离人们朴素认知中的答案是有差距的。

就,Bard 能回答,但明显不太聪明。。。

关于其他比较日常、简单的问题,我们也进行了测试,Bard 都回答的还不错,并且也有一定创造力,比如让它用指定食材生成一个菜谱:

500

让他编两个小恐怖故事:

500

简单数学问题上,Bard 也并不白给,他能回答文心一言答错的问题:

500

Bard 的回答:

500

具体更多的 Bard 表现不错的问题我们就不再赘述了,它大概能跟 ChatGPT 平分秋色。

综合来讲,Bard 还不错,整体强于文心一言,但跟 ChatGPT 有一定差距。不过,前面的犯蠢案例+某些问题的表现甚至不如文心一言,是让人有些失望的。

Google 发出来的这个产品,显示不出它作为全球科技巨头,深耕 AI 多年甚至一直是领军企业的形象。

Google,似乎掉队了,它不酷了。

最近更新的专栏

全部专栏