刚刚,ChatGPT-4发布,全方位碾压老版本,甚至能看懂网梗表情包为什么好笑

今天凌晨,OpenAI 发布了 GPT 模型的 GPT-4 版本。

500

它比早先大家使用的 ChatGPT 的 GPT-3.5 内核强悍了一大截,再次刷新了知危编辑部对 AI 的认知。

首先,非常非常重要的一点是,GPT-4 除了文字输入,还可以接受图像输入了,并且支持文字与图像的混合输入。

在官方的示例中,用户给 GPT 上传了一张 Reddit 上的梗图,问 GPT 这张图为什么好笑:

500

GPT 非常详细且精准地描述出了图片上的内容,并且有思维条理的解释了为什么这张图会让人觉得好笑。

500

这已经不只是能通过图灵测试的水平了,它简直快成了图灵本人。。。

当然,这个功能并不只是能解释梗图那么简单,它拥有无限的想象空间,比如:

在今天凌晨的官方直播视频中,GTP 的开发人员演示了 GPT-4 可以识别他手绘的一张网页草图,并且根据草图写出网页的前端代码。

500

手绘的网页草图,非常抽象

500

GPT-4 给出的网页以及代码

虽然这个是示例里的网也非常简单,但 GPT-4 的理解能力和创造力还是让人觉得不可思议:

重要的不是它能不能做得很好,而是它能做到,这是一个质的飞跃。

看到这个功能之后知危编辑部跃跃欲试,可惜官方表示该功能暂时不对公众开放,也没有给出何时可以试用的时间窗口。

500

而在文字问答方面,GPT-4 也有非常大的提升,它在专业领域上的回答,全方位碾压了老版本。

比如,在统一律师考试( Uniform Bar Exam )中,GPT-4 可以超过 90% 的人类考生,而老版本只能超过 10% 的人类考生,相当于一个是考第一名,一个是考倒数第一名。

在 GRE 数学考试中 GPT-4 可以考 163 分( 170 分满 )超过 80% 的考生,老版本只能超过 25% 的考生。

在 GRE 语文( 阅读与填空 )考试中 GPT-4 可以考 169 分( 170 分满 )超过 99% 的考生,而老版本只能超过 63% 的考生。

单从这两门的分数来看,GPT-4 到了可以申请哈佛、麻省理工、斯坦福大学的水平。

500

更多考试对比

不只是知识渊博,GPT-4 相较于老版本,还可以成为更好的导师。

如果你提出一个问题,老版本的 ChatGPT 会一股脑的回答,而 GPT-4 可以像一名真正的人类老师一样一步一步引导、鼓励你思考并获得答案。

500

500

500

这个功能,一定会在教育领域大有可为,虽然他不太可能完全取代人类导师,但可以解决不少学生的时间,提高学习效率。

并且,“ ChatGPT 让人思考能力退化 ” 的隐忧可能也不复存在了。

至于回答相对随意的对话,GPT-4 也比老版本强,但感知不是很明显,官方的形容是 “ 区别微妙,只有问题复杂度足够高的时候能有所体现,GPT-4 比老版本更细、更可信、更富有创造力 ”。

500

这个版本已经可以在 ChatGPT plus 中小规模试用了( 每四个小时对话 100 次 ),所以知危编辑部连夜让美国同事给账号充钱试了试。( 国内信用卡和账单地址不可用 )

我们首先找了一道外科选择题问 ChatGPT-4:

500

同样的问题问老版本 ChatGPT 的回答如下:

500

新老版本的回答都是正确的,并且对答案的解释程度相仿,区别不大。

所以,我们问了一些更需要 “ 创造性 ” 或是 “ 思考 ” 的问题,比如:

关于最近一次特斯拉投资者大会上 “ 实现全球可持续能源 ” 的计划,你觉得是可行的吗?为什么可行?

GPT-4 的答案如下图,虽然 GPT-4 的知识库还没有覆盖半个月前的那场投资者大会,但它给出的思路与特斯拉投资者大会上的思路惊人地相似。

500

而老版本 ChatGPT 的回答就逊色了很多,没有条理,还有一堆车轱辘话,没有建设性观点。

500

随后,我们又问了一个行业思考相关的问题:

请解释量子计算对现有密码学和密码体系的潜在影响,并讨论可能的解决方案。

ChatGPT-4 的回答如下:

500

老版本 ChatGPT 的回答如下:

500

两个回答的主体思路相仿,但 GPT-4 对问题的回答更加细致有条理,并且含有更多专业词汇与内容。

我们又继续问了一个最近在国内互联网上比较火的社会现象问题:

现在越来越多的白领不想坐在写字楼里上班,而是想辞职去干体力活,你觉得原因是?

ChatGPT-4 的回答是:

500

老版本 ChatGPT 的回答是:

500

ChatGPT-4 的回答明显比老版本的回答要维度更宽、思考更深,老版本的回答有些浮于表面,而新版本则是 “ 更具有深度思考 ”。

我们又继续问了一个关于互联网文化的问题:

为什么人们热衷于把某个网络热梗不断地进行抽象?

ChatGPT-4 的回答是:

500

老版本 ChatGPT 的回答是:

500

结果跟前几个问题有些像,ChatGPT-4 相较于老版本,更具富含逻辑,更能深度剖析问题,似乎在试图解构问题中的互联网文化。

总的来讲,这次发布的 ChatGPT,无论是基础功能、想象空间、逻辑能力、思考能力,都比之前强了一大截。

距离老版本 ChatGPT 颠覆我们的认知,才没过去几个月,这个发展速度,我们只能说是:

恐怖如斯。

全部专栏