刚刚，ChatGPT-4发布，全方位碾压老版本，甚至能看懂网梗表情包为什么好笑

知危
知危官方账号

2023-03-15 12:42

今天凌晨，OpenAI 发布了 GPT 模型的 GPT-4 版本。

500

它比早先大家使用的 ChatGPT 的 GPT-3.5 内核强悍了一大截，再次刷新了知危编辑部对 AI 的认知。

首先，非常非常重要的一点是，GPT-4 除了文字输入，还可以接受图像输入了，并且支持文字与图像的混合输入。

在官方的示例中，用户给 GPT 上传了一张 Reddit 上的梗图，问 GPT 这张图为什么好笑：

500

GPT 非常详细且精准地描述出了图片上的内容，并且有思维条理的解释了为什么这张图会让人觉得好笑。

500

这已经不只是能通过图灵测试的水平了，它简直快成了图灵本人。。。

当然，这个功能并不只是能解释梗图那么简单，它拥有无限的想象空间，比如：

在今天凌晨的官方直播视频中，GTP 的开发人员演示了 GPT-4 可以识别他手绘的一张网页草图，并且根据草图写出网页的前端代码。

500

手绘的网页草图，非常抽象

500

GPT-4 给出的网页以及代码

虽然这个是示例里的网也非常简单，但 GPT-4 的理解能力和创造力还是让人觉得不可思议：

重要的不是它能不能做得很好，而是它能做到，这是一个质的飞跃。

看到这个功能之后知危编辑部跃跃欲试，可惜官方表示该功能暂时不对公众开放，也没有给出何时可以试用的时间窗口。

500

而在文字问答方面，GPT-4 也有非常大的提升，它在专业领域上的回答，全方位碾压了老版本。

比如，在统一律师考试（ Uniform Bar Exam ）中，GPT-4 可以超过 90% 的人类考生，而老版本只能超过 10% 的人类考生，相当于一个是考第一名，一个是考倒数第一名。

在 GRE 数学考试中 GPT-4 可以考 163 分（ 170 分满）超过 80% 的考生，老版本只能超过 25% 的考生。

在 GRE 语文（阅读与填空）考试中 GPT-4 可以考 169 分（ 170 分满）超过 99% 的考生，而老版本只能超过 63% 的考生。

单从这两门的分数来看，GPT-4 到了可以申请哈佛、麻省理工、斯坦福大学的水平。

500

更多考试对比

不只是知识渊博，GPT-4 相较于老版本，还可以成为更好的导师。

如果你提出一个问题，老版本的 ChatGPT 会一股脑的回答，而 GPT-4 可以像一名真正的人类老师一样一步一步引导、鼓励你思考并获得答案。

500

这个功能，一定会在教育领域大有可为，虽然他不太可能完全取代人类导师，但可以解决不少学生的时间，提高学习效率。

并且，“ ChatGPT 让人思考能力退化 ” 的隐忧可能也不复存在了。

至于回答相对随意的对话，GPT-4 也比老版本强，但感知不是很明显，官方的形容是 “ 区别微妙，只有问题复杂度足够高的时候能有所体现，GPT-4 比老版本更细、更可信、更富有创造力 ”。

500

这个版本已经可以在 ChatGPT plus 中小规模试用了（每四个小时对话 100 次），所以知危编辑部连夜让美国同事给账号充钱试了试。（国内信用卡和账单地址不可用）

我们首先找了一道外科选择题问 ChatGPT-4：

500

同样的问题问老版本 ChatGPT 的回答如下：

500

新老版本的回答都是正确的，并且对答案的解释程度相仿，区别不大。

所以，我们问了一些更需要 “ 创造性 ” 或是 “ 思考 ” 的问题，比如：

关于最近一次特斯拉投资者大会上 “ 实现全球可持续能源 ” 的计划，你觉得是可行的吗？为什么可行？

GPT-4 的答案如下图，虽然 GPT-4 的知识库还没有覆盖半个月前的那场投资者大会，但它给出的思路与特斯拉投资者大会上的思路惊人地相似。

500

而老版本 ChatGPT 的回答就逊色了很多，没有条理，还有一堆车轱辘话，没有建设性观点。

500

随后，我们又问了一个行业思考相关的问题：

请解释量子计算对现有密码学和密码体系的潜在影响，并讨论可能的解决方案。

ChatGPT-4 的回答如下：

500

老版本 ChatGPT 的回答如下：

500

两个回答的主体思路相仿，但 GPT-4 对问题的回答更加细致有条理，并且含有更多专业词汇与内容。

我们又继续问了一个最近在国内互联网上比较火的社会现象问题：

现在越来越多的白领不想坐在写字楼里上班，而是想辞职去干体力活，你觉得原因是？

ChatGPT-4 的回答是：

500

老版本 ChatGPT 的回答是：

500

ChatGPT-4 的回答明显比老版本的回答要维度更宽、思考更深，老版本的回答有些浮于表面，而新版本则是 “ 更具有深度思考 ”。

我们又继续问了一个关于互联网文化的问题：

为什么人们热衷于把某个网络热梗不断地进行抽象？

ChatGPT-4 的回答是：

500

老版本 ChatGPT 的回答是：

500

结果跟前几个问题有些像，ChatGPT-4 相较于老版本，更具富含逻辑，更能深度剖析问题，似乎在试图解构问题中的互联网文化。

总的来讲，这次发布的 ChatGPT，无论是基础功能、想象空间、逻辑能力、思考能力，都比之前强了一大截。

距离老版本 ChatGPT 颠覆我们的认知，才没过去几个月，这个发展速度，我们只能说是：

恐怖如斯。

财经举报

知危

302篇文章 | 188人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

刚刚，ChatGPT-4发布，全方位碾压老版本，甚至能看懂网梗表情包为什么好笑

知危
知危官方账号

知危

热点

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

刚刚，ChatGPT-4发布，全方位碾压老版本，甚至能看懂网梗表情包为什么好笑

知危 知危官方账号

热点

最近更新的专栏

风闻最热

全部专栏

知危
知危官方账号