为什么ChatGPT对袁岚峰的介绍是瞎扯？ | 科技袁人

风云之声
风云之声官方账号

2023-06-04 20:54

■ 西瓜视频：

https://www.ixigua.com/7223396535445225996

本视频2023年4月18日发布于西瓜视频，观看量13.9w。

500

袁岚峰：大家好，孔子有句名言，三人行必有我师焉。这两位是我们科大大数据学院的研究生，他们最近对于ChatGPT 都非常有研究，这也是我非常感兴趣的话题，所以我就向他们来好好地咨询学习一下。

500

（前两天我）问它一个问题，说请你介绍一下袁岚峰，我说介绍一下我，然后它就回答就完全胡说八道。它除了把我的单位说对了之外，其他的我的专业、我干什么的，以及获过什么奖之类的全都乱扯一气，然后说，好像介绍得不太对，再请你介绍一下袁岚峰。

杜叶倩（中国科学技术大学大数据学院博士研究生）：ChatGPT它在训练的时候，它不可能学习到大千世界里所有的东西，他只能学习到一部分。像对于人名、包括一些影视作品，可能歌手、明星这种它并没有了解得面面俱到，但是它作为一个语言模型又很擅长生成，不擅长判断，所以它一定会自信地生成一些东西。生成的结果可能会基于以往的在它学习的语料库里面的一些相关的，比如说也是科大的老师，可能会就参考它的结果可能会给您一些答案。它里面一旦引入这种随机机制的话，两次结果就会产生这种不一致了。

500

阿玄（中国科学技术大学大数据学院硕士研究生）：比如说在AI绘画里面用Stable Diffusion，它里面有个很核心的参数就是种子值。当我想让它帮我画一只狗，我刷新十次，它总会给我刷新成十只不同的狗，当你细节的描述越来越多，但你总不可能描述到所有细节，总有一个地方它是可以改变的，通过种子值就变了。

500

说不定你刷新一次之后，它可能也是改变了它回答的某一个随机数，这些东西也可以引导答案生成，说不定刷了之后就给你刷到另外一个地方。但至于为什么没有对的，还是因为人名这个东西，它在学习过程中，因为它只关心上下文，如果它可能没有对人名做一些特殊处理的权重，对于人名跟人名后面的文字来讲对它是一样的，那它就没有一个很强的关联属性。比如说今天袁老师可能跟某位老师一起合作，你们的名字一起出现在了某个地方，可能这个东西就让它学混了，最后说的时候也就说乱了。

杜叶倩：比如说一些新的知识，像现在ChatGPT它只训练到2021年某个月份以前的结果，那么它之后的结果我们肯定是无法获知的，尤其是它对于人名、新闻、时事这种东西，它是这种实时发生的东西，它肯定是很难判断的。

不过这个也是一个启发，就是说我们未来它可能更多的需要连入互联网，通过借助互联网来去获取一定的知识，给我们更准确和更实时的反馈。

500

袁岚峰：是的，是的，这就是我让它回答一下，介绍一下我是谁，然后发现这个回答是乱扯一气，我就第一个想法是，那查一下百度百科不就行了。

阿玄：其实在使用的时候，使用完之后它会有一个您对这条回答的满意程度是怎么样的？一个大拇指跟一个下的大拇指来评价，这个打分也是它后续优化自身的方式。而且其实作为语言模型来讲，它本身的局限在这，我觉得这个工具来讲，我们可能与其是期望它能为我们提供100%的正确答案，更现实一点的可能还是我们去了解它的特性，来让它去做适合它的任务。

500

就像如果你直接问它判断性内容，你让它介绍袁老师，它说来的内容，如果我是一个对袁老师不那么熟的人，它说袁老师中国科学技术大学微尺度学院。那后面的东西我就认为我说的是对的，那它后面东西也是对的，结果发现袁老师研究什么医学、研究生物研究得特别好。

这个其实原则上来说你不知道的话你是没法判断的，而且因为它的语言生成是非常自然的，看不出区别。但是利用它这个特性，可以让它做一些检索类的工作，跟所谓的重复性的工作是比较好的。

500

比如说因为研究需要我有时候问它，能不能帮我找一下最有名的几个CAE软件的架构图，CAE软件我们之前节目里其实有谈到了，工业设计的软件（三十年，中国工业软件从欣欣向荣到溃不成军 | 科技袁人）。而它虽然因为它这个特性，它这个图的网址都没给我找对，但它给我列出了几个软件，确实都是知名的CAE软件，这个是对的。

我想找一下它们的架构图，但我发现其实，首先商业公司基本上不会放出来自己产品的架构图，开源的架构图也比较简单，但主要是它的网址一般给的都是错的，这个也是因为它是基于上下文的，它这个网址可能是它生成一串很像是网址的东西，但实际点进去看不到。但是它这个公司的名字、CAE这个词检索是对的，我觉得对一个未知的领域，通过这个东西去像开地图一样的，去以点带面的，它给你一个方式可以让你迅速的了解，作为一个检索工具，我觉得还是非常高效的。

500

杜叶倩：像我现在也是不太，就不完全信任它给出来的结果，所以我就比较倾向于拿它去做一些简单的文字性处理的工作，比方说要从一段源码里面把所有的数字都给我提取出来，然后并且保留二位小数。像这种工作我以前可能需要一个一个地去复制粘贴，现在我就一整段话丢给他，然后并告诉它我要去干什么就可以，这种结果我也是可以确定性是对的。

袁岚峰：那要找到一个适合它的应用还挺如履薄冰的，万一在哪个地方出了错，说不定造成一个非常严重的问题，这也是一个很有意思行业现状。当一个新技术出来的时候，一般人往往是震惊于它的强大，然后很容易把它神化了。

500

就觉得它要取代我们工作了，整个人类社会都要被它支配了，但是真正内行的人往往是觉得它太弱了，能力这么差，有这么多的不足，可能往往是越内行的人越悲观，越外行的人越乐观，很多行业都有这个现象。

科技举报

风云之声

986篇文章 | 60380人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

为什么ChatGPT对袁岚峰的介绍是瞎扯？ | 科技袁人

风云之声
风云之声官方账号

风云之声

热点

站务

观察者网评论

请你来预测，2025年这些期待是否会发生？

风闻社区小助手_小风

风闻“投资者保护”：守护你的财富，共筑理性投资路

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

为什么ChatGPT对袁岚峰的介绍是瞎扯？ | 科技袁人

风云之声 风云之声官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

风云之声
风云之声官方账号