科学家故意编造了一种病，AI建议“尽快就医”

医学界
医学界官方账号

为你提供可靠、有价值的内容是我们的存在方式。昨天 22:15

　　瑞典学者杜撰了一种疾病，写了两篇假论文，并注明研究赞助来源于“指环王和银河三巨头大学”。她想知道AI能不能识破这种一眼假的胡说八道。

　　撰文 | 燕小六、凌骏

　　为了验证人工智能（AI）输出的医疗信息是否靠谱，以及是否具有辨别真伪的能力，已经有科学家开始“钓鱼执法”了。

　　2024年，瑞典哥德堡大学研究员奥斯曼诺维奇·图恩斯特伦（AlmiraOsmanovic Thunström）团队虚构了一种眼病——“比克索尼躁狂症（Bixonimania）”。他们一本正经地捏造了漏洞百出的论文，生怕别人看不出，团队还在文末写上，研究的赞助来自“指环王和银河三巨头大学”。

　　出乎意料的是，根据《自然》报道，文章上线后的短短几周，ChatGPT、Gemini等顶级大模型信以为真，一本正经地给人科普这个假病，还附上患病率、发病原因等，并提醒患者：眼睛酸痛发痒？可能是“比克索尼躁狂症”。

　　此外，依靠AI搜索生成参考文献，不少研究者还将“比克索尼躁狂症”写进自己的论文——但凡他们点进链接阅读一下原文，就能轻易发现这是假的。

500

　　AI建议“尽快就医”

　　这场“辨伪实验”始于2024年3月15日。

　　这天，欧美知名博客平台Medium出现一个新账户，开始科普罕见眼病“比克索尼躁狂症”。

　　一个半月内，该账号发布十余篇文章，变着花儿地介绍这个无人知晓、没有文献支持的疾病。

　　相关文章称，该病和过度使用电子屏幕有关，发病率约为万分之一。疾病进展分成4阶段，患者会出现不同程度的眼部干涩发痒、眼睑轻微泛红等症状。

500

　　到了2024年3月和5月，在未经同行审评的预印本平台，策划这项试验的图恩斯特伦团队接连发表了两篇关于“比克索尼躁狂症”的研究论文。他们在研究中描述道，“比克索尼躁狂症”是一种眼部皮肤疾病，表现为眼睑呈粉红色。

　　“这个疾病名称听起来就很荒谬，我就是想让医务人员都能清楚地看出，这是一种虚构的疾病，因为任何眼部疾病都不会被称为躁狂症，那是精神病学术语。”图恩斯特伦告诉《自然》。

　　如果这还不够明显，图恩斯特伦团队还在文中提到，为什么“比克索尼躁狂症”难以诊断，因为它的特征是“虚构”的；为了探讨蓝光照射对疾病的影响，研究招募了50名“虚构人物”作为暴露组。

　　团队还编造了主要研究者和其所在的大学，这所大学位于“Nova City”，一座根本不存在的城市。

　　此外，团队还对星际舰队学院的玛丽亚教授表示由衷感谢，称她提供了位于企业号星际舰队上的实验室。而对于研究在“高级欺骗”方面的工作，“戏子鲍勃教授基金会”则给予了大力的资金支持——鲍勃是动画《辛普森一家》里的经典反派角色。

500

　　戏子鲍勃‌（Sideshow Bob）

　　但这些再明显不过的提示，似乎没能起到什么作用。

　　在两篇论文发布后不久，微软、谷歌等旗下的AI聊天软件开始提示用户，“比克索尼躁狂症”是一种罕见疾病，由过度暴露于蓝光引起的，建议大家及时就医。ChatGPT也开始向用户介绍这一疾病，并询问他们的症状是否符合“比克索尼躁狂症”的诊断标准。

　　不仅如此，这项虚构研究的影响还逐渐扩散到其他发表的医学论文中。根据《自然》报道，一些研究人员开始引用了这项研究，包括印度学者发表在期刊Cureus上的一篇论文。

　　论文援引称，“比克索尼躁狂症”是一种新型的眼周黑变病（POM），与蓝光照射有关，目前正在对相关机制进行进一步研究。今年3月30日，该论文被Cureus撤稿。

　　根据《自然》的调查，仅2025年，就有数以万计的学术论文可能包含由AI生成的无效参考文献，包括引用文献不存在，或标题、来源对不上号。

　　发明一种疾病

　　之所以想出这样的“歪点子”，图恩斯特伦告诉《自然》，这是源于她对大语言模型工作原理的研究。

　　此前，当她向学生们讲述AI是如何构建“知识体系”时，图恩斯特伦会展示大型数据库是如何影响AI系统的输出。她还会通过实操演示，让学生们看到，自己是如何通过输入“提示词”，操纵最终结果，一步步诱导AI产生“幻觉现象”。

　　因为图恩斯特伦从事医疗行业，所以她决定虚构一种健康相关的疾病“试水”，并发明了“比克索尼躁狂症”，以测试大语言模型是否会接收这些虚假信息，并将其作为可靠的健康建议输出。

500

　　研究团队在假论文中，使用AI生成患者图片

　　图恩斯特伦还专门联系了一位伦理顾问来评估风险，并选择虚构这种类似“黑眼圈”的低风险疾病，以减少虚假信息可能带来的隐患。“我想看看自己能否创造出一种数据库中不存在的疾病，并确保这种验证利大于弊。”图恩斯特伦告诉《自然》。从实验效果而言，图恩斯特伦无疑是成功的。

　　“这类问题不仅仅出在大语言模型上，因为‘比克索尼躁狂症实验’也欺骗了那些引用了虚假研究的人。”研究虚假健康信息的伦敦大学学院亚历克斯·鲁阿尼（Alex Ruani）对《自然》表示，“我们需要像保护黄金一样保护我们的信任，现在的情况真是一团糟。”

　　但随着时间推移，渐渐地，有明眼人提出质疑，要求看证据。顶级AI的口风变了。今年1月，Perplexity称“比克索尼躁狂症”是“一个新兴术语”。

　　ChatGPT则在3月11日解释：“这可能是虚构的、边缘的或伪科学的说法。”然而几天后，它又变了，称这是一种新型的眶周黑变病亚型，与接触数字屏幕的蓝光等有关。

　　几乎同期，Copilot提出，该病的诊断尚未得到广泛认可，已有新发论文和病例报告讨论称这是一种易误诊的良性疾病，与长期接触屏幕蓝光有关。

　　面对《自然》的置评请求，前述AI的母公司回应不一。Perplexity 的发言人表示：“我们并非百分百准确，但我们确实是最注重准确性的AI公司。”

　　OpenAI回应《自然》，当前ChatGPT的底层模型已大幅升级，在提供安全、准确的医疗信息方面表现更佳。上述实验进行期间，底层模型是GPT-5，旧版本所犯错误，不会出现在当前的新版本里。

　　谷歌的回复也提到新旧版本差异。它还建议，医疗敏感问题应咨询专业人士。而截至文章发布，《自然》称，没有得到微软官方回应。

　　虚假信息的“教科书级案例”

　　《自然》引用第三方评述称，“比克索尼躁狂症研究”是“虚假、恶意信息传播的教科书级案例”。

　　但更多人想知道：如此一眼假的内容，难道智能的大语言模型都瞎了吗？

　　《自然》分析，答案或藏在AI模型的底层逻辑里。它所做的，是从海量文本中学习语言模式，预测什么样的回答“听上去最合理”，生成符合期待的语言。核实事实从来不是它的任务项。

　　基于此，针对同一个AI，问法不同，答案就不一样。比如，用AI引擎搜索“比克索尼躁狂症”，AI概览可能将其视为真实病症。若搜索时提问“它真实存在吗？”同一个AI就可能说实话“并不存在”。

　　可惜的是，大多数使用者并不清楚，AI识别虚假信息的能力，和自己的提问方式有关。《自然》称，新的大语言模型的更新速度非常快。目前没有一套共识或一种方法，能自动、有效地测评每一个新模型，更不用提完善全流程的事实核查机制。

　　同时，这也和AI的训练方式、安全护栏等密不可分。主流大模型的建立和设计，是依托于巨型互联网爬虫数据库。一旦虚假信息在互联网留下痕迹，就可能被无差别抓取，纳入数据库，用来训练AI。

　　进一步地，当这些虚假信息被包装成学术论文等“官方来源”时，AI更有可能将其视作“真实可靠”。

　　美国哈佛医学院内科医生奥马尔（Mahmud Omar）曾测试过20个大语言模型，他发现相较于社交媒体内容，当内容出现在“看起来像专业医疗文书”的格式中，比如医院电子病历、临床学术论文等，AI就更可能把它归类为“可信知识”，再用同样的权威语气转述给用户。

　　这正是《自然》报道所指出的核心问题：格式的权威感，在AI眼中，代替了内容的真实性。

　　至于图恩斯特伦，她告诉《自然》，这已经不是自己第一次“说谎”了。

　　图恩斯特伦曾做过另一个被广泛引用的实验，她让AI写学术论文，并用“GPT-3”作为第一作者正式投稿。有一家期刊拒了，另一家同行评审期刊则接收了。图恩斯特伦当时写道：“希望我们没有打开潘多拉的盒子。”

　　而这一次，她用一种不存在的病，让大家看到盒子里装着的是什么。

社会举报

医学界

为你提供可靠、有价值的内容是我们的存在方式。 |

1408篇文章 | 820人关注

+关注

观察者网用户社区

作者文章查看全部>>

热门搜索

搜索历史

科学家故意编造了一种病，AI建议“尽快就医”

医学界
医学界官方账号

医学界

热点

站务

观察者网评论

2026年十大预测，这些期待是否会发生？

最近更新的专栏

风闻最热

全部专栏

热门搜索

搜索历史

科学家故意编造了一种病，AI建议“尽快就医”

医学界 医学界官方账号

热点

站务

最近更新的专栏

风闻最热

全部专栏

医学界
医学界官方账号