AI医生来了,靠谱吗?
AI可以成为人人可享的高水平健康助手。
撰文 | 文 慧
责编丨汪 航
“AI发现了我的检查结果异常,并根据症状变化,敦促我去了急诊,救了我的命。”
今年初,知名科技论坛“Hacker News”首页发布了这样一则真实案例。一名患者用亲身经历表示,“这正是我们希望AI做的事情——帮助早期发现病症。”
生病了,问AI,已成为一种普遍现象。越来越多的人选择将症状、检查报告等信息传递给AI,等待其生成相应的建议,再据此决定下一步行动。
对此,学界虽持积极态度,但也有隐忧。NEJM AI近期发布的来自麻省理工学院媒体实验室(MIT Media Lab)团队的研究指出,人们存在过度信任AI的问题——即使其生成的医疗建议准确度较低,仍会觉得满意,并倾向于听从。
在关乎生命健康的事情上,如何充分发挥AI能力的同时降低风险?
业内普遍认为,可行的解决方案是让医生等专业人士参与构建“安全底线”,用垂直精准的医疗专业型AI代替通用型AI,为用户提供更加科学、相对可靠的医疗建议。
改变就医的AI,正在被过度信任?
“咳嗽吃什么有效?”“心慌头晕可能是什么病?”“BI-RADS 4级代表什么?”就医前先问问AI,已成为全球趋势。
NEJM AI的主编、哈佛医学院生物医学信息学系主任Isaac Kohane教授曾撰文表示,“无论是出于绝望、失望还是好奇,已有大量患者开始借助AI获取医疗建议,包括二次诊断意见,有时甚至取得了显著的治疗效果。”
Bethany Crystal是受益者之一。她因身体不适前往全科医生处就诊,并接受了全面的身体检查。
然而,回家后,她的不适感加剧,皮肤上出现了红色小斑点。她将症状拍照上传至AI系统咨询,经过多次追问,AI建议她前往医院进行血液检查。当她将此前做的检查报告上传后,AI提醒她血小板计数偏低,并强烈建议她立即前往急诊就医。
就诊后,Bethany Crystal写下了自己的经历,“当我缺乏做出明智决策的背景信息时,是AI帮助拼凑了足够的细节,让我意识到了情况的紧迫性。”
像她这样的故事不胜枚举。一名患者在常规洗牙一周后出现右侧面部剧烈疼痛和下垂,AI提示其可能是诱发了面部带状疱疹。最终,患者前往医院接受了相关治疗,不仅有效缓解疼痛,还降低了疼痛性神经病变的发生风险。
AI,可以让患者随时随地获取宝贵的健康信息,但情况并非全然乐观。
Annals of Internal Medicine(《内科学年鉴》)于8月在临床案例版块报道了一则“有趣”的案例:一名患者为避免摄入过量食用盐,试图在饮食中摒弃氯化钠。在咨询某知名通用型AI后,误信其建议,改用溴化钠替代。三个月后,患者出现明显的溴中毒症状。
采信AI给出的错误医疗建议可能会导致不良后果,那人们能分辨出AI回复是对还是错吗?
今年5月,NEJM AI发表了一项全面评估非专业人士如何感知AI生成的医疗建议的研究,共招募了300名普通公众作为参与者,他们分别就高准确度的AI回复、低准确度的AI回复和医生撰写的回复作出评价。
结果显示,面对三种答案,参与者无法辨识其间的质量差异。在可理解性、可信性、有效性、完整性/满意度等方面,高准确度的AI回复都显著高于医生撰写的答案,而即使是准确度较低的AI生成回复,在所有评估指标上的表现均与医生回复相当,甚至有所优胜。
“这显示即便AI生成的答案中包含不准确的信息,信任与满意可能会使参与者接受有害或无效的医疗建议。”研究对此表达了担忧。
值得信任的医疗AI长什么样?
上述研究还显示,当回复明确标注为“由医生提供”时,会获得更高的信任度。
此外,专家监督对最大限度发挥AI能力并降低风险至关重要。研究称,AI在用于提供医疗建议时,应与医疗专业人员合作,建立医生参与AI生成信息传递的机制。
相较于通用型AI,越来越多的医疗专业型AI意识到这一点,正不断加大与医院及医生的合作力度,构建更为可靠的医疗大模型。
以蚂蚁集团的AI健康管家“AQ”为例,其在蚂蚁医疗大模型的基础上,学习了权威教材、医典药典、权威医学文献等巨量的专业医疗资料,并有上千名专业医学人士、专家进行标注修正。
AQ专科智能体则更为垂直深入,联合了全国10余所顶级三甲医院组成专业顾问团,3名院士领衔300余位名医,在智能体中开通了AI分身,进行了大量临床经验、标准化病历等训练。
北京友谊医院消化内科团队给AI模型输入了大量专科文献,还针对科室临床经验进行了模型加训;
上海仁济医院泌尿外科从医院选取了2000个标准化病历用于训练AI,涵盖98%常见泌尿系统疾病类别;
浙江大学医学院附属第二医院“Jack安心智能体”学习了王建安院士瓣膜病团队精选审核的心脏瓣膜病权威知识库,针对300余种典型临床瓣膜病问题,医生团队对模型输出进行有针对性的标注与修正……
在皮肤病学领域,领衔者是我国皮肤与真菌病领域顶级专家——中国工程院院士廖万清教授。
他说,“在我的专业领域——医学真菌病学中,培养镜检是诊断金标准,却异常耗时费力,且依赖经验。如今,AQ深度学习模型在识别各种真菌方面展现出令人瞩目的效率与准确性。”
AQ的皮肤识别功能
只需要10秒,AQ就能对皮肤症状进行智能解析与精准评估。用户上传皮肤病灶照片,即可获得免费的识别服务和专业的治疗建议。据了解,目前,这一功能可以识别痤疮、湿疹、火疖子、荨麻疹、汗疱疹、银屑病、白癜风等50种常见皮肤疾病。
如有疑问,可以在AI诊室或是选择“医生分身”进行免费健康咨询,结合多轮问答技术和支持千亿参数视觉语言识别的多模态能力,AI也可以“像医生一样”进行追问,阅读检查结果。
面对这样的场景,AQ表现出了足够审慎的态度。
“对依据不足的、不确定的,不给出明确回答。”北京友谊医院消化内科陈奕均医生表示,科室医生曾通过“信息误导测试”,对AQ智能体进行了检验。
回复后,AQ会标注并非诊疗意见,如果有进一步需要,应建议及时就医,以医生的意见为准。而当用户有就诊需求时,AQ连接的超5000家公立医院、近百万医生服务资源也可让用户及时找到专业支持,从虚拟走向真实。
在医疗健康领域,AI能做的越来越多
作为“健康管家”,除了交互式的问诊咨询,AQ还在进一步拓展边界,提供的服务超过100项。
面对检查检验报告里专业的名词、复杂的指标、看不懂的影像,非专业人士往往一头雾水:这是什么意思?上上下下的箭头到底有多危险?哪里是正常器官哪里是病灶?
在AQ的“报告解读”功能中,用户只需拍摄一张照片或上传文件资料,即可由AQ进行报告解读。
该功能不仅支持分析单次报告的结果,还能对多份报告进行对比分析,解读准确率高达90%以上。此外,AQ还能为咨询者生成信息重点和健康提醒,帮助用户更有效地“对症”解决问题。
AQ还为用户建立了健康档案。用户授权后,可以在AQ记录各项健康数据,AQ会根据资料提供个性化的服务。例如:
“运动健康”可根据用户的身体状况量身定制运动方案,如有膝盖损伤不宜跑跳,三高患者运动要和缓且长期坚持;
“饮食健康”则可拍照记录饮食情况,并结合体重基数、疾病史等因素,提供个性化的饮食方案;
“就医资料夹”能够统一管理所有过往的就医材料,只需上传或拍照,即可通过OCR智能识别录入,便于医生查阅,同时支持添加家庭成员信息;
“用药计划”可提醒用药,确保按时按量服药。AI智能识别药盒功能还能帮助建立家庭小药箱,从此不必再担心说明书丢失或看不懂说明书。
通过健康档案,有家族病史的用户可以针对性地进行预防;睡眠、体重等数据不理想的用户可以调整生活习惯;慢性病患者可以监控各项指标变化,管理病情;需要治疗的患者可以打造专属的“就医助手”……
如此,让自己成为自身健康的第一责任人,将是一件既简单又轻松的事情。
8月26日,国务院印发了《关于深入实施“人工智能+”行动的意见》,提出“探索推广人人可享的高水平居民健康助手,有序推动人工智能在辅助诊疗、健康管理、医保服务等场景的应用,大幅提高基层医疗健康服务能力和效率。”
在2个月前的AQ应用发布会上,蚂蚁集团副总裁张俊杰曾表示,AQ在AI时代扮演的角色,就是要实现医疗服务更近、城乡差距更小、健康管理更贴心。
辅助诊疗、健康管理、医保服务等场景的应用,都已在AQ实现了真正意义上的串联。随着进一步的开放共建,AQ的健康服务将走向更智能、更便捷、更高质、更普惠。
参考资料:
1.https://hardmodefirst.xyz/chatgpt-saved-my-life-no,-seriously,-im-writing-this-from-the-er
2.Audrey Eichenberger, Stephen Thielke, Adam Van Buskirk.A Case of Bromism Influenced by Use of Artificial Intelligence. AIM Clinical Cases.2025;4:e241260. [Epub 5 August 2025]. doi:10.7326/aimcc.2024.1260
3.Pataranutaporn, P., Sarabu, C., Cecchi, G. A., & Maes, P. (2024). People overtrust AI-generated medical advice despite low accuracy. NEJM AI, 1(3), AIoa2300015. https://doi.org/10.1056/AIoa2300015