研究发现:AI 给的医疗建议近半数有问题,Grok 最糟、OpenAI 仍在扩张医疗野心

robot
摘要生成中

根据最新发表在BMJ Open的研究,五大AI聊天机器人在回答医疗问题时,约有50%的答案存在问题,其中近20%被评为“高度有问题”。彭博指出,这份研究揭露了AI医疗应用的系统性风险,尤其在OpenAI与Anthropic同步扩大医疗布局之际,显得格外讽刺。
(前情提要:不要把你的病历交给聊天机器人?ChatGPT Health医疗野心下的隐私赌局)
(背景补充:加州大学研究“AI脑雾”现象:14%上班族被Agent、自动化搞疯,离职意愿高四成)

本文目录

切换

  • Grok表现最差,ChatGPT也不遑多让
  • AI说得越有把握,风险越高
  • OpenAI与Anthropic:研究踩刹车,商业却踩油门
  • 信任AI,但要有条件

每周有超过2.3亿人向ChatGPT询问健康与医疗问题,但你问到的答案,有将近一半可能是有问题的。根据本周发表在医学期刊《BMJ Open》的研究,来自美国、加拿大与英国的研究人员对ChatGPT、Gemini、Meta AI、Grok与DeepSeek五大平台进行系统性评估,每个平台各提出横跨五个医疗类别、共10道问题。

结果没那么乐观:约50%的回应被认定有问题,其中将近20%被评为“高度有问题”。

Grok表现最差,ChatGPT也不遑多让

彭博报道指出,各平台表现差异颇大,但没有一个通过考验。从各平台问题回应率来看,Grok以58%高居榜首,成为表现最差的平台;ChatGPT紧随其后,问题率达52%;Meta AI则为50%。

研究人员观察到,在封闭式提问以及疫苗、癌症相关议题上,聊天机器人表现相对较好;但在开放式提问与干细胞、营养等领域,表现则明显下滑。此外,研究中只有两次拒绝回答的情况,全部来自Meta AI(某种程度上,知道自己不该回答反而成了一种罕见的优点。)

更值得警惕的是,这些AI给出的答案往往充满自信,语气肯定,毫无保留。研究人员特别强调:没有任何一个聊天机器人,在任何一道提示下,能提供完整且准确的参考文献清单。这代表即便AI看似“言之有据”,背后引用的来源往往无从查验,甚至根本不存在。

AI说得越有把握,风险越高

研究人员在论文中写道,这些系统能生成“听起来像权威、但实际上可能有瑕疵的回应”,凸显了AI聊天机器人在面向公众的健康与医疗沟通中,“行为上的重大限制”,以及“重新评估部署方式的必要性”。

彭博也引述研究团队的警告:在缺乏公众教育与监管机制的情况下,大规模部署聊天机器人的最大风险,就是助长错误医疗资讯的传播与扩散。

值得对照的是,JAMA另有研究指出,AI在初步诊断案例中的失败率超过80%;牛津大学也在2026年2月发出警告,提醒各界正视AI聊天机器人在提供医疗建议方面的系统性风险。

OpenAI与Anthropic:研究踩刹车,商业却踩油门

这项研究发布的时间点,颇具戏剧性。就在几个月前,OpenAI才在2026年1月高调推出ChatGPT Health,这项功能允许使用者连接电子病历、穿戴装置与健康应用程序,同时也针对临床医师推出专业版工具。OpenAI公开表示,每日已有4,000万人通过ChatGPT查询健康资讯。

几乎同期,Anthropic也宣布推出Claude for Healthcare,通过HIPAA合规认证,正式进军医疗市场。

这些平台既没有医疗执照,也缺乏临床判断能力,却正以惊人速度向医疗领域扩张。研究结果与商业扩张方向之间的张力,揭示了一个监管真空地带:在AI医疗工具的市场宣传与实际医疗安全之间,目前并没有一道清晰的防护线。

信任AI,但要有条件

这不是AI医疗应用第一次被点名,但每次研究的结论都在提醒同样的事:AI聊天机器人本质上是语言模型,它们擅长的是“听起来正确”,而非“确保正确”。问题在于,当使用者带着真实的健康焦虑求助时,听起来正确往往已经足以影响决策。

随着OpenAI、Anthropic等公司持续深入医疗场景,监管与公众教育的速度,显然还追不上技术扩张的脚步。在清晰的护栏建立之前,这份研究或许能提醒我们:AI可以是健康资讯的入口,但不应该是终点。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论