研究发现：AI 给的医疗建议近半数有问题，Grok 最糟、OpenAI 仍在扩张医疗野心

動區BlockTempo · 2026-04-16T17:33:29+00:00

研究显示，五大 AI 聊天机器人在回答医疗问题时约 50% 的答案存在问题，近 20% 被评为「高度有问题」，凸显了 AI 医疗应用的风险。这些机器人虽然表现自信，但却无法提供可查证的来源，显示出在缺乏监管与教育的情况下，错误信息的传播风险极高。

動區BlockTempo

2026-04-16 17:33:29

摘要生成中

根据最新发表在BMJ Open的研究，五大AI聊天机器人在回答医疗问题时，约有50%的答案存在问题，其中近20%被评为“高度有问题”。彭博指出，这份研究揭露了AI医疗应用的系统性风险，尤其在OpenAI与Anthropic同步扩大医疗布局之际，显得格外讽刺。
（前情提要：不要把你的病历交给聊天机器人？ChatGPT Health医疗野心下的隐私赌局）
（背景补充：加州大学研究“AI脑雾”现象：14%上班族被Agent、自动化搞疯，离职意愿高四成）

本文目录

切换

Grok表现最差，ChatGPT也不遑多让
AI说得越有把握，风险越高
OpenAI与Anthropic：研究踩刹车，商业却踩油门
信任AI，但要有条件

每周有超过2.3亿人向ChatGPT询问健康与医疗问题，但你问到的答案，有将近一半可能是有问题的。根据本周发表在医学期刊《BMJ Open》的研究，来自美国、加拿大与英国的研究人员对ChatGPT、Gemini、Meta AI、Grok与DeepSeek五大平台进行系统性评估，每个平台各提出横跨五个医疗类别、共10道问题。

结果没那么乐观：约50%的回应被认定有问题，其中将近20%被评为“高度有问题”。

Grok表现最差，ChatGPT也不遑多让

彭博报道指出，各平台表现差异颇大，但没有一个通过考验。从各平台问题回应率来看，Grok以58%高居榜首，成为表现最差的平台；ChatGPT紧随其后，问题率达52%；Meta AI则为50%。

研究人员观察到，在封闭式提问以及疫苗、癌症相关议题上，聊天机器人表现相对较好；但在开放式提问与干细胞、营养等领域，表现则明显下滑。此外，研究中只有两次拒绝回答的情况，全部来自Meta AI（某种程度上，知道自己不该回答反而成了一种罕见的优点。）

更值得警惕的是，这些AI给出的答案往往充满自信，语气肯定，毫无保留。研究人员特别强调：没有任何一个聊天机器人，在任何一道提示下，能提供完整且准确的参考文献清单。这代表即便AI看似“言之有据”，背后引用的来源往往无从查验，甚至根本不存在。

AI说得越有把握，风险越高

研究人员在论文中写道，这些系统能生成“听起来像权威、但实际上可能有瑕疵的回应”，凸显了AI聊天机器人在面向公众的健康与医疗沟通中，“行为上的重大限制”，以及“重新评估部署方式的必要性”。

彭博也引述研究团队的警告：在缺乏公众教育与监管机制的情况下，大规模部署聊天机器人的最大风险，就是助长错误医疗资讯的传播与扩散。

值得对照的是，JAMA另有研究指出，AI在初步诊断案例中的失败率超过80%；牛津大学也在2026年2月发出警告，提醒各界正视AI聊天机器人在提供医疗建议方面的系统性风险。

OpenAI与Anthropic：研究踩刹车，商业却踩油门

这项研究发布的时间点，颇具戏剧性。就在几个月前，OpenAI才在2026年1月高调推出ChatGPT Health，这项功能允许使用者连接电子病历、穿戴装置与健康应用程序，同时也针对临床医师推出专业版工具。OpenAI公开表示，每日已有4,000万人通过ChatGPT查询健康资讯。

几乎同期，Anthropic也宣布推出Claude for Healthcare，通过HIPAA合规认证，正式进军医疗市场。

这些平台既没有医疗执照，也缺乏临床判断能力，却正以惊人速度向医疗领域扩张。研究结果与商业扩张方向之间的张力，揭示了一个监管真空地带：在AI医疗工具的市场宣传与实际医疗安全之间，目前并没有一道清晰的防护线。

信任AI，但要有条件

这不是AI医疗应用第一次被点名，但每次研究的结论都在提醒同样的事：AI聊天机器人本质上是语言模型，它们擅长的是“听起来正确”，而非“确保正确”。问题在于，当使用者带着真实的健康焦虑求助时，听起来正确往往已经足以影响决策。

随着OpenAI、Anthropic等公司持续深入医疗场景，监管与公众教育的速度，显然还追不上技术扩张的脚步。在清晰的护栏建立之前，这份研究或许能提醒我们：AI可以是健康资讯的入口，但不应该是终点。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
GatePreIPOs首发SpaceX
15.74万热度
#
Gate13周年现场直击
42.56万热度
#
美伊局势和谈与增兵博弈
77.54万热度
#
加密市场回升
9.83万热度
#
WCTC交易赛瓜分800万USDT
62.69万热度

研究发现：AI 给的医疗建议近半数有问题，Grok 最糟、OpenAI 仍在扩张医疗野心

Grok表现最差，ChatGPT也不遑多让

AI说得越有把握，风险越高

OpenAI与Anthropic：研究踩刹车，商业却踩油门

信任AI，但要有条件

热门话题

GatePreIPOs首发SpaceX

Gate13周年现场直击

美伊局势和谈与增兵博弈

加密市场回升

WCTC交易赛瓜分800万USDT

置顶