来源:滚动播报
(来源:上观新闻)
先进AI模型在专业医学考试中表现优异,那么,真实场景下的AI医生究竟靠谱吗?
最新研究表明,AI模型在辅助疾病筛查等方面能够发挥重要作用,但在与患者交流、收集病史并作出准确诊断等医生最关键的任务上,仍然表现不佳。
AI加速癌症筛查
在由德国吕贝克大学教授亚历山大·卡塔利尼奇团队牵头的一项迄今为止规模最大的相关研究中,AI有助于放射科医生在每1000例筛查中额外发现1例乳腺癌患者。
研究人员与近200位具备专业资质的放射科医生合作,评估了这款可识别乳腺癌征兆的AI模型。研究覆盖了2021年7月至2023年2月在德国12个乳腺癌筛查中心进行的共计46万余名女性的筛查记录。
实际操作中,放射科医生可自主选择是否使用AI辅助诊断。最终,约26万名女性的筛查结果由AI与医生共同评估,其余20万余人则由医生单独判断。结果显示,使用AI辅助诊断的医生检测出乳腺癌的比率为每千人6.7例,较未使用AI辅助的检出率提高了约17.6%。
此外,在疑似患癌的女性接受活检的案例中,AI辅助诊断的准确率也更高——其中64.5%的活检结果证实为恶性肿瘤,而未使用AI的活检确诊率为59.2%。“AI在提升乳腺癌检出率方面的表现超出预期。”卡塔利尼奇表示。
该研究得到了人工智能公司Vara的技术支持。公司首席技术官斯特凡·邦克表示,原本的研究目标是验证AI在癌症诊断上的表现“不劣于”放射科医生,由此证明AI在减轻医生工作负担上具备应用潜力。但最终结果证明,AI在某些方面的表现甚至“优于人类”。
尽管AI在医疗领域应用前景广阔,但也引发了部分担忧。一些专家指出,过度依赖AI可能导致漏诊,或造成医疗资源分布不均——经济条件好的患者才能享有医生的亲自诊疗。
此外,研究还发现,当AI先行判断某张医疗影像为“正常”(即不太可能存在癌症风险)时,放射科医生在审阅这类影像时平均仅花16秒;而对于AI无法明确判断的影像,医生平均花费30秒审阅。这提示我们,AI的判断可能会潜移默化地影响医生的注意力分配。
不过,英国帝国理工学院教授本·格洛克认为,研究结果印证了在使用策略得当的情况下,AI是安全且有效的。格洛克肯定了该项研究允许医生自主决定是否使用AI的做法,并呼吁进行更多类似的“真实世界”研究。
他指出,单靠实验室模拟无法全面评估AI的临床价值,应更多地从实际应用中积累经验。“这项研究进一步证明了AI在乳腺癌筛查中的优势,也再次提醒政策制定者应加快相关技术的推广步伐。”
AI看病输在交流
哈佛大学生物医学信息学系助理教授普拉纳夫·拉杰普尔卡与同事一起开发了一种名为CRAFT-MD的AI评估工具,该工具基于2000个来自美国医学执照考试的病例构建,用于测试临床AI模型在模拟医患对话场景中的推理能力。
实验表明,四种主流大型语言模型——OpenAI的GPT-3.5和GPT-4、Meta的Llama-2-7b以及法国开源AI公司Mistral的Mistral-v2-7b——在医患对话场景中的诊断表现,明显不如它们根据书面病例的诊断表现。
例如,当GPT-4被提供结构化的病例摘要,并可从多个选项中选择诊断结果时,其诊断准确率高达82%。但当它根据模拟患者对话进行诊断时,准确率骤降至26%。“大语言模型善于做选择题,一旦进入动态对话场景,诊断准确率则大幅下降。”拉杰普尔卡说。
此外,这些AI模型在相当大比例的对话中未能完整获取患者病史。即使是表现最好的GPT-4,也只在71%的模拟对话中成功获取了患者的完整病史。即便成功收集到相关病史,这些AI模型也无法总是给出正确的诊断结果。
原标题:《AI vs 医生“各赢一局”:筛查快准狠,问诊常“露怯”》
栏目主编:张懿 文字编辑:金奕伶 题图来源:上观题图 图片来源:上观题图
来源:作者:东冬/编译