精准评估眼部问题,人工智能更胜一筹

在眼部疾病患者的预检分诊中,我们可以实际利用人工智能来判断紧急病例。 —Arun Thirunavukarasu
一项研究发现,人工智能模型 GPT-4 在评估眼部问题并提供治疗建议方面显著胜于非专科医生。
剑桥大学的一项研究发现,GPT-4 的临床知识和推理论证能力越来越接近于眼科专科医生。
在研究中,“大型语言模型”GPT-4与不同级别的医生进行了对比,包括非专科初级医生、实习医生和眼科专家医生。所有实验对象需处理一系列涉及特定眼部问题的87个病例情景,按要求从四个选项中选择诊断结果或治疗建议。
在实验中,GPT-4的得分显著高于非专科初级医生(其眼科专业知识储备量与全科医生相当)。
GPT-4与实习医生和眼科专家医生的得分相近,尽管顶尖医生的得分更高。
研究人员表示,大型语言模型不太可能取代专业的医疗人员,但其有潜力作为临床工作的一环改善医疗保健。
研究人员还表示,像GPT-4这样最前沿的大型语言模型在有效管控的情况下可能有助于提供眼科问题相关的建议、诊断和管理意见。例如对患者进行分诊,或者为难以获得专业医疗人员诊治的人群提供诊治服务。
该研究的主要作者Arun Thirunavukarasu博士说道,“我们可以在实际诊疗中应用人工智能来对眼病患者进行分诊,让人工智能来判断哪些病例是需要立即由专科医生看诊的紧急情况,哪些可以由全科医生处理,以及哪些不需要治疗。”这是Thirunavukarasu博士在剑桥大学临床医学院就读时开展的研究。
他补充道:“这些模型可以按照已投入使用的算法进行准确运算。我们发现,GPT-4 在诊断眼部症状和体征以回答更为复杂的问题方面的能力与专业临床医生一样出色。”
“随着进一步发展,大型语言模型还可以为那些难以及时从眼科医生那里获得及时建议的全科医生提供指导。在英国,人们等待眼科看诊的时间比以往任何时候都要久。”
需要大量的临床记录帮助微调和开发这些模型,世界各地正在开展工作以促进这一目标。
研究人员表示,他们的研究优于以往类似的研究,因为他们将人工智能的能力与执业医生进行比较,而不是与各组检查结果进行对比。
“医生并非整个职业生涯都在为考试复习。我们希望看到人工智能在与执业医生进行真实医疗场景下的知识和能力比拼时表现如何,由此做出公正的评判。” Thirunavukarasu如此说道,他现任国民健康服务基金信托牛津大学医院的学术初级医生。
他补充道:“我们还需要对商用模型的能力和局限性进行画像,因为患者可能已经在使用这些商用模型寻求医疗建议,而非网上问诊。”
该实验囊括了一系列眼部问题,包括极度光敏、视力下降、病变、眼睛瘙痒和疼痛等,这些问题取自用于测试实习眼科医生的教科书。这本教科书目前在互联网上无免费渠道,因此GPT-4的训练数据集不太可能包含书中的内容。
研究结果今日已发表于《PLOS数字健康》期刊。
Thirunavukarasu表示:“即便是在未来,我认为人工智能的应用也不会取代医生对患者进行护理。最重要的一点是,我们要给予患者决定是否让计算机系统参与诊疗的权力。那将是每位患者个人作出的决定。”
GPT-4 和 GPT-3.5,即“生成式预训练转换模型”,是在包含数千亿单词的数据集中进行训练的,这些单词来自文章、书籍和其他网络资源。GPT-4 和 GPT-3.5就是两个大型语言模型示例;其他广泛使用的模型包括路径语言模型2(PaLM 2)和Meta大型语言模型2 (LLaMA 2)。
该研究还使用同一测试题集对 GPT-3.5、PaLM2 和 LLaMA 进行了测试。GPT-4 提供的答案比上述模型更准确。
GPT-4支持在线聊天机器人ChatGPT为人类询问提供定制相应。最近几个月以来,ChatGPT在医学界引起了重大关注,因为其在医学院考试中获得了及格等级,并且在处理患者询问方面提供了比人类医生更为准确且更有同理心的解答。
人工智能大型语言模型领域发展迅速。自该研究进行以来,更为先进的模型已发布,这些模型可能更接近专业眼科医生的水平。