【CNMO 科技消息】近日,牛津大学的一项研究发现,大型语言模型正确诊断医疗案例的准确率达到了 94.9%。这比许多医生都要高。然而,当普通人使用相同的 AI 工具处理相同的情况时,其准确率下降到仅 34.5%。原因是:AI 并不是性能的限制因素,真正可能阻碍 AI 发挥其全部潜力的是我们人类。
参与者要将 AI 视为真正的医生,提问、描述症状并获得帮助。研究人员在实验中使用了三种不同的大型语言模型,分别是:ChatGPT-4o、Llama 3 和 Command R+。
研究人员发现,使用大型语言模型的参与者在 34.5% 的案例中至少能识别出一个相关条件;完全不使用 AI 的对照组表现更好,达到了 47%;而在选择正确行动方案时,大型语言模型用户只有 44.2% 的概率能答对;当 AI 模型独自决定时,正确率为 56.3%。
问题在于:有些人提供的信息不完整或不清楚;有些人忘记提及关键症状;有些人则是遗漏了严重程度或时间点。导致 AI 误解或错过了重要线索。即使人工智能给出了正确的诊断,用户也不一定执行,这部分不是机器所特有的,人们也会忽视医生的建议。
据 CNMO 了解,一些 AI 工具已经在实际的医疗流程中获得了关注。例如,OpenEvidence 被医生用来搜索和验证临床文献。它不是用来取代医生,而是增强他们的能力。