医疗AI大卷特卷,就在昨晚,微软也来凑热闹! 就在昨晚,微软放出全新的SDBench基准测试集和“微软AI诊断协调系统”MAI-DxO。 SDBench基准测试采用了《新英格兰医学杂志》(NEJM)的304份最棘手的开放式病例,重点考察AI的序贯诊断能力。 所谓序贯诊断,就像现实生活中的医生看病,不是总能一下就确诊的。比如,病人咳嗽发烧,医生可能需要先看验血报告和胸片才能确定是肺炎。 在SDBench测试中,AI或人类诊断者一开始只知道病人的基本情况。 如果想了解更多,他们需要主动提出问题或申请检查。这时,一个“守门人”模型就会提供被请求的信息,甚至能生成逼真的合成检查结果,避免不小心透露诊断线索。【图1】 值得一提的是,整个诊断过程中,系统还会实时显示每次检查的预估费用,检查项目越多,费用也越高。 微软的另一项成果MAI-DxO系统。它能协调多个AI模型一起工作,这个系统就像一个虚拟的医生专家组,里面有分工明确的“医生”:【图2】 - “假设医生”:负责列出所有可能的诊断结果。 - “检测选择医生”:挑选最有用的检查项目。 - “质疑医生”:扮演“反对派”,防止出现认知偏差(比如只看自己想看的,忽略其他可能性)。 - “成本管控医生”:全程监督医疗开支。 - “质控医生”:确保诊断质量。 实验结果显示,有了MAI-DxO系统,所有参与测试的AI模型的诊断表现都显著提升。 其中,MAI-DxO与OpenAI的o3模型结合时,在《新英格兰医学杂志》的病例中,诊断正确率高达85.5%。 而且经MAI-DxO系统协调后,在保持精度提升的同时,单病例成本从7850美元骤降近70%,达到2397美元。【图3】 与资深医师团2963美元的单病例平均成本相比,也是怒省500刀啊! 尽管研究成果喜人,但这项研究也存在一些局限性: - 病例特殊:测试只用了医学期刊中罕见的复杂病例,并没有覆盖日常生活中常见的疾病。 - 成本估算:成本数据只是粗略估算。 - AI优势独特:AI之所以表现出色,是因为它能整合多位专科医生的角色功能,这种多角色协同是任何一个单独的医生都无法实现的。 话又说了回来,这么多医疗AI的进展,如果让他们玩起【图5】的猜病,会是个什么效果呢? 感兴趣的朋友可以可以查看 论文原文: 技术博客:-path-to-medical-superintelligence/