澎湃新闻记者 王心馨

在医疗领域,尤其是在医学影像筛查过程中,人工智能常被描述为完美的工作者。它们能准确识别疾病,拥有人类专家级的发现能力,还不知疲倦。但与许多技术一样,在实验室取得成功是一回事,而到了临床应用阶段,人工智能能否发挥作用,就又是另一回事了。

4月25日,谷歌在自己的官网上表示,他们与泰国公共卫生部门合作,在泰国11家农村诊所安装了检测糖尿病性视网膜病变(DR)症状的AI系统。经过实际使用后,谷歌研究人员发现,这套系统在临床上的表现,并未如实验室里所表现的一样:不仅诊断结果不一致,实际操作方法和在实验室里也完全不一样。

谷歌自揭”家丑”:医疗AI实验室表现超神 临床结果却不佳-冯金伟博客园

护士在给患者拍摄眼部照片

检测糖尿病性视网膜病变是对糖尿病早期筛查的一个方法。2016年,谷歌就在《美国医学会期刊》(JAMA)发表了他们的研究成果。研究表示,谷歌开发的深度学习算法能够解释视网膜照片中的DR迹象,可以帮助医生筛查更多的病人,尤其是在资源有限的社区中。

当时,谷歌研究人员专门建立了一个12.8万幅图片的数据集,每张图片记录了3-7名眼科医师的评估结果。为了验证算法的性能,他们还使用了2个独立的临床试验数据集,包括1.2万幅图片,审核结果由专家来判决。在理性的实验环境下,这套系统的诊断准确率达到90%,相当于人类专家水平。

谷歌自揭”家丑”:医疗AI实验室表现超神 临床结果却不佳-冯金伟博客园

谷歌DR筛查系统显示结果

实验室里超神的结果,也让谷歌研究员看到了这套系统能实际投入使用的希望。于是,他们在泰国巴吞他尼省和清迈省的11所诊所安装了该系统。

要诊断患者的糖尿病性视网膜病变,护士们需要给每一位糖尿病患者的眼睛拍照,获得一张“眼底照片”,然后将它们分批发送给眼科医生,然后由眼科医生进行评估并返回结果。由于医疗资源有限,同时需求量又大,通常得到诊断结果至少需要4-5周。

谷歌研究人员希望通过AI系统可以改变这样的情况,因为AI系统可以在几秒钟内就能提供类似眼科医生的专业诊断。然后护士就可以在几分钟内而不是一个月内,为病人转诊或者提供进一步检查的建议。理论上这套系统是可以做到的。

然而,理想很丰满,现实却很骨感。研究人员表示,11家诊所的眼科检查过程存在高度差异。例如,由于各个诊所资源不同,护士拍的照片质量因此存在很大差异。11家诊所中,只有两家诊所设有专门的暗房,可以暗化房间以确保患者的瞳孔能变得足够大,从而拍摄到高质量的眼底照片。

这种条件和过程中的资源不一致也导致图像无法达到算法的高标准。

“深度学习系统对要评估的图像有严格的规定……例如,如果图像有些模糊或暗区,即使可以做出强有力的预测,系统也会拒绝。该系统对高图像质量的要求与护士有限环境下常规采集的图像之间的矛盾,反而增加了系统的工作量。”研究表示。

另外,连接和上传也出现了问题。在谷歌实验环境中,研究团队拥有强大的互联网连接,图像和结果往往只需几秒钟就能显现。但在实际中,诊所会常常出现连接速度慢,可靠性差的情况。这就导致了图像上传需要60-90秒的时间,减慢了筛查速度,也限制了每天能接待的患者。在其中一家诊所中,还发生过互联网中断2小时的情况,导致筛查人数从200人减到了100人。

最后还有一个关键因素,就是患者。由于研究本身就是以患者为中心的,如果患者不满意或者不愿意,就需要进行改进。但在实际过程中,护士起到很大的作用,有些护士可能就会建议患者不要参与研究,以减少不必要的麻烦。同时,护士也提到,患者最关心的问题通常不是诊断的准确性,而是体验如何。如果诊断的过程太麻烦,他们宁愿不参加研究,直接找医生诊断。

实验室里超神的AI系统,来到实际中,却是这样的结果,这不免让研究人员和外界感到失望。不过,这并不是一个坏消息。谷歌自己在官方博客中公布研究失败结果的同时,也强调,有了这样与医生、患者的互动,才能更好的改进这项技术。