Google Health开发的AI系统实现了新的突破:在乳腺癌筛查上的准确性大大超过放射科医生。

最新的研究发表在Nature上,为AI进入临床诊断提供了有力的数据支持。

一直以来,影像诊断都是AI医疗的热门领域。

这一方案尤其适用于依靠影像诊断的,逐年发病上升,早治疗就能提高生存率的乳腺癌。

但是同样的问题到了中国,解决方案就有所不同:除了依靠X射线筛查,超声筛查也非常重要。

为何AI优先选择了乳腺癌

乳腺癌已经是世界范围内女性最常见的癌症,并且是女性癌症死亡的首要原因。在欧美国家,乳腺癌占女性恶性肿瘤的25%—30%。在我国,乳腺癌也是女性第一高发恶性肿瘤

同时, 尽早筛查是提高早期诊断率、生存率及生存质量的最为有效的方法。乳腺X线钼靶筛查作为最主要的筛查方式,已经被证实能有效降低乳腺癌死亡率。

因此,提高影像筛查诊断能力,是目前乳腺癌治疗的重点。

一直以来,乳腺癌的早期筛查靠医生读片做判断,即使是最资深的医生,也时常存在误诊。假阳性会带来不必要的医疗流程,假阴性则会延误治疗。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

△乳腺癌细胞生长和转移过程

此外,逐年上升的发病率,使得医疗资源面临压。Google Health的英国负责人Dominic King表示,英国的皇家放射科医生学院在2018年估计,该国将需要1000多名额外的专职放射科医生来满足需求。

AI正好可以发挥特长。

此次论文的作者之一,西北大学麻醉学和生物医学工程研究助理教授Mozziyar Etemadi说:

读乳腺X射线片对机器学习和AI来说是完美问题。AI擅长把相同的任务做一遍又一遍,然后在10000次中发现一次不一样的。

在算力方面,AI的优势也凸显出来。

乳腺X射线照片分辨率提高,数据密集,以至于人眼(甚至是有经验的放射科医师)也无法完全处理。

大多数医院计算机系统的功能不足,甚至无法加载乳腺X线照片中提供的全部信息,因此放射线医生只能看到选定的信息。

而Google的算法几乎可以处理所有可用像素。

AI表现:诊断率显著提高,英美两国数据集可通用

与以往研究相比,这次研究有**三大特点:使用大规模临床数据集,验证了同一模型在英美两国可以通用,AI诊断正确率显著超越人类。

数据集由来自英国的76,000多名女性和美国的15,000多名女性的乳腺X射线照片。

测试集的规模为25856名英国女性和3097位美国女性。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

研究人员对AI进行了两种不同的测试:

1、分别用英国和美国的数据集进行测试,分别对比临床诊断率

英国:假阳性减少了1.2%,假阴性减少了2.7%;

美国:假阳性减少了5.7%,假阴性减少了9.4%。

为什么美国的数据比英国好这么多?可能和不同的临床诊断机制有关,在英国,一个X射线片先由两位医生进行诊断,出现异议后再增加第三位;在美国,则只经过一位医生诊断

2、为了看同一个模型在不同人群之间是否可以通用,研究者只用英国女性的数据对模型进行了训练,然后用美国女性的数据集进行评估,结果依旧可观:

假阳性减少了3.5%,假阴性减少了8.1%。

对比测试:AI看片与人类筛查互补

研究还请了六位美国放射科的医生来共同读500张X射线片,与AI对比。

结果很有趣,虽然AI的诊断正确率高于人类,但是AI和人眼所遗漏的诊断却彼此互补。AI能捕捉到人类的遗漏,人类也能捕捉到AI的遗漏。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

a图中的小型的不规则钙化结构被AI识别出来,但是6位放射科医生都没有识别出来

b图中的大密度块状恶性肿瘤被6位放射科医生识别出来,但是AI却没有识别出来

总体而言,AI捕捉的癌症比医生捕捉的更有侵入性。研究者尚未对此作出解释。

非入侵性是指癌细胞会局限于乳叶或乳腺管,而入侵性癌症则会扩散到其它部位。

这次AI在大数据集上的优异表现,为之后在临床上进行AI诊断提供了有力支持。

这套AI系统最终的目的是辅助诊断。不过在此之前,还需要进一步的临床研究。

论文作者Etemadi表示:

我们只需要更好地了解AI之类的工具何时提供帮助,什么时候不提供帮助,最终结合技术和人类贡献,最终改善护理并提高其效率。

LeCun 质疑,引起Twitter讨论

论文发表的第二天,LeCun 在Twitters上对这个论文提出了质疑,表示:

NYU团队有一个更早的大规模研究,而且开源了。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

随后,谷歌研究团队DeepMind创始人Hassbis回复了LeCun ,我们引用了这篇论文。

谷歌的论文介绍相关研究概况时,的确两次涉及到NYU的研究:

少数几项研究已将预测乳腺癌的系统形容为具有可与人类专家媲美的独立性能。

至关重要的是,后续的普遍使用的间隔时间不超过12个月,意味着更到下一次检测前,更微妙癌症病情可能会被忽略。

LeCun 也立即回复:我没有生气,确实是第一次读论文时遗漏了引用。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

不过,随即,他又转了来自NYU作者对比两者研究的评论:

别忘了去年NYU发表了更好的结果,基于更多的案例,和更多人数的人类阅片做比较,而且模型和数据开源。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

这两个研究在twitter 上也引发了更多讨论。

大家的主要关注点是,谷歌研究无论是数据还是模型都不公开。

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

谷歌AI乳腺癌检测超人类,但平胸可能不适用-冯金伟博客园

有人说,既然不可以复现,那就不能算科学发现。

简单对比一下这两项研究。

首先在数据集上,NYU使用了共计141473位女性的影像,谷歌使用了91000位女性影像;

在模型表现上,NYU的AUC(ROC曲线下面积)达到了0.895,谷歌的研究为英国0.889,美国0.895。

中国乳腺癌早筛特殊性:超声AI同样重要

对于中国女性来说,AI筛查乳腺癌的情况有点不一样,还需要寄希望于中国团队自己的技术。

因为中国女性的乳房结构和欧美相比差异明显。中国女性的乳房脂肪较少,腺体占比大,有50%属于纤维型。腺体遮蔽和结构噪声更为明显,正常的乳腺组织和病灶区分度更小。

因此在X线钼靶筛查之外,超声筛查也很重要。

《中国女性乳腺癌筛查指南》中推荐X线筛查的为阴性的致密型乳腺女性,补充进行超声筛查。

目前,在X线钼靶筛查上,布局较早的有依图医疗和腾讯觅影,都已经分别推出了自己的AI系统。

依图与复旦大学肿瘤医院进行合作,采用了万量级的带有病理结果的影像数据来进行AI模型的构建,使其更适用于中国人。

腾讯觅影乳腺肿瘤筛查AI系统则是中国首个相关系统。官网数据显示,其系统的钙化和肿块检测的敏感度分别为99%和90.2%。良恶性的敏感度和特异度分别为87%和96%。

此外,腾讯觅影在研发将AI技术和超声筛查相结合的产品。优图实验室医疗人工智能科学家郑冶枫认为,超声仪器的价格更低,在基层推广上具有更大潜力。

论文传送门

https://medium.com/@jasonphang/deep-neural-networks-improve-radiologists-performance-in-breast-cancer-screening-565eb2bd3c9f

https://ieeexplore.ieee.org/document/8861376

https://www.nature.com/articles/s41586-019-1799-6

参考资料:

https://medium.com/@jasonphang/deep-neural-networks-improve-radiologists-performance-in-breast-cancer-screening-565eb2bd3c9f

https://nejmqianyan.cn/article/yxqycp1101540?sg=AbW1NGsHw3NxPd6F

http://html.rhhz.net/ZGZLLC/html/2019-9-1.htm