深度学习算法正在以无与伦比的洞察力凝视着MRIs和X射线的图像,但是当他们犯错时,应该归咎于谁呢?
里吉纳·巴兹蕾(REGINA BARZILAY)在40岁出头时进行了常规乳腺X光检查,图像显示她的乳腺组织中出现了一系列复杂的白色斑点。这些痕迹可能是正常的,也可能是癌变的——即使是最好的放射科医生也很难分辨出它们的区别。她的医生认为这些斑点暂时不会有什么事,不用担忧。事后,她说,“我已经得了癌症,他们却没有发现。”
在接下来的两年里,巴兹蕾接受了第二次乳腺X光检查、乳腺核磁共振检查和活组织检查,所有的检查结果都是模棱两可或相互矛盾的。最终,她在2014年被诊断出患有乳腺癌,但被诊断出乳腺癌的过程令人沮丧得难以置信。“你怎么做三个测试,得到三个不同的结果?”她不知道。
巴兹蕾接受了治疗,恢复得很好。但她仍然担心,解读乳腺X光检查的不确定性可能会贻误治疗时机。她说:“我意识到,在目前的方法下,我们能否得出正确的结论,多半靠的是运气。”因此,她做出了一个改变职业生涯的决定:“我必须改变它。”
作为麻省理工学院的计算机科学家,巴兹蕾以前从未研究过健康问题。她的研究使用了机器学习技术——人工智能的一种形式——来进行自然语言处理。但她一直在寻找新的研究方向,并最终决定与放射科医生合作,开发一种机器学习算法,利用计算机出色的视觉分析技能,找出人类肉眼可能忽略的乳腺x线照片中的细微模式。
在接下来的四年里,研究小组训练了一个计算机程序,分析了大约3.2万名不同年龄和种族的女性的乳腺X线照片,并告诉程序哪些女性在扫描后的五年内被诊断出患有癌症。然后,他们在3800多名患者身上测试了电脑的识别能力。他们的研究结果发表在去年5月的《放射学》(Radiology)杂志上,在预测癌症或没有癌症方面,他们得出的算法比诊所中普遍使用的方法要准确得多。当巴兹蕾的团队在她2012年的乳腺x光片上运行这个程序时,这个算法正确地预测了她在五年内患乳腺癌的风险比98%的病人要高。
人工智能算法不仅仅能发现人眼难以发现的细微细节,它还可以开发出全新的医学图像解释方式,虽然有时是人类无法理解的方式。设计人工智能程序的众多研究人员、初创公司和扫描仪制造商希望,人工智能能够提高诊断的准确性和及时性,在缺乏放射科医生的发展中国家和偏远地区提供更好的治疗,揭示生物学和疾病之间的新联系,甚至有助于预测一个人的死亡时间。
人工智能应用程序正迅速进入诊所,医生们对这项技术既感到兴奋,又担心自己的工作被机器抢走。算法也提出了一些前所未有的问题,比如如何监管一台不断学习和变化的机器,以及如果算法诊断错误,该怪谁。尽管如此,许多医生还是对人工智能程序的前景感到兴奋。当然如果这些模型能够得到充分的验证,并且提高我们对它们如何工作的理解水平,这将有助于提高每个人的医疗保健水平。
热门话题
使用计算机读取放射扫描图像的想法并不新鲜。20世纪90年代,放射科医生开始使用一种名为计算机辅助诊断(CAD)的程序来检测乳腺X光检查中的乳腺癌。这项技术被誉为革命性的,诊所很快就采用了它。但事实证明,与现有的方法相比,CAD更耗时、更难以使用,而且根据一些研究,使用CAD的诊所比不使用CAD的诊所更容易出错。费城杰佛逊大学的放射学家Vijay Rao说,这次失败让许多医生对计算机辅助诊断产生了怀疑。
然而,在过去的十年里,计算机视觉技术突飞猛进地发展——在诸如人脸识别和医学等日常应用领域。这种进步在很大程度上是由深度学习方法的发展推动的。在深度学习方法中,给计算机一组图像,然后让它自己在这些图像之间建立联系,最终形成一个关联网络。例如,在医学成像中,这可能涉及告诉计算机哪些图像包含癌症,并让计算机自由地寻找这些图像中常见但无癌症图像中不存在的特征。
人工智能技术在放射学领域的发展和应用迅速扩大。“去年,我参加的每一次大型会议,主题都是人工智能和成像,”北美放射学会前会长拉奥( Rao)说。“显然,这是一个非常、非常热门的话题。”
美国食品和药物管理局(FDA)目前没有公布已获批准的人工智能产品清单。但加州拉霍亚市斯克里普斯研究所(Scripps Research Institute)的数字医学研究员埃里克·托波尔(Eric Topol)估计,该机构每月批准的医学成像算法不止一种。营销情报公司Reaction Data在2018年进行的一项调查发现,84%的美国放射科诊所已经或计划采用人工智能程序。这一领域在中国发展尤其迅速,有100多家公司正在设计用于医疗保健的人工智能应用程序。
总部位于特拉维夫的初创企业Aidoc的首席执行官埃拉德•瓦拉赫(Elad Walach)表示:“现在是进入这个市场的绝佳时机。”该公司开发了用来分析CT扫描中的异常情况的算法,并将这些病人移至医生优先考虑的名单的首位。Aidoc还追踪了医生使用该程序的频率,以及他们花多长时间对其结论进行事后分析。“一开始他们持怀疑态度,但两个月后他们就习惯了,而且非常信任,”瓦拉赫说。
节省时间对挽救病人至关重要。最近一项关于肺部塌陷的胸部x光检查的研究发现,放射科医生将60%以上的检查列为最重要的检查,这意味着他们可能要花上几个小时来处理那些不太严重的病例,然后才能处理那些真正紧急的病例。总部位于波士顿的通用电气医疗保健公司(GE Healthcare)副总裁兼人工智能总经理卡利•约德(Karley Yoder)表示:“我遇到的每一位医生都有一个病人因为肺塌陷而去世的故事。”该公司是医疗成像设备的领先制造商之一。去年9月,美国食品和药物管理局批准了一套人工智能工具,该工具将嵌入通用电气的扫描仪中,自动标记出最紧急的病例。
因为计算机可以处理大量的数据,所以它可以执行超出人类能力的分析任务。例如,谷歌正在利用其计算能力开发人工智能算法,将二维肺部CT图像构建为三维肺部,并观察整个结构,以确定是否存在癌症。相比之下,放射科医生必须单独观察这些图像,并试图在脑中重建它们。另一种谷歌算法可以做一些放射科医生根本做不到的事情:通过观察患者的视网膜扫描,捕捉与血压、胆固醇、吸烟史和衰老相关的细微变化,来确定患者患心血管疾病的风险。谷歌产品经理Daniel Tse说:“这其中可能会有我们之前并未了解的潜在的信号。”
黑箱问题
人工智能程序最终可能会揭示生物学特征与患者预后之间的全新联系。《美国医学会杂志》网络版(JAMA Network Open) 2019年发表的一篇论文描述了一种深度学习算法,该算法对超过8.5万名参与了两项大型临床试验的人进行了训练,这些试验对他们进行了12年多的追踪。该算法对每个病人在这段时间内的死亡风险进行评分。研究人员发现,被人工智能归入高风险类别的人中,有53%的人在12年内死亡,而被归入低风险类别的人中,只有4%的人死亡。该算法没有关于谁死亡或死因的信息。首席研究员、马萨诸塞州总医院(Massachusetts General Hospital)的放射科医生迈克尔·卢(Michael Lu)说,如果结合医生的评估和其他数据,比如基因,这种算法可能会成为评估病人健康状况的有用工具。
为了了解算法是如何工作的,研究人员识别出了用于计算的图像部分。有些,如腰围和女性乳腺结构,是有意义的,因为这些区域可以暗示某些疾病的已知风险因素。但该算法也研究了患者肩胛骨下的区域,这一区域没有已知的医学意义。卢认为,灵活性可能是寿命缩短的一个预测指标。做x光胸透通常需要患者抱着机器,而身体不太健康的人如果不能把手臂完全环绕着机器,他们的肩膀可能会摆成另一种姿势。
电脑和人类思维方式的脱节被称为“黑盒问题”:即电脑在一个人类无法进入的模糊空间中运作。专家们对这在医学成像中是否存在问题意见不一。一方面,如果一个算法持续地改善医生的表现和病人的健康,医生不需要知道它是如何工作的。毕竟,研究人员还没有完全了解许多药物的作用机制,比如自20世纪50年代以来一直用于治疗抑郁症的锂。不过话说回来,也许我们不应该如此执着,因为人类目前在医学领域的工作方式仍有点类似黑箱方式。我们又凭什么对机器有更高的标准呢?
然而,不可否认的是,黑箱子为人类和人工智能之间的误解提供了大量的机会。例如,西奈山伊坎医学院(Icahn School of Medicine at Mount Sinai)的研究人员发现,他们开发的一种用于识别肺部x射线肺炎的深度学习算法在性能上存在差异,这让他们深感困惑。在西奈山生产的x光片上,它的准确率超过90%,但在其他机构的扫描中,准确率要低得多。他们最终发现,该算法不仅分析了这些图像,还考虑了在每个机构中肺炎发病率的基础上得出阳性结果的几率——而这不是他们期望或希望该程序做的事情。
哈佛医学院(Harvard Medical School)研究机器学习生物医学应用的塞缪尔·芬莱森(Samuel Finlayson)对这些混淆因素感到担忧。他指出,人工智能训练的数据集可能会有偏差,而开发人员没有考虑到这一点。例如,在急诊室或半夜拍摄的照片可能比常规检查时拍摄的照片更容易显示出病人。一种算法也可以学习查看疤痕或医疗设备植入物,这些表明以前的健康问题,并决定没有这些标记的人没有这种情况。即便是机构给自己的图像贴上标签的方式,也可能会让人工智能算法感到困惑,并妨碍模型在另一家机构的不同标签系统中正常运行。“如果你在医院里天真地从一个地点、一个时间、一个人群来训练(算法),你就不会意识到模型所考虑的成千上万个小因素。如果这些改变中的任何一项发生,都会有损结果的准确性,”芬莱森警告说。
芬莱森说,解决方案是用来自许多地方和不同患者群体的数据训练一个算法,然后在一个新的患者群体中进行前瞻性测试——不做任何修改。但是很少有算法被这样测试过。根据Topol最近的《自然医学评论》(Nature Medicine review),在数十项声称人工智能表现优于放射科医生的研究中,只有少数在与人工智能研发地不同的人群中进行了测试。“算法是非常、非常微妙的,”杜克大学(Duke University)计算机科学家辛西娅•鲁丁(Cynthia Rudin)表示。“如果你尝试在(图像)训练集之外使用一种方法,并不总是奏效。”
随着研究人员意识到这一问题,更多人开始在新环境下的前瞻性研究可能即将出现。巴兹蕾的团队最近完成了对瑞典卡罗林斯卡学院10000次扫描的乳腺x光片人工智能的测试,结果发现它在那里的表现和在马萨诸塞州一样好。该组织目前正与台湾和底特律的医院合作,在更多样化的患者群体中进行测试。研究小组发现,目前评估非裔美国女性患乳腺癌风险的标准要低得多,巴兹蕾说,因为这些标准主要是用白人女性的扫描数据制定的:“我认为我们确实有能力改变这种可悲的状况。”
法律的未知领域
即使人工智能的结论在医学上是相关的,但从法律角度来看,黑匣子仍然存在一些问题。如果人工智能做出了错误的诊断,就很难判断是医生的错,还是程序的错。密歇根大学的健康法律专家尼克尔森•普莱斯说:“医疗保健领域发生了很多不好的事情,你不一定知道为什么会发生这些糟糕的事情。”如果人工智能系统导致医生做出错误诊断,医生可能无法解释原因,而该公司关于测试方法的数据很可能是一个受到严密保护的商业机密。
医疗人工智能系统还太新,尚未在医疗事故诉讼中受到挑战,因此,目前尚不清楚法院将如何确定责任,以及应要求何种透明度。
建立黑盒算法的趋势让Rudin很沮丧。这个问题来自于这样一个事实,即大多数医学算法都是通过采用为其他类型的图像分析开发的深度学习工具来构建的。“你没有理由不能造出一个能自我解释的机器人,”她坚持说。但是,从头构建一个透明的算法要比重新利用现有的黑盒算法来查看医疗数据要难得多。
Rudin正在开发透明的人工智能算法,分析疑似肿瘤的乳腺x光片,并不断向研究人员通报他们的工作。但她的研究一直受到缺乏可用图像来训练算法的阻碍。Rudin说,公开提供的图像往往标识不清,或者是用已经不再使用的旧机器拍摄的,如果没有庞大而多样的数据集,算法往往会发现混淆的因素。
黑匣子,以及人工智能算法从经验中学习的能力,也给监管机构带来了挑战。与总是以相同方式工作的药物不同,机器学习算法会随着时间的推移而改变和改进,因为它们可以访问更多的患者数据。由于该算法从如此多的输入中提取意义,一些看似无害的变化,如医院的新IT系统,可能会突然毁掉人工智能程序。“机器会像人一样生病,它们也会被恶意软件感染,”Topol说。“当一个人的生命处于危险之中时,你不能相信一个算法。”
去年4月,FDA提出了一套指导方针来管理随时间变化的算法。其中一个期望是,生产商要密切关注自己的算法如何变化,以确保它们继续按设计工作,并要求它们在发现可能会促使重新评估的意外变化时通知FDA。该机构还在开发最佳制造实践,并可能要求企业阐明它们对算法可能如何变化的预期,以及如何管理这些变化的协议。“我们需要明白,从来没有一种万能药,”FDA数字健康主管巴库尔·帕特尔(Bakul Patel)说。
机器会取代医生吗?
人工智能的局限性应该会让担心机器会抢走他们工作的放射科医生放心。2012年,科技风险投资家、太阳微系统公司(Sun Microsystems)的联合创始人维诺德·科斯拉(Vinod Khosla)预测,算法将取代80%的医生,这一预测让医学界震惊。最近,他声称,10年后仍在执业的放射科医生将“杀死病人”。Rao说,这样的言论在放射学领域引起了恐慌和反弹。“我认为炒作造成了很多期望。”
但这种担忧也产生了切实的影响。2015年,美国只有86%的放射科住院医师职位得到填补,而前一年为94%,尽管这些数字在过去几年中有所改善。根据2018年对322名加拿大医科学生的调查,68%的学生认为人工智能将减少对放射科医生的需求。
尽管如此,大多数专家和人工智能制造商仍怀疑人工智能是否会很快取代医生。“人工智能解决方案正变得非常擅长把一件事做得非常好,”瓦拉赫说。但由于人类生物学是复杂的,他说,“你通常必须让人把不止一件事做得非常好。”换句话说,即使一个算法在诊断某个特定问题上做得更好,把它与医生的经验和对病人个人情况的了解结合起来,也会得到更好的结果。
能够很好地完成一项任务的人工智能可以让放射科医生从繁重的工作中解脱出来,让他们有更多的时间与患者互动。托波尔说“我们在医学上需要的是更多的人与人之间的接触和联系。”
尽管如此,Rao和其他人相信,由于人工智能算法的出现,放射科医生所接受的工具和培训,包括他们的日常工作,将在未来几年发生巨大的变化。“人工智能不会取代放射科医生,但使用人工智能的放射科医生会取代不使用人工智能的放射科医生,”斯坦福大学放射科医生柯蒂斯•兰罗兹(Curtis Langlotz)表示。
然而,也有一些例外。2018年,FDA批准了第一个无需医生查看图像就能做出医疗决定的算法。IDx技术公司在爱荷华州的Coralville开发了这个项目,通过观察视网膜图像来检测糖尿病视网膜病变,根据该公司的数据,准确率高达87%。IDx首席执行官迈克尔·阿布拉莫夫表示,由于没有医生参与,公司已经为任何医疗事故承担了法律责任。
在短期内,人工智能算法更有可能帮助医生,而不是取代他们。例如,在发展中国家工作的医生可能无法获得与美国或欧洲主要医疗机构相同种类的扫描仪,或者无法获得能够解释扫描结果的训练有素的放射科医生。伦格伦说,随着医学变得更加专业化和依赖于图像分析,富裕地区和贫困地区提供的医疗服务标准之间的差距正在扩大。运行一种算法可能是缩小这一差距的一种廉价方式,甚至可以在移动电话上实现。
隆格伦的团队正在开发一种工具,可以让医生用手机拍摄x光胶片——而不是发达国家标准的数字扫描——并在照片上运行一种算法来检测肺结核等疾病。“它不会取代任何人,”他说——许多发展中国家一开始就没有放射科医生。“我们正在扩充非放射科医生,把专业知识带到他们的指尖。”
Rao说,人工智能的另一个短期目标可能是首先检查医疗记录,以确定病人是否需要扫描。许多医学经济学家认为成像被过度使用——仅在美国每年就有超过8000万例的CT扫描。尽管如此丰富的数据有助于研究人员使用它来训练算法,但扫描的成本极高,可能会让病人暴露在不必要的辐射中。同样,隆格伦补充说,有一天,算法可以在患者仍在扫描仪中时分析图像并预测最终结果,从而减少获得良好图像所需的时间和辐射暴露量。
最后,巴兹蕾说,当人工智能作为一个敏锐的合作伙伴来处理那些医生无法独自发现和解决的问题时,它将是最有用的。
责任编辑:ct
评论
查看更多