如何定义和评价平安集团在医疗科技层面的未来？-电子发烧友网

如何定义和评价平安集团在医疗科技层面的未来？编者按：2020 年 8 月 7 日，全球人工智能和机器人峰会（CCF-GAIR 2020）正式开幕。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。从 2016 年的学产结合，2017 年的产业落地，2018 年的垂直细分，2019 年的人工智能 40 周年，峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。在8月9日的医疗科技专场上，来自平安集团的首席医疗科学家谢国彤先生以《用人工智能重塑医疗：平安医疗科技的实践和探索》为题，分享了平安集团在医疗领域的深刻认知和实践。谢国彤博士认为，所有AI都无非四个要素：数据、算力、算法和应用。在这四个要素下面，平安共研发了2个基础平台和4个医疗AI算法领域，以支持医疗的各种分析和推理，目前有1.6万家医疗机构，43万医生在使用。两个基础平台主要是赛飞AI平台（算力）和医疗五大库及知识图谱（数据）。谢国彤表示，医疗五大库及知识图谱，首先是从数据端出发，分四步去解决数据处理难题：第一，去掉噪音，补全数据，提升数据输入质量；第二，结构化，通过数据和文本抽取，实现数据可用；第三，标准化，把不同来源的医疗数据名称统一；第四，利用算法挖掘疾病的风险因子或者治疗方法。而赛飞AI平台则主要是通过AI平台化战略，解决AI产品算力和落地的基础性问题。谢国彤说到，平台的目的就是让医疗数据科学家专注在自己领域内，由平台去完成AI通用算法、智能标注、分布式训练加速、高性能压缩模型部署等通用问题。在这两大基础平台之上衍生的4个医疗AI算法领域，主要侧重在疾病预测、智能影像、AskBob辅助诊疗和疾病全周期管理四个场景。在最后的总结中，谢国彤说到，医疗人工智能是利国利民的事情，人命关天，需要AI界和医学界的紧密合作，用AI的算法解决真实的需求，保证模型的安全性、可用性，才能对“健康中国”产生真正的价值。

以下为谢国彤的现场演讲内容，雷锋网《医健AI掘金志》作了不改变原意的编辑及整理：

谢国彤：各位现场和线上的朋友，大家好。我叫谢国彤，负责平安的医疗科技。很高兴今天有机会跟大家分享平安在医疗科技方面的进展。

在过去五年时间，平安积累了大量的医疗业务。平安医疗有三个支柱：患者端、医院端和支付端。顶天立地还各有一横一纵。患者端，平安目前有全球最大的互联网医疗平台——平安好医生，3亿多注册用户，每天的问诊量在80万次以上；医院端，平安通过智慧医院的解决方案，在1.6万家医院赋能，还有自己的检测中心、药品集采平台，很多跟医院相关的业务；保险支付是平安的本行，平安有1亿6千万的保险客户，平安医保科技为两百多个城市政府做医保精算、核赔各种业务。一横一纵，上面一横是面向政府。平安拥有的智慧城市、智慧卫健业务，在150多个城市帮助政府提供更好的公共卫生、全民信息平台和医共体的解决方案。下面一纵是我负责的平安医疗科技，从每个业务中沉淀数据，把数据变成AI模型。再反哺赋能给各个业务。今天，我主要聚焦平安医疗科技的工作。所有的AI无非是四个要素：数据、算力、算法和应用。如果把我们的工作按照四个要素来整理，是2个基础平台和4个算法领域。

基础平台：包括五大库数据及知识图谱平台。这个平台汇聚了平安各种医疗业务沉淀下来的数据，将其知识化后变成知识图谱，支持上层的各种分析和推理。赛飞AI平台：让做医疗的数据科学家专注在自己的领域里，把AI的通用算法、分布式的训练加速、高性能压缩模型部署等通用问题交给平台来做。五大库及知识图谱首先来说一下，我们的五大库知识图谱。

在沉淀大量数据后，我们以疾病为中心构建知识图谱，把疾病的症状、检查检验、用药、关键的常用处方、疾病手术、疾病并发症、疾病风险因素、疾病和基因的关系，包括哪个医院、哪个医生在哪个疾病领域比较擅长，发表过什么科研成果的信息都收集起来，构建出一个包含300万的医学概念、3300万的关系和3000万医学证据的医疗知识图谱，支持后续所有的应用。

构建这样的图谱，我们把它总结为“四化”的过程。拿到数据后，要经过四个关键步骤：第一步，去噪。去掉噪音，补全数据，提高输入数据的质量；第二步，结构化。图谱里有大量文本数据，要做各种实体、关系进行抽取抽取，对文本进行分类、标签，让数据变得可用；第三步，标准化。不同来源的医疗数据，对疾病、药品、检查检验的描述是不一样的。我们要用大量的NLP技术，将各种医学术语统一化、标准化，才能进行下一步的分析；第四步，挖掘。利用各种算法，从数据中挖掘疾病的风险因子或者常用的治疗方法，这些信息最终会沉淀在我们的知识图谱里。

赛飞AI算法平台其次，我介绍一下赛飞AI平台，这个平台的目标要提供从模型训练到模型部署的一整套平台级服务，让医疗数据科学家专注在医疗领域，不用去考虑通用的问题。赛飞的工作很多。举一个例子，我们在进行组织病理影像分析时，一个病理的影像大概有10亿像素，如果一个医生要很完整的把肾小球和肾小球里的内皮细胞、细膜细胞都标注完，一个小时都不能完成。但是，所有的片子都有必要去标注吗？不见得。我们利用主动学习的方法，挑选信息量最大的片子。后来我们发现，标注52%的训练数据，就可以达到跟此前标注完所有数据差不多的效果。再比如分布式加速。现在的NLP模型庞大无比，不管是现在最火的GPT-3拥有的上千亿参数，还是常用的BERT，都是几亿参数的大模型。我们参加ACL比赛时，用了赛飞分布式加速能力，在20天之内训练了281次，不停把模型的精度推到极致，最后拿到冠军。这就是分布式加速给模型训练带来的价值。再比如模型压缩的例子，这是非常现实的场景：很多AI模型希望跟硬件进行整合，但是模型很大，硬件存储却很小。我们的一个眼底OCT模型大小是6G，一个OCT设备存储是2G，无法把这个模型放在存储里。最后，我们把6G的模型压缩到原来的四分之一，精度只损失一点点，最终完成软硬一体的计算。当然，除了在医疗领域，赛飞还可以拓展变成更加通用的AI平台。

现在平安有16个子公司、42个部门、300多名数据科学家在赛飞平台上完成2.5万次模型训练。同时，它是参加比赛刷榜的神器，我们拿了7个世界第一，利用这个平台，极大地加快建模速度，也有很多相应论文的发表。说完底层的技术，我们再看上层的四个算法领域，其中大家比较熟悉的是影像。平安的业务很广，如果聚焦在医疗AI的算法场景里，则是从疾病的预测、基于影像的辅助诊断、AskBob辅助诊疗和患者院外管理的四大场景，我们有大量的模型算法和工作。从应用的角度来看，今年，平安所有的医疗科技服务有1.75亿次的调用，服务了1.6万家医院，43.8万名医生用户每天在使用我们的医疗科技服务。

疾病预测关键技术疾病预测，预测的不是人的命运，而是人的生命。比如预测重症患者院内死亡风险、慢性病患者的并发症风险、人群发病风险。新冠疫情期间，平安医疗科技向国务院办公厅、各个部委提交了130多期预测报告，预测什么时候新增发病人数会到顶，什么时候出院人数会急剧增加，最终死亡率是多少，从而帮助政府做决策。在疾病的预测过程中，有非常多的关键技术：一、数据修复。拿到100条记录，要求所有的关键数据都有数值，最后剩下一条就不错了。我们在IEEE ICHI参加了Data Imputation的比赛拿了冠军，我们利用数据所谓的横向、纵向和斜向关系，分析数据之前、之后和相关检测检验的信息，猜测缺失的数据可能是多少，均有不错的效果。二、特征工程。很多预测是从病例中进行挖掘，这里也有挑战：数据是多模态的，不像影像相对单纯。在这次新冠疫情里，预测有60%的ICU患者发生了不同程度的脓毒症，脓毒症是ICU的第一大杀手。ICU里的信号非常复杂，有心率血压、脉搏等生命体征信息，并且时间序列是连续的。我们利用很好的多模态数据特征工程的方法，提前6个小时预测患者发生脓毒症的风险，精度比目前最好的方法高20%，这个工作今年发表在重症医学顶级期刊CCM上。三、可解释机器学习建模。很多医生是很难接受黑盒模型的，尤其是预测，本来就是在猜，如果怎么猜的都不知道，医生很难接受这个模型。我们的做法是将深度学习的方法跟医生比较能接受的生存分析survival analysis方法结合起来，利用SHAP等可视化的方法，把因素和结局的关系可视化出来。比如右上角的图，有一个U字形，那是一个非常典型的例子，红色的表示当值在那个区域的时候，导致患者出现肾衰竭的风险，而绿色部分是保护性因素，值在这个区间的患者不容易发生风险，但它不是线性的。我们利用可解释的模型加上深度学习的方法，用算法定量、精准地把非线性的关系可视化出来，解释给医生，让他们更容易接受。

做预测模型有什么用？现在有两个面向用户的场景在使用：第一个场景是面向C端用户。平安有最大的全球互联网医疗平台——平安好医生。我们把常见病（高血压、糖尿病、冠心病、脑卒中）的预测模型放在平安好医生APP上。平安好医生有几亿的用户，他们会填写数据预测，看看自己有什么风险，同时进行相应的管理。第二个场景是针对老年人群体。我们在甘肃收集到185万老年人数据。老年人出现高血压、糖尿病的比例占老年人口的40%，慢性病管理的挑战在于知晓率低，治疗率低。老年人不知道自己有病，或者有病也不会主动治疗。我们跟甘肃卫健委合作，用算法把这些人挑出来，通过甘肃家庭医生平台，让家庭医生有针对性找到高危老年人，对他们进行主动管理，提高疾病的知晓率和治疗率。三是在珠海，我们利用200多万居民的健康数据和12个疾病的预测模型，可以生成一个完整的风险评估报告。同时，我们会把相应患者的教育，以及可访问的健康服务跟风险因素挂在一起：哪些服务可以帮助降低哪些风险因素，让政府在进行疾病管理的时候变得更加精准，更有针对性。基于智能影像的辅助诊断第二个场景是面向医学影像，我们聚焦的是两类人群（基层医生和专家）、三个场景：

对于基层医生，我们聚焦质控和筛查。很多基层医生拍出来的片子位置不正、关键的器官不在里面、以及各种异物，这些片子拿到北京、上海的大医院也用不了。我们在质控领域有很长的积累，在《NEUROCOMPUTING》、《SCIENTIFIC REPORTS》上发表了一系列的文章，针对DR、CT、内窥镜等影像，发现质量问题后提示医生重拍，进而提高优片的比例，在内窥镜异物比赛上获得冠军。

另外，平安有六个检测中心，300多家医院把数据传到平安影像云上，由平安的医生帮助他们阅片。利用质控的方法，不管是DR。还是CT，质量不好片子的比例下降了20%，让甲级优等片的占比达到98%，提高了基层片子的质量。第二个场景是筛查，告诉基层医生患者的病情，在基层医院看不了，要去大医院就诊。我举一个眼科OCT的例子。OCT类似于CT，是三维建模，会看OCT的医生很少，尤其是在基层医院，五官科的医生往往是耳鼻喉科的医生，不一定是眼科医生。我们在TVST、MICCAI等连续发表了一些文章，用算法对OCT的20多种病灶进行识别，并且做出紧迫性判断。提示医生患者没问题，或是有问题但只需要随访，或者是问题很严重，需要马上到上级医院就诊，这是我们在筛查场景里发挥的作用。我们在上海、深圳都建立了以权威眼科三甲医院为主、下设几十家社康中心的模式，在社康中心进行筛查。在这两个地方，我们发现，年龄偏高人群中有30%的人有不同程度的眼底病变，其中20%的人需要马上治疗。因此，通过平安的平台，我们可以将他们转到相应的三甲眼科医院进行干预。第三类是辅助诊断，面向专科医生，对于很难很烦的事情，我们帮助他们加速。这是肾脏病理的例子。一个医生做肾脏诊断时，需要对着10亿像素的片子数肾小球、有没有硬化，肾小球里面细胞的比例。一个医生数一个肾小球平均需要平均43秒，一个片子里有几十到一百个肾小球。我们利用最近发表在病理学顶级期刊上的一套模型，跟国家肾病中心的四个肾内科医生进行了对比。结果模型的精度是92%，四个肾内科的医生平均精度是82%，同时，模型看一个肾小球的速度是0.6秒，而医生平均是43秒，我们把速度平均提升了70倍，精度提升了10倍。因此，让医生基于AI模型提供结果进行判断，把琐碎的事情交给计算机，这是我们对AI的定位。今年上半年，有250多个城市使用了平安医疗科技的技术，影像辅助诊断的服务就有上亿次调用。最后一个例子是宫颈癌TCT病理，我们将硬件与模型进行了整合，通过跟复旦肿瘤医院、第三方诊断中心合作一起应用。扫描仪会在2分钟内完成切片扫描，在40秒钟内对切片进行阳性、阴性的判断，同时会把三类高危的阳性切片按照高、中、低列出来，让医生关注阳性的切片。即使是阴性的片子，我们会把一些高风险的区域高亮出来，帮助医生做判断。在6000例的数据验证上，敏感度设到99%，排疑率是80%，减少医生阅读阴性片的时间。AskBob辅助诊疗辅助诊疗核心要解决的是诊断治疗时如何给医生一些辅助，我挑选两个关键技术介绍。

目前，我们有2000多种疾病的辅助诊断和120多种精准治疗模型。很多AI应用集中在分类，可能也会完成分割的任务。我们主要用的是深度强化学习的方法，结合短期和长期的结果做Reward function，短期是血压、血糖达标率，长期是并发状的发生率，用不同的结果给深度强化学习一些激励。利用这样的方法，我们跟国家生命中心在BMJ子刊上发表了面向糖尿病、肾病个性化治疗的模型，跟安贞医院刚刚在AMIA上发表了房颤的治疗模型。还有一个场景是面向循证医学。医生要阅读大量的文献，我们用算法把文献里关键的疾病、用药抽取出来做分类，比如这类疾病的手术治疗是哪一种，用哪种药进行治疗，我们用算法把关键信息抽取出来。

目前，这一套辅助诊疗系统在1.6万家医院有应用，目标对象同样分为基层医生和专家医生。我们会像助手一样，在基层医生输入症状之后，不断提醒可能的检查、检验和用药、诊断结果。数据显示，部署我们系统之前，地方诊疗规范率不到50%，部署后的规范率达到80%以上。而对于专科医生，我们希望他们在面对复杂病例或者科研需求时，可以通过AI的方式检索到需要的医学证据。比如胃癌，我们会提供不同临床治疗方案的依据以及治疗的效果。同时，医生可以查询胃癌领域的权威在哪些领域发表了多少文章，有哪些临床实验，从而帮助医生更好地进行科研。患者院外管理除了帮助医生，我们还要关注的对象是患者，患者离开医院后有大量管理的需求。比如药物是否需要调整、是否还要继续吃，跟其他药一起吃有没有问题。医生会对患者进行随访，但是单纯依靠人的方式是不可能的。中国一年就诊人次是80亿，但只有300万医生，医生治病之余没有精力做后续患者随访。

为此，我们开发了多轮对话技术，让AI尽可能把那些耗时耗力的工作做完，好医生一天会产生80万次的问题。我们分析了好医生日志，每次15分钟的对话里，前5分钟都是医生问患者的病史、诊断治疗，后10分钟患者会问医生五花八门的话题，这些都是我们很好的训练数据。在ACL里，我们在医疗问答项目上拿到了冠军。基于海量的数据，我们训练了一个AskBob的模型，比通用的模型效果更好，可以做意图理解、FAQ问答和知识图谱问答，回答各种长尾的问题。举一个应用的例子。目前，在560多家医院、五万名2型糖尿病患者在我们的平台上进行院外的管理。这有点像前面这些方案的集大成者。我们会用各种风险预测产生患者画像，用辅助诊疗的模型生成一些方案、监测方案、用药方案、饮食运动等，用对话的方式进行动态跟踪、随访，包括回答各种问题。这种方式的效果如何？

数据显示，患者入住三个月后，评估他的HBA1C和空腹血糖，可以看到HBA1C达标率提升5倍，空腹血糖达标率提升20%。患者很积极地阅读文章，积极地上传自己的血糖数据，依从性提升了50%。与此同时，成本也相应降低。因为以前主要靠人工，三个月内围绕一名患者，护士平均要打5个电话。现在的“AI+护士”，只要打2.9个电话就可以达到更好的效果，这是院外管理一个很好的案例。更重要的一点是，打通重点疾病的专科模式。我们跟国家肾病中心有一个合作的例子，基于病理对慢性肾病的患者进行辅助诊断，进行肾衰竭的风险预测，对高风险的人群实现精准用药，让他们接受免疫抑制剂的治疗，降低肾衰竭的风险。

以肾病为专科案例来看，我们打通了辅助诊断、风险预测、精准治疗、患者管理的四大环节，在每个环节都有医学期刊论文发表，得到医学界的认可。最后，我想说的是，医疗人工智能是利国利民的事情，人命关天，需要AI界和医学界的紧密合作，用AI的算法解决真实的需求，保证模型的安全性、可用性，才能真正地对“健康中国”产生价值。采访问答精选提问：您刚刚在演讲中提到了赛飞平台，想请问一下为什么要投入精力去开发平台？未来的面向对象是哪些？谢国彤：我们发现，算法工程师要完成好多通用的事情，而且环境不停地升级，算法要不断优化，例如模型压缩、高性能部署，这些都是一些通用需求。我们有四个算法领域：疾病预测、医学影像、辅助诊疗还有疾病管理，这四个领域的算法工程师都得学。两年前，我们就开始从训练环节入手，提供一些通用能力，让算法工程师只聚焦在自己的领域。把数据可视化、数据标注、数据增强，包括分布式加速训练这些通用能力，还有通用算法库，沉淀在赛飞上，不用管底层环境的事情。这样大家都用得很爽，赛飞是一个GPU的集群，有个集群大家就可以共享，有机会用到一个比以前大10倍的GPU的力量。我们在内部使用后，发现外部客户也有类似需求，因为有很多算法是不局限于医疗领域的，例如NLP领域的BERT，CV领域的ResNet，这些网络很多领域的人都在用。因此，我们就开始让平安的子公司来使用，现在300多个用户里有一大半都不是做医疗的，都是平安16个子公司的用户，在上面做NLP、CV、OCR等各种各样的建模。所以，赛飞在持续地增长，更好地服务集团，从一个纯医疗的平台变成通用的AI平台。提问：平安的医疗AI产品与布局，与BAT或者AI公司有哪些本质上的区别，怎么才能从这个市场中获得优势？谢国彤：疾病是一个很复杂的领域，有2万到3万种病。就以影像为例，有些聚焦于放射，细分来看，会分为DR、CT和核磁等。从病种上来看，有些会聚焦眼科，有些会聚焦病理，还会再细分还会分为宫颈癌病理、乳腺癌病理、胃癌病理等。所以，我觉得医疗AI的空间足够大，没有任何一家公司能把世界上所有病的所有AI模型都搞定。其次，大家选择的切入点不一样，从我的角度来看，我们更关注的是那些真正有需求的场景，如何为基层医生赋能，如何为专科医生减负，不是非要让基层医生看很难的病，或者要比专科医生强很多。在我看来，很多场景就是为了技术而技术。三年前，我离开IBM的时候，很多公司找过我，但是我选择了平安。我觉得，平安的医疗生态patient、provider、payment是一个很完整的生态，有一些公司也不是没有场景，但是领域很窄。AI是由场景业务驱动，而不是技术驱动，技术驱动是风光一时。只有基于真实的业务场景，才能真的有价值，有收入。提问：对于医疗AI的认证和落地，您有哪些看法？谢国彤：我们现在跟国家科技部和国家卫健委，在进行AI医疗领域的一个课题——AI的模型验证评估平台。我之前跟科技部、卫健委表达了一个观点，他们也很认同，那就是，让大家都拿到证才能用是不现实的。拿一个证，没有两三年是不会有什么结果的，这个过程中大家都在干等？这是不可能的，要鼓励大家去尝试。尝试的过程中，各个地方的卫健委和医院院长、主任都很困惑，每一家企业来找我都是99%的准确率。但是，测试的数据集都不一样，只要选好测试集百分之百也可以，就看怎么选。例如眼科OCT，可能有20种病变，其中有些病变是常见，有些是罕见，但测试集里只包含了其中10种，这10种虽然识别准确了，但另外10种还没有识别，怎么就代表模型准确了呢？因此，我们现在跟科技部、国家卫健委合作的项目，就是由医院、卫健委、药监局等部门牵头，针对特定的疾病和特定的任务，提供中立的测试集。把各家的模型拿上来测试，最后拿出一个评估报告。至少让各家讲自己性能指标的时候，有一个统一的数据集、一个统一、中立的评测标准。我觉得，国家推动医疗AI应用中做得很好的一个步骤是，先选择一些常见的、需求量比较大的AI场景，制定相对成熟的数据集，从需求比较大病种开始入手，当数据集越来越多，能评估的模型也越来越多。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉