0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

近五年来中文电子病历的命名实体识别研究进展

深度学习自然语言处理 来源:python遇见NLP 2020-08-27 17:56 次阅读

阅读综述性论文是一种能够快速了解某一领域的方法,接下来通过今年的一篇综述性论文来了解一下近五年来中文电子病历的命名实体识别研究进展。

基本的,我们应该先来了解一下两个概念:电子病历和命名实体识别。

电子病历(Electronic Medical Record,EMR)是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的数字化信息, 并能实现存储、管理、传输和重现的医疗记录。电子病历中的文本内容是医务人员按照《病历书写基本规范》和《电子病历基本规范(试行)》中相关书写规定,围绕患者医疗需求与服务活动而记录的描述性文本内容。

命名实体识别(Named Entity Recognition,NER)是指识别自由文本中具有特定意义的实体,如人名、地名、专有名词等。与通用领域的命名实体不同,电子病历中的命名实体通常有疾病、症状、治疗等实体。

有了上述两个概念的了解后,接下来我们就可以来了解中文电子病历命名实体识别的任务,它包括:

①电子病历数据的获取与匿名化处理;

②明确命名实体种类,进行语料标注;

③构建模型进行实体识别;

④结果评价及优化。

以电子病历中现病史章节为例,中文电子病历命名实体识别研究任务流程如图1所示:

从上述四个任务出发,我们继续进行探讨。

1

电子病历数据集的获取

中文电子病历数据的获取途径通常包括:

①与医院建立合作关系,如曲春燕等通过与某医科大学附属医院建立合作关系获取到该院35个大科室、87个小科室的992份电子病历。同时,相关医务人员也全程参与数据标注,为数据集的质量提供了保障。

②开放获取的学术评测语料,如CCKS2020学术评测任务三开放了用于命名实体识别评测任务的已标注匿名化电子病历1500份和未标注的电子病历1000份,在电子病历语料资源匮乏的现状下,全国知识图谱与语义计算大 会无疑为行业发展作出了巨大贡献。 ③网络发布的电子病历资源。 当前,大多数研究采用第1种方式获取电子病历的研究数据,并邀请医务人员参与语料数据的标注工作;而第2、3种获取方式具有很大的不确定性,并且电子病历的数据标注工作过程控制和质量控制均存在不确定性。

2

数据标注的相关工作

曲春燕等参照i2b2 2010的标注规范制定了中文电子病历的标注规范,进而在两名临床医生的全程参与下,对病历文本分为前后共计4轮标注,并进行了一致性检验。杨锦锋等在曲春燕等人的工作基础上,对相同的病历文本资源,进行了命名实体和实体关系的标注语料构建工作。He等在曲春燕、杨锦锋等人的工作基础上,新增了电子病历文本的分词、词性标注、断言、关系抽取等自然语言处理常见任务的语料标注工作,并对标注结果进行了一致性检验。 上述学者的延续性标注工作,对今后研究的语料标注工作具有一定的指导意义。然而,与临床医生长期从事语料建设和维护的难以实现。一方面,临床医生用于语料标注的时间有限;另一方面,邀请临床医生标注语料成本更高。因此,医学数据标注团队建设和专业人员培养的可行性值得探讨。

3

主要的命名实体识别算法模型

中文命名实体识别的主要研究算法为条件随机场(CRF)和双向长短期记忆网络模型条件随机场(Bi-LSTM-CRF)。 Liu等设计不同特征模板和上下文窗口进行条件随机场的学习训练,进行模型实体识别效率的比对分析,以寻找最佳的电子病历特征模板和上下文窗口。Liu等在i2b2 2010,2012和2014语料上实验对比了Bi-LSTM-CRF与传统的CRF实体识别算法的性能,结果表明Bi-LSTM-CRF性能较好。CCKS 2017学术评测任务二:面向电子病历的命名实体识别,共收录了7篇论文,研究内容和测评结果等见表1。总体上看,7篇论文均有对Bi-LSTM-CRF(或Bi-LSTM)算法模型的实现;均采用“字粒度”模型使用word2vec工具将输入文本特征向量化表示。Zhang等利用CCKS 2017开放的电子病历语料,分别采用CRFs和Bi-LSTM-CRF两种统计机器学习算法从电子病历数据集中识别疾病、身体部位和治疗等信息,并对两种方法进行了对比分析,发现后者性能较好。Qiu等为提高循环神经网络模型的训练速度,提出了残差卷积神经网络条件随机场模型(RD-CNN-CRF)在CCKS 2017开放测试语料上获得了较Bi-LSTM-CRF更高的训练速度和F1值。CCKS 2018学术评测任务一:面向中文电子病历的命名实体识别,共收录论文2篇,分别是Yang等将词嵌套、词性、偏旁部首、拼音、词典和规则特征作为条件随机场(CRFs)的学习特征,实验F1值为89.26%;Luo等基于多特征(如标点符号、分词和词典等特征)融合,整合CNN-CRF, Bi-LSTM-CRF, Bi-LSTM-CNN-CRF, Bi-LSTM+CNN-CRF和Lattice LSTM五种神经网络模型,实验F1值最高达到了88.63%(表1)。

4

结果评价及优化

随着中文电子病历命名实体识别的研究逐步深入以及相关算法框架的逐渐成熟,基于中文电子病历的命名实体识别算法构成了临床电子病历系统、专病科研数据提取、临床辅助决策系统的重要组成部分。 电子病历命名实体识别结果评价指标说明如下图:

袁冬生为解决出院小结文档中普遍存在的信息不准确、无效信息、信息缺失等问题,设计开发了一套基于命名实体识别的出院小结错误检测系统。李山为提高住院病历录入的交互性和可操作性,降低书写的繁杂度,减轻医生负荷,提高工作效率,使用条件随机场算法,进行电子病历命名实体识别,提取病历中重要的诊疗信息,并将其应用在住院病历录入辅助中,以优化和改善病历录入方式。Su等则基于中文电子病历命名实体标注规范构建了一个可用于识别心血管疾病危险因素的语料库。

展望

.....

针对电子病历的语义特征的量化分析与研究,对于提升算法特征工程质量有积极意义;近两年来,针对电子病历语料标注的成本问题,很多研究聚焦于半监督和无监督的算法来实现基于少量标注语料或完全基于非标注原始语料进行实体识别,是一个重要的研究方向。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 电子病历
    +关注

    关注

    1

    文章

    61

    浏览量

    20154
  • 数字化
    +关注

    关注

    8

    文章

    8827

    浏览量

    62015
  • 识别
    +关注

    关注

    3

    文章

    173

    浏览量

    31986

原文标题:【NER综述】近五年中文电子病历命名实体识别研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    语音识别技术在医疗领域的应用

    语音识别技术在医疗领域的应用已经越来越广泛,为医疗服务带来了诸多便利和效率提升。以下是对语音识别技术在医疗领域应用的介绍: 一、语音病历 语音识别技术可以将医生或患者的语音信息转换成文
    的头像 发表于 11-26 09:35 442次阅读

    高能点焊电源技术在现代工业制造中的应用与研究进展

    制造中的最新研究进展。 一、高能点焊电源技术的基本原理及特点 高能点焊电源技术是一种利用高压脉冲电流实现金属材料瞬间熔化并完成焊接的先进工艺。其工作原理主要基于
    的头像 发表于 11-23 08:58 215次阅读
    高能点焊电源技术在现代工业制造中的应用与<b class='flag-5'>研究进展</b>

    从发展历史、研究进展和前景预测三个方面对混合键合(HB)技术进行分析

    、无凸点的永久键合。阐述了HB 技术的发展历史、研究进展并预测了发展前景。目前HB 技术的焊盘直径/节距已达到0.75 μm /1. 5 μm,热门研究方向包括铜凹陷、圆片翘曲、键合精度及现有设备兼容等,未来将突破更小的焊盘直径/节距。HB 技术将对后摩尔时代封装技术的发
    的头像 发表于 11-22 11:14 1264次阅读
    从发展历史、<b class='flag-5'>研究进展</b>和前景预测三个方面对混合键合(HB)技术进行分析

    上海光机所在多路超短脉冲时空同步测量方面取得研究进展

    图1.超短脉冲时空同步实验的光路图 近日,中科院上海光机所高功率激光物理联合实验室在多路超短脉冲时间同步与空间叠合度测量方面取得研究进展,相关研究成果以“High-precision
    的头像 发表于 11-11 06:25 211次阅读
    上海光机所在多路超短脉冲时空同步测量方面取得<b class='flag-5'>研究进展</b>

    AI大模型的最新研究进展

    AI大模型的最新研究进展体现在多个方面,以下是对其最新进展的介绍: 一、技术创新与突破 生成式AI技术的爆发 : 生成式AI技术正在迅速发展,其强大的生成能力使得AI大模型在多个领域得到广泛应用
    的头像 发表于 10-23 15:19 535次阅读

    开尔文电阻测试方法有哪些

    (William Thomson, Lord Kelvin)在1861发明,主要用于测量低阻值电阻,以消除接触电阻和引线电阻对测量结果的影响。以下是对开尔文电阻测试方法的介绍: 一、基本原理 开尔文电阻测试方法的基本原理是在未
    的头像 发表于 08-27 11:35 961次阅读

    导热纸(膜)的研究进展 | 晟鹏技术突破导热芳纶纸

    问题。纸张及薄膜具有良好的柔韧性、优异的加工性和厚度可调整性,是良好的柔性导热材料。本文概述了近年来导热纸(膜)的研究进展,对不同基材的导热纸进行了归纳分类和介绍,重点
    的头像 发表于 07-12 08:10 760次阅读
    导热纸(膜)的<b class='flag-5'>研究进展</b> | 晟鹏技术突破导热芳纶纸

    基于微流控技术的DNA甲基化分析方法研究进展综述

    年来,大量研究致力于开发DNA甲基化检测方法。检测方法的进步可以促进DNA甲基化在临床医学和科学研究方面的应用。
    的头像 发表于 05-21 09:08 891次阅读
    基于微流控技术的DNA甲基化分析方法<b class='flag-5'>研究进展</b>综述

    量子计算+光伏!本源研究成果入选2023度“中国地理科学十大研究进展

    近日中国地理学会公布了2023度“中国地理科学十大研究进展”本源量子参与的“量子地理计算技术、软件及应用”研究成果获选系量子计算领域唯一入选单位来源:中国地理学会此次入选的“量子地理计算技术、软件
    的头像 发表于 05-10 08:22 538次阅读
    量子计算+光伏!本源<b class='flag-5'>研究</b>成果入选2023<b class='flag-5'>年</b>度“中国地理科学十大<b class='flag-5'>研究进展</b>”

    锑化物超晶格红外探测器研究进展与发展趋势综述

    锑化物超晶格红外探测器具有均匀性好、暗电流低和量子效率较高等优点,其探测波长灵活可调,可以覆盖短波至甚长波整个红外谱段,是实现高均匀大面阵、长波、甚长波及双色红外探测器的优选技术,得到了国内外相关研究机构的关注和重视,近年来取得了突破性的
    的头像 发表于 04-19 09:13 1221次阅读
    锑化物超晶格红外探测器<b class='flag-5'>研究进展</b>与发展趋势综述

    用于先进电生理记录的有源微纳协同生物电子器件研究进展综述

    开发精确灵敏的电生理记录平台对心脏病学和神经科学领域的研究至关重要。近年来,有源微纳生物电子器件取得了重大进展,从而促进了电生理学的研究
    的头像 发表于 04-16 10:55 776次阅读
    用于先进电生理记录的有源微纳协同生物<b class='flag-5'>电子</b>器件<b class='flag-5'>研究进展</b>综述

    综述:高性能锑化物中红外半导体激光器研究进展

    据麦姆斯咨询报道,近期,由中国科学院半导体研究所和中国科学院大学组成的科研团队受邀在《激光技术》期刊上发表了以“高性能锑化物中红外半导体激光器研究进展”为主题的文章。该文章第一作者为曹钧天,通讯作者为杨成奥和牛智川研究员。
    的头像 发表于 04-13 12:08 2064次阅读
    综述:高性能锑化物中红外半导体激光器<b class='flag-5'>研究进展</b>

    先进封装中铜-铜低温键合技术研究进展

    用于先进封装领域的 Cu-Cu 低温键合技术进行了综述,首先从工艺流程、连接机理、性能表征等方面较系统地总结了热压工艺、混合键合工艺实现 Cu-Cu 低温键合的研究进展与存在问题,进一步地阐述了新型纳米材料烧结工艺在实现低温连接、降低工艺要求方面的优
    的头像 发表于 03-25 08:39 840次阅读
    先进封装中铜-铜低温键合技术<b class='flag-5'>研究进展</b>

    电子封装用金属基复合材料加工制造的研究进展

    共读好书 盖晓晨 成都四威高科技产业园有限公司 摘要: 在航空航天领域中,金属封装材料被广泛应用,对其加工制造工艺的研究具有重要的意义。近年来,金属基复合材料逐渐代替传统金属材料应用于新一代
    的头像 发表于 03-16 08:41 669次阅读
    <b class='flag-5'>电子</b>封装用金属基复合材料加工制造的<b class='flag-5'>研究进展</b>

    2023度中国半导体十大研究进展出炉,一项传感器技术入榜(附全名单)

    来源:《半导体学报》   2月5日,《半导体学报》发布2023度“中国半导体十大研究进展”名单,其中,一项传感技术入选。   由中国科学院上海技术物理研究所红外科学与技术重点实验室胡伟达、苗金水
    的头像 发表于 02-20 08:37 897次阅读
    2023<b class='flag-5'>年</b>度中国半导体十大<b class='flag-5'>研究进展</b>出炉,一项传感器技术入榜(附全名单)