斯坦福携手MIT发布巨大量级X光胸片数据集-电子发烧友网

今天，吴恩达发推公布了斯坦福发布的两个大型的医疗数据集公开：CheXpert和MIMIC-CXR。其中，CheXpert内含224316X光胸部图片，MIMIC-CXR内含371,920张带标签的图片。两个数据集的数据量级和标注精准度都非常高，可以说是造福了一大批相关从业者了。

数据集下载方式

先给出数据集介绍的地址和下载方式。

https://stanfordmlgroup.github.io/competitions/chexpert/

因为是医学数据集，斯坦福采取了相对谨慎的态度。根据说明，用户需要遵守下载规则，填写资料然后通过电子邮件给出的链接进行下载。为了保持数据集的完整性以及有效性，严禁进行“滥用”分享。

数据集概况

CheXpert数据集里面有224316张胸部X光图片，共涉及65,240名患者。数据集的时间跨度为2002年10月到2017年7月，都是患者在斯坦福医院进行胸部X光检查之后的留存。除此之外，数据集还附有相关的放射学报告。

如何为CheXpert数据集打标签

每份报告都对14项观察进行标记，标记可能是阳性，阴性或不确定性。

14项观察是根据报告中的流行程度和临床相关性确定的，并在适用的情况下符合Fleischner Society推荐的术语表。

此外，还开发了一种基于规则的自动贴标机，用于从放射学报告中提取观察结果，用作图像的结构化标签。贴标机工作分为三个不同的阶段：提及提取，提及分类和提及聚合。

自动贴标机github地址：

https://github.com/stanfordmlgroup/chexpert-labeler

在提及提取阶段，贴标机从放射学报告的“印象”部分的观察列表中提取提及，这一部分总结了放射研究中的关键发现。在提及分类，则是用每一个提及来分类，把观察到的归类为阴性的，不确定的或阳性的。在提到聚合阶段，使用每次提及观察的分类，就会得到14个观察的最终标签。

基准模型

基准模型采用以单视角胸片作为输入，并输出14次观测中每一次的概率。当多个视图可用的时候，模型给出最大概率。

利用不确定性标签

数据集中的训练数据集的标签分别为0、1或u。其中，0表示负，1表示正，u表示不确定。在模型训练中，使用了不确定性标签的不同方法。

U-Ignore：在训练期间忽略了不确定的标签。

U-Zeroes：将不确定标签的所有实例映射到0。

U-Ones：将不确定标签的所有实例映射到1。

U-SelfTrained：首先使用U-Ignore方法训练模型进行收敛，然后使用该模型进行预测，利用模型输出的概率预测重新标记每个不确定性标签。

U-MultiClass：将不确定性标签视为自己的类别。

专注于评估5项观察，进行“竞争任务”，根据临床经验和患病率分为：（a）肺不张，（b）心脏扩大，（c）肺实变，（d）水肿（e）胸腔积液。通过比较了不同不确定性方法在200个研究的验证集上的表现，其中三个放射科医师的注释作为基础事实。基准模型根据验证集上每个竞赛任务的最佳表现方法选择的：U- Ones用于肺不张和水肿，U-MultiClass用于心脏扩大和胸腔积液，U-SelfTrained用于肺实变。

测试集如何设计

CheXpert中的测试集由来自500“未知”患者的500张X光胸片组成。八名权威认证的放射科医师分别对测试集中的每张图片进行了注释。他们将每张图片标记为：现存（present）、不确定（uncertain likely）、不可能（uncertain unlikely）和缺失（absent）。

然后将标签二值化，将现存和不确定病例视为阳性，而缺失和不可能病例视为阴性。根据5位专家的投票确定图片标签，然后用剩下的三位专家检验五位专家的表现。

基准模型在测试集上表现如何

该模型在胸腔积液（0.97）上达到最佳AUC，在肺不张（0.85）上达到最差。所有其他观测的AUC至少为0.9。在心脏扩大，水肿和胸腔积液上，该模型比所有3位放射科医师获得更高的表现，但却不是他们的多数投票。在肺实变方面，模型性能超过3位放射科医师中的2位，而在Atelectasis上，所有3位放射科医师的表现均优于模型。

与麻省理工学院的联合发布MIMIC-CXR数据集

此外还有和MIMIC-CXR共同发布包含371,920张胸部X射线图片的大型数据集。该数据集的时间跨度为2011年~2016年。这些数据与Beth Israel Deaconess医疗中心的227,943个影像学研究相关。每个成像研究可能包含一个或多个图像，但一般是两个图像：正面视图和侧视图。

相关论文下载地址：https://arxiv.org/pdf/1901.07042.pdf

图像提供有14个标签，这些标签来自放射学报告的自然语言处理工具。CheXpert数据集和MIMIC-CXR共享一个共同的贴标机，CheXpert贴标机，用于从放射学报告中获取相同的标签集。

最后展望

阻碍胸部X光片解释模型发展之一是，缺乏具有强放射学家注释的地面真实性和专家评分的数据集。研究人员可以根据这些数据对其模型进行比较。希望CheXpert将填平这一沟谷，以便在临床重要任务中随时跟踪模型的进展。

此外，吴恩达团队本次开发并开源了CheXpert贴标机，这是一种基于规则的自动贴标机，用于从自由文本放射学报告中提取观察结果，用作图像的结构化标签。我们希望这可以帮助其他机构轻松地从报告中提取结构化标签，并发布其他大型数据库，以便对医学成像模型进行跨机构测试。

最后，斯坦福也作出展望，希望该数据集能够帮助开发和验证胸部X光片解释模型，以改善全球医疗服务的获取和交付。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

MIT

MIT

+关注

关注
3

文章
253

浏览量
23417
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24737

原文标题：斯坦福联合MIT，发布两类巨大量级X光胸片数据集

文章出处：【微信号：BigDataDigest，微信公众号：大数据文摘】欢迎添加关注！文章转载请注明出处。

上能电气助力巴基斯坦绿色发展

近日，上能电气在巴基斯坦拉合尔成功举办交流晚宴。超过260位来自行业内的专业人士和思想领袖出席本次活动，共同探讨巴基斯坦光伏市场发展趋势及其蕴藏的巨大增长机遇。

发表于 12-18 14:36 •213次阅读

斯坦福STANFORD FS725铷钟

斯坦福STANFORD FS725铷钟 SRS斯坦福FS725 10MHzRb频率标准 SRS斯坦福FS72510MHzRb频率标准FS725集成了一个铷振荡器（SRS模型PRS1

发表于 12-13 15:22 •97次阅读

斯坦福研究：电动汽车电池实际寿命比预估长得多

。这项研究是由斯坦福大学的普考特能源研究所与美国SLAC国家加速器实验室共同成立的SLAC-斯坦福电池研究中心的科学家们完成的。经过超过两年的时间，他们对92种商用锂离子电池进行了详尽的充放电测试。结果显示，当放电模式模拟真

发表于 12-11 17:24 •290次阅读

STANFORD斯坦福SR830 锁相放大器

原装STANFORD斯坦福SR830 锁相放大器锁相放大器是一种对交变信号进行相敏检波的放大器。锁相放大器利用和被测信号有相同频率和相位关系的参考信号作为比较基准，只对被测信号本身和那些与参考信号

发表于 11-23 16:38 •179次阅读

国产仪器崛起：斯坦福替代方案来了！

众所周知，斯坦福的东西一直以来，好用，贵，货期长动辄几个月，很苦恼今天，他来了，他的替代来了首先是最经典的型号斯坦福SR830，它的频率可以达到102.4 kHz ，18位的ADC，采样率可以

发表于 07-10 17:05 •391次阅读

斯坦福团队抄袭国产大模型，主要责任人失联

的广泛关注，也让大家对于开源大模型的规范使用更加担忧。 斯坦福Llama3V模型被证实抄袭 5月29日，斯坦福大学的一个AI团队在Github等平台发布了一款大模型，名为Llama3V，该模型的亮点是据称

发表于 06-05 00:10 •2608次阅读

斯坦福大学研发全新AI辅助全息成像技术

据最新消息，斯坦福大学的研究人员成功研制出全新AI辅助全息成像技术，其薄度、重量及质量均超过了当前方案，有望推动增强现实（AR）眼镜领域的发展。

发表于 05-10 14:48 •596次阅读

斯坦福发布《2024 AI指数报告》

近日，斯坦福大学以人为本人工智能研究所（StanfordHAI）发布了《2024年人工智能指数报告》（ArtificialIntelligenceIndexReport2024）。据

发表于 04-18 08:28 •791次阅读

<b class='flag-5'>斯坦福</b><b class='flag-5'>发布</b>《2024 AI指数报告》

斯坦福、伯克利大神教授创业给机器人造大脑，OpenAI红杉抢着投5亿

还记得曾火遍全网的ALOHA家务机器人吗？最近该项目导师，斯坦福计算机科学与电气工程系教授ChelseaFinn在X宣布，正式与其他几位伯克利大牛学者、谷歌DeepMind科学家共同创业，全力为

发表于 04-14 08:04 •135次阅读

<b class='flag-5'>斯坦福</b>、伯克利大神教授创业给机器人造大脑，OpenAI红杉抢着投5亿

广和通发布基于高通高算力芯片的具身智能机器人开发平台Fibot

3月29日，为助力机器人厂商客户快速复现及验证斯坦福Mobile ALOHA机器人的相关算法，广和通发布具身智能机器人开发平台Fibot。

发表于 03-29 11:16 •718次阅读

广和通发布具身智能机器人开发平台Fibot

为帮助机器人制造商更高效地复现和验证斯坦福Mobile ALOHA机器人的先进算法，广和通公司近日发布了全新的具身智能机器人开发平台——Fibot。这款平台被视为国内首款Mobile ALOHA机器人的升级版，它在设计和功能上均实现了显著的提升。

发表于 03-29 09:29 •805次阅读

SRS斯坦福850~锁相放大器维修

放大器示波器仪器仪表

安泰仪器维修

发布于 :2024年03月25日 10:40:48

搜索历史

斯坦福携手MIT发布巨大量级X光胸片数据集

评论