百度推出NCRF算法，癌症转移检测准确率喜人-电子发烧友网

昨天，百度研究院宣布他们开发了一种深度学习算法，在检测乳腺癌的微转移方面超过了人类病理学医生的表现。以下是论智对该项目的编译报道。

癌症是目前医学领域的重大挑战之一，应对癌症最有效的方法之一就是早发现、早治疗，这对提高病人的生存率有着重要意义。早期检测的主要方法就是检查淋巴结是否有癌细胞的微转移。目前，对活组织检查的病理研究通常被视作金标准。然而，检查病理片子也并不容易，很多时候需要经验丰富的病理医生进行诊断。放大40倍的数字化病理图片通常含有数十亿个像素，可能会占用好几个G的磁盘空间。在这些大型文件里，病理医生们有时还需要找到癌症的微转移，或者象征癌症早期的小范围肿瘤细胞。这些肿瘤细胞群的直径可能还不到1000个像素。所以想在医学影像中不放过任何细微并且有价值的标记，是非常复杂且耗时的工作。如下图，就展示了这一过程的难度。

注：在放大40倍的数字化病理图像中，一个像素约为0.243微米。而微转移的判断标准通常为最大直径为200微米以上的肿瘤细胞群，大约相当于823个像素。

目前为止，有许多科学家提出用基于深度学习的算法帮助病理医生进行医学影像分析，检测癌症是否转移。由于原始电子影像体积非常大，大多数算法目前只是将影像分割成更小的图像块，例如256×256像素的小图。之后，人们会训练一个深度卷积神经网络，将包含肿瘤细胞的图像和正常组织图像区分开来。但是，有些时候如果不参考周围的组织，就很难判断某张图片中是否含有肿瘤细胞，误报也会经常出现。下图就是这样难以判断的例子：

最近，百度研究院的科学家们提出了一种新的深度学习算法，在输入时不只输入单一的图像，而是将其分割成网格状，连同周围的图像一同作为输入，用神经条件随机场（NCRF）对周围图像的空间关系进行建模，预测它们是肿瘤细胞还是正常细胞。这种技术可以看做是病理医生将医学影像缩小，视野进一步扩大，从而能做出更可靠的判断。相邻几张图片之间的空间关系通过一种特殊的概率图形模型进行建模，该模型成为“条件随机场（conditional random fields）”。而整个深度学习框架可以在端到端GPU上进行训练，并且不需要任何后期处理。

算法的基本架构如下图所示：

NCRF有两个主要部分组成：CNN和CRF。CNN主要作为特征提取器，将网格一样的图像输入CNN中后，它会将每个图像块编码成固定长度的向量表示（即嵌入）。这些嵌入之后被输入到CRF中，并对它们的空间关系进行建模。CRF最后输出的是每个图像块的边缘分布（marginal distribution），用来表示这是正常组织还是肿瘤细胞的图像。

在实验过程中，百度所提出的NCRF方法与其他没有CRF的传统算法有三点不同：

NCRF有着更光滑的概率图，其中边界更清晰

NCRF的分类准确度更高

NCRF在检测癌症转移时，比普通方法表现得更好

通过分析相邻图像间的空间关系，研究人员所提的算法产生的误报率更少。下图展示了该算法所预测出的肿瘤区域，以及和之前不考虑相邻区域的算法之间的对比。可以看到基于NCRF的算法有更少的误报情况：