0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

聚类分析中的机器学习与统计方法综述(一)

上海生物芯片 来源:EUS 2023-05-19 10:03 次阅读

01

概况

单细胞转录组测序(scRNA-seq)技术能够对细胞群中的每一个细胞进行大规模的全转录组分析。它的核心分析是将单细胞聚类,以揭示细胞亚型,并根据细胞之间的关系推断细胞谱系。本文综述了在过去几年间发展起来的,用于单细胞转录组分析中聚类的机器学习和统计方法,重点介绍了如何将一些常见的聚类方法,如层次聚类、基于图的聚类、混合模型、k-means、集成学习、神经网络和基于密度的聚类等加以调整及应用,从而解决单细胞转录组数据分析中的独特挑战,例如低表达基因的缺失,转录本的不均匀覆盖,以及由技术偏差和不相关的混杂生物变异所带来的细胞标记的失真。我们评价了标准化、dropouts推测以及降维等预处理步骤如何提高聚类效果。此外,我们还将介绍一些能够对时间序列样本和多个细胞群进行聚类并且检测罕见细胞类型的新方法。最后,本文对部分开发用于单细胞转录组聚类分析的软件进行了实验和比较,以评估其性能和效率,为未来的数据分析提供一定的指导和方向。

02

介绍

细胞的转录组分析可以捕捉基因的表达活性,从而揭示细胞的身份和功能。在传统的bulk-RNA测序中,转录组是通过从生物样本中收集的大量细胞转录水平的平均值来测量的,这些平均后的表达值被用于基因共表达模块的识别和样本聚类。由于忽略了单个细胞的特性,这些传统的方法无法在单细胞分辨率上研究重要的生物学问题,如细胞在早期发育过程中的不同功能角色、复杂组织中的不同细胞类型和细胞谱系关系。目前,scRNA-seq技术已广泛用于量化单个细胞中的mRNA水平。在单细胞转录组的实验操作中,使用不同的捕获方法(如FACS,Fluidigm C1,microdroplet microfluidics)分离单细胞,然后对RNA进行逆转录并扩增测序。单细胞转录组的应用已经带来了重要的生物学见解和发现,例如,对癌症中肿瘤异质性的理解。

细胞聚类是单细胞转录组数据分析中识别细胞亚群结构的必要步骤,然而目前仍然存在一些挑战。首先,由细胞的自身特征(如细胞所处周期阶段、细胞大小)和技术(捕获方法、捕获效率、PCR扩增、测序深度等)引入的技术噪音和偏差。这些噪音和偏差将导致转录组的基因覆盖极度不均匀,从而造成零覆盖区域和dropouts的产生。另外,当一个队列的多个样本同时进行分析时,样本间的技术偏差和变异将会主导细胞的聚类,导致细胞群体的形成更偏向于不同样本来源而非细胞类型,即批次效应。

在本文中,我们回顾了最近发展的用于提升单细胞转录组聚类效果或其相关的统计和机器学习方法。这些方法涉及:(1)用于基因表达值的标准化、dropouts推测、数据降维以及细胞特异Marker鉴定的数据预处理方法;(2)传统的聚类算法,包括基于划分的聚类、层次聚类、混合模型、基于图的聚类、基于密度的聚类、神经网络、集成聚类和近邻传播聚类等;(3)在时间序列样本和多个批次的细胞群中进行聚类并检测罕见细胞类型的新方法。我们还讨论了单细胞转录组聚类分析中的几个重要方面,包括细胞间相似性度量,特征值提取和单细胞聚类结果的评估。此外,我们对十多个软件包进行了比较,以评估它们在大规模单细胞转录组数据集上的聚类性能和效率。最后,我们对聚类分析中存在的一些挑战进行了讨论。

03

数据的预处理

在单细胞转录组数据的聚类分析中,数据预处理对于减少技术变异和噪声(如捕获效率低、扩增偏差、GC含量、总RNA含量和测序深度的差异等)以及建库和测序过程中产生的dropouts至关重要。高维的基因表达矩阵通常需要经过标准化及降维映射到低维空间中,一些计算方法还利用到统计学和数学方法来解决dropouts事件。

标准化

原始的单细胞转录组数据通常从两个层面进行标准化:细胞的标准化和基因的标准化。细胞的标准化是为了消除扩增偏差和其他细胞特异性的效应,可以通过常用的reads计数标准化方法实现,如FPKM、RPKM、TPM等。基于UMI建库的实验方案,理论上已经避免了与扩增或测序深度相关的误差,因为被相同UMI标记的reads只会统计一次。然而,由于测序文库通常是不饱和的,标准化对于该类型的数据也是有效的。细胞标准化的另一个方法是使用“spike-in”,它的基本思想是,由技术原因带来的误差对于内外源基因的影响是相同的。另外,使用对数转换进行原始计数值的处理也非常常见。

基因标准化的目的是为了防止一些高表达基因主导了分析。常用的基因标准化方法如,在PCA中包含的z-score标准化。从过往的经验中可以看到,基因的标准化可以提高算法的收敛和聚类效果。值得注意的是,数据的标准化处理将会使其失去原本基因表达的相对尺度,并且由于表达值的平移,造成表达矩阵变得不那么稀疏,这可能会影响到大规模数据集的聚类结果。

在SINCERA包中,对基因的标准化方法即是z-score,对细胞的标准化则是使用截尾均值(Trimmed mean)。一些工具会执行更为特殊的标准化。例如,BISCUIT通过学习代表技术误差的参数,在聚类过程中进行迭代标准化;RaceID将每个细胞内的总表达计数标准化到所有细胞表达计数的中位值。

此外,如果基因或者细胞显现出极低的表达信号(基因表达值过低或者细胞表达基因过少),通常会将其移除,因为它们往往代表着虚假信号。在不同的研究中,为去除低表达基因和细胞建立了不同的阈值,这主要根据分析中囊括的细胞和基因的数量而有所不同。例如,scVDMC对PBMC样本的处理中,表达值低于3的基因和总表达计数值小于200的细胞都将被去除。

虽然基因和细胞的标准化在目前大多数的单细胞数据分析流程中是常见的,但关于其对聚类结果的影响仍存在一些争论。一项研究的分析表明,基于bulk的标准化方法在单细胞上的应用可能会对其分析产生严重的不良后果,例如在聚类前进行的高变基因的检测。相同的,也有研究表明,通过中位数或者“spike-in”进行标准化无法解决dropouts存在的问题,反而可能消除每种细胞类型特有的生物随机性,这两者都会导致潜在的细胞类型的不恰当聚类或表征。

通过下面的例子,我们可以认识到标准化的重要性。

52283990-f4af-11ed-90ce-dac502259ad0.png

Figure 1. 巨噬细胞群t-SNE图 来自Zilionis等人数据集的巨噬细胞群t-SNE图。(A)依据总计数值上色;(B)依据基因S100A9原始计数值上色;(C)依据标准化后的S100A9的表达值上色。

从图1A,B很容易看出,S100A9的原始表达值与总计数高度相关,两个图的中心区域计数和表达量都较低,而外围区域计数和表达量较高。我们能得出的唯一结论是,当细胞中捕获的转录本总量增加时,S100A9转录本的数量也会增加。这显然没什么意义。而在图1C中,经过标准化后的S100A9表达值与总计数之间似乎没有相关性。我们可以说,S100A9表达的差异不依赖于测序深度等技术噪音,而应该来自(主要)生物因素。

Dropout

单细胞转录组数据中一个重要的技术误差被称为“dropouts”。Dropout事件是指在反转录过程中由于缺失或转录本表达过低而导致基因未表达的错误定量。先前的研究也表明,简单的数据标准化并不能解决该问题。因此,一些聚类算法中包含了特定的机制以矫正dropouts。例如,Seurat通过跨细胞的基因共表达模式,在聚类前进行标记基因的挑选。

另外,也可以通过计算配对相似性来估算dropouts。CIDR便是在聚类前进行缺失值的填补。首先分析单细胞中可能出现的dropouts,识别每个细胞中的候选dropout基因,计算每个基因的dropout率;然后使用候选基因的dropout率来估算表达水平,即当dropout事件以高概率被识别时,检测算法会从其它细胞的表达谱中对该基因的表达值进行填充;最后,利用矫正后的值计算细胞间的不相似度,进行层次聚类。Seurat和SNN-Cliq是基于共享最近邻SNN来度量细胞相似性。已经证明,在稀疏的高维数据中,SNN考虑到周围的近邻数据点,更适合应用于存在dropouts的聚类分析。

在一个更复杂的概率图模型中,BISCUIT明确估计了每个细胞中的基因表达,以及通过数据分布和先验分布估算的代表技术和生物学变异的参数。其中,代表着未观测到的基因真实表达水平的随机变量被引入图模型中并通过吉布斯抽样来估算表达值。

降维

降维通常用于将高维基因表达数据投射到低维空间,使分析聚焦于低维空间中的相关信号,从而更好地实现数据的可视化、聚类分析等,帮助进行生物学解释。当维数大于样本数时,降维还有助于解决样本不足的统计学问题。许多降维方法已经应用于单细胞转录组聚类算法,包括PCA、多维尺度变换(MDS)、t分布、随机近邻嵌入(t-SNE)、典型相关分析(CCA)、潜在狄利克雷分布(LDA)以及嵌入其他模型的降维等等。

PCA:将原本数据点映射到与协方差矩阵的最大特征值相关联的特征向量(即主成分),以保留原始数据中的大部分方差。例如,pcaReduce在聚类前将表达矩阵映射到一个含有K-1个主成分的空间中;SC3使用PCA和拉普拉斯变换应用于距离矩阵以获得一致性矩阵并进行层次聚类。此外,在聚类之后,PCA也被广泛应用于二维或三维的数据可视化。PCA是一种基于假设数据为高斯分布的线性投影方法,为了捕捉数据中的非线性结构,可以使用核主成分分析与非线性核映射相结合。

MDS:也称为主坐标分析(PCoA)。MDS将数据点映射到低维空间,通过最小化所有配对数据点的原始空间中的距离与投影空间中的距离之间的差值,从而在低维嵌入保持原始高维空间中的数据点之间的距离。CIDR便是使用MDS来计算细胞的不相似矩阵。MDS的优点是在低维空间中保持原始的成对距离,易于实现非线性特征嵌入。然而,MDS不能扩展到大规模数据,因为必须计算成对距离来最小化目标函数。

t-SNE:是一种将距离转换为概率的方法。t-SNE构造一个与原始空间及映射后的低维空间中数据点之间的相似性相关的概率分布,然后最小化两个分布之间的Kullback-Leibler散度。t-SNE被广泛应用于单细胞数据分析中的数据可视化。

CCA:是一种基于互协方差矩阵的降维方法。给定两个或多个数据集,该方法查找每个数据集的映射,以最大化数据集之间的相关性。在单细胞转录组的数据分析中,CCA通常用于不同来源样本的整合,如Seurat(图2)。

524f35a4-f4af-11ed-90ce-dac502259ad0.png

Figure 2. Seurat CCA数据整合示意图

LDA:该方法最初是在自然语言处理中提出的。LDA假设一个文档(document)是通过如下方法生成的:首先从具有狄利克雷先验的话题(topic)的多项分布中对话题进行抽样,然后对文档中的单词(word)进行抽样,这些单词的多项式分布是基于每个话题的狄利克雷先验条件。然后,每个文档都可以在包含k个话题的低维空间中表示。cellTree使用LDA学习“topics”作为潜在特征来表示细胞,其中“words”是受所选的潜在特征制约的基因表达水平。LDA的生成过程产生了一组可解释的潜在特征。

相似度及核函数

在许多聚类方法的计算过程中,不是使用降维的方法,而是通过核函数或相似度函数来计算单个细胞之间的配对相似性进行聚类核函数策略将从N × M表达矩阵中计算获得N × N相似矩阵,以期望通过核映射或相似函数在隐式特征映射空间中减少原始特征空间中的差异(如果使用有效的核函数)。SNN-cliq和Seurat使用SNN作为相似图。cellTree在用LDA找到的话题直方图上通过卡方找到细胞间的距离。DTWscore利用时间序列样本为每个基因找到细胞对之间的动态时间规整(DTW)距离,以选择高度可变的基因,其中DTW距离是基于两个时间序列在最佳规整路径上的比对计算的。基于TCC的聚类使用细胞间的Jensen-Shannon距离作为谱聚类或近邻传播聚类的输入。SIMLR结合多个核来学习得到细胞相似矩阵,并使用秩约束和图扩散来解决dropouts问题。

大多数其他方法使用更标准的相似性函数或距离函数。BackSPIN,DendroSplit,ICGS和SINCERA在层次聚类策略中使用Pearson相关来寻找最佳分割点。GiniClust和RaceID也分别使用相关性矩阵进行DBSCAN和k-means聚类。参考成分分析(RCA)计算单个细胞和参考细胞之间的表达谱之间的相关性,作为聚类的新特征,以最小化技术差异和批次效应。SC3使用斯皮尔曼、皮尔森和欧氏距离来计算细胞间的配对相似性或距离以获得一致性矩阵。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PCR
    PCR
    +关注

    关注

    0

    文章

    120

    浏览量

    19678
  • 机器学习
    +关注

    关注

    66

    文章

    8453

    浏览量

    133165
  • RNA
    RNA
    +关注

    关注

    0

    文章

    46

    浏览量

    9749
  • UMI
    UMI
    +关注

    关注

    0

    文章

    3

    浏览量

    1419

原文标题:单细胞转录组 | 聚类分析中的机器学习与统计方法综述(一)

文章出处:【微信号:SBCNECB,微信公众号:上海生物芯片】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    传统机器学习方法和应用指导

    在上篇文章,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多
    的头像 发表于 12-30 09:16 433次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>和应用指导

    zeta在机器学习的应用 zeta的优缺点分析

    在探讨ZETA在机器学习的应用以及ZETA的优缺点时,需要明确的是,ZETA词在不同领域可能有不同的含义和应用。以下是根据不同领域的ZETA进行的
    的头像 发表于 12-20 09:11 397次阅读

    Minitab 在统计分析的应用

    在当今数据驱动的世界统计分析成为了个不可或缺的工具。Minitab作为款功能强大的统计软件,它能够帮助用户进行数据探索、假设检验、回
    的头像 发表于 12-02 15:23 525次阅读

    什么是机器学习?通过机器学习方法能解决哪些问题?

    计算机系统自身的性能”。事实上,由于“经验”在计算机系统主要以数据的形式存在,因此机器学习需要设法对数据进行分析学习,这就使得它逐渐成为智
    的头像 发表于 11-16 01:07 544次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习方法</b>能解决哪些问题?

    eda在机器学习的应用

    机器学习项目中,数据预处理和理解是成功构建模型的关键。探索性数据分析(EDA)是这一过程中不可或缺的部分。 1. 数据清洗 数据清洗 是
    的头像 发表于 11-13 10:42 425次阅读

    【「时间序列与机器学习」阅读体验】时间序列的信息提取

    方法为该时间序列填充缺失值。 时间序列的缩放是指对原有的时间序列数据进行数据范围的调整,以便更好地完成后续的数据分析机器学习任务。该节有讲到时间序列的最小最大缩放、时间序列的最大绝对
    发表于 08-17 21:12

    【《时间序列与机器学习》阅读体验】+ 了解时间序列

    。 可以探索现象发展变化的规律,对某些社会经济现象进行预测。 利用时间序列可以在不同地区或国家之间进行对比分析,这也是统计分析的重要方法。 而《时间序列与
    发表于 08-11 17:55

    【「时间序列与机器学习」阅读体验】全书概览与时间序列概述

    时间序列的自相关性。 时间序列有基于线性场景,也有些非线性性质周期性和不对称性、波动的聚集性、波动中出现的跳跃现象,以及时间的不可逆性。机器学习已经是目前非线性时序
    发表于 08-07 23:03

    机器学习的数据分割方法

    机器学习,数据分割是项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器
    的头像 发表于 07-10 16:10 2211次阅读

    机器学习的交叉验证方法

    机器学习,交叉验证(Cross-Validation)是种重要的评估方法,它通过将数据集分割成多个部分来评估模型的性能,从而避免过拟合
    的头像 发表于 07-10 16:08 1524次阅读

    深度学习的时间序列分类方法

    的发展,基于深度学习的TSC方法逐渐展现出其强大的自动特征提取和分类能力。本文将从多个角度对深度学习在时间序列分类的应用进行综述,探讨常用
    的头像 发表于 07-09 15:54 1229次阅读

    深度学习的无监督学习方法综述

    应用往往难以实现。因此,无监督学习在深度学习扮演着越来越重要的角色。本文旨在综述深度学习
    的头像 发表于 07-09 10:50 1010次阅读

    机器人视觉技术图像分割方法有哪些

    分析。本文将详细介绍图像分割的各种方法,包括传统的图像处理方法和基于深度学习方法。 阈值分割法 阈值分割法是
    的头像 发表于 07-04 11:34 1189次阅读

    机器学习在数据分析的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为种强大的工具,通过训练模型从数据中学习规律,为企业和组织提
    的头像 发表于 07-02 11:22 866次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于
    的头像 发表于 07-01 11:40 1573次阅读