0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通过RAPIDS加速单细胞DNA和RNA基因组分析

星星科技指导员 来源:NVIDIA 作者:Avantika Lal 2022-04-27 16:14 次阅读

人体由近 40 万亿个细胞组成,有许多不同类型。实验生物学的最新进展使探索单个细胞的遗传物质成为可能。随着单细胞基因组学这一新领域的诞生,科学家们现在可以探测人体内单个细胞的 DNA 和 RNA 。

单细胞基因组分析已经确定了人体内的新型细胞,发现了是什么使这些细胞彼此不同,以及不同类型的细胞如何对疾病或药物作出反应。单细胞基因组学也被证明是当前 COVID-19 大流行的关键,它可以识别易受感染的细胞并揭示感染患者免疫系统的变化。

pYYBAGJo-1qAVx_-AAEaQhZ8kUc974.png

图 1 。单细胞 RNA 测序实验的工作流程。分离单个细胞并测量每个细胞的基因活性。具有相似基因活性的细胞聚集在一起以识别群体中的各种类型的细胞。

随着最近的实验对数百万个细胞进行测序,单细胞数据的可用性和数据集的大小也在不断增加。这种分析通常是探索性的,并从互动中得到进一步的好处——在更精细的尺度上识别不同类型的细胞,比较细胞类型并可视化它们之间的关系。当前的工作流仍然非常缓慢,这使得它们对于研究所需的交互分析来说是不可能的。

RAPIDS :用 GPUs 加速数据科学

RAPIDS 是一套开源库,通过 GPU 加速的力量,可以加速端到端的数据科学工作流程。 RAPIDS 使得使用类似于 NumPy 、 pandas 和 scikit learn 的 Python api 对大型数据集执行交互式数据分析成为可能。

考虑执行单单元分析的典型工作流。这从一个矩阵开始,这个矩阵映射每个细胞中遇到的每个基因的数量。对数据进行预处理,滤除噪声,然后对数据进行归一化处理,得到每个细胞中每个人类基因的活性。在这一步中,机器学习也常用于纠正数据收集中的工件。接下来,在聚类和可视化之前执行维数缩减,以识别具有相似遗传活动的细胞簇。最后,你比较这些细胞群的遗传活动,以了解为什么不同类型的细胞表现和反应不同。

poYBAGJo-2CAauOPAACZpci4Dm0534.png

图 2 :显示单细胞 RNA 测序数据分析步骤的管道。从每个细胞的基因活性矩阵开始, RAPIDS 库可以用于进行数据处理、降维、聚类和可视化,并在不同的簇间发现不同活性的差异基因。

我们在 clara-parabricks/rapids-single-cell-examples GitHub repo 中发布了这个精确工作流的 GPU – 加速版本。 repo 包含一个示例 notebook ,它使用 RAPIDS 和 Scanpy 分析 70000 个人体肺细胞的数据集,以识别对 COVID-19 敏感的细胞。 Scanpy 是一个用于分析单细胞基因表达数据的工具包,提供了使用 RAPIDS 加速特定命令的选项。我们在回购中也有一个笔记本的 CPU 版本 以供比较。

例如,运行 UMAP 以使用 RAPIDS 可视化近 70000 个单元格需要以下命令:

sc.tl.umap(adata, min_dist=umap_min_dist, spread=umap_spread, method='rapids')

umap-visualization-625x298.png

图 3 。由 RAPIDS 创建的人肺样本中约 70000 个细胞的 UMAP 可视化。细胞被洛文聚类标记。

使用 RAPIDS 生成这个 UMAP 可视化需要 1 秒,而在 CPU 上则需要 80 秒。事实上, RAPIDS 可以加速整个单单元分析工作流程,甚至可以在大型数据集上进行交互式探索性数据分析。

在 11 分钟内分析一百万个细胞

我们将我们的 RAPIDS 分析工作流程应用于现有最大的单细胞数据集之一, 100 万个小鼠脑细胞通过 10 倍基因组学测序。有关详细信息,请参阅 1M_brain_gpu_analysis_uvm.ipynb Jupyter 笔记本。

有了如此大的数据量,对 CPU 的分析变得不切实际地慢了下来;我们的端到端工作流在 awsm5a CPU 实例上运行了 3 个多小时。这使得交互式分析几乎不可能。另一方面,我们在这个更大的数据集上观察到了更高的 GPU 加速,并且能够在一个 GPU 上分析整个数据集。在 AWS 上运行 RAPIDS 分析也比 CPU 版本便宜 3 倍!

用于交互式单细胞分析的 GPU 功能单元浏览器

如前所述, RAPIDS 的数据分析速度使研究人员能够实时交互式地分析数据。我们开发了一个在 Jupyter 笔记本 中运行的、支持 GPU 的交互式小区浏览器,使这一过程更加简单。在这个单元格浏览器中,您可以可视化数据集中的所有单元格,并通过点击方法对数据执行聚类分析。使用 RAPIDS ,这些步骤可以实时运行。

在这篇文章中,我将向您展示如何轻松地选择一组细胞,并执行 UMAP 和 Louvain 聚类来识别这种细胞类型中的子种群。

图 4 通过在交互式单元格浏览器中使用 RAPIDS 指向并单击实时重新聚类选定的单元格组。

结论

在这篇文章中,您看到了使用 RAPIDS 加速 GPUs 上的单细胞基因组分析是多么容易。使用 RAPIDS ,可以方便地实时交互地探索数据,对不同尺度的单元进行聚类,以及对具有不同参数的大型数据集进行重新分析。所有这些都有助于更快的科学发现。

除了涵盖的 API 之外, RAPIDS 还有一个大型的其他算法库,您会发现这些算法在您的工作中很有用。

关于作者

Avantika Lal 是 NVIDIA 基因组学团队的资深科学家。她开发了使用 GPUs 和深入学习来加速和改进人类基因组分析的工具。在 NVIDIA 之前,她是斯坦福大学遗传学和病理学系的博士后研究员。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10543

    浏览量

    207635
  • 数据集
    +关注

    关注

    4

    文章

    1186

    浏览量

    24466
收藏 人收藏

    评论

    相关推荐

    一种用于微液滴中单细胞无标记分析的液滴筛选(LSDS)方法

    基于液滴的单细胞分析是一种非常强大的工具,可用于以单细胞分辨率研究表型和基因组异质性,从而解决各种生物问题。
    的头像 发表于 03-26 11:17 215次阅读
    一种用于微液滴中<b class='flag-5'>单细胞</b>无标记<b class='flag-5'>分析</b>的液滴筛选(LSDS)方法

    东南大学在酿酒酵母单细胞复制衰老寿命图像分析算法方面取得进展

    据麦姆斯咨询报道,近日,东南大学集成电路学院、电子科学与工程学院朱真教授课题组在酿酒酵母单细胞复制衰老寿命图像分析算法方面取得了重要进展。该研究结合计算机视觉和神经网络算法,应用在高通量微流控芯片
    的头像 发表于 12-13 16:52 444次阅读
    东南大学在酿酒酵母<b class='flag-5'>单细胞</b>复制衰老寿命图像<b class='flag-5'>分析</b>算法方面取得进展

    百篇文献汇总精华!单细胞高级分析(四)

    上图为各组细胞中regulons的RAS(regulon activity score)活性热图。行表示不同的regulon,列表示不同的细胞,颜色越红代表RAS活性得分越高,进而表示regulon在该组中的活性越强。
    的头像 发表于 12-11 17:11 879次阅读
    百篇文献汇总精华!<b class='flag-5'>单细胞</b>高级<b class='flag-5'>分析</b>(四)

    单细胞细胞注释详解之singleR细胞注释

    除了对每个细胞的所属细胞类型进行评分外,singleR还会对seuret聚类结果中每个cluster中各细胞类型比例进行分析,评估每个cluster所属的
    的头像 发表于 09-21 17:34 1629次阅读
    <b class='flag-5'>单细胞</b><b class='flag-5'>细胞</b>注释详解之singleR<b class='flag-5'>细胞</b>注释

    一种基于液滴微流控的高通量单细菌细胞RNA测序法介绍

    单细胞RNA测序(scRNA-seq)方法自2005年创立以来,已广泛应用于真核生物领域。
    的头像 发表于 09-19 10:20 908次阅读
    一种基于液滴微流控的高通量单细菌<b class='flag-5'>细胞</b><b class='flag-5'>RNA</b>测序法介绍

    基于液滴微流控的单细胞测序法可提升mRNA捕获效率

    液滴微流控方法的出现极大地提高了单细胞测序的通量,然而新的问题也在不断地涌现,例如在处理复杂样品或多样品时,往往可能伴随着很多干扰因素
    的头像 发表于 09-15 09:09 1353次阅读
    基于液滴微流控的<b class='flag-5'>单细胞</b>测序法可提升mRNA捕获效率

    Visium空间转录组和单细胞转录组的区别

    分析,meta信息添加等组件。 首先了解一下Visium空间转录组和单细胞转录组的两个重要区别? ● Visium空间转录组是以Spot为单位。实验上以Spot为单位组织中的RNA分析
    的头像 发表于 08-30 10:48 2123次阅读
    Visium空间转录组和<b class='flag-5'>单细胞</b>转录组的区别

    用于单细胞谱系追踪图像引导的微流控系统

    细胞谱系追踪是生物学研究中一个长期未解决的问题。微流控技术具有解决这一问题的潜力,因为其能够以一种快速、可控和高效的方式操纵和处理单细胞
    的头像 发表于 08-18 09:10 895次阅读
    用于<b class='flag-5'>单细胞</b>谱系追踪图像引导的微流控系统

    基于液滴微流控的亚硫酸盐测序平台研究

    基因组DNA甲基化图谱在整个表观基因组图谱中具有重要意义。单细胞DNA甲基化组学研究为根据甲基化组学特征检测和
    的头像 发表于 08-17 09:11 924次阅读
    基于液滴微流控的亚硫酸盐测序平台研究

    光刻图案化+微流控技术用于封闭环境下细胞行为和机制的研究

    细胞通过限制性三维地形迁移可导致核包膜完整性丧失、DNA损伤和基因不稳定。尽管有这些有害的现象,暂时暴露在封闭环境中的细胞通常不会死亡。
    的头像 发表于 08-08 10:06 1060次阅读
    光刻图案化+微流控技术用于封闭环境下<b class='flag-5'>细胞</b>行为和机制的研究

    一种用于测量单细胞瞬态响应的封闭式微流控芯片

    液体交换功能和微流控芯片的集成在生物医学和生物物理学领域发挥着至关重要的作用,因为其能够控制细胞外环境,并且同时实现对单细胞的刺激和检测。
    发表于 08-03 09:06 315次阅读
    一种用于测量<b class='flag-5'>单细胞</b>瞬态响应的封闭式微流控芯片

    GPU助力基因组重测序分析

    等。随着近几年基因测序成本如图 1所示不断下降,在万元内即可完成人类的全基因组测序,GPU的技术发展也带来分析成本与时间的下降,于是用于检测基因组变化的重测序技术在癌症治疗中起到了越来
    的头像 发表于 08-01 10:32 1372次阅读
    GPU助力<b class='flag-5'>基因组</b>重测序<b class='flag-5'>分析</b>

    中国科学院:开发新型荧光RNA传感器,能监测代谢物、外源药物、蛋白与金属离子等靶标!

    传感新品 【中国科学院:开发新型荧光RNA传感器,能监测代谢物、外源药物、蛋白与金属离子等靶标!】 基因编码的荧光传感器可以在单细胞水平追踪代谢物、蛋白质或重金属离子等细胞内靶标的丰度
    的头像 发表于 08-01 08:46 1012次阅读
    中国科学院:开发新型荧光<b class='flag-5'>RNA</b>传感器,能监测代谢物、外源药物、蛋白与金属离子等靶标!

    荧光RNA传感器用于检测人体细胞内靶标展现药物筛选的潜力

    基因编码的荧光传感器可以在单细胞水平追踪代谢物、蛋白质或重金属离子等细胞内靶标的丰度变化和动力学分布,并解析活细胞的生理过程和信号传导通路。
    发表于 07-28 10:27 593次阅读
    荧光<b class='flag-5'>RNA</b>传感器用于检测人体<b class='flag-5'>细胞</b>内靶标展现药物筛选的潜力

    使用 RAPIDS 进行更快的单细胞分析

    使用 RAPIDS-singlecell 进行 GPU 加速单细胞 RNA 分析
    的头像 发表于 07-05 16:30 523次阅读
    使用 <b class='flag-5'>RAPIDS</b> 进行更快的<b class='flag-5'>单细胞</b><b class='flag-5'>分析</b>