0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解析DARTS:海量数据训练和新样本特征的综合

mK5P_AItists 来源:YXQ 2019-04-17 09:11 次阅读

摘要:研究人员首次将深度学习与贝叶斯假设检验结合,利用深度学习强化RNA可变剪接分析的准确性。

在生命科研领域,常有人说深度学习的基因组学应用好比是“一个盲人在一间黑暗的房子里寻找一顶并不存在的黑色帽子”。言下之意,是遗憾深度学习的基因组学应用并没有给人们带来太多惊喜。不过,近日宾夕法尼亚大学和费城儿童医院教授邢毅团队的一项研究,找到了这样一顶“黑帽子”。

这项发表在《自然—方法》上的论文成果,提出了一种新的计算框架——DARTS(“利用深度学习强化对RNA-seq的可变剪接分析”英文的首字母缩写)。该计算框架首次将深度学习与贝叶斯假设检验结合,用于RNA可变剪接分析。这种结合使得它即使对于测序深度不那么高的样品,也能有效提高RNA-seq定量差异剪接的准确度。

清华大学生命科学学院教授张强锋点评道:“DARTS综合了深度学习和贝叶斯假设检验统计模型的优点,为那些低测序深度的数据提供了更好的做可变剪接分析的手段,拓展了传统RNA-seq可变剪接分析的敏感度和准确度。”

计算基因组学中

一个广受关注的问题

邢毅等人在上述论文中指出,目前,RNA-seq技术是研究RNA剪接最常用的实验手段。然而,RNA-seq技术虽然能较好地定量基因表达的结果,但对于差异剪接分析来说,它依赖于更高的测序深度。而且即便如此,现有的计算方法还不能较准确地定量低表达基因的剪接变化。因此,为了提高剪接定量的准确性,急需引入新的计算分析方法。

“可变剪接现象从20世纪70年代被发现后,其基本的科学问题聚焦为可变剪接位点发现、差异分析、调控元件和网络的发现和构建。RNA-seq 技术的发明,使得系统、定量的可变剪接差异分析成为可能。”张强锋介绍说,大量测序数据的可变剪接差异分析需要优秀的统计模型和计算工具,因此一直是一个需要高度技巧的生物信息学研究课题。

据张强锋介绍,邢毅研究组在针对大量测序数据的可变剪接差异分析的计算分析领域深耕多年,已经贡献了多个有影响力的算法和计算工具。该团队针对高通量RNA-seq数据开发出的用于差异剪接分析的rMATS等软件,对于测序较深、质量较好的数据集都能取得不错的结果,已在全世界范围内被广泛下载使用。

然而,由于成本等原因,大量RNA-seq 测序实验设计的测序深度较浅。对于这些数据集,能利用来做差异分析的可变剪接事件非常有限。

美国卡耐基梅隆大学计算机学院教授马坚也表示,在基因组学中,确实有很多类似的问题——如何在现有数据上对特定的基因组标注(譬如染色质结构、转录因子结合)训练一个机器学习模型并在全新的细胞系中有效预测,已经成为一个计算基因组学中广泛关注的问题。“DARTS崭新的整体设计理念值得很多其他类似的问题借鉴。”

DARTS计算框架

给出问题答案

据邢毅研究组这篇发表在《自然—方法》上的论文介绍,DARTS由两部分构成:深度神经网络模块(DNN)和贝叶斯推断模块(BHT)。其中,DNN基于顺式序列特征和样品特异的RNA结合蛋白表达水平特征来预测差异剪接的结果;而BHT则通过整合实验样品测序数据本身和基于深度神经网络的先验概率来推断差异剪接的结果。

研究者在论文中强调称,与其他计算方法不同的是,在DARTS计算框架下,DNN不仅通过顺式序列特征来预测可变剪接的结果,而且还将样品中RNA结合蛋白的表达水平整合进了RNA可变剪接结果的预测中,增加了预测参数的维度。

DARTS的逻辑是,通过DNN对ENCODE和Roadmap数据库中大量RNA-seq结果的深度学习,能够获得高精度的预测值作为BHT中的贝叶斯先验概率,进而结合具体实验中RNA-seq的结果,来获得更为准确的差异剪接推断。

在研究实践中,邢毅研究组发现,在低通量RNA-seq文库中,通过使用DNN预测值进行强化分析后,能够达到比使用传统方法分析更高的准确度,并且这种提升在越低通量的文库中越明显;即使在高通量的RNA-seq文库中,使用DNN预测仍能发现在低表达基因中的可变剪接变化。而在过去,这些低表达基因的可变剪接变化在传统分析方法中往往会被忽略。

也就是说,研究结果证明了DARTS不仅提升了基于RNA-seq方法研究可变剪接的准确性,同时也提供了在低表达基因中研究可变剪接的研究手段。

解析DARTS:

海量数据训练和新样本特征的综合

“从计算方法设计的策略和概念角度而言,此工作的最大亮点是充分利用海量公有数据如ENCODE,但模型本身又不完全依赖于这些公有数据。”马坚点评道,换言之,DARTS的整体思想是用深度神经网络从现有海量数据中找出通用的有用信息作为先验,然后用贝叶斯假设检验结合来自样本本身的RNA-seq数据信息,做可变剪接的预测,“这有效综合了海量数据的训练以及新样本的特殊性”。

马坚解释说,从模型本身的技术角度而言,DARTS有效利用了深度神经网络对异质数据特征的整合,并且整个计算方法的评测和方法都比较“明智而审慎”。他举例说,比如DARTS的深度神经网络部分结合了剪接位置附近的序列信息、进化信息、可变剪接产生的RNA二级结构信息等;同时DARTS还巧妙地利用深度神经网络预测的结果来作为贝叶斯假设检验中的先验数据,结合样本本身的RNA-seq序列信息实现了更可靠的可变剪接预测。

马坚将基因组学形容为一个“存在太多未知和容易迷失的领域”,因此他认为,有效深度学习的使用需要有强大的领域知识作为支撑。而DARTS工作恰恰体现了邢毅实验室多年以来对可变剪接机理的研究和计算方法创新的积累。“由深入的领域知识和经验作为指导,是一个有效利用不同计算模型和深度学习方法的优势实现基因组学新发现的经典工作。”

张强锋也直指“巧妙利用公开的RNA-seq大数据样本、使用深度神经网络学习得到了外显子差异剪接的贝叶斯假设检验统计模型的准确先验概率分布”是DARTS在方法上最大的特色。同时他也表示,该计算框架使用深度神经网络通过顺式序列和反式因子RBP表达丰度进行差异剪接预测的思路也值得借鉴。

此外,马坚认为论文中其他对于机器学习方法的评测同样可圈可点。例如,对常见的正负样本不均衡的问题对模型训练和评测可能带来的偏差有细致的控制。另外,该计算框架对模型中每个模块的贡献也做了详细分析。

“随着RNA-seq数据的不断积累,相信DARTS会有广泛的应用,尤其是在RNA-seq测序深度并不高的实验情况下。”马坚说,这个计算工具对进一步理解可变剪接在不同细胞状态下的调控机理有深远的意义。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7067

    浏览量

    89129
  • 深度学习
    +关注

    关注

    73

    文章

    5504

    浏览量

    121246

原文标题:科学家找到深度学习基因组学应用的一顶“黑帽子”

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中国联通实现30TB样本数据跨城存算分离训练

    近日,中国联通研究院携手浙江联通与联通服装制造军团,针对AI敏感数据的本地存储与异地训练需求,共同探索并成功实施了一项创新的业务模式。这一创新实践在杭州与金华两地间,首次实现了30TB规模样本数据
    的头像 发表于 12-13 14:06 243次阅读

    Kaggle知识点:使用大模型进行特征筛选

    数据科学数据挖掘的核心是是对海量数据进行有效的筛选和分析。传统上数据筛选依赖于数据驱动的方法,如
    的头像 发表于 12-03 01:06 1260次阅读
    Kaggle知识点:使用大模型进行<b class='flag-5'>特征</b>筛选

    海量数据处理需要多少RAM内存

    海量数据处理所需的RAM(随机存取存储器)内存量取决于多个因素,包括数据的具体规模、处理任务的复杂性、数据库管理系统的效率以及所使用软件的优化程度等。以下是对所需内存量的分析: 一、内
    的头像 发表于 11-11 09:56 340次阅读

    什么是协议分析仪和训练

    长时间、大规模的分析。 软件型协议分析仪:基于计算机软件的工具,通过安装在计算机上实现网络数据包的捕获、解析和分析,灵活且便于扩展。 二、训练器在电子设计和测试领域,训练器通常与协议分
    发表于 10-29 14:33

    Llama 3 模型训练技巧

    Llama 3 模型,假设是指一个先进的人工智能模型,可能是一个虚构的或者是一个特定领域的术语。 1. 数据预处理 数据是任何机器学习模型的基础。在训练之前,确保数据质量至关重要。
    的头像 发表于 10-27 14:24 329次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    收集海量的文本数据作为训练材料。这些数据集不仅包括语法结构的学习,还包括对语言的深层次理解,如文化背景、语境含义和情感色彩等。 自监督学习:模型采用自监督学习策略,在大量无标签文本
    发表于 08-02 11:03

    海上电磁干扰训练系统

    智慧华盛恒辉海上电磁干扰训练系统是一种专门用于模拟海上电磁环境、训练人员应对电磁干扰能力的系统。以下是对海上电磁干扰训练系统的详细解析: 智慧华盛恒辉系统概述 智慧华盛恒辉海上电磁干扰
    的头像 发表于 07-15 16:05 279次阅读

    BP神经网络最少要多少份样本

    等。然而,BP神经网络的训练需要大量的样本数据,需要根据问题的复杂性、数据的可用性和计算资源等因素,综合确定样本数量以保证网络的泛化能力。
    的头像 发表于 07-11 10:31 628次阅读

    pytorch如何训练自己的数据

    本文将详细介绍如何使用PyTorch框架来训练自己的数据。我们将从数据准备、模型构建、训练过程、评估和测试等方面进行讲解。 环境搭建 首先,我们需要安装PyTorch。可以通过访问Py
    的头像 发表于 07-11 10:04 553次阅读

    神经网络如何用无监督算法训练

    神经网络作为深度学习的重要组成部分,其训练方式多样,其中无监督学习是一种重要的训练策略。无监督学习旨在从未标记的数据中发现数据内在的结构、模式或规律,从而提取有用的
    的头像 发表于 07-09 18:06 827次阅读

    机器学习中的数据预处理与特征工程

    在机器学习的整个流程中,数据预处理与特征工程是两个至关重要的步骤。它们直接决定了模型的输入质量,进而影响模型的训练效果和泛化能力。本文将从数据预处理和
    的头像 发表于 07-09 15:57 456次阅读

    特征工程与数据预处理全解析:基础技术和代码示例

    在机器学习和数据科学的世界里,数据的质量是建模成功与否的关键所在。这就是特征工程和数据预处理发挥作用的地方。本文总结的这些关键步骤可以显著提高模型的性能,获得更准确的预测,我们将深入研
    的头像 发表于 06-26 08:28 495次阅读
    <b class='flag-5'>特征</b>工程与<b class='flag-5'>数据</b>预处理全<b class='flag-5'>解析</b>:基础技术和代码示例

    助听器降噪神经网络模型

    增强,并在大规 模数据集上进行训练。我们能够展示在堆叠网络 方法中使用两种类型的分析和综合基础的优势。 DTLN 模型在嘈杂的混响环境中运行稳健。尽管 我们将基本训练设置与简单的架构相
    发表于 05-11 17:15

    【大语言模型:原理与工程实践】大语言模型的预训练

    训练数据时,数量、质量和多样性三者缺一不可。 数据的多样性对于大语言模型至关重要,这主要体现在数据的类别和来源两个方面。丰富的数据类别能够
    发表于 05-07 17:10

    利用神经网络对脑电图(EEG)降噪

    噪的STFT重构结果。使用时频特征特别是在信噪比(SNR)较低时可以提高性能。 EEGdeniseNet数据集包含4514个干净的EEG片段和3400个EOG片段,可用于生成三个数据集,用于
    发表于 04-30 20:40