麦克斯·德尔布吕克分子医学中心的研究人员开发了一种新工具,可以更轻松地最大化深度学习在研究基因组学方面的力量。他们在《自然通讯》(Nature Communications)杂志中描述了Janggu的新方法。
想象一下,在晚餐之前,您首先必须重建专门为每种食谱设计的厨房。您将花费更多的时间进行准备,而不是实际做饭。对于计算生物学家来说,分析基因组数据是一个类似的耗时过程。在甚至没有开始分析之前,他们就花费了大量宝贵的时间来格式化和准备庞大的数据集,以将其输入到深度学习模型中。
为了简化此过程,MDC的研究人员开发了一种通用的编程工具,该工具可将各种基因组数据转换为所需的格式,以供深度学习模型进行分析。MDC柏林生物信息学和组学数据科学研究小组的科学家Wolfgang Kopp博士说:“以前,您最终在技术方面浪费了很多时间,而不是专注于要解决的生物学问题。”医学系统生物学研究所(BIMSB),该论文的第一作者。“有了长谷,我们的目标是减轻某些技术负担,并使尽可能多的人可以使用它。”
Janggu的名字来自韩国传统鼓形,其侧面像一个沙漏。沙漏的两个大部分代表了Janggu的重点领域:基因组数据的预处理,结果可视化和模型评估。中间的狭窄连接器代表研究人员希望使用的任何类型的深度学习模型的占位符。
深度学习模型涉及对大量数据进行排序并找到相关特征或模式的算法。虽然深度学习是一种非常强大的工具,但它在基因组学中的使用受到限制。大多数已发布的模型往往只适用于固定类型的数据,只能回答一个特定问题。交换或添加新数据通常需要从头开始并进行大量编程工作。
Janggu将不同的基因组学数据类型转换为通用格式,可以插入使用python(一种广泛使用的编程语言)的任何机器学习或深度学习模型中。
使我们的方法与众不同的是,您可以轻松地使用任何基因组数据集解决您的深度学习问题,任何形式的东西都可以使用,”生物信息学和Omics数据科学研究小组负责人Altuna Akalin博士说。
Akalin的研究小组有双重任务:开发新的机器学习工具,并使用它们来研究生物学和医学领域的问题。在他们自己的研究工作中,他们一直为格式化数据花费了多少时间而感到沮丧。他们意识到问题的一部分是每个深度学习模型都包含自己的数据预处理。通过将数据提取和格式化与分析分开,它提供了一种更容易的方式来交换,合并或重用数据部分。这就像让所有厨房工具和食材触手可及,准备尝试新食谱一样。
Kopp说:“困难在于在灵活性和可用性之间找到适当的平衡。”“如果灵活性太强,人们将被淹没在不同的选择中,并且将很难上手。”
Kopp准备了一些教程,以帮助其他人开始使用Janggu,以及示例数据集和案例研究。《自然通讯》的论文证明了Janggu在处理大量数据,组合数据流以及回答不同类型的问题(例如根据DNA序列和/或染色质可及性预测结合位点以及分类和回归任务)方面的多功能性。
尽管Janggu的大部分优势都在前端,但研究人员希望为深度学习提供完整的解决方案。Janggu还包括在深度学习分析之后的可视化结果,并评估模型学到的知识。值得注意的是,该团队在包装中加入了“高阶序列编码”,从而可以捕获相邻核苷酸之间的相关性。这有助于提高某些分析的准确性。通过使深度学习更容易且更友好,Janggu帮助打开了回答各种生物学问题的大门。
“最有趣的应用之一是预测突变对基因调控的影响,” Akalin说。“这令人兴奋,因为现在我们可以开始了解单个基因组,例如,我们可以查明引起调节变化的遗传变异,或者我们可以解释肿瘤中发生的调节突变。
-
连接器
+关注
关注
98文章
14296浏览量
136128 -
编程语言
+关注
关注
10文章
1938浏览量
34589 -
深度学习
+关注
关注
73文章
5491浏览量
120958
发布评论请先 登录
相关推荐
评论