深度学习破解DNA数据复制难题-电子发烧友网

DNA作为一种数据存储介质，只有在读取、复制和发送到其他地方时才有用。从细胞核中传递遗传信息的介质是RNA（https://www.genome.gov/genetics-glossary/RNA-Ribonucleic-Acid）——从DNA转录而来，它本身永远不会离开细胞核。现在，伊利诺伊州埃文斯顿西北大学的研究人员利用深度学习，解开了RNA转录过程中的一个复杂部分：细胞如何知道何时停止复制。

在RNA转录中，知道何时停止是至关重要的。编码成RNA的信息在整个细胞中用于合成蛋白质和调节广泛的代谢过程。要想将正确的信息传递给预期的目标，需要这些RNA链尽可能多地表达——仅此而已。

“This is a very useful prescreening tool for investigating genetic variants in a high-throughput manner.”
—EMILY KUNCE STROUP, NORTHWESTERN UNIVERSITY

停止RNA复制过程——称为聚腺苷酸化（polyA，https://en.wikipedia.org/wiki/Polyadenylation），是指它连接在切断的RNA链末端的一系列腺嘌呤分子——涉及一系列相互作用从未被完全理解的蛋白质。

因此，为了帮助解开polyA，西北大学的研究人员Zhe Ji和Emily Kunce Stroup开发了一个机器学习模型，可以定位和识别polyA位点。它的工作原理是将经过训练以匹配遗传密码中重要序列的卷积神经网络（CNNs，https://spectrum.ieee.org/tag/convolutional-neural-networks）与经过训练以研究CNN输出的递归神经网络（RNN，https://spectrum.ieee.org/the-neural-network-that-remembers）配对。

虽然之前的模型采用了类似的方法，同时使用了CNNs和RNN，但这些研究人员随后将CNN/RNN模型的输出输入到另外两个经过训练的深度学习模型中，以定位和识别基因组中的polyA位点。

另外两个模型似乎起到了帮助作用。Stroup说：“拥有这些串联输出是我们工作中真正独特的东西。让模型向外延伸到两个独立的输出分支，然后我们将其组合起来以高分辨率识别站点，这是我们与现有工作的区别。”

从他们的模型中，研究人员了解了导致polyA进展顺利或不佳的几个重要方面。模型的CNN部分学习了已知能吸引控制polyA的蛋白质的DNA中的遗传模式，而模型的RNN部分揭示了可靠地切断转录需要在这些模式之间仔细间隔。由于该模型的核苷酸分辨率，这些研究人员可以得出如此精确的结论。Ji说：“我们的模型能够准确地捕捉到这一点，这令人震惊。”

该团队表示，今后他们计划将他们的模型和类似技术应用于识别可能导致疾病的关键基因突变的研究，然后从中开发出一种可能的更有针对性的治疗药物。Stroup说：“这是一种非常有用的预筛选工具，可以以高通量的方式研究基因变异。这有望帮助减少候选突变的数量，使这一过程更加有效。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉