0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

改变生物学研究进程:AI模型打开生命信息密码

脑极体 来源:脑极体 作者:脑极体 2021-12-16 08:58 次阅读

生命科学领域的研究中有很多方向,比如研究微观层面的细胞生物学与分子生物学,研究生物与环境关系的生态学等。而与生命活动规律、发育机制、生命本质的研究最接近的是有关生物大分子,比如蛋白质、核酸结构的研究。

对蛋白质进行系统深入的研究,能让我们从更深层次诠释生命体的构成和运作变化规律,进而全面揭示生命运行、发展的机制,激发生物科学、药物研发、合成生物学方面的发展。因此蛋白质研究、预测蛋白质结构等是学术与产业界深度参与的领域。在AI时代,得益于算力和算法模型的极大提升,我们也见证了蛋白质结构预测的历史时刻。

每两年举办一次的CASP比赛被誉为“蛋白质结构预测领域的奥林匹克竞赛”,在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)的蛋白质测试集评估中,天壤TRFold获得了国内所有公开蛋白质结构预测模型中最好成绩,仅次于DeepMind公司AlphaFold2 全球第一的成绩。CASP竞赛是含金量非常高的比赛,能在这样的国际大赛中赢得优异的成绩,也意味着国内计算生物学的表现突围进入了世界第一梯队。

无论是享誉世界的AlphaFold2 模型,还是国内新晋的TRFold模型,这些前沿的AI模型都在生命科学领域中赋予研究如催化剂般的效率,沿着蛋白质研究的价值探索过程,我们一起看看这场重构生命科学与医药领域的旅程。

打开科研思路与研究空间

在中学的时候我们已经简单了解过蛋白质,我们知道蛋白质是细胞中的主要功能分子,参与行使几乎所有的细胞功能:比如在食物的消化过程中可以发挥催化作用的各种酶;血液中的血红蛋白运输养料与代谢废物;参与生物体内的新陈代谢的调剂作用,如胰岛素;肌球蛋白用于细胞骨架的形成,还有免疫、细胞分化、细胞凋亡等过程都有蛋白质的身影参与。

在蛋白质参与行使细胞功能的过程中,必须折叠成特定的结构。但其排列的方式和位置的差异使得种类极其繁多,蛋白质在三维空间的折叠方向有10^300种方式,结构非常复杂。不同的折叠方式使得蛋白质具有的活性和生物性能不定,而这个复杂的特性也就注定了研究蛋白质的路径困难重重。

传统观测蛋白质结构的方法主要有三种,包括核磁共振、X 射线、冷冻电镜,但这些方法往往依赖昂贵的设备和大量的试错过程,每种结构的研究都要花数年时间。历史上有科学家耗费几十年时间才能得到一个清晰的蛋白质三维结构,蛋白质三维结构的测定成了生物学领域非常困难的研究。至今为止没有AI技术的协助,三维结构被看清的量也仅仅只有17万个,这跟蛋白质的总量相比差距巨大。

而AI应用于蛋白质结构的最新进展,即AlphaFold2模型、TRFold模型等,能在几天、甚至以分钟级预测出具有高置信度的蛋白质结构,这在以前甚至要花费数十年时间。相对于传统的测定方式来说速度不仅快而且成本低廉,非常适合高通量的蛋白质结构获取。研究表示,如果照此速度,到今年年底将能完成对 1.3 亿个蛋白结构的预测,这有可能彻底改变生命科学的研究进程。

而这也意味着这种AI主导下的大规模的蛋白质结构预测将成为一种重要工具,对于科研工作者来说,能从结构的角度解答新的科学问题,打开科研的思路。比如科研人员可以对未知功能或者新发现的蛋白质分子,通过结构分析,进行功能注释,指导设计进行功能确认的生物学实验。也可以通过分析蛋白质的结构,确认功能单位或者结构域,为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据等。天壤团队研发的TRFold这类AI模型对于生物科学领域的深研来说,围绕蛋白质结构功能问题,可以进一步打开对生物计算领域创新性研究的发现与探索空间,促进这个领域以更快的速度发展。而除了生物结构学方面的支持以外,在医学、药物学的研究过程中,AI模型也具有发挥的空间。

快速解析病毒结构,折叠药物研发时间

新药研发是人类发展中极具风险和复杂度、耗时最漫长的技术研究领域之一。据Tufts Center的统计报告,开发一款成功上市的新药平均需要投入26亿美元,耗时约10年。居高不下的成本,与药物研发的巨大失败率有关。过去十年,药物开发项目从1期临床到获得FDA批准上市的成功率平均为7.9%。

随着人工智能技术的发展,部分应用了AI的新药研发减少了35%的成本,研发周期也从5-10年缩短为1-3年。事实上,药物研发是一个系统性工程,AI技术在这个系统中能够针对药物研发过程的筛选及设计优化等核心痛点问题,减少大量的试错和返工时间,节省药物研发的成本。

TRFold 模型能低成本地预测一些与疾病相关的蛋白质结构,进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。比如在一些白化病、成骨不全症等罕见病中,由于回报率低、患者多为贫困人口等原因,这些疾病无法得到医药公司的重视。仅在中国,这类疾病的患者就达2000万以上。尽管这类被忽视疾病占了全球总疾病里的12%,但只有仅仅1.1%的新研发药物,适用于被忽视的疾病。如今,AlphaFold2、TRFold 等AI模型为这类疾病的药物开发带来了希望,通过快速准确地预测蛋白质结构,为新的药物分子设计提供合理的靶分子及结构,使几乎只集中在贫困人口中的疾病的药物研发成为可能。

在新药的临床试验中,TRFold 模型也能作为“毒性预警系统”发挥效用。在测试药物毒性的过程中,动物模型非常有价值,但我们在进入高风险的人体临床试验中,需要降低风险,否则意外的毒副作用,会让新药退出临床研究,前功尽弃。一般的解决方案是开发高度模仿的人类生物系统,但现在来说仍难以实现。TRFold这类AI模型让我们对人类蛋白有了3D模型,这也许可以帮助我们建立更好的人类生物模拟系统。

当然在一些细菌以及病毒相关的蛋白质结构研究中,TRFold模型也会拓展对蛋白质类型的功能分析以及下游应用的范围,比如一些病毒类感染的疾病研究,抗生素、靶向药的开发,研发新效率的酶等为药研与健康作出贡献。

但是,还有很多研究工作对于蛋白质结构的准确度要求极高。比如血红蛋白中铁离子的位移,是在零点几埃的尺度上进行讨论的。对于这类结构细节的精细分析,预测结构无法作为讨论的基础,因为其中一丝一毫的不确定性都可能导致完全不同的结论。AI模型的算法普适性和准确度仍有提高空间,对蛋白质与其配体的复合结构、蛋白质的动态分析等领域算法需要完善。

AI预测模型驶入生命信息深处

用AI模型预测单蛋白的结构模拟只是开始,结构的预测只是指明了研究的方向,后续的进展还得需要试验与头脑的风暴。还有一些无法被AI模型预测与发现的结构,其研究仍然是谜一般的存在,这也给科研人员、企业与研究机构留下了很大的空间。

国内外不同的蛋白质结构预测模型在广阔的生命科学与生物科技领域会各自占领擅长的领域,发挥效用。结构生物学家,中国科学院院士施一公曾表示对AI预测模型的看法,“人类蛋白质组里能够被预测的蛋白质三维结构,已经基本被 AlphaFold 预测了。总体而言,预测结果可信、也比较准确。这是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就,也是人类在 21 世纪取得的最重要的科学突破之一”。

毋庸置疑的是AlphaFold2是蛋白质结构预测方向的重大突破,这类AI模型预测的高质量蛋白质结构,会促进高效筛选化合物的新技术发展,以及药物研发的全生命流程等。

或许有人会有疑惑,AlphaFold 2模型性能足够强大了,为何我们自己还要花费精力、脑力去打造算法?事实上虽然Deepmind开源了AlphaFold 2模型,但开源的是推理代码,并没有训练代码,所以在github下载的代码实际上只能运行AF2的模型算法,直接对蛋白质结构进行预测。如果想要围绕蛋白质结构功能问题,或者是能够达到实际落地应用准确度要求的AI算法,没有训练模型经验,或者没有具备能够训练出AlphaFold 2模型结果的能力是无法把该技术推进解决更深层次问题的。

芯片一样,对于做蛋白质结构预测来说,没有核心的技术能力,对于深层次的生命科学领域的探索就会受到限制。天壤团队打造的TRFold这套算法平台完全是国产自研,从底层代码慢慢搭建起来的,并且在国际赛事中取得了仅次于AlphaFold 2模型的好成绩。

在两年半的研发时间里,TRFold经历了几十个版本的迭代,当前的训练架构是从今年初就开始设计,处理数据、训练数据并不停迭代优化,耗费10个月时间。其最新版本的预测精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶颈。区别于AlphaFold2模型,TRFold有自己的思考与设计。TRFold采取权重共享的方式节约算力,在训练资源与算力有限的情况下,天壤团队从数据和网络设计上做出改进,仅采用少量的真实数据训练,使模型在训练过程中能够获得对真实共进化信息更好地识别能力,从而取得对氨基酸残基距离和坐标更准确的预测结果。

其算力消耗约AlphaFold2的1/32,预测大多数蛋白质链所需时间不超过16秒,相较于AlphaFold2预测约400个氨基酸的蛋白链所需70多秒的时间,具有明显的小样本数据训练生成优势。在后续构建蛋白质相互作用网络的过程中,计算量指数级别增长的情形下,对蛋白质的结构预测的研究具有深远意义,也为后续的研究比如结构生物科学、药物研究等领域打开了国产深研的大门,我们不会因为技术的限制而仰人鼻息。

天壤团队的TRFold模型也有自己的发展方向:围绕蛋白质结构功能问题并且能够达到实际落地应用准确度要求,进而推进解决更深层次的问题。比如研究蛋白质间相互作用的问题,利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路。通过研究蛋白质之间的相互作用,帮助科研人员构建大规模的相互作用网络图、寻找药物结合靶点的新思路以及精准疾病治疗的新方法。在新药研发、抗体模拟等疫苗研发中,提高蛋白质设计的精度和成功率,为各类疫苗比如新冠疫苗等的蛋白设计的验证助益等。

纵观科学史,每次科研领域取得重大的进步,都离不开当时技术的支持。无论是在蛋白质提纯的困难年代,还是电眼观察蛋白质的冷电镜技术时代,科学家研究的工具都依赖于当时的最高科技水平。随着AI技术的不断突破,走在前沿生命科技领域的深水区与无人区的领路者DeepMind、天壤等公司,不断用AI技术赋能,助力研究人员的科研工作,让科研人员告别依赖人类先验知识去做蛋白质结构预测的方式。

可预测的未来,站在AI巨人的肩膀上,这个领域的发展一定会有质的飞跃。而蛋白质这个能够影响生命进程的大分子,AI算法模型为我们打开了生命科学领域的新世界,这些海量的蛋白质结构会被技术释放,背后的解读与分析蕴含着生命信息的“富矿”,等待我们去探索与挖掘。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30887

    浏览量

    269052
  • 人工智能
    +关注

    关注

    1791

    文章

    47274

    浏览量

    238458
  • 生物学
    +关注

    关注

    0

    文章

    26

    浏览量

    12973
  • 算力
    +关注

    关注

    1

    文章

    977

    浏览量

    14808
收藏 人收藏

    评论

    相关推荐

    谷歌发布“深度研究AI工具,利用Gemini模型进行网络信息检索

    据外媒最新报道,谷歌近期发布了一款名为“深度研究”的先进AI工具。这款工具借助其内部的Gemini大型语言模型,实现了对网络信息的高效检索与深度挖掘,进一步满足了用户对精准、详尽
    的头像 发表于 12-16 09:35 203次阅读

    微流控技术的生物学应用

    微流控技术为在推动生物学众多领域的强大工具做出了巨大贡献。随着用于微通道中流体的注射、混合、泵送和存储的新器件和工艺的发展,近年来微流控系统在化学和生物化学中的应用越来越广泛。 尽管微流控技术近年来
    的头像 发表于 12-01 21:50 140次阅读

    NVIDIA 推出 BioNeMo 开源框架,扩大全球生物制药和科学行业的数字生物学研究规模

    阿贡国家实验室计算科学小组负责人 Arvind Ramanathan 表示:“美国阿贡国家实验室贡献了数十亿参数的生物模型,这些模型需要使用专门的软件在高性能计算环境中训练而成。BioNeMo 为美国
    发表于 11-19 14:01 127次阅读
    NVIDIA 推出 BioNeMo 开源框架,扩大全球<b class='flag-5'>生物</b>制药和科学行业的数字<b class='flag-5'>生物学</b><b class='flag-5'>研究</b>规模

    AI模型的最新研究进展

    AI模型的最新研究进展体现在多个方面,以下是对其最新进展的介绍: 一、技术创新与突破 生成式AI技术的爆发 : 生成式AI技术正在迅速发展
    的头像 发表于 10-23 15:19 435次阅读

    AI模型的伦理与社会影响

    个人隐私得到保护,防止数据泄露和滥用。 对于敏感数据的处理,如生物识别信息或健康记录,需要遵循更严格的隐私和安全标准。 偏见与歧视 AI模型可能会从训练数据中继承偏见,导致对某些群体
    的头像 发表于 10-23 15:13 478次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI生命科学读后感

    进程。从蛋白质结构预测到基因测序与编辑,再到药物研发,人工智能技术在生命科学的各个层面都发挥着重要作用。特别是像AlphaFold这样的工具,成功解决了困扰生物学界半个多世纪的蛋白质折叠问题,将
    发表于 10-14 09:21

    AI for Science:人工智能驱动科学创新》第一章人工智能驱动的科学创新学习心得

    的效率,还为科学研究提供了前所未有的洞察力和精确度。例如,在生物学领域,AI能够帮助科学家快速识别基因序列中的关键变异,加速新药研发进程。 2. 跨学科融合的新范式 书中强调,人工智能
    发表于 10-14 09:12

    生成式AI模型推进数字生物学发展

    Meta 的开放大语言模型(已优化并可作为 NVIDIA NIM 下载)为数字健康和生命科学工作流提供动力支持。
    的头像 发表于 09-13 17:18 585次阅读

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    材料基因组工程的推动下,人工智能如何与材料科学结合,加快传统材料和新型材料的开发过程。 第4章介绍了人工智能在加快药物研发、辅助基因研究方面及在合成生物学中的普遍应用。 第5章介绍了人工智能如何在提高
    发表于 09-09 13:54

    合成生物是什么-微流控芯片技术在合成生物学的应用前景

    合成生物其实就是一种“造物”的技术。它融合了生物学、化学和工程等多种技术,以可再生生物质为原料,以生物体作为生产介质,旨在利用廉价原料,以
    的头像 发表于 05-28 13:58 761次阅读
    合成<b class='flag-5'>生物</b>是什么-微流控芯片技术在合成<b class='flag-5'>生物学</b>的应用前景

    三郡科技:电化学生物传感器电极与生物芯片的异同

    电化学生物传感器电极 与 生物芯片 作为生物技术领域中的两大重要工具,为现代生物分析和医学诊断提供了强有力的支持。虽然它们都涉及生物学和电子
    的头像 发表于 04-28 14:08 790次阅读
    三郡科技:电化学<b class='flag-5'>生物</b>传感器电极与<b class='flag-5'>生物</b>芯片的异同

    恩智浦:向后量子密码学迁移,我们应该怎么做?

    在之前的博文中,我们介绍了由美国国家标准与技术研究院 (NIST) 主导的后量子密码学 (PQC) 标准化进程,以及未来可能采用的部分PQC标准。在这篇博文中,我们探讨PQC迁移过程中面临的一些挑战
    的头像 发表于 03-22 09:39 1655次阅读
    恩智浦:向后量子<b class='flag-5'>密码学</b>迁移,我们应该怎么做?

    防止AI模型被黑客病毒入侵控制(原创)聆思大模型AI开发套件评测4

    在训练一只聪明的AI小动物解决实际问题,通过构建神经网络模型并进行推理,让电脑也能像人一样根据输入信息做出决策。 在上述示例中,我创建了一个简单的深度学习模型,该
    发表于 03-19 11:18

    AI模型怎么解决芯片过剩?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:42:05

    AI模型可以设计电路吗?

    AI模型
    电子发烧友网官方
    发布于 :2024年01月02日 15:09:29