0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于OpenAI的GPT-2的语言模型ProtGPT2可生成新的蛋白质序列

IEEE电气电子工程师 来源:IEEE电气电子工程师 作者:IEEE电气电子工程师 2022-09-08 16:24 次阅读

人类语言与蛋白质有很多共同点,至少在计算建模方面。这使得研究团队将自然语言处理(NLP)的新方法应用于蛋白质设计。其中,德国Bayreuth大学Birte Höcker的蛋白质设计实验室,描述了基于OpenAI的GPT-2的语言模型ProtGPT2,以基于自然序列的原理生成新的蛋白质序列。

正如字母表中的字母组成单词和句子一样,天然氨基酸以不同的方式结合形成蛋白质。和自然语言一样,蛋白质序列以极高的效率将结构和功能存储在氨基酸序列中。

ProtGPT2是一个深度的、无监督的模型,它利用了变压器架构的进步,而变压器架构也导致了NLP技术的快速发展。该体系结构有两个模块,Noelia Ferruz解释说,她是论文的合著者,也是培训ProtGPT2的人:一个模块理解输入文本,另一个模块处理或生成新文本。第二个是生成新文本的解码器模块,帮助了ProtGPT2的开发。

Researchers have used GPT-2 to train a model to learn the protein “language,” generate stable proteins, and explore “dark” regions of protein space.

“在我们创建这个模型的时候,还有许多其他人在使用第一个模块,”Noelia Ferruz说,“例如ESM、ProtTrans和ProteinBERT。我们的是当时第一个公开发布的解码器,这也是第一次有人直接应用GPT-2。”

Ferruz本人是GPT-2的忠实粉丝。“我发现有一个能写英语的模型给我留下了深刻印象,”她说。这是一个著名的transformer模型,以无监督的方式对40千兆字节的英语互联网文本进行预训练,即使用没有人类标记的原始文本生成句子中的下一个单词。GPT-x系列已被证明能够有效地生成长而连贯的文本,通常与人类书写的文本无法区分,因此潜在的误用是一个令人担忧的问题。

鉴于GPT-2的能力,Bayreuth的研究人员对使用它训练模型学习蛋白质语言、生成稳定的蛋白质以及探索蛋白质空间的“暗”区域持乐观态度。Ferruz在整个蛋白质空间中约5000万个无注释序列的数据集上训练了ProtGPT2。为了评估该模型,研究人员将由ProtGPT2生成的10000个序列的数据集与来自训练数据集的10000个随机序列集进行了比较。

他们发现该模型预测的序列在二级结构上与天然蛋白质相似。ProtGPT2可以预测稳定和功能性的蛋白质,不过,Ferruz说,这将在未来几个月内通过对一组大约30种蛋白质的实验室实验来验证。ProtGPT2还模拟了自然界中不存在的蛋白质,在蛋白质设计领域开辟了可能性。

cb0d9dc2-2a9e-11ed-ba43-dac502259ad0.png

UNIVERSITY OF BAYREUTH/NATURE COMMUNICATIONS

Ferruz说,该模型可以在几分钟内产生数百万种蛋白质。“如果没有进一步的改进,人们可以采用免费提供的模型,并对一组序列进行微调,以在该区域产生更多的序列,例如抗生素或疫苗。”但是,她补充说,通过对训练过程进行小的修改,“我们可以添加标签,并有可能在未来开始生成具有特定功能的序列。”这反过来不仅在医疗和生物医学领域,而且在环境科学等领域有潜在的应用。

Ferruz承认NLP领域的快速发展为ProtGPT2的成功做出了贡献,但同时也指出,这是一个不断变化的领域 —— “过去12个月发生的所有事情都太疯狂了。”目前,她和她的同事已经在写一篇关于他们工作的评论。“我在2021圣诞节训练了这个模型,”她说,“当时,有另一个模型已经被描述过了……但它不可用。”不过她表示,到今年春天,其他模型已经发布。

ProtGPT2的预测序列跨越了新的、很少探索的蛋白质结构和功能区域。然而,几周前,DeepMind发布了超过2亿种蛋白质的结构。“所以我想我们已经没有那么多的暗蛋白质组了,”Ferruz说,“但仍有一些地区……尚未被探索。”

不过,前面还有很多准备工作要做。“我想控制设计过程,”Ferruz补充道,“我们将需要获取序列,预测结构,并可能预测功能(如果有的话)……这将是非常具有挑战性的。”ProtGPT2是面向高效蛋白质设计和生成迈出的一大步,为探索设计蛋白质结构和功能的参数及其后续实际应用的实验研究奠定了基础。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1129

    浏览量

    40670
  • 语言模型
    +关注

    关注

    0

    文章

    502

    浏览量

    10244
  • nlp
    nlp
    +关注

    关注

    1

    文章

    487

    浏览量

    22006
  • OpenAI
    +关注

    关注

    9

    文章

    1041

    浏览量

    6400

原文标题:研究人员开发用于蛋白质设计的深度无监督语言模型ProtGPT2

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    以色列面向生物传感器和电路的蛋白质纳米线

    银纳米线被用于生物传感器和电路中。 该所大学化学系的Ehud Gazit研究了聚集在Alzheimer病人大脑内的淀粉蛋白质纤维。这种蛋白质还聚集在人体的其它部位,引发二类糖尿病和朊病毒病。 他
    发表于 11-20 15:53

    面向生物传感器和电路的蛋白质纳米线

    纳米线被用于生物传感器和电路中。 该所大学化学系的EhudGazit研究了聚集在Alzheimer病人大脑内的淀粉蛋白质纤维。这种蛋白质还聚集在人体的其它部位,引发二类糖尿病和朊病毒病。 他的研究
    发表于 12-03 10:47

    蛋白质组学技术与药物作用新靶点研究进展 精选资料分享

    ,成为制约新药开发速度的瓶颈。基因组学研究表明,人体中全部药靶蛋白为1万~2万种,而在过去100年中发现的靶点,仅约有 500种。因此,自1994年Wilkins等提出蛋白质组(pro- teome
    发表于 07-26 07:48

    点成分享 | 蛋白质浓度测定之BCA法

    蛋白质浓度的测定是常见的生物实验之一。本文介绍的是使用BCA法(二辛酸法或二喹啉甲酸法)进行蛋白质浓度的测定。BCA分子式1实验原理BCA是一种稳定的碱性水溶性复合物。在碱性条件下,蛋白质
    发表于 12-20 17:17

    基于PPI网络与机器学习的蛋白质功能预测方法

    蛋白质是执行生物体内各种重要生物活动的大分子,认识其功能对推动生命科学、农业、医疗等领域的发展意义重大。1961年,Anfinsen等提出蛋白质一级序列决定其三维结构、蛋白质三维结构决
    发表于 04-17 14:39 0次下载

    OpenAI发布一款令人印象深刻的语言模型GPT-2

    今年2月,OpenAI发布了一款令人印象深刻的语言模型GPT-2,它可以写短篇小说、诗歌,甚至轻松辨别《哈利波特》和《指环王》中的角色。最近
    的头像 发表于 05-17 18:48 4445次阅读

    OpenAI宣布,发布了7.74亿参数GPT-2语言模型

    就在本周,OpenAI宣布,发布了7.74亿参数GPT-2语言模型,15.58亿的完整模型也有望于几个月内发布,并将
    的头像 发表于 09-01 09:10 2971次阅读

    基于衰减系数的动态蛋白质预测网络模型

    在生物系统的转变过程中,蛋白质的演化过程并非一成不变,而是动态变化的。通过构造模型的方法来研究蛋白质相互作用网络,可以较好地刻画蛋白质相互作用的演化机制。但是,利用构造
    发表于 06-15 16:50 10次下载

    食品蛋白质测定仪的特点及功能

    食品蛋白质测定仪【恒美 HM-Z12】快速检测奶粉、牛奶及乳制品中的蛋白质,仪器预留其他项目检测程序和端口,根据日后需求方便的自主增加检测项目。
    发表于 07-27 11:47 467次阅读

    蛋白质测定仪的特点、功能及参数

    蛋白质测定仪【恒美 HM-Z12】快速检测奶粉、牛奶及乳制品中的蛋白质,仪器预留其他项目检测程序和端口,根据日后需求方便的自主增加检测项目。
    发表于 08-17 10:26 662次阅读

    蛋白质快速检测仪的特点及功能

    蛋白质快速检测仪【恒美 HM-Z12】快速检测奶粉、牛奶及乳制品中的蛋白质,仪器预留其他项目检测程序和端口,根据日后需求方便的自主增加检测项目。
    发表于 09-02 10:54 1010次阅读

    蛋白质测定仪工作原理是怎样的

    蛋白质测定仪的工作原理,蛋白质测定仪【HM-Z12】快速检测奶粉、牛奶及乳制品中的蛋白质,我们都知道蛋白质在我们的生命中占据很重要的位置,
    发表于 11-15 14:47 2774次阅读

    使用AlphaFold2进行蛋白质结构预测

    前言 AlphaFold 2,是DeepMind公司的一个人工智能程序。2020年11月30日,该人工智能程序在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子
    的头像 发表于 11-07 16:09 2567次阅读
    使用AlphaFold<b class='flag-5'>2</b>进行<b class='flag-5'>蛋白质</b>结构预测

    NVIDIA 和 Evozyne 创建用于生成蛋白质生成式 AI 模型

    科学家使用 NVIDIA BioNeMo 创建出能够生成高质量蛋白质的大型语言模型,以此加快药物研发并助力创造更具可持续性的环境。 初创企业 Evozyne 使用 NVIDIA 提供的
    的头像 发表于 01-13 23:15 560次阅读

    EvolutionaryScale推出基于NVIDIA GPU模型的新型蛋白质研究方案

    EvolutionaryScale 于 6 月 25 日发布了第三代 ESM 模型 ESM3,该模型同时对蛋白质序列、结构和功能进行推理
    的头像 发表于 08-23 16:45 602次阅读