0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用AlphaFold2进行蛋白质结构预测

Cloudam云端 来源:Cloudam云端 作者:Cloudam云端 2022-11-07 16:09 次阅读

前言

AlphaFold 2,是DeepMind公司的一个人工智能程序。2020年11月30日,该人工智能程序在蛋白质结构预测大赛CASP 14中,对大部分蛋白质结构的预测与真实结构只差一个原子的宽度,达到了人类利用冷冻电子显微镜等复杂仪器观察预测的水平,这是蛋白质结构预测史无前例的巨大进步。这一重大成果虽然没有引起媒体和广大民众的关注,但生物领域的科学家反应强烈。

目前,AlphaFold2的源代码已经在GitHub上公开,而且现在科学家正在利用AlphaFold2对已有的蛋白数据库进行高通量的预测,建立了一些模式生物物种所有蛋白的AlphaFold2预测结构数据库。

poYBAGNotumAcBFyAAnFKvB7UlA373.png

可以看到,虽然利用AlphaFold2预测了这么多生物的数据库,但是并未覆盖所有的蛋白序列数据库,所以只有搭建本地的AlphaFold2服务,你才能用AlphaFold2随心所欲的预测自己研究蛋白的结构。

接下来将给大家介绍AlphaFold2的使用方法,在北鲲云上免安装使用。对于没有Linux基础或本地硬件配置不足的人,仅需1分钟即可成功提交蛋白质结构预测任务,能够省去很多麻烦。

二、在北鲲云使用AlphaFold2进行蛋白质结构预测

1. 选择AlphaFold2

在“应用中心”搜索AlphaFold2软件并选中,在右侧弹出的软件详情栏中点击“提交作业”。

pYYBAGNovTKAU2WKAAFLAuMJ8_k415.png

2. 选择可视化模板提交

推荐选择可视化“模板提交”的方式提交作业,平台已为AlphaFold2内置了几个可视化模板,按要求填写相应参数即可提交预测任务。

poYBAGNovTOACHzyAAHH7_1FjXM778.png

3. 填写模板参数,选择硬件配置,提交任务

上传序列文件(.fasta格式),选择运行模式(单体选择monomer,多聚体选择multimer)后即可点击下一步:

pYYBAGNovTSARBm8AAFfH3S0w1g570.png

选择合适的GPU硬件配置后即可点击下一步:

poYBAGNovTWAdNwKAAHtsrE-OvU263.png

查看作业内容汇总并提交任务:

pYYBAGNovTaAZ4dMAAExG5hZPD0459.png

4. 查看任务详情与结果

所有通过“模板”提交的作业,都可以在左侧菜单栏“作业管理”功能中查看或者管理作业:

poYBAGNovTaAJmc3AADwv0C_izM695.png

对于有Linux基础和本地硬件配置足够的人,本地使用AlphaFold2进行蛋白质预测的方法如下。

1. 配置要求

硬盘至少要3T以上,AlphaFold2训练好的模型加数据库下载下来是428 GB大小的文件,解压后需要2.2T的空间。如果你用reduced_dbs(这个是简化的数据库),那么至少也得有600 GB的硬盘空间。

12个虚拟CPU

内存85GB及以上

1个Nvidia A100 或者Nvidia V100 GPU卡

2. 下载程序需要的数据库、程序和模型

首先你得在github上面把这个AlphaFold2项目(https://github.com/deepmind/alphafold)给下载到一个本地目录,然后进入scripts这个文件夹里面,运行命令download_all_data.sh <下载目录>,程序会自动进行下载。

这个过程大概会下载438GB的文件,得等待很长时间,如果断网的话,你还得把其它的都删掉,重新下载。不建议直接运行这个主程序,可以利用多台机器分个下载。当然你也可以使用下载工具提前下载好,然后再拷贝到服务器上面去解压。

除了pdb_mmcif 这个文件之外,其它的都是可以提前下载。为什么这个文件不行?因为pdb网站并没有提供压缩的mmcif数据库文件,每个都是小文件,必须得用同步的方式把pdb服务器上面的数据库同步到本地才行,这一步建议直接在安装目录上去操作单独脚本下载,不然到时候拷贝和压缩以及解压要花大力气,这个文件夹里面有足足18万个cif文件。

pYYBAGNou1CAHBJUAAT3hvnIriY967.png

下载完成解压后关注每个文件夹文件大小和文件名是否与上面这张图中列出来的一致。

注意事项:bfd文件夹和small_bfd这两个文件夹是互斥的,大文件夹里面只留一个,bfd是完整的数据库而small_bfd是简化的数据库。如果你的磁盘不够,你就下后者,271.6 GB的bfd文件你就别下了。

3. 安装Docker和NVIDIA Container Toolkit

3.1 安装Docker

参考Docker官方教程

3.2 安装NVIDIA Container Toolkit

参考NVIDIA官方教程

3.3 测试是否安装成功

root权限运行:

docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果你看到如下图的一个表格,证明你成功了。

pYYBAGNou1aAEa9KAAQUpjLreTM779.png

4. 使用AlphaFold2

4.1 配置输入输出文件夹路径

首先你得配置一下输入和输出目录,打开docker文件夹下的run_docker.py脚本,然后把其中的DOWNLOAD_DIR参数改成fasta文件夹的输入目录,把output_dir后面改为输出结果的路径。

4.2 docker build

docker build -f docker/Dockerfile -t alphafold

4.3 安装pythin虚拟环境

如果你使用python3,并且机器里面有pip3,你可以直接:

pip3 install -r docker/requirements.txt

4.4 运行AlphaFold2

python3 docker/run_docker.py --fasta_paths=输入序列文件完整路径 --max_template_date=2020-05-14 --preset=[reduced_dbs、full_dbs、casp14]

fasta_paths:预测蛋白质fasta文件的文件名

max_template_date:如果你预测蛋白在pdb里面,而你不想用这个pdb做模板,你就用这个日期来限制使用该pdb做模板,这个日期应该早于这个蛋白结构的release date

preset:时间和预测质量的均衡考虑:reduced_dbs最快,但是质量最差,full_dbs中等,casp14质量最好但时间是full_dbs的八倍左右。

4.5 查看运行结果

运行结束后,在你的output_dir中会生成一系列文件,其中ranked_0到4就是AlphaFold2预测出来的分数最高的五个模型,0是最好的,可信度依次往下。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1792

    文章

    47446

    浏览量

    239072
  • Alpha
    +关注

    关注

    0

    文章

    45

    浏览量

    25660
收藏 人收藏

    评论

    相关推荐

    蛋白质组学技术与药物作用新靶点研究进展 精选资料分享

    ,成为制约新药开发速度的瓶颈。基因组学研究表明,人体中全部药靶蛋白为1万~2万种,而在过去100年中发现的靶点,仅约有 500种。因此,自1994年Wilkins等提出蛋白质组(pro- teome
    发表于 07-26 07:48

    点成分享 | 蛋白质浓度测定之BCA法

    蛋白质浓度的测定是常见的生物实验之一。本文介绍的是使用BCA法(二辛可酸法或二喹啉甲酸法)进行蛋白质浓度的测定。BCA分子式1实验原理BCA是一种稳定的碱性水溶性复合物。在碱性条件下,蛋白质
    发表于 12-20 17:17

    随机游走的蛋白质功能预测算法

    针对单一数据源预测蛋白质功能效果不佳以及蛋白质相互作用网络信息不完全等问题,提出一种多数据源融合和基于双重索引矩阵的随机游走的蛋白质功能预测
    发表于 01-09 16:42 1次下载

    基于PPI网络与机器学习的蛋白质功能预测方法

    。相对于蛋白质三维结构,一级序列更容易通过生物实验测得,故早期的蛋白质功能预测方法大都基于序列相似性原理,利用BLAST( Basic Local Alignment Search T
    发表于 04-17 14:39 0次下载

    Profrager:蛋白质结构和功能预测工具的优化

    优化Profrager,蛋白质结构和功能预测工具
    的头像 发表于 11-13 07:33 3536次阅读

    DeepMind推出的AlphaFold可以仅根据基因「代码」预测生成蛋白质的3D形状

    人体能够产生数万甚至数百万的蛋白质。每个蛋白质都是一个氨基酸链,而后者的类型就有 20 种。蛋白质可以在氨基酸之间扭曲、折叠,因此一种含有数百个氨基酸的蛋白质有可能呈现出数量惊人(10
    的头像 发表于 12-05 15:51 3570次阅读

    DeepMind所开发的AlphaFold系统在世界蛋白质模型预测竞赛中排名第一

    在为期数月的竞赛期间,组织方每几天向参加的团队发去一些氨基酸清单,参与者从这些氨基酸预测蛋白质结构。这些“考题”是近期通过传统的方法,耗费了大量的人力物力资源才得到的蛋白质
    的头像 发表于 12-11 17:11 4358次阅读

    蛋白质设计大神David Baker最新成果,响应环境变化的全新蛋白质

    研究人员设计出一种对酸产生反应的蛋白质,可通过预测、调节的方式对环境做出反应,其可在中性 pH 下自行组装成预设的结构,并在酸存在下快速分解。
    的头像 发表于 06-04 10:47 8462次阅读

    一种改进的动态蛋白质网络构建算法

    构建可靠的动态蛋白质网络是提高蛋白质未知功能预测蛋白质复合物识别性能的关键,然而现有蛋白质网络构建和功能
    发表于 03-16 09:29 2次下载
    一种改进的动态<b class='flag-5'>蛋白质</b>网络构建算法

    基于衰减系数的动态蛋白质预测网络模型

    在生物系统的转变过程中,蛋白质的演化过程并非一成不变,而是动态变化的。通过构造模型的方法来研究蛋白质相互作用网络,可以较好地刻画蛋白质相互作用的演化机制。但是,利用构造模型的方法来研究动态蛋白
    发表于 06-15 16:50 10次下载

    北鲲云超算平台在AlphaFold2的应用

    受人工智能和深度学习技术发展较快等因素影响,结构生物学数据的研究也开始迎来了崭新的阶段,针对蛋白质结构预测也出现了一些新的方法,并获得了突破性进展。目前,最为前沿的技术当属
    发表于 09-02 10:26 746次阅读

    昇思推出基于AlphaFold2算法的蛋白质结构预测推理工具

    近日,昇思MindSpore团队与昌平实验室、北京大学生物医学前沿创新中心(BIOPIC)和化学与分子工程学院、深圳湾实验室高毅勤教授课题组联合推出基于AlphaFold2算法的蛋白质结构预测
    的头像 发表于 11-16 15:25 1714次阅读

    利用人工智能技术预测蛋白质结构

      这个工具不仅可以快速预测蛋白质,而且可以在有限的输入下进行预测。它也有能力超越简单的结构进行
    的头像 发表于 04-08 10:25 7008次阅读
    利用人工智能技术<b class='flag-5'>预测</b><b class='flag-5'>蛋白质</b>的<b class='flag-5'>结构</b>

    昇思MindSpore蛋白质结构预测模型研发进展

    近期,基于全场景AI框架昇思MindSpore 开发的蛋白质结构预测模型在全球持续蛋白质结构预测
    的头像 发表于 04-24 12:13 1377次阅读

    DeepMind最新推出新一代蛋白质结构预测工具,已用于药物设计

    据悉,最新的 AlphaFold 系统由DeepMind及其衍生公司 Isomorphic Labs (专注于利用 AI 做药物发现)共同开发,不再局限于蛋白质折叠,还能够在配体、蛋白质、核酸以及
    的头像 发表于 11-03 15:39 884次阅读