0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

NVIDIA英伟达 来源:未知 2022-12-29 00:00 次阅读

生命科学是前沿科技创新的关键领域。AI云计算、大数据等互联网技术的发展,正在为基因测序、生物医药、AI 与大数据应用等方面注入新动能,加速生命科学领域相关企业的智能化升级。

12 月 27 日,“2022 百度云智峰会·智算峰会”成功举办。NVIDIA 资深解决方案架构师翟健分享了以“GPU 加速药物研发与基因组学分析”为题的演讲,介绍了 NVIDIA 如何利用 GPU 和加速软件推动 AI 驱动的药物研发与基因组学分析,包括 NVIDIA 与百度智能云在赋能药物研发、基因测序分析方面的合作。以下为内容概要。

1c5a96a0-86c8-11ed-bfe3-dac502259ad0.png

GPU 加速助力药物研发

CLARA 是 NVIDIA 在医疗方向的 SDK 平台,它借助于 NVIDIA 的基础软硬件平台,为医疗用户提供了医疗设备、制药、影像、基因以及智慧医院等五个方面的能力,从而为医疗的终端用户,针对具体的应用场景提供完备的加速能力。

而其中的 CLARA Discovery 是 CLARA 平台下面向药物研发场景的重要解决方案,它基于 NVIDIA 的 AI 和 HPC 能力来辅助加速药物研发的工作流程。目前该方案已经纳入到了百度智能云赋能药物研发的解决方案中。

1c68158c-86c8-11ed-bfe3-dac502259ad0.png

医疗领域的前期研发过程当中会涵盖如下几个过程:集靶点发现、化学分子生成、蛋白质性质结构预测、药物分子与蛋白质进行对接打分,构建自由能 FEP 等。

整个制药行业涉及到两个学科,结构生物学与计算化学。而这两个学科都涉及到传统的 HPC 与新兴的 AI 方法,而且 AI 的方法相较于 HPC 的方法会有比较明显的速度上的优势。

目前 AI 正在颠覆整个药物研发的过程,包括在靶点发现方面、虚拟筛选以及分子生成、结构预测,甚至在临床上应用的自然语言模型,都是 AI 加速的体现。

AI 中 Transformer 模型正在逐渐地应用在药物研发领域中。左边的四张小图来自于 MegaMolBART 与 Protrans 一系列突破性的论文,表明基于 Transformer 的预训练模型可以有效地加速分子生成和蛋白质的结构预测。

1c78ce22-86c8-11ed-bfe3-dac502259ad0.png

右上角展示的就是 Transformer 模型的 Encoder-Decoder 的架构形式,它们可以用在诸如右下方的几个典型领域,包括:小分子模型的生成、反应序列的预测、蛋白质结构预测、生物医学领域的 NLP 以及图像分析等。

NVIDIA 基于在大语言模型上的经验,推出了 BioNeMo 的解决方案,它是一款可以在云端进行训练和部署的服务框架,主要面向有大语言模型需求的药物研发人员。此外,它基于 NVIDIA 的 GPU 硬件也做了很好的优化工作,并且提供了多种预训练模型,支持云原生的服务,极大地加速了药物研发的工作流程。

1c83ecd0-86c8-11ed-bfe3-dac502259ad0.png

这一页展示的是 BioNeMo 的逻辑架构,最底层的是 NVIDIA 加速的计算平台。下面开始第二层是 NVIDIA 的大语言模型平台 NeMo Megatron,是 BioNeMo 的快速训练和部署的重要保证。

BioNeMo 提供了多种预训练的 Transformer 类的模型,分别针对化学分子生成、蛋白质结构序列预测、DNA 的 embedding 等几个方面。最终这些都服务于我们最上层中,药物研发领域里几个典型应用场景。

BioNeMo 的三个典型特点是:

一,它支持分子、蛋白质和核苷酸的 SMMILES 和 FASTA 的表征。

二,它含有多种预训练模型,像我们刚才提到的 MegaMolBART 等。

三,它可以在云端部署相应的、可视化界面的服务。

这里跟大家分享一个案例,Vyasa 是一个面向药物研发的 AI 解决方案提供商,他们在方案中整合了 BioNeMo 中的 MegaMolBART 模型,从而实现了终端用户在本地和云端都可以利用 GPU 对药物分子生成过程进行加速。也正因为如此,他们的用户 Memorial Solan Kettering 学院采购了 NVIDIA 的 DGX 服务器用于加速这一类型的工作负载。

除了在分子生成、蛋白质结构性质预测方面,NVIDIA 提供了很好的加速优化。在虚拟筛选和仿真的过程当中,NVIDIA 也协同了众多的开源社区、高校,加速了传统 HPC 领域当中的对接、分子动力学和量子化学里的常用软件。

1c8bfdf8-86c8-11ed-bfe3-dac502259ad0.png

这张图中展示的就是我们在三个领域当中常用的一些软件。这些软件 NVIDIA 都提供了相应的 GPU 加速版本,大家可以在 NVIDIA 的 NGC 平台(https://catalog.ngc.nvidia.com/ )进行下载

下面展示的是分子动力学软件 Gromacs 的 GPU 版本的性能评测。可以看到,在 NVIDIA 的 A100 和 V100 GPU 上,Gromacs 都同比 CPU 获得了极好的加速。

1c9c7e30-86c8-11ed-bfe3-dac502259ad0.png

类似的,这一页展示的是量子化学软件 VASP CPU-GPU 的性能对比。NVIDIA 的 V100 和 A100 GPU 同样都获得了极高的加速。

1ca55e1a-86c8-11ed-bfe3-dac502259ad0.png

GPU 加速突破基因测序分析瓶颈

接下来让我们介绍一下 NVIDIA GPU 在加速基因组学方面的方案。

在今年春季的 NVIDIA GTC 大会上,来自于斯坦福大学的团队介绍了他们如何基于 NVIDIA GPU 打破了基因测序的世界纪录。他们将人类的基因测序缩短到了 7 小时 18 分钟,完成了湿实验和在计算机上的数据分析等过程。

而在基因测序方面,一般包括如下三个环节:一,通过测序仪得到数据之后进行的一级分析过程,完成四分类任务;二,在计算机上完成一致性对比处理、变体识别等二级分析过程;三,最后的三级分析则是对大量的数据进行处理。而这三个过程目前都是可以用 GPU 实现加速的。分别可以通过 GPU 加速的 TensorFlow、PyTorch,以及 TensorRT 进行一级分析加速。通过 CLARA Parabricks 对二级分析进行加速。利用 RAPIDS、MONAI 等可以加速三级分析。

下面让我们来介绍一下二级分析的软件 CLARA Parabricks。CLARA Parabricks 是一款利用 GPU 加速高通量、高精度的 DNA 和 RNA 测序分析工具,主要用于人类基因组学分析、癌症基因筛查、RNA 测序分析等。目前其中含有 60 多个工具模块,包括基因数据的一致性比对、金标准处理和质量把控、高精度遍体识别等范畴类的多种常用工具。

这一页展示的是 CLARA Parabricks 目前支持的工具模块的部分内容,基本上涵盖了主流的基因测序二级分析中的大部分工具。

1cac6b88-86c8-11ed-bfe3-dac502259ad0.png

使用 CLARA Parabricks 可以实现对典型的应用的加速,它是针对金标准的种系、体细胞和 RNA 的加速工具。而且目前使用 Ampere 架构的 GPU 可以实现 80 倍的加速,精度方面也能够保证,且具有比较灵活的工作流程。

那么谈到这里就要说一下 CLARA Parabricks 的几大特点了。因为它是模块化的工具,所以可以通过各种倾向性的组合,可以灵活选择 CLARA Parabricks 当中的各种模块。

同时刚才提到它的工作流程灵活,是因为它对主流的基因组学分析中的 workflow 管理器都支持,包括 WDL,nextflow 等。此外,它还对 Google 的 DeepVariant 1.4 版本的变体识别工具也做了很好的支持。

接下来我们来看看 Parabricks 的 benchmark。可以看到,列举的几个模块在 GPU 上,同比 CPU 都具有非常好的加速效果。而且在 A100 上可以最高实现 80 倍的加速。这一页展示的就是分别在 2 张、4 张和 8 张 A100 上同比 CPU 实现加速的效果。

1cb770b4-86c8-11ed-bfe3-dac502259ad0.png

同时,在癌症的基因筛查中,端到端的流程也可以在 GPU 上实现比较明显的加速。

2022 年春季 GTC 大会上,NVIDIA 发布了 Hopper 架构的 GPU。该架构的 GPU 对于动态编程做了很好的加速,单就动态编程这一特性,Hopper 架构就比上一代的 Ampere 架构有了 7 倍的理论加速。而在基因组学分析中,动态编程技术是需要被频繁使用到的,也因此,Hopper 架构的 GPU 可以给基因测序带来重大的收益。

上文提到的,斯坦福大学创造的基因测序世界纪录就是借助 NVIDIA CLARA Parabricks 实现的。

这里再跟大家分享一个案例,就是英国的 BioBank 这家公司,他们要处理 50 万个外显子,这些在 CPU 上需要 1 个小时才能得到结果,而 GPU 将这个过程仅仅缩短到了 5 分钟,成本下降了 60%。

这里展示了 CLARA Parabricks 的资料参考页,感兴趣的听众可以登陆 CLARA Parabricks 的网页了解更多的内容。同时,CLARA Parabricks 已经可以在百度智能云上使用了,在云上的 GPU 最佳实践专栏中还提供了 CLARA Parabricks 的使用方式和详尽介绍,感兴趣的同学可以登陆https://cloud.baidu.com/doc/GPU/s/pl6vzliqu了解更多内容。


在加速三级分析这部分,同样可以使用 GPU 版本的大数据处理 SDK RAPIDS。RAPIDS 是一个端到端的 GPU 加速数据科学的 SDK。它包括数据处理的 SDK cuDF,用于传统机器学习的 SDK cuML,图计算 SDK cuGraph,以及一些可视化的库、众多延伸的库等。基本上 NVIDIA 非深度学习类的 GPU 加速库都在这里了。

单个细胞的三级分析依赖于众多的传统机器学习与大数据的方法,比如回归聚类等算法以及一些可视化的方法。右边展示的就是针对 scRNA 序列处理的聚类,回归与可视化端到端运行的时间。可以看到,使用 GPU 可以降低整体的运行时间。

1cc5c362-86c8-11ed-bfe3-dac502259ad0.png

最后让我们再次回顾一下这张图,NVIDIA GPU 在一级至三级分析上都有相应的解决方案。尤其在二级分析和三级分析上,NVIDIA 提供 CLARA Parabricks 和 RAPIDS 方案,可以带给用户更好的性能与性价比的提升。这也是斯坦福大学利用 GPU 打破基因测序世界纪录的根本原因。

上面提到的这些软件,大家可以登陆 NVIDIA NGC 平台(https://catalog.ngc.nvidia.com/ )下载相应的软件进行体验。


原文标题:百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3712

    浏览量

    90622

原文标题:百度智算峰会精彩回顾:GPU 加速药物研发与基因组学分析

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    百度市值被低估?分析师看好其长期发展潜力

    近期,尽管微软和Meta公布了超预期的财报,但市场对人工智能领域的热情似乎有所减退。在此背景下,中概股也普遍走低,百度同样未能幸免。然而,多位分析师对百度的长期发展潜力表示看好,认为其市值被低估。
    的头像 发表于 11-05 11:16 135次阅读

    百度舸AI计算平台4.0震撼发布

    在2024年百度云智大会的璀璨舞台上,百度智能云重磅推出了舸AI异构计算平台的全新力作——4.0版本。此次升级,标志着百度在AI基础设施领域迈出了坚实的一步,致力于为行业提供更为强大
    的头像 发表于 09-26 14:46 351次阅读

    供应商网2024年荣获百度联盟-创领风华奖

    百度联盟大会在深圳举行,供应商网作为优秀合作伙伴出席峰会并荣获百度联盟"创领风华奖"。这一荣誉不仅是对供应商网在合作中卓越表现的高度认可,更是对我们共同努力的最好见证。
    的头像 发表于 09-23 09:32 202次阅读

    NVIDIA Parabricks v4.3.1版本的新功能

    NVIDIA Parabricks 扩大了 NVIDIA 利用深度学习解决基因组学挑战的范围,持续推动基因组学仪器的发展。NVIDIA Parabricks v4.3.1 在欧洲人类遗传学
    的头像 发表于 09-10 10:22 310次阅读
    NVIDIA Parabricks v4.3.1版本的新功能

    名单公布!【书籍评测活动NO.43】 力芯片 | 高性能 CPU/GPU/NPU 微架构分析

    。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高力芯片,并且支持多芯片、高带宽互连。本书也回顾了近20年来主流的CPU、GPU芯片架构的特点,介绍了存储与互连总线技术
    发表于 09-02 10:09

    百度申请文小言商标

    近日,百度在线网络技术(北京)有限公司在知识产权领域有了新动作。据天眼查知识产权信息显示,百度已申请多枚“文小言”商标,这些商标将涵盖广告销售、网站服务、健身器材、机械设备等多个领域。
    的头像 发表于 06-19 09:20 426次阅读

    2024百度移动生态万象大会:百度新搜索11%内容已AI生成

    2024百度移动生态万象大会:百度新搜索11%内容已AI生成 今天2024百度移动生态万象大会在江苏苏州举办,特别是AI搜索与百度文心一言的相关信息被市场极度关注,我们看到,在2024
    发表于 05-30 18:58 383次阅读

    百度智能云推出“千帆·行业增强版”,加速行业大模型的落地

    5月28日,由人民日报文化传媒有限公司和百度联合主办的2024智能经济论坛在北京举行。
    的头像 发表于 05-29 09:25 470次阅读
    <b class='flag-5'>百度</b>智能云推出“千帆·行业增强版”,<b class='flag-5'>加速</b>行业大模型的落地

    百度与特斯拉探讨Robotaxi合作新机遇

    在特斯拉宣布计划使用百度地图提供的高精度地图之后,百度与特斯拉之间的合作再度引起关注。百度自动驾驶技术部总经理徐宝强近日透露,百度正积极考虑与特斯拉在Robotaxi(共享出租车)项目
    的头像 发表于 05-24 10:20 399次阅读

    百度大脑EdgeBoard介绍

    多种AI算法和模型。在功能上,EdgeBoard计算盒支持所有计算机视觉的AI应用场景,可以直接适配百度大脑的开放能力,包括人脸识别、人体分析、动物识别、通用物体和场景识别等。在硬件方面
    的头像 发表于 05-15 09:50 438次阅读
    <b class='flag-5'>百度</b>大脑EdgeBoard介绍

    百度沈抖沈抖正式发布新一代智能计算操作系统—万源

    4月16日,Create 2024 百度AI开发者大会在深圳召开。期间,百度集团执行副总裁、百度智能云事业群总裁沈抖正式发布新一代智能计算操作系统——万源,通过对AI原生时代的智能计算平台进行抽象与封装设计,为用户屏蔽掉云原生系
    的头像 发表于 04-18 09:22 390次阅读
    <b class='flag-5'>百度</b>沈抖沈抖正式发布新一代智能计算操作系统—万源

    百度智能云正式发布了《百度智能云水业大模型白皮书》

    3月28日,由E20环境平台主办的2024(第二十二届)水业战略论坛在北京召开。会上,百度智能云正式发布了《百度智能云水业大模型白皮书》(以下简称《白皮书》)。
    的头像 发表于 03-29 09:20 1288次阅读
    <b class='flag-5'>百度</b>智能云正式发布了《<b class='flag-5'>百度</b>智能云水业大模型白皮书》

    百度将为苹果新品提供AI功能

    据知情人士透露,百度已确定将为苹果即将发布的iPhone16、Mac系统和iOS18提供AI功能。此前,苹果曾与阿里等其他国内大模型公司进行过洽谈,但最终选择了百度作为合作伙伴。
    的头像 发表于 03-26 09:15 480次阅读

    漳州市长魏东到访百度,与百度智能云共商漳州新质生产力发展

    3月19日,漳州市市长魏东,人大常委会党组成员、副主任蔡总平,副市长洪泰伟一行到访百度亦庄基地,与百度副总裁石清华,百度智能云南区总经理段巍,百度智能云政务创新业务部总经理李琴,围绕漳
    的头像 发表于 03-25 11:27 751次阅读

    百度和阿里量子实验室捐赠及研究进展

    百度早在2018年便宣布创建量子计算研究所,专门致力于研发量子计算软件以及相关信息技术应用。悉尼科技大学量子软件和信息中心创始人和负责人段润尧教授任职所长,并向百度公司总裁张亚勤直接负责。
    的头像 发表于 01-03 14:29 915次阅读