基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间-电子发烧友网

InstaDeep、慕尼黑工业大学（TUM）和 NVIDIA 之间的合作推动了面向基因组学的多超级计算规模的基础模型开发进程。这些模型在大量预测任务（例如启动子和增强子位点预测）中展示了最先进的性能。

这一联合团队的研究指出，经过基因组学训练的大型语言模型（LLM）可将应用扩展到大量基因组学任务。

该团队使用 NVIDIA 的超级计算机 Cambridge-1 来训练参数规模从 500M 到 2.5B 不等的各种大型语言模型（LLM）。这些模型在各种基因组数据集上进行了训练，以探索模型规模和数据多样性对下游任务性能的影响。

分类任务包括预测增强子和启动子序列以及转录因子结合位点。这些任务有助于了解 DNA 如何转录生成 RNA 和蛋白质，从而开启新的临床应用。

研究中明确了 20 项任务。对于每一项任务，性能都随着模型规模和数据集多样性的增加而单调递增。参照专门的最新模型基线，在多物种数据集上训练的具有最大参数规模（2.5B 参数）的大型语言模型在 19 项任务中的 15 项中取得了同等或更高的性能。

这些结果是通过利用参数轻量化微调实现的。然而，即使依靠从 Transformer 模型各层提取的预训练嵌入以及简单的浅层感知器（MLP）或逻辑回归，也足以在 11 个任务中实现同等乃至更高的性能。

在每个模型检查点和每个任务的所有层上应用这种探测策略，训练出了 120 万个 MLP 模型。该研究对大型语言模型的训练和使用等各方面进行了详细分析，例如不同层对下游任务性能的影响。

在固定模型规模下直接比较序列多样性，显示出具有重要意义的性能提升，增加模型规模也是如此。例如，对于一个 500M 参数模型，仅在人类参考基因组上训练的性能不如在 1000 基因组数据集上训练的性能。

同样，在 1000 基因组数据集上训练的 2.5B 参数模型的性能优于任何 500M 参数模型。而对于相同的模型，性能会逊于在自定义多物种数据集上训练的结果，即使下游性能是在仅涉及人类基因组的任务上测量的。

研究人员观察到，并非所有嵌入都是平等创建的。虽然通常的做法建议使用大型语言模型的最后一层进行下游预测。但耐人寻味的是，中间层产生的表征在下游任务中显示出明显更高的性能。研究人员发现，最佳层的选择取决于任务，表明不同类型的 DNA 特征被不同层的模型所捕获。

InstaDeep 首席执行官 Karim Beguir 表示：“我们相信这些结果首次清楚地证明了基因组学基础模型的可行性，这些模型能够真正地推广到多项任务中。这些结果从很多方面反映出了过去几年内适应性基础模型在自然语言处理方面的发展进程。如今，其应用于药物研发和人类健康等如此具有挑战性的问题，着实令人难以置信的兴奋。”

NVIDIA 的 Cambridge-1 对该项目的成功至关重要。该项目需要高性能计算基础设施来训练具有捕获基因组中远程相互作用所需感受域的大型模型。

研究人员尝试了多种方法、数据集大小、模型规模和分词器方案，最终使用在 16 个 NVIDIA DGX A100 节点（128 个 A100 80GB GPU）上训练的 2.5B 参数稀疏注意力模型，在多任务上实现了迄今公开发表的最佳性能。

在未来的研究工作中，该团队计划通过直接微调模型，探索进一步的下游任务性能改进，并将继续在应用于基因组学的大型语言模型的架构创新方面展开合作。InstaDeep 是首批使用 Cambridge-1 的 NVIDIA 初创加速计划成员之一。

扫描下方海报二维码，即可免费注册 GTC 23，切莫错过这场 AI 和元宇宙时代的技术大会！

原文标题：基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

文章出处：【微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

英伟达

英伟达

+关注

关注
22

文章
3776

浏览量
91103

原文标题：基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

文章出处：【微信号：NVIDIA_China，微信公众号：NVIDIA英伟达】欢迎添加关注！文章转载请注明出处。

Kimi发布视觉思考模型k1，展现卓越基础科学能力

色，其能力还成功扩展到了物理、化学等基础科学领域。这标志着Kimi在视觉思考模型的技术研发上取得了重大突破，为用户在多个学科领域提供了强大的支持。

发表于 12-17 09:59 •257次阅读

NVIDIA AI助力日本制药公司推进药物研发

制药公司、医疗技术公司和学术研究人员正在开发主权 AI 能力，以驱动药物发现、加速基因组学和医疗设备。

发表于 11-19 15:40 •285次阅读

腾讯发布开源MoE大语言模型Hunyuan-Large

的性能，标志着腾讯在自然语言处理领域迈出了重要的一步。据了解，Hunyuan-Large的总参数量高达389B(即3890亿)，这一数字远超当前许多主流的大语言

发表于 11-06 10:57 •312次阅读

AI大模型在自然语言处理中的应用

海量的文本数据，能够生成结构化、连贯的文本段落。在新闻写作、创意内容生成等场景中，AI大模型展现出了卓越的效果。例如，GPT系列

发表于 10-23 14:38 •458次阅读

NVIDIA Parabricks v4.3.1版本的新功能

NVIDIA Parabricks 扩大了 NVIDIA 利用深度学习解决基因组学挑战的范围，持续推动基因组学仪器的发展。NVIDIA Parabricks v4.3.1 在欧洲人类遗传学

发表于 09-10 10:22 •382次阅读

Transformer语言模型简介与实现过程

在自然语言处理（NLP）领域，Transformer模型以其卓越的性能和广泛的应用前景，成为了近年来最引人注目的技术之一。Transform

发表于 07-10 11:48 •1711次阅读

Meta AI主管杨立昆：大语言模型尚未到达人类智能水平

他明确提出，虽然此类模型在特定任务中展现出优越性能，但其内在局限性使其难以媲美人类的智慧，如推理

发表于 05-23 17:18 •727次阅读

【大语言模型：原理与工程实践】大语言模型的应用

类任务上表现出色，甚至在零样本条件下也能取得良好效果。另一类则需要逐步推理才能完成的任务，类似于人类的系统2，如数字推理等。然而，随着参数量的增加，大

发表于 05-07 17:21

【大语言模型：原理与工程实践】大语言模型的评测

在知识获取、逻辑推理、代码生成等方面的能力。这些评测基准包括语言建模能力、综合知识能力、数学计算能力、代码能力和垂直领域等多个维度。对于微调模型，对话能力的评测关注模型在对话

发表于 05-07 17:12

【大语言模型：原理与工程实践】大语言模型的预训练

如此卓越的性能，就是通过其核心能力对海量数据进行预训练，再进行微调或对其什么型更好的根据人类的指令和偏好，发挥这些性能。随着语言模型参数的不

发表于 05-07 17:10

Snowflake推出面向企业AI的大语言模型

Snowflake公司近日推出了企业级AI模型——Snowflake Arctic，这是一款大型语言模型（LLM），专为满足企业复杂工作负载的需求而设计。Snowflake Arcti

发表于 05-07 10:03 •473次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

之后，成为文本建模领域的热门架构。不仅如此，它还对自然语言处理领域产生了深远的影响。基于Transformer的预训练模型，如GPT系列和BERT系列，已在多种任务上取得了卓越的成绩。

发表于 05-05 12:17

【大语言模型：原理与工程实践】揭开大语言模型的面纱

化能力和适应性。在自然语言处理任务中，大语言模型展现出

发表于 05-04 23:55

小红书搜索团队研究新框架：负样本在大模型蒸馏中的重要性

在思维链（CoT）提示的帮助下，大语言模型（LLMs）展现出强大的推理能力。然而，思维链已被证明是千亿级参数模型才具有的涌现能力。

发表于 01-30 10:37 •1062次阅读

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用

近期的大语言模型（LLM）在自然语言理解和生成上展现出了接近人类的强大能力，远远优于先前的BERT等预训练

发表于 01-04 14:06 •461次阅读

搜索历史

基因组学大型语言模型在多项任务中均展现出卓越的性能和应用扩展空间

评论

Kimi发布视觉思考模型k1，展现卓越基础科学能力

NVIDIA AI助力日本制药公司推进药物研发

腾讯发布开源MoE大语言模型Hunyuan-Large

AI大模型在自然语言处理中的应用

NVIDIA Parabricks v4.3.1版本的新功能

Transformer语言模型简介与实现过程

Meta AI主管杨立昆：大语言模型尚未到达人类智能水平

【大语言模型：原理与工程实践】大语言模型的应用

【大语言模型：原理与工程实践】大语言模型的评测

【大语言模型：原理与工程实践】大语言模型的预训练

Snowflake推出面向企业AI的大语言模型

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】揭开大语言模型的面纱

小红书搜索团队研究新框架：负样本在大模型蒸馏中的重要性

模型与人类的注意力视角下参数规模扩大与指令微调对模型语言理解的作用