0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Net5.5G智能云网即将全面发布,打造新一代数字基础设施

华为数据通信 来源:智能感知与物联网技术研 2024-02-26 10:42 次阅读

中科大团队开发首个通用的大语言模型分子交互学习框架,在多个数据集超 4,000,000 个分子对上验证了其可靠性。

简述

分子关系学习(Molecular Relational Learning)旨在理解和建模分子对的交互作用,如分子对交互(Drug-drug Interaction,DDI)、溶液-溶剂交互(Solution-solvent Interaction)。近来,凭借丰富的知识储备和优秀的推演能力,大型语言模型(LLMs)已成为实现分子关系高效学习的重要工具。

尽管这一方法颇有成效,但当前范式的主要问题是数据利用的不充分。如下图(a)所示,当前范式主要依赖于文本数据(如 SMILES),未能充分且显式地利用分子图中固有的丰富结构信息

加剧这一问题的是统一学习框架的缺失,因为其阻碍了从各个数据集中学习到的关键交互信息与底层交互逻辑的高效共享和整合。如下图 b 所示,这一缺失扩大了数据利用的不充分的影响,使得 LLMs 因高度过拟合的风险而无法建模那些广泛存在的、数据量较少的分子交互任务。

wKgZomXb-xiAG2xwAAQuCmS3G-g797.jpg

▲ 图1:当前基于 LLMs 的分子交互学习范式与 MolTC 的比较。(a)现行方法的通用范式;(b)将当前范式应用于样本量较少的任务时所带来的挑战;(c)我们的 MolTC 的架构。

为了缓解这一问题,我们提出了一个通用的、基于 LLM 的多模态分子交互学习框架,MolTC(Molecular inTeraction Modeling enhanced by Chain-of-thought theory)。如上图 c 所示,MolTC 通过图编码器(Encoder)和映射器(Projector)高效地建模分子图信息,并创新性地提出了多层级思维链(Multi-hierarchical Chain-of-thought)的概念来引导训练范式的优化。

此外,为了加强数据间的信息共享,我们为其设计了一个新颖的动态参数共享策略,以实现效率和精度的双赢。同时,鉴于这一领域数据集的缺失,我们还构建了一个全面的分子交互指令数据集,MoT-instructions,用于提高当前基于 LLMs 的学习框架(包扩我们的 MolTC)对分子交互任务的理解能力。

我们在涉及超过 4,000,000 个分子对的十二个不同领域数据集上进行了验证实验。结果表明,我们的方法优于当前基于 GNN 的、基于(除 GNN 外)其它传统深度学习架构的、和基于 LLMs 的基线方法。

多模态输入框架

我们首先简要介绍上图 c 中所示的 MolTC 框架。其中,Graph Encoder 采用传统的图神经网络(GNN)架构;Projector 采用在视觉领域常用于多模态对齐的 Querying Transformers (Q-Former)架构,作为 backbone 的 LLM 则是采用在生化任务中表现突出的 Galactica。更多细节劳请移步我们的论文和代码。

基于多层级思维链的训练范式

我们重点介绍基于多层级思维链的 MolTC 训练范式。首先,考虑到从分子对中直接生成复杂相互作用的挑战性,处于上层的思维链指导 MolTC 的预训练过程优先识别并按次序输出输入分子对中,每个分子的关键生化性质,为准确预测它们的交互奠定基础。具体而言,在预训练阶段,Prompts 的统一设计如下:

wKgZomXb-xeACnZ9AADkUPAur2E880.jpg

预训练阶段的数据来自多个权威的、包含分子-性质对的生化数据库如 Drugbank 和 PubChem。为了提高 MolTC 在不同分子交互场景下的泛化能力,我们对上述数据库中的分子进行随机组合,来构造不同的分子对。

随后,在微调阶段,针对定性分子交互分析任务,Prompts 直接根据特定的下游任务进行定制。而针对传统 LLMs 较难处理的定量分析任务,下层的思维链指导 MolTC 优先为目标数值预估一个大致的范围,然后逐步将其细化到一个精确的值。以溶液-溶剂交互任务为例,其 Prompts 的设计如下:

wKgaomXb-xiAZAbwAAFjJa2wiP0534.jpg

动态参数共享策略

为了提高上述训练范式的效率,MolTC 引入了一种新颖的参数共享策略。具体而言,我们首先考虑分子交互任务的以下关键属性:

(1)交互中分子角色的重要性。例如,在溶液-溶剂交互场景中,水和乙醇互为溶剂会产生不同的能量释放。某些时候,角色的颠倒甚至会导致交互反应的停滞。

(2)交互中分子顺序的重要性。例如,在药物对交互场景中,药物引入顺序的不同可能会导致不同的治疗效果。

(3)分子角色/顺序带来的特征重要性的差异。例如,在发色团-溶液对中,一个化学基团在溶液内会对交互属性产生关键的影响,但其在发色团中时,则可能对交互无足轻重。

wKgZomXb-xiAfUCpAAGMqSlMQhw455.jpg

▲ 图2:应用动态参数共享策略后的的 MolTC 训练范式。其中,链环表示两个模块之间的参数共享;雪花表示参数冻结;火焰表示参数更新。

这些属性自然地启发 MolTC 适应性地优先考虑俩个分子内的不同信息,即根据角色和顺序为分子创建独特的编码。具体而言,为了学习到这种差异性,同时维持分子对中学习到的共性信息的共享,我们引入了如下参数共享策略:

(1)考虑 Graph Encoder 专注于提取底层的分子图结构,并未将语义与分子结构进行对齐,因此,在预训练和微调阶段,MolTC 共享俩个 Graph Encoder 的参数,以增强其学习效率。

(2)考虑 Projector 专注于实现分子结构与语义信息的对齐,因此,在预训练阶段,MolTC 共享俩个 Projector 的参数以提高系统的泛化性和鲁棒性;在微调阶段,MolTC 终止这一共享,实现根据不同下游任务中的分子角色和顺序量身定制的语义映射。

MoT-instruction数据集开发

在 MolTC 的训练过程中,鉴于当前缺乏一个通用的、为大模型分子关系学习量身定制的指令数据集,我们首先给出这一数据集应当满足的关键性质:(1)它应包含横跨多个领域的、可以进行交互的大量分子对;(2)它应详细描述这些分子对中每个分子的重要生化属性,以及(3)它应根据思维链的形式阐述分子对的交互性质。

具体来说,我们通过以下三步构建上述 MoT-instructions 数据集:

(1)我们首先收集多个具有代表性的分子交互数据集,并从 DrugBank 和 PubChem 等权威生化数据库中获取这些交互所涉及分子的生化属性;

(2)随后,我们进行最优指令确定。具体而言,我们根据训练 MolTC 得到的预测性能作为指标,来对定量交互 instructions 中的数值区间进行设定。并结合该值的统计数据(如均值和方差)得出最优区间设定和统计数据之间的规律,推广至更多的定量交互数据集中;

(3)最后,我们将交互涉及的每个属性单独抽取至一个独立的数据空间,以在排除交互属性中缺失值、模糊值的干扰下,不浪费分子对所提供的其他有用信息。

实验

为了更全面地评估 MolTC 的有效性,我们将基线算法分为三类:基于 GNN 的、基于其他深度学习模型的以及基于 LLMs 的方法。部分定性和定量的实验结果如下表所示。更多结果如消融实验结果烦请移步我们的文章或代码。

wKgaomXb-xiAAnDsAAKQuxqhQh8193.jpg

▲ 表1:定性实验结果(以药物对交互任务为例)

wKgZomXb-xiAC2skAAKYl0_5Cng646.jpg

▲ 表2:定量实验结果(以溶液溶剂交互任务为例)




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3643

    浏览量

    134527
  • 语言模型
    +关注

    关注

    0

    文章

    524

    浏览量

    10277
  • GNN
    GNN
    +关注

    关注

    1

    文章

    31

    浏览量

    6344
  • LLM
    LLM
    +关注

    关注

    0

    文章

    288

    浏览量

    338

原文标题:MWC 2024 | 倒计时1天!Net5.5G智能云网即将全面发布,打造新一代数字基础设施

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    互联网演进跨越半世纪,智能化时代呼唤Net5.5G网络新代际

    沿着Net5.5G的方向加速前行,抵达充满数字黄金机遇的新大陆
    的头像 发表于 11-18 09:37 1988次阅读
    互联网演进跨越半世纪,<b class='flag-5'>智能</b>化时代呼唤<b class='flag-5'>Net5.5G</b>网络新代际

    Net5.5G智能IP网络峰会成功举办,全球Net5.5G加速商用部署

    上,全球领先运营商,产业组织,政府机构及设备厂商齐聚堂,分享Net5.5G IP承载演进和产业数字化演进新业务实践,启动全球Net5.5G
    的头像 发表于 11-05 09:55 199次阅读
    <b class='flag-5'>Net5.5G</b><b class='flag-5'>智能</b>IP网络峰会成功举办,全球<b class='flag-5'>Net5.5G</b>加速商用部署

    华为亮相Net5.5G智能IP网络峰会

    由联合国宽带委员会、全球宽带产业协会(WBBA)和华为共同举办的第十届全球超宽带高峰论坛(UBBF 2024)期间,在以“Net5.5G加速部署,迈向智能化时代”为主题的
    的头像 发表于 11-04 15:39 368次阅读

    Net5.5G,全球运营商的AI之翼

    在AI时代飞翔,运营商的Net5.5G共识与实践
    的头像 发表于 07-05 16:12 638次阅读
    <b class='flag-5'>Net5.5G</b>,全球运营商的AI之翼

    华为发布Net5.5G时代《IP自动驾驶网络白皮书》

    时代《IP自动驾驶网络白皮书》,旨在以AI注智Net5.5G网络,促进IP网络加速迈向L4高阶自智,助力运营商提质增效。   《IP自动驾驶网络白皮书》发布 在全球数字化转型的浪潮下,网络稳定以及用户体验变得尤其重要,运营商的网
    的头像 发表于 06-29 11:02 982次阅读

    南非MTN与华为签署Net5.5G战略合作MoU

    南非MTN与华为将持续定义Net5.5G目标,支持南非MTN在移动、企业以及家宽业务的持续发展。双方合作将在区域形成示范作用,加速新技术、新应用的落地,带动区域运营商持续发展。
    发表于 06-12 11:02 287次阅读
    南非MTN与华为签署<b class='flag-5'>Net5.5G</b>战略合作MoU

    深圳工信局与华为签署战略协议,打造一代互联网Net5.5G标杆城市

    在“全面智能化,跃升数智生产力”为主题的第21届华为全球分析师大会期间,深圳市工业和信息化局(深圳市工信局)与华为签署了战略合作协议,双方将共同推进深圳“极速宽带先锋城市”建设,打造世界先进、模式创新的下
    的头像 发表于 04-20 09:51 921次阅读
    深圳工信局与华为签署战略协议,<b class='flag-5'>打造</b>下<b class='flag-5'>一代</b>互联网<b class='flag-5'>Net5.5G</b>标杆城市

    深圳工信局与华为签署打造一代互联网Net5.5G标杆城市协议

    在“全面智能化,跃升数智生产力”为主题的第21届华为全球分析师大会期间,深圳市工业和信息化局(深圳市工信局)与华为签署了战略合作协议,双方将共同推进深圳“极速宽带先锋城市”建设,打造世界先进、模式创新的下
    的头像 发表于 04-19 09:24 426次阅读
    深圳工信局与华为签署<b class='flag-5'>打造</b>下<b class='flag-5'>一代</b>互联网<b class='flag-5'>Net5.5G</b>标杆城市协议

    华为中国合作伙伴大会2024:Net5.5G融合广域亮点解读

    华为中国合作伙伴大会2024 | Net5.5G融合广域亮点解读
    的头像 发表于 03-20 15:13 519次阅读
    华为中国合作伙伴大会2024:<b class='flag-5'>Net5.5G</b>融合广域<b class='flag-5'>网</b>亮点解读

    华为发布Net5.5G融合广域解决方案,加速推进产业智能化转型

    024年世界移动大会(MWC 2024)期间,华为发布Net5.5G融合广域解决方案,加速推进产业智能化转型,构筑智能融合IP城域网络的坚
    的头像 发表于 03-01 09:23 641次阅读

    华为发布Net5.5G融合广域解决方案

    在2024年世界移动通信大会(MWC 2024)上,华为发布了其革命性的Net5.5G融合广域解决方案,以推动产业智能化转型,并打造
    的头像 发表于 03-01 09:16 554次阅读

    华为发布Net5.5G智能的四大主力方案

    2024年世界移动通信大会(MWC 2024)期间,华为针对智能化时代的需求发布Net5.5G智能
    的头像 发表于 02-28 09:45 471次阅读

    华为发布Net5.5G智能4大主力方案,跃升数字生产力

    2024年世界移动大会(MWC 2024)期间,在主题为“智能,加速行业智能化” 的IP Club技术菁英汇上,华为面向智能化时代,
    的头像 发表于 02-28 09:42 520次阅读

    华为数据通信发布Net5.5G全系列产品及解决方案

    在MWC24 巴塞罗那期间,华为数据通信产品线总裁王雷发布Net5.5G全系列产品及解决方案。
    的头像 发表于 02-27 14:50 519次阅读

    商汤科技联合发布新一代人工智能基础设施白皮书》

    近日,商汤科技智能产业研究院携手中国信息通信研究院计算与大数据研究所、中国智能算力产业联盟以及人工智能算力产业生态联盟,共同发布了《
    的头像 发表于 01-03 14:28 823次阅读