深度学习模型介绍,Attention机制和其它改进-电子发烧友网

深度学习模型介绍

DeepDive系统在数据处理阶段很大程度上依赖于NLP工具，如果NLP的过程中存在错误，这些错误将会在后续的标注和学习步骤中被不断传播放大，影响最终的关系抽取效果。为了避免这种传播和影响，近年来深度学习技术开始越来越多地在关系抽取任务中得到重视和应用。本章主要介绍一种远程监督标注与基于卷积神经网络的模型相结合的关系抽取方法以及该方法的一些改进技术。

Piecewise Convolutional Neural Networks（PCNNs）模型

PCNNs模型由Zeng et al.于2015提出，主要针对两个问题提出解决方案：

针对远程监督的wrong label problem，该模型提出采用多示例学习的方式从训练集中抽取取置信度高的训练样例训练模型。

针对传统统计模型特征抽取过程中出现的错误和后续的错误传播问题，该模型提出用 piecewise 的卷积神经网络自动学习特征，从而避免了复杂的NLP过程。

下图是PCNNs的模型示意图：

PCNNs模型主要包括以下几个步骤：

实验证明，PCNNs + 多实例学习的方法 Top N 上平均值比单纯使用多示例学习的方法高了 5 个百分点。

Attention机制和其它改进

上述模型对于每个实体对只选用一个句子进行学习和预测，损失了大量的来自其它正确标注句子的信息。为了在滤除wrong label case的同时，能更有效地利用尽量多的正确标注的句子，Lin et al. 于2016年提出了PCNNs+Attention（APCNNs）算法。相比之前的PCNNs模型，该算法在池化层之后，softmax层之前加入了一种基于句子级别的attention机制，算法的示意图如下：

除了Attention机制外，还有一些其它的辅助信息也被加入多示例学习模型来改关系抽取的质量，例如在计算实体向量的时候加入实体的描述信息（Ji et al.，2017）；利用外部神经网络获取数据的可靠性和采样的置信度等信息对模型的训练进行指导（Tang et al.，2017）。

下图显示了各模型和改进算法的准确率和召回率的对比，其中Mintz不对远程监督的wrong label problem做处理，直接用所有标注样例进行训练；MultiR和MIML是采用概率图模型进行示例筛选的两种多示例学习模型；PCNN+MIL是本章第一小节介绍的模型；APCNNs 在PCNN+MIL基础上添加了attention机制；PCNNs+D在PCNN+MIL基础上添加了对描述信息的使用；APCNNs+D在APCNNs基础上添加了对描述信息的使用。实验采用的是该领域评测中使用较广泛的New York Times（NYT）数据集（Riedel et al.，2010）。

深度学习方法在图谱构建中的应用进展

深度学习模型在神马知识图谱数据构建中的应用目前还处于探索阶段，本章将介绍当前的工作进展和业务落地过程中遇到的一些问题。

语料准备和实体向量化

深度学习模型较大程度依赖于token向量化的准确性。与基于DeepDive方法的语料准备相同，这里的token切分由以词为单位，改为以实体为单位，以NER环节识别的实体粒度为准。Word2vec生成的向量表征token的能力与语料的全面性和语料的规模都很相关，因此我们选择百科全量语料作为word2vec的训练语料，各统计数据和模型参数设置如下表所示：

为了验证词向量训练的效果，我们对word2vec的结果做了多种测试，这里给出部分实验数据。下图所示的是给定一个实体，查找最相关实体的实验：

以下是给定一个实体对和预测实体对的其中一个实体，计算预测实体对中另一个实体的实验。随机选取了五种预测关系，构造了15组给定实体对和预测实体对，预测结果如下图所示，除了飘红的两个例子，其余预测均正确：

模型选取与训练数据准备

具体应用中我们选择采用APCNNs模型。我们在NYT标准数据集上复现了上一章提到的几种关键模型，包括CNN+MIL，PCNN+MIL，CNNs（基于Attention机制的CNN模型）和APCNNs。复现结果与论文中给出的baseline基本一致，APCNNs模型的表现明显优于其它模型。下图是几种模型的准召结果对比：

为了得到丰富的训练数据，我们取知识图谱中建设相对完善的人物、地理位置、组织机构、电影、电视、图书等领域下的15个核心关系，如电影演员、图书作者、公司高管、人物出生地等，对照百科全量语料，产出relation值为15个关系之一的标注正例，合计数目在千万量级，产出无relation值标注（relation值为NA）的示例超过1亿。

应用尝试和问题分析

APCNNs模型在辅助知识图谱数据构建中目前还处于尝试阶段。就运算能力而言，APCNNs模型相比DeepDive系统更有优势，能在大规模语料上同时针对多个关系进行计算，且迭代更新过程无需人工校验交互。但在业务落地过程中，我们也遇到了一些问题，总结如下：

大规模实验耗时过长，给参数的调整和每一次算法策略上的迭代增加了难度

目前学术界通用的测试语料是英文的NYT数据集，相同的模型应用于中文语料时，存在准召率对标困难的问题

深度学习的过程人工难以干预。假设我们要预测（杨幂，刘恺威）的婚姻关系，但从最初的基于大规模语料的词向量生成开始，如果该语料中（杨幂，刘恺威）共现时的主导关系就不是婚姻关系，而是影视剧中的合作关系（如“该片讲述杨幂饰演的夏晚晴在遭遇好友算计、男友婚变的窘境下，被刘恺威饰演的花花公子乔津帆解救，但却由此陷入更大圈套的故事。”），或基于某些活动的共同出席关系（如“杨幂与刘恺威共同担任了新浪厦门爱心图书馆的公益大使”），则在attention步骤中得到的关系向量就会偏向合作关系，这将导致计算包中每个句子的权值时，表达婚姻关系的句子难以获得高分，从而导致后续学习中的偏差。

深度学习模型的结果较难进行人工评测，尤其对于知识图谱中没有出现的实体对，需要在大规模的中间过程矩阵中进行匹配和提取，将权重矩阵可视化为包中每个句子的得分，对计算资源和人工都有不小的消耗。

总结与展望

基于DeepDive的方法和基于深度学习的方法各有优势和缺陷，以下从4个方面对这两种方法进行总结和对比：

1、语料的选取和范围

Deepdive可适用于较小型、比较专门的语料，例如历史人物的关系挖掘；可以针对语料和抽取关系的特点进行调整规则，如婚姻关系的一对一或一对多，如偏文言文的语料的用语习惯等。

APCNNs模型适用于大规模语料，因为attention机制能正常运行的前提是word2vec学习到的实体向量比较丰富全面。

2、关系抽取

Deepdive仅适用于单一关系的判断，分类结果为实体对间某一关系成立的期望值。针对不同的关系，可以运营不同的规则，通过基于规则的标注能较好地提升训练集的标注准确率。

APCNNs模型适用于多分类问题，分类结果为relation集合中的关系得分排序。无需针对relation集合中特定的某个关系做规则运营。

3、长尾数据

Deepdive更适用于长尾数据的关系挖掘，只要是NER能识别出的实体对，即使出现频率很低，也能根据该实体对的上下文特征做出判断。

APCNNs模型需要保证实体在语料中出现的次数高于一定的阈值，如min_count>=5，才能保证该实体有word2vec的向量表示。bag中有一定数量的sentence，便于选取相似度高的用于训练

4、结果生成与检测

Deepdive对输出结果正误的判断仅针对单个句子，同样的实体对出现在不同的句子中可能给出完全不同的预测结果。测试需要结合原句判断结果是否准确，好处是有原句作为依据，方便进行人工验证。

APCNNs模型针对特定的实体对做判断，对于给定的实体对，系统给出一致的输出结果。对于新数据的结果正确性判断，需要结合中间结果，对包中被选取的句子集合进行提取和验证，增加了人工检验有的难度。

在未来的工作中，对于基于DeepDive的方法，我们在扩大抓取关系数目的同时，考虑将业务实践中沉淀的改进算法流程化、平台化，同时构建辅助的信息增补工具，帮助减轻DeepDive生成结果写入知识图谱过程中的人工检验工作，例如，对于婚姻关系的实体对，我们可以从图谱获取人物的性别、出生年月等信息，来辅助关系的正误判断。

对于基于深度学习的方法，我们将投入更多的时间和精力，尝试从以下几方面促进业务的落地和模型的改进：

将已被DeepDive证明有效的某些改进算法应用到深度学习方法中，例如根据关系相关的关键词进行过滤，缩小数据规模，提高运行效率。

将计算中间结果可视化，分析attention过程中关系向量与sentence选取的关联，尝试建立选取结果好坏的评判机制，尝试利用更丰富的信息获得更准确的关系向量。

考虑如何突破预先设定的关系集合的限制，面向开放领域进行关系抽取，自动发现新的关系和知识。

探索除了文本以外其它形式数据的关系抽取，如表格、音频、图像等。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4785

浏览量
101282
深度学习

深度学习

+关注

关注
73

文章
5521

浏览量
121671

原文标题：首次公开：深度学习在阿里知识图谱构建中的应用

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

如何才能高效地进行深度学习模型训练？

分布式深度学习框架中，包括数据/模型切分、本地单机优化算法训练、通信机制、和数据/模型聚合等模块。现有的算法一般采用随机置乱切分的数据分配方

发表于 07-09 08:48 •1.4w次阅读

如何才能高效地进行<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>模型</b>训练？

深度学习的改进方法

深度学习如何改进（一）

发表于 07-01 16:46

深度学习在预测和健康管理中的应用

方法方面的最新进展，目的是发现研究差距并提出进一步的改进建议。在简要介绍了几种深度学习模型之后，我们回顾并分析了使用

发表于 07-12 06:46

深度学习模型是如何创建的？

嵌入式系统已被证明可以降低成本并增加各个行业的收入，包括制造工厂，供应链管理，医疗保健等等。本文将介绍有关深度学习嵌入式系统的信息。深度学习

发表于 10-27 06:34

什么是深度学习？使用FPGA进行深度学习的好处？

准确的模型。有了上述机制，现在可以通过让神经网络模型学习各种问题来自动解决问题，创建高精度模型，并对新数据进行推理。然而，由于单个神经网络只

发表于 02-17 16:56

Attention的具体原理详解

注意力机制即Attention mechanism在序列学习任务上具有巨大的提升作用，在编解码器框架内，通过在编码段加入A模型，对源数据序列进行数据加权变换，或者在解码端引入A

发表于 11-23 10:44 •8010次阅读

为什么要有attention机制，Attention原理

没有attention机制的encoder-decoder结构通常把encoder的最后一个状态作为decoder的输入（可能作为初始化，也可能作为每一时刻的输入），但是encoder的state

发表于 03-06 14:11 •1.7w次阅读

为什么要有<b class='flag-5'>attention</b><b class='flag-5'>机制</b>，<b class='flag-5'>Attention</b>原理

移植深度学习算法模型到海思AI芯片

本文大致介绍将深度学习算法模型移植到海思AI芯片的总体流程和一些需要注意的细节。海思芯片移植深度学习

发表于 01-26 19:42 •11次下载

ChatGPT反思大语言模型的技术精要

在Bert和GPT模型出现之前，NLP领域流行的技术是深度学习模型，而NLP领域的深度学习，主要

发表于 01-11 14:33 •2303次阅读

大模型为什么是深度学习的未来？

与传统机器学习相比，深度学习是从数据中学习，而大模型则是通过使用大量的模型来训练数据。

发表于 02-16 11:32 •2187次阅读

简述深度学习中的Attention机制

Attention机制在深度学习中得到了广泛的应用，本文通过公式及图片详细讲解attention机制

发表于 02-22 14:21 •1773次阅读

深度学习的模型优化与调试方法

深度学习模型在训练过程中，往往会遇到各种问题和挑战，如过拟合、欠拟合、梯度消失或爆炸等。因此，对深度学习

发表于 07-01 11:41 •1061次阅读

深度学习模型训练过程详解

详细介绍深度学习模型训练的全过程，包括数据预处理、模型构建、损失函数定义、优化算法选择、训练过程以及模型

发表于 07-01 16:13 •1612次阅读

深度学习中的模型权重

在深度学习这一充满无限可能性的领域中，模型权重（Weights）作为其核心组成部分，扮演着至关重要的角色。它们不仅是模型学习的基石，更是

发表于 07-04 11:49 •2363次阅读

AI大模型与深度学习的关系

AI大模型与深度学习之间存在着密不可分的关系，它们互为促进，相辅相成。以下是对两者关系的介绍：一、深度

发表于 10-23 15:25 •1508次阅读

林超文PCB设计：PADS教程，PADS视频教程	郑振宇老师：Altium Designer教程，Altium Designer视频教程
张飞实战电子视频教程	朱有鹏老师：海思HI3518e教程，HI3518e视频教程
李增老师：信号完整性教程，高速电路仿真教程	华为鸿蒙系统教程，HarmonyOS视频教程
赛盛：EMC设计教程，EMC视频教程	杜洋老师：STM32教程，STM32视频教程
唐佐林：c语言基础教程，c语言基础视频教程	张飞：BUCK电源教程，BUCK电源视频教程
正点原子：FPGA教程，FPGA视频教程	韦东山老师：嵌入式教程，嵌入式视频教程
张先凤老师：C语言基础视频教程	许孝刚老师：Modbus通讯视频教程
王振涛老师：NB-IoT开发视频教程	Mill老师：FPGA教程，Zynq视频教程
C语言视频教程	RK3566芯片资料合集
朱有鹏老师：U-Boot源码分析视频教程	开源硬件专题

搜索历史

深度学习模型介绍,Attention机制和其它改进

评论

如何才能高效地进行深度学习模型训练？

深度学习的改进方法

深度学习在预测和健康管理中的应用

深度学习模型是如何创建的？

什么是深度学习？使用FPGA进行深度学习的好处？

Attention的具体原理详解

为什么要有attention机制，Attention原理

移植深度学习算法模型到海思AI芯片

ChatGPT反思大语言模型的技术精要

大模型为什么是深度学习的未来？

简述深度学习中的Attention机制

深度学习的模型优化与调试方法

深度学习模型训练过程详解

深度学习中的模型权重

AI大模型与深度学习的关系