写在前面

文本是参加2020CCKS评测基于本体的金融知识图谱自动化构建技术之后的一篇总结博客，笔者查阅了大量文献，并做了大量采用深度学习模型的实验，但最终提交时效果最好的方法还是规则匹配。

文本中总结了笔者在最终提交时所使用的方案，以及在参加评测过程中所尝试的各种实验，另外还有评测结束后还没有来得及实现的一些想法。

1. 评测任务介绍

1.1 介绍

金融研报是各类金融研究结构对宏观经济、金融、行业、产业链以及公司的研究报告。报告通常是由专业人员撰写，对宏观、行业和公司的数据信息搜集全面、研究深入，质量高，内容可靠。报告内容往往包含产业、经济、金融、政策、社会等多领域的数据与知识，是构建行业知识图谱非常关键的数据来源。

另一方面，由于研报本身所容纳的数据与知识涉及面广泛，专业知识众多，不同的研究结构和专业认识对相同的内容的表达方式也会略有差异。这些特点导致了从研报自动化构建知识图谱困难重重，解决这些问题则能够极大促进自动化构建知识图谱方面的技术进步。

本评测任务参考TAC KBP中的Cold Start评测任务的方案，围绕金融研报知识图谱的自动化图谱构建所展开。评测从预定义图谱模式（Schema）和少量的种子知识图谱开始，从非结构化的文本数据中构建知识图谱。

其中图谱模式包括 10 种实体类型，如机构、产品、业务、风险等；19 个实体间的关系，如(机构，生产销售，产品)、(机构，投资，机构)等；以及若干实体类型带有属性，如（机构，英文名）、（研报，评级）等。在给定图谱模式和种子知识图谱的条件下，评测内容为自动地从研报文本中抽取出符合图谱模式的实体、关系和属性值，实现金融知识图谱的自动化构建。

1.2 其他相关信息

笔者GitHub代码^[1]，最终排名为第五名：

2.目前方案

由于评测包含的子任务比较多，有实体识别、关系抽取和属性抽取；可使用的技术也非常多，有监督，无监督，半监督等等；所以笔者在做评测的过程中尝试了很多方法，但是大部分的模型都不如规则，所以笔者最终提交的方案中使用了大量规则匹配方法。

2.1 方案整体流程图

整体方案流程图

整体结构可以分为实体识别和关系、属性抽取两部分；流程可以分为6步，其中2、3和4步会重复执行多次。

第1步：通过Hanlp和规则匹配的方式抽取部分实体；
第2步：采用远程监督方法，用种子知识图谱对齐无标数据得到标出了实体的数据；
第3步：用上一步得到的标出了实体的数据训练模型；
第4步：用上一步训练的实体识别模型抽取无标数据中的实体，并将抽取出的实体加入到种子知识图谱中，增加种子知识图谱的规模，重复2，3，4步多次不断使种子知识图谱规则不断扩大；
第5步：通过重复2，3，4步多次后得到扩展了大量实体的知识图谱，用种子知识图谱对齐无标数据，将无标数据中的实体都找出来；
第6步：通过上一步得到无标数据中的实体后，使用规则的方法判断实体间的关系和属性。

2.2 实体抽取部分

1）外部工具

通过Hanlp实体识别工具，抽取“人物”和“机构”两种类型的实体。Hanlp工具的实体识别模型是其他有标语料上训练的，这里使用外部工具本质上是使用了迁移学习方法。

2）规则

通过规则，抽取“研报“，“文章“，“风险“，“ 机构“四种类型的实体。

3）深度学习（远程监督实体识别）

除了规则匹配外，还可以采用远程监督的方法，主要用于抽取研报中的实体，具体流程如下图所示：

远程监督实体识别

使用规则和外部工具抽取一部分实体；
将原始数据平均分成两半，一半用于训练，一半用于测试，对用于训练的一半数据使用远程监督进行标注；
采用将远程监督方法标注的数据按4:1划分，分别作为训练和验证集，训练模型；
使用上一步训练出的模型在测试集上进行预测，抽取出一部分实体；
通过规则匹配的方法筛选掉一些实体，剩下的实体加入种子知识图谱，然后从第2步开始，重复上一次训练，迭代进行实体抽取。

2.3 关系抽取、属性抽取部分

关系抽取和属性抽取方法非常相似，可以使用同样的方案来解决。

在做评测的过程中，考虑到没有给出有标注的关系抽取数据集，所以最初我计划采用远程监督关系抽取的相关方法，首先使用经典的模型PCNN做了相关实验，在实验过程中发现语料中有大量的关系需要通过跨句的抽取方法才能识别，所以又查看了文档级关系抽取的相关方法。但是，目前文档级关系抽取方法几乎都使用有监督训练，所以笔者最后对数据做了一些处理后，还是使用了PCNN+ATT模型。在进行了相关实验后并与使用规则的方法做比较之后，笔者发现深度学习模型在对关系的准确率上还是差的比较远，所以在评测的最后阶段还是采用的规则匹配方法。

3.相关实验

下面是在参加评测的过程中，笔者做的采用深度学习方法的一些实验，笔者比较了各种方法的优劣，选了几种在评测给定的场景下较优的方法，但是在最终的效果都不如采用规则匹配的方法。这里笔者把在评测中做的一些实验，采用的一些模型做一个总结。

3.1 实体抽取部分

3.1.1 BERT-MRC模型

该评测的实体识别模型就采用的该方法，BERT-MRC模型是目前实体识别领域的SOTA模型（2020年），在数据量较小的情况下效果较其他模型要更好，原因是因为BERT-MRC模型可以通过问题加入一些先验知识，减小由于数据量太小带来的问题。在实际实验中，在数据量比较小的情况下，BERT-MRC模型的效果确实要较其他模型要更好些。BERT-MRC模型很适合用在本评测这种缺乏标注数据的场景下。

（1）方法概述

任务定义：给定一个文本序列，它的长度为，要抽取出其中的每个实体，其中实体都属于一种实体类型。
模型思想：假设该数据集的所有实体标签集合为，那么对其中的每个实体标签，比如地点“国家”，都有一个关于它的问题。这个问题可以是一个词，也可以是一句话等等。使用上述MRC中片段抽取的思想，输入文本序列和问题，是需要抽取的实体，BERT_MRC通过建模来实现实体抽取。
提示信息（问题构造）：对于问题的构造是建模的重要环节。BERT_MRC使用“标注说明”作为每个标签的问题。所谓“标注说明”，是在构造某个数据集的时候提供给标注者的简短的标注说明。比如标注者要去标注标签为“国家”的所有实体，那么对应“国家”的标注说明就是 “指拥有共同的语言、文化、种族、血统、领土、政府或者历史的社会群体。

（2）模型输入与模型损失

将问题和语料中的句子合并成一句话作为输入，问题和语料句之间用BERT的句子级特殊符号“[SEP]”隔开，下图中红色框线框出的为问题：

输入示例

在用BERT编码得到词向量之后，训练三个分类器，得到开始、结束位置标签以及一个概率矩阵。上述两个标签一个矩阵共可以求三个loss，模型的总loss是上述三个loss之和：

损失函数

3.1.2 BERT-CRF、LSTM-CRF模型

将实体识别看做一个序列标注问题，设计BIO和实体类型的联合标签，每个字符对应一个标签。在训练时，采用标注了标签的字符序列作为语料训练模型，预测阶段使用模型预测字符对应的标签，然后通过标签得到实体的片段的具体位置以及实体片段的类型。

命名实体识别经典的baselineLSTM-CRF采用的就是这种方法，18年之后BERT代替了LSTM，b变成了一个重要的实体识别baseline。采用CRF的原因是CRF能对标签的转移状态建模，减小一些错误的标签序列出现的概率，增加模型的准确率。

样本示例

3.1.3 Simple-Lexicon模型

以LatticeLSTM为代表的词汇增强模型，其主要目的是解决中文分词的问题。实体识别任务经常被转换为一个序列标注问题，序列标注问题以字为单位，预测每个字对应的标签，模型的输入是以字序列作为输入，而以字序列的形式进行编码和解码，会忽略中文中重要的分词信息。如何分词在中文NLP任务中是非常重要的，会很大地影响模型的性能。

词汇增强模型的目的就是为了解决以如何让以字作为输入的模型使用词汇信息，在该评测中笔者只简单的做了一些和Simple-Lexicon模型相关的实验。笔者发现Simple-Lexicon模型并没有比BERT-CRF模型的效果好很多，分析原因是由于任务的特殊性，影响远程监督实体识别模型性能的比较重要的因素还是在于远程监督和迭代增强带来的错误传递和召回率低等问题，采用什么样的实体识别模型对能否解决以上两个问题其实影响并不大。

3.2 关系抽取、属性抽取部分

3.2.1 远程监督关系抽取与多示例学习

远程监督假设是指，假如两个实体之间存在某种关系，那么所有这两个实体共现的句子都有可能表达这种关系。这一假设过强，有些两个实体共现的句子并不能表达实体间的这种关系，例如下图中的两个句子，以及关系三元组 (“比尔盖茨，创建者，微软”)。

远程监督与噪声数据

上图中的两个句子有一个可以体现三元组表达的关系，另一个不能表达这种关系。这些不能表达两个实体间关系信息的句子根据远程监督假设也会被进行标注然后当做训练语料，这些句子就是噪声数据，噪声数据严重影响了远程监督关系抽取模型的性能。

目前能够有效地在使用远程监督方式标注的数据集上进行关系抽取的模型，基本都采用了多示例学习的方法（小喵以前也在小组内分享过这个方法）。多示例学习的具体做法是，将训练集划分成多个具有分类标签的多实例包（bag），每个包含有若干个实例（instance）。多示例学习通过对包中实例的学习，训练出一个能够对包进行分类的分类器，并将该分类器应用于对未知标签的多示例包的预测。

上图就是一个多示例包，这个包的标签是“创建者”类型，包中有两个实例。其中第一个实例可以表达“创建者”这种关系，而第二个实例则无法体现这种关系，使用多示例学习方式训练的分类器想要达到一定的性能，需要能够很好地分辨出哪些实例是正实例（能够体现包的标签的含义），哪些实例是负实例（不能体现包的标签的含义）。

3.2.2 PCNN-One模型、PCNN-ATT模型

在多示例学习的训练过程中，关于如何从包中选择出正实例用于关系分类，主要有三种思想：

一种是基于“至少一个”假设，即假设包中至少有一个句子实例可以代表实体对之间的关系，这时任务目标就是训练一个分类器，将包中最有可能代表实体间关系的句子作为输入，对关系进行分类。这种思想就是PCNN-One模型采用的方法。
另一种方法基于注意力机制，使用一个能代表实体间关系的向量和包中的句子实例求相似度，得到一个权重参数，对不同的实例分配以不同的权重再求和，通过注意力的方式减小噪声数据的影响。这种思想是PCNN-ATT模型采用的方法。
还有一种是使用强化学习的方式，筛选出正实例进行关系分类。由笔者没有接触过强化学习，所以没有做采用强化学习方法去噪的相关实验。

在实验过程中远程监督关系模型在其他的一些语料上表现还可以，但是在评测的数据集上效果很不理想，主要是因为评测语料数据是以金融研报文章为单位，和标准的远程监督关系抽取语料（以句子为单位，需要分类的两个实体都会在句子中出现）差别较大，所以笔者在最终提交时还是使用的规则匹配的方法，没有使用PCNN-One模型和PCNN-ATT模型。

4.相关问题

4.1 实体抽取部分

4.1.1 使用Snowball方法在迭代过程中产生错误传递

使用迭代训练的方法，在一次训练过程中模型抽取出了错误的实体片段，这个错误的片段加入到种子知识图谱去标注语料会造成错误传递，为了提高Snowball方法的抽取效果，需要设计过滤方法，将模型抽取出的实体经过筛选后再加入进种子知识图谱中。

在做评测的过程中，笔者使用了规则的方法，观察模型抽取的结果，然后设计规则，过滤错误片段。这种方法不是很有效，因为模型做一些调整后，抽取的结果就不同了，规则也需要做相应的修改。而且错误片段的种类非常多，规则的方法很难全部覆盖到。

4.1.2 远程监督训练召回率低

如下图所示，种子知识图谱中有比尔盖茨和微软两个实体，通过实体对齐之后，无标数据中的比尔盖茨和微软两个实体被标注出来，但是，由于知识图谱的规模限制，实体保罗·艾伦不在知识图谱中，通过远程监督的方式不能将该实体标注出来。

采用知识图谱对齐的方式会出现大量的目标实体未被标注的情况，所以使用远程监督标注的数据集训练的模型召回率比较低。

Snowball方法理论上是解远程监督实体识别召回率低的一个比较好的方案，但是实际实验结果却不是非常好。笔者打算在未来的改进方案中结合少量人工标注的数据，解决由于远程监督造成的召回率低的问题。

4.2 关系抽取、属性抽取部分

由于语料的问题，必须从句子级的关系抽取扩展到文档级别的关系抽取。

5.改进方案

这部分内容笔者正在尝试突破的方向，也是笔者研究生毕设的内容，现在已经有一些想法但还不好直接写出来，如果之后有一定的成果我再来完善。

5.1 实体抽取部分

在现有的方案上主要做两点改进：

1）加入使用深度学习方法训练的实体判别器

2）使用迁移学习的方法，在训练过程中加入相关领域的人工标注数据集，以及自己标注的部分数据，解决远程监督训练召回率低的问题

5.2 关系抽取/属性抽取部分

在现有的方案上主要做两点改进：

1）增加关系分类器，解决远程监督关系抽取的噪声问题

主要是参考AAAI2020年的一篇论文NeuralSnowball，增加一个像RSN关系分类器的模块，增强模型对噪声数据的区分，同时用人工标注一部分数据，使用其他领域大规模有标数据，少量人工标注的任务数据和大量无标注的任务数据做迁移学习。

2）使用文档级关系抽取模型

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

自动化

自动化

+关注

关注
29

文章
5567

浏览量
79263
知识图谱

知识图谱

+关注

关注
2

文章
132

浏览量
7706

原文标题：5.改进方案

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

据外媒11月7日报道，三星电子全球AI中心总监Kim Dae-hyun近日透露，公司正致力于自主研发知识图谱技术，旨在进一步优化Galaxy AI的功能，提升其易用性，并加强用户数据的隐私保护。

发表于 11-07 15:19 •613次阅读

三星电子将收购英国知识图谱技术初创企业

在人工智能技术日新月异的今天，三星电子公司再次展现了其前瞻性的战略布局与技术创新实力。近日，三星正式宣布完成了对英国领先的人工智能（AI）与知识图谱技术初创企业Oxford Seman

发表于 07-18 14:46 •524次阅读

知识图谱与大模型之间的关系

在人工智能的广阔领域中，知识图谱与大模型是两个至关重要的概念，它们各自拥有独特的优势和应用场景，同时又相互补充，共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深入探讨知识图谱与大模型之间的关系。

发表于 07-10 11:39 •1044次阅读

机械自动化和电气自动化区别是什么

机械自动化和电气自动化是现代工业生产中两个重要的领域，它们在许多方面有着密切的联系，但也存在一些明显的区别。一、基本概念机械自动化 机械自动化是指利用机械设备、传感器、控制系统等

发表于 07-01 09:33 •4056次阅读

机械自动化是自动化的一种吗

引言 自动化技术是指利用控制装置对生产过程进行控制，以实现生产过程的自动化。机械自动化是自动化技术

发表于 07-01 09:32 •1660次阅读

自动化设备的伺服电机选型指南

在自动化设备的设计和构建过程中，伺服电机的选择是至关重要的一个环节。伺服电机作为控制系统的执行机构，其性能直接影响到自动化设备的整体运行效率和精度。本文将详细介绍自动化设备中伺服电机的

发表于 06-13 11:15 •858次阅读

工业自动化包含哪些技术领域

工业自动化是指在工业生产过程中，通过使用自动化设备和系统，实现生产过程的自动化控制和管理。工业自动化技术领域广泛，涉及多个学科和

发表于 06-11 11:26 •1004次阅读

机械制造与自动化是自动化类吗

机械制造与自动化是自动化领域的一个重要分支，它涉及到机械设计、制造、检测、控制等多个方面，是现代制造业的核心组成部分。机械制造与自动化是指利用计算机、机器人、传感器等自动化设备和

发表于 06-11 11:18 •1520次阅读

工业自动化和自动化区别是什么

工业自动化和自动化是两个密切相关但又有所区别的概念。在这篇文章中，我们将详细探讨它们之间的区别，以及它们在现代工业生产中的应用。一、自动化的定义 自动化是指通过使用机器、计算机和其他

发表于 06-11 11:13 •1691次阅读

工业自动化包含哪些技术

工业自动化是现代制造业中不可或缺的一部分，它通过使用各种技术和设备来提高生产效率、降低成本、提高产品质量和安全性。一、工业自动化概述工业自动化是指在生产过程中，通过使用计算机、传感

发表于 06-11 11:11 •952次阅读

工业自动化控制技术原理是什么

工业自动化控制技术是现代工业生产中不可或缺的一部分，它通过自动控制系统对生产过程进行监控、调节和优化，以提高生产效率、降低成本、保证产品质量和提高生产安全性。本文将详细介绍工业自动化控

发表于 06-11 11:06 •1554次阅读

机器视觉检测技术在工业自动化中的应用

随着科技的飞速发展，工业自动化已成为现代工业生产的核心动力。在这个背景下，机器视觉检测技术作为工业自动化中的关键技术之一，以其高精度、高效率、高可靠性的优势，在工业

发表于 06-07 12:06 •843次阅读

利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统（下）

对于语言模型（LLM）幻觉，知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息，减少了LLM中出现幻觉的可能性。

发表于 02-22 14:13 •1209次阅读

自动化构建环境在FPGA设计中的应用

为了加快实现 FPGA 构建环境的自动化（如用于持续集成 (CI)），并确保在开发与生命周期后期阶段完整重现设计结果，Missing Link Electronics 团队已整合出一套脚本。

发表于 02-20 11:05 •430次阅读

知识图谱基础知识应用和学术前沿趋势

知识图谱（Knowledge Graph）以结构化的形式描述客观世界中概念、实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、自然语言处理、Web技术、机器学习与大数据挖

发表于 01-08 10:57 •954次阅读

搜索历史

基于本体的金融知识图谱自动化构建技术