0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

知识图谱:基于实体的层次化概念体系的属性自动获取方法

深度学习自然语言处理 来源:深度学习自然语言处理 作者:佘琪星、姜天文、 2020-11-05 09:23 次阅读

摘要:属性是实体的重要组成部分,因此如何自动获取实体的属性一直为知识图谱领域的研究者所关注。由哈尔滨工业大学社会计算与信息检索研究中心推出的开放域中文知识图谱《大词林》是通过从文本中自动挖掘实体及实体间的关系而构建而成,因此如何自动为实体添加属性也必然成为构建《大词林》所必须研究的问题之一。本文通过学习《大词林》中实体的概念层次结构和属性的表示,提出了一种基于注意力机制的属性自动获取方案。其想法可简述为,实体的属性可以通过检查它的概念类别来获得,因为实体可以作为它的概念类别的实例并继承它们的属性。实验结果显示,我们的方法能够为《大词林》中的实体自动添加属性,最终可以使大词林中实体属性的覆盖率达到95%以上。

1. 简介

属性在知识图谱的构建中起着至关重要的作用,属性不仅能够丰富实体的概念、揭示实体的特性,并且在知识库中连接了不同的实体(例如:“director”是概念类“film”的属性,它也连接了类“film”和“person”的实体)。图1是《大词林》中实体“苹果”的概念层次路径和该概念路径下“苹果”的属性。事实上,我们可以合理的作此假设:一个实体具有何种属性通常是由其概念决定的,而不是由其本身决定。例如“苹果”和“鸭梨”均具有颜色的属性,是由其二者均具有“水果/植物/生物/物”这一概念路径决定的,而与“苹果”和“鸭梨”本身的标签无太多关系。因此,可以认为实体是它的概念的实例,实体的属性可以通过检查它的概念体系(或路径)来获得。

在本文中,我们提出一种基于实体的层次化概念体系的属性自动获取方法,以自动获取实体的属性提高知识库的构建效率。与仅仅使用一个词代表实体的概念相比(例如“university”表示实体是一所高等教育的学校),用具有层次结构的概念路径(几个表示概念的单词连接为一条路径,例如“institute/school/university”,前者是后者的上位词)更为明确和可靠。例如,“university”也可能指大学的教师和学生的主体,在“institute”和“school”的帮助下,实体是一所大学的意义得到细化。因此,我们使用概念路径来表示实体概念的层次结构,而不是仅仅使用一个单词。假设我们已经具有一个属性的集合(此集合可以通过已有知识库中的属性构建而成),受近期知识图谱表示学习的启发[1][2][3][4],我们考虑将《大词林》所具有的层次化的概念体系和属性集合中的属性映射到连续的向量空间,从而将属性获取问题转化为预测任务,即从属性集合中为《大词林》中的实体预测合适的属性。

图1《大词林》中“苹果”的层次化概念体系

传统方法大多直接将属性分配给实体,这给多角色实体带来了诸多不便。在《大词林》中,每个实体平均有两个概念。例如,实体“苹果”既可以指“水果”,也可以指“公司”,甚至可以指“电影”。然而,属性不像属性值一样具体,其更具有一般性。比如对于苹果的属性-“颜色”,其属性值是“绿色”,而其他水果的“颜色”不一定是绿色,但是其他水果也拥有“颜色”这一属性。对于属于同一概念的实体,它们几乎共享相同的属性集。这意味着与将属性分配给实体相比,将属性分配给其概念似乎更有意义。

多角色实体在概念和属性之间产生的属性分配歧义问题是我们工作的主要挑战。举例来说,通过已有的知识库(例如百度百科或维基百科),我们很容易能够得知“苹果”有一个“导演”的属性,但很难获取与这个属性相关联的概念。而事实上,实体的属性又是由其概念决定的,例如在“苹果”具有的多种含义中,如“水果”、“电影”或“公司”等,直接与属性“导演”相关的概念是“电影”。为此,我们提出了一种基于注意力模型的层次化概念体系表示方法,来对实体的概念体系和属性之间的映射进行学习,以解决此问题。

本文以百度百科的属性数据为基础构建属性集合,并利用百度百科中的属性向《大词林》中的实体添加属性。我们随机抽取了《大词林》中687392个实体,有395327个实体具有至少一个属性,余下292065个实体没有任何属性。,如果单纯依靠百度百科向《大词林》中的实体提供属性,那么属性对实体的覆盖率为57.51%。但是如果考虑到具有相同概念的实体共享类似的属性,并依此进行补全,那么属性的覆盖率可提高至 98.48%。

图2 属性推荐图例

以图2为例,如果依靠百度百科,只有部分实体拥有完整的属性,但是由于缺失属性的实体和已有属性的实体共享相同的概念,因此可以将已知的属性推荐给缺少属性的实体。图3显示了《大词林》中“止痛片”概念下的部分实体,其中“玄胡止痛片”和“祛止痛片”不具有任何属性,通过概念补全后这两个实体拥有了相应的属性,结果如图4所示。

图3 “止痛片”概念下的部分实体和其属性

图4 通过概念补全后的实体属性

2. 模型介绍

本文中涉及的属性获取任务是通过给定{E,C,A,R1,R2}来预测R3,并通过R3来完成根据实体的概念路径将属性集合中的属性推荐给实体的任务。E代表《大词林》中的实体集合,C代表《大词林》中的概念集合(也称为上位词),A代表属性集合(由百度百科获取),R1代表每个实体的上位词路径(也称为概念路径),R2代表每个实体具有的属性(通过百度百科直接映射得到),R3是实体的概念路径与属性的对应关系,整个过程如图5所示。

图5 用符号表示的任务定义

2.1 通过LSTM实现概念路径的表示学习

本文使用LSTM[5]来学习概念路径的表示。图4显示了一个使用LSTM建模概念路径的方法。其中LSTM-cell[6]由浅灰色框标出,序列模型的最终输出由深灰色框标出,LSTM应用于概念路径“/抽象事物/机构/教育机构/学校/大学”上,最终输出为概念路径的向量表示。

图6 用于概念路径表示的LSTM网络

2.2 利用注意力模型完成概念路径的叠加嵌入表示

如前所述,我们可以将百度百科中的属性添加到《大词林》与百度百科同现的实体上而完成属性的初步填充,但是经过抽样统计发现这种方法仅仅能够为《大词林》不到60%的实体添加上属性。基于属性初步填充的结果,我们可以得到一组(Pe, a)形式的元组,其中Pe是给定实体e的概念路径集合,a是实体的属性,然而我们并不知道Pe中的哪一条路径具有属性a。为了确定实体的概念路径和属性的映射关系,进而将属性映射到对应的实体上,我们提出一种解决方法,它由三部分组成:

概念路径的表示学习(图5介绍);

概念路径上的选择注意力机制以确定概念路径和属性的对应关系;

基于翻译的嵌入模型预测实体的属性。整体结构如图7所示。

图7 属性预测整体解决方案

与传统的基于翻译的嵌入方法专注于实体-关系-实体三元组(h, r, t)[1]不同,我们所期望获得的是由实体不同的概念路径及其对应属性形成的二元元组(p, a)。因此,不像三元组(h, r, t)中有r这样的显式算子,我们为每个属性构造一个映射矩阵,其映射过程为pMa = a,其中p,a,Ma分别是概念路径、属性及映射矩阵的嵌入向量。

因为已知的仅仅是某个实体具有哪些属性,这样必须退而求其次通过LSTM学习每个实体的所有概念别路径的表示,显然的不同的概念路径对某一实体是否具有某个属性的影响是不一样的。例如,“水果”这一概念能够确定实体“苹果”可以具有属性“颜色”,而“电影”这一概念能够确定实体“苹果”应该具有“制片人”这一属性。这样,我们就不能对每个概念路径一视同仁。由图7所示,我们用选择注意力模型去建模概念路径和属性的对应关系,以尽可能降低训练中产生的噪声。通过计算每一条概念路径和要预测属性的匹配度来为每条路径分配权重。最终使用学习到的权重和每条路径的表示结果加权求和来确定最终的这个实体的路径表示pe。

2.3 训练方法

根据上文的描述,我们希望当概念路径p拥有a这一属性时,pMa和要预测的属性a的距离最短;相反,当p不具有属性a时,则距离较长。为实现此目标,我们使用L1或者L2范数来度量两者之间的距离,记为d(pMa,a)。利用元组(Pe, a)的集合作为训练集Ω,Pe是对于一个给定实体e的概念路径集合,a是实体e的属性。然后我们在训练集上最小化边界距离来共同学习概念路径和属性的表示:

γ> 0是一个边界超参数,a和a’分别代表实体属性的正例与负例。

3. 实验结果

3.1 数据集介绍

实验数据由《大词林》中抽样得到,具体方法如下:

随机抽取20000个实体及其概念路径。

利用百度百科向这些实体填充属性。

对属性进行低频过滤,保留至少出现在20个实体中的属性。

随机选取3000个实体作为测试集验证“基于实体预测属性”这一任务的效果,同时随机选取240条概念路径作为测试集验证“基于概念路径预测属性”这一任务的效果。数据集的统计如表1所示,APE和APC分别代表基于实体和基于概念路径的属性预测任务。

表1 数据集统计结果

3.2 实体属性预测(APE)

从实体的角度来看,预测其属性无疑是必要和重要的。因此,我们提出了实体属性预测任务(APE),以预测给定实体的属性。当然由于实体可能具有多重含义,因此我们也希望能够将属性和其对应的概念路径联系起来(APC任务)。

由于实体被视为其概念的实例,因此仅通过检查实体的概念就可以获得实体的属性集。在APE中,对于给定的实体,我们首先获取其概念路径集合,然后使用它们来预测实体的属性。Hits@k评价方法适用于APE任务,因为可以过滤掉某些同义的属性,比如“中文名(中文名字)”,“外文名(英文名字)”,等等,结果如表2所示。

表2 APE任务的Hit@k值

除了在全部实体上检查Hits@k之外,实验中还考虑了不同概念类别的实体(即,“物”、“抽象”、“人”)。表2括号中的数字为对应不同类别的实体的数量。结果表明,近76%的实体在前20个预测属性中至少获得了一个正确的属性。对于“人”类型的实体,Hits@k的结果除Hits@1外均超过80%。另外两类的结果与整体评价相比较差。

事实上,表2中的结果是从以百度百科中的属性数据为基础向《大词林》做映射而构建的测试集上得到的,但是由于百度百科中的实体过多依赖于人工众包而《大词林》中的实体则完全由文本中自动抽取得到,因此两者存在不对等,从而引入了大量的噪声而影响了评测的准确率。当然,更加有效的方法是人工构建测试集,但是这样太费时费力了。

由于实体具有多重含义,因此我们更加关心我们的模型是否能够通过预测属性来区分实体的多重含义。这里我们仅仅通过抽样的方式构建了实体“苹果”和“利华”的属性预测结果,如图8所示。沿箭头方向,我们给出了实体不同的概念路径对应的属性预测结果,以“苹果”为例,其在《大词林》中具有“水果”、“电影”、“公司”三种含义,而左侧的“科”、“拉丁学名”等则代表“苹果”的部分属性。图中的颜色代表根据注意力机制对不同概念路径的预测属性的注意程度,单元格颜色越深表示权重越大。

从注意力矩阵可以看出,属性大多出现在其对应的概念路径上,在不相关的概念路径上权重几乎为零。如概念路径“/抽象事物/电影”引起了属性“片长、出品公司、制片人”的注意。但是,也有一些错误的理解,例如属性“中文名”和“外文名”只出现在“人物”或“公司”对应的概念路径中的一条上,这是不准确的,因为从常识上来说这两个属性都应该被这两条概念路径分别包含。幸运的是,这种错误可以被APC任务所掩盖,因为APC从实体的角度来预测属性。

图8 多角色实体属性预测结果

3.3 概念路径属性预测(APC)

从概念路径的角度出发,我们提出了概念路径属性预测任务,以评估模型将概念路径映射到属性的能力。在这个任务的预测过程中,我们使用了没有针对概念路径的选择性注意力模型,因为任务APC中只涉及一个唯一的概念路径,因此不需要注意力机制。

由于中文缺乏标准的“概念类别-属性”对评测数据集,我们手动标注结果的正确性:top-k预测属性。手动标注原则如下:

过滤不准确的概念路径。

过滤掉过于抽象的概念路径,例如:“/抽象事物/能力/竞争力”。

经过筛选,在P@k评估中包含了240条待测试的概念路径中的184条(见表1)。最终结果如表3所示,括号中的数字为具有过滤后的概念路径的实体的数量。由结果可知,可以利用学习到的路径表示来准确预测概念路径对应的属性,全局结果的P@1的准确率超过75%,不同实体类别中P@10的准确率接近70%。事实上,这些给定的概念路径在训练阶段是看不到的,但是由结果显示属性可以准确的映射到相对应的概念路径上,这表明《大词林》的构建是动态的。我们还从表3的预测结果中列出了一些例子,并在表4中标注了中文和英文。注意,这些例子对应的概念属于不同的领域,但是我们的模型可以准确地预测与这些领域相关的属性。

表3 APC任务的P@k值

表4 不同领域的概念路径属性映射情况

4.结论

属性是实体的重要组成部分,属性添加一直为知识图谱研究领域的学者所关注。本文围绕《大词林》研究了如何为知识图谱自动添加属性这一问题。通过联合学习《大词林》中实体的概念层次结构表示和属性的表示,可以获得实体概念至属性的映射,自动地为实体添加合适的属性。在实验阶段,我们设计了两种不同的属性获取任务以验证本文提出的属性获取方法的准确性,包括给定实体预测隶属于实体的属性以及给定实体的某个概念预测属于该概念下的属性。实验结果表明,本文提出的属性获取方法能够将属性准确地映射到实体对应的某个概念下,能够实现自动的属性获取,提高了知识库的可扩展性和提升了知识库的构建效率。

参考文献

[1] Antoine Bordes, Nicolas Usunier, Alberto Garcia-Duran, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data. In Advances in neural information processing systems, pages 2787–2795.

[2] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu, and Xuan Zhu. 2015. Learning entity and relation embeddings for knowledge graph completion. In AAAI, pages 2181–2187.

[3] ZhenWang, Jianwen Zhang, Jianlin Feng, and Zheng Chen. 2014. Knowledge graph embedding by translating on hyperplanes. In AAAI, pages 1112–1119.

[4] Han Xiao, Minlie Huang, and Xiaoyan Zhu. 2015. From one point to a manifold: Knowledge graph embedding for precise link prediction. arXiv preprint arXiv:1512.04792.

[5] Sepp Hochreiter and Jürgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8):1735–1780.

[6] Alex Graves and Jürgen Schmidhuber. 2005. Framewise phoneme classification with bidirectional lstm and other neural network architectures. Neural Networks, 18(5):602–610.

责任编辑:xj

原文标题:【赛尔原创】如何自动地向知识图谱中添加属性?

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5492

    浏览量

    120970
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    7693

原文标题:【赛尔原创】如何自动地向知识图谱中添加属性?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    层次设计中的注意事项

    “  通常来说 KiCad 更建议使用层次的设计,因为这样结构更清晰,也方便设计复用。 对于简单的系统,扁平设计也很容易实现;但将复杂的系统设计成扁平却并不那么容易。 ” 标签类
    的头像 发表于 11-13 18:07 101次阅读
    <b class='flag-5'>层次</b><b class='flag-5'>化</b>设计中的注意事项

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进一步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 419次阅读

    三星电子将收购英国知识图谱技术初创企业

    在人工智能技术日新月异的今天,三星电子公司再次展现了其前瞻性的战略布局与技术创新实力。近日,三星正式宣布完成了对英国领先的人工智能(AI)与知识图谱技术初创企业Oxford Semantic Technologies的收购,此举标志着三星在提升设备端AI能力、深化个性化用户体验方面迈出了重要一步。
    的头像 发表于 07-18 14:46 498次阅读

    鸿蒙开发:Universal Keystore Kit 密钥管理服务 获取密钥属性ArkTS

    HUKS提供了接口供业务获取指定密钥的相关属性。在获取指定密钥属性前,需要确保已在HUKS中生成或导入持久存储的密钥。
    的头像 发表于 07-17 10:46 287次阅读

    鸿蒙开发:Universal Keystore Kit 密钥管理服务 获取密钥属性C C++

    HUKS提供了接口供业务获取指定密钥的相关属性。在获取指定密钥属性前,需要确保已在HUKS中生成或导入持久存储的密钥。
    的头像 发表于 07-17 09:47 327次阅读
    鸿蒙开发:Universal Keystore Kit 密钥管理服务 <b class='flag-5'>获取</b>密钥<b class='flag-5'>属性</b>C C++

    如何学习智能家居?8:Text文本实体使用方法

    内容到设备当中。可以理解成一个文本输入框,我们可以输入任意文字,然后发给设备。 也可以利用自动化,更新文本,例如
    的头像 发表于 07-15 14:06 1522次阅读
    如何学习智能家居?8:Text文本<b class='flag-5'>实体</b>使用<b class='flag-5'>方法</b>

    知识图谱与大模型之间的关系

    在人工智能的广阔领域中,知识图谱与大模型是两个至关重要的概念,它们各自拥有独特的优势和应用场景,同时又相互补充,共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深入探讨知识图谱与大模型之间的关系。
    的头像 发表于 07-10 11:39 884次阅读

    nlp逻辑层次模型的特点

    层次是NLP逻辑层次模型的最底层,主要关注单个词汇的意义和用法。在这个层次上,模型需要识别和理解词汇的基本属性,如词性、词义、词形变化等。词汇层次
    的头像 发表于 07-09 10:39 320次阅读

    自动控制原理需要哪些基础知识

    基础数学知识是学习自动控制原理的前提。这些数学知识包括: 线性代数:矩阵运算、特征值和特征向量、线性空间等概念。 微积分:导数、积分、微分方程等基本
    的头像 发表于 06-11 11:08 2637次阅读

    基于结构微流体创新的谱系细胞单克隆自动化获取策略

    近期,中国科学院广州健康院张骁研究员团队提出一种基于结构微流体创新的谱系细胞单克隆自动化获取策略,
    的头像 发表于 04-22 17:13 606次阅读
    基于结构微流体创新的谱系细胞单克隆<b class='flag-5'>自动化</b><b class='flag-5'>获取</b>策略

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 1106次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(上)

    向量数据库是一组高维向量的集合,用于表示实体概念,例如单词、短语或文档。向量数据库可以根据实体概念的向量表示来度量它们之间的相似性或关联性。
    的头像 发表于 02-22 14:07 1030次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(上)

    知识图谱基础知识应用和学术前沿趋势

    知识图谱(Knowledge Graph)以结构的形式描述客观世界中概念实体及其关系。是融合了认知计算、知识表示与推理、信息检索与抽取、
    的头像 发表于 01-08 10:57 861次阅读
    <b class='flag-5'>知识图谱</b>基础<b class='flag-5'>知识</b>应用和学术前沿趋势

    3D-IC 设计之早期三维布图综合以及层次设计方法

    3D-IC 设计之早期三维布图综合以及层次设计方法
    的头像 发表于 12-04 16:53 516次阅读
    3D-IC 设计之早期三维布图综合以及<b class='flag-5'>层次</b><b class='flag-5'>化</b>设计<b class='flag-5'>方法</b>

    placeholder属性和value属性的差别

    的输入参考。当用户单击字段时,占位符文本将自动消失,以便用户输入内容。 1.2 placeholder属性的特点
    的头像 发表于 11-30 10:13 1683次阅读