0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

通用领域大规模条件性知识图谱数据集

深度学习自然语言处理 来源:哈工大SCIR 张宁 作者:哈工大SCIR 张宁 2021-06-08 15:23 次阅读

1.摘要

本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。

2.条件性知识图谱

在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。

为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(Conditional-KG)。条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。

3.数据集

为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了AG News文本分类语料作为条件性知识图谱的语料。AG News语料具有三大优势:

AG News中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;

AG News中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。

AG News的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及World、Sports、Business、 和Sci/Tech四个类别。

我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。

我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。

4.结语

为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1210

    浏览量

    24865
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    7752

原文标题:赛尔笔记 | 通用领域条件性知识图谱数据集

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全

    据外媒11月7日报道,三星电子全球AI中心总监Kim Dae-hyun近日透露,公司正致力于自主研发知识图谱技术,旨在进一步优化Galaxy AI的功能,提升其易用性,并加强用户数据的隐私保护。
    的头像 发表于 11-07 15:19 840次阅读

    通用汽车中国裁员并筹划大规模业务改革

    据外媒最新报道,通用汽车(GM)正在中国市场进行一系列重大调整,以应对全球最大汽车市场的快速变化。知情人士透露,通用汽车已启动裁员计划,并计划在未来几周内与合作伙伴上汽集团会面,共同探讨更大规模的结构性改革方案。
    的头像 发表于 08-14 16:24 483次阅读

    万里红入选《嘶吼2024网络安全产业图谱》8个细分领域

    近日,国内信息安全领域权威媒体嘶吼正式发布了《嘶吼2024网络安全产业图谱》(以下简称“网络安全产业图谱”)。本次网络安全产业图谱通过市场调研、数据
    的头像 发表于 07-23 14:42 993次阅读
    万里红入选《嘶吼2024网络安全产业<b class='flag-5'>图谱</b>》8个细分<b class='flag-5'>领域</b>

    三星电子将收购英国知识图谱技术初创企业

    在人工智能技术日新月异的今天,三星电子公司再次展现了其前瞻性的战略布局与技术创新实力。近日,三星正式宣布完成了对英国领先的人工智能(AI)与知识图谱技术初创企业Oxford Semantic Technologies的收购,此举标志着三星在提升设备端AI能力、深化个性化用户体验方面迈出了重要一步。
    的头像 发表于 07-18 14:46 591次阅读

    知识图谱与大模型之间的关系

    在人工智能的广阔领域中,知识图谱与大模型是两个至关重要的概念,它们各自拥有独特的优势和应用场景,同时又相互补充,共同推动着人工智能技术的发展。本文将从定义、特点、应用及相互关系等方面深入探讨知识图谱与大模型之间的关系。
    的头像 发表于 07-10 11:39 1289次阅读

    Al大模型机器人

    理解能力强大: AI大模型机器人可以理解和生成自然语言,能够进行复杂的对话和语言任务。它们能够识别语言中的语义、语境和情感,并据此作出适当的回应。广泛的知识储备: 这些模型基于大规模数据
    发表于 07-05 08:52

    40亿,今年芯片领域大规模融资诞生

    或许,迟到的IPO就要来了就在5月底,国家集成电路产业投资基金三期股份有限公司正式成立,规模为3440亿元人民币,是最大规模的芯片基金。该消息的传出犹如一支强心剂,扎在了芯片领域各个企业心上。彼时
    的头像 发表于 06-26 08:04 425次阅读
    40亿,今年芯片<b class='flag-5'>领域</b>最<b class='flag-5'>大规模</b>融资诞生

    大模型应用之路:从提示词到通用人工智能(AGI)

    铺平道路。 基于AI大模型的推理功能,结合了RAG(检索增强生成)、智能体(Agent)、知识库、向量数据库、知识图谱等先进技术,我们向实现真正的AGI(通用人工智能)迈出了重要步伐。
    的头像 发表于 06-14 10:20 2415次阅读
    大模型应用之路:从提示词到<b class='flag-5'>通用</b>人工智能(AGI)

    专用集成电路都是大规模的吗为什么呢

    专用集成电路(Application Specific Integrated Circuit,ASIC)是根据特定应用领域的需求而设计和定制的集成电路。与通用集成电路相比,专用集成电路具有更高
    的头像 发表于 04-21 09:15 601次阅读

    专用集成电路都是大规模的吗

    Integrated Circuit,简称GPIC)相比,专用集成电路更加定制化和特定化,因此常被视为大规模的集成电路。但是,并不是所有的专用集成电路都是大规模的,这取决于具体的设计需求和应用场景。 在
    的头像 发表于 04-19 14:39 558次阅读

    专用集成电路都是大规模的吗为什么

    Integrated Circuit, GPIC)相比,ASIC针对特定的应用程序进行了优化和定制,以实现更高的性能、更低的功耗和更小的面积。 专用集成电路之所以通常是大规模的,是因为它们需要集成
    的头像 发表于 04-14 10:48 665次阅读

    专用集成电路都是大规模的吗对吗

    。与通用型集成电路(General Purpose Integrated Circuit,简称GPIC)相比,专用集成电路在特定的应用领域中更为专注和高效。在关于专用集成电路是否都是大规模的这个问题上,答案
    的头像 发表于 04-14 10:45 600次阅读

    名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践

    为目的。国内的文心一言就属于这一类。 垂直大模型,聚焦解决垂直领域问题,是在通用大模型的基础上训练行业专用模型,应用到金融、医疗、教育、养老、交通等垂直行业,使大模型领域化、商业化,做到实际应用落地
    发表于 03-11 15:16

    大规模数据中心网络演进的七大主流趋势

    自动驾驶已经变成可能,大规模应用只是一个时间问题。大规模网络运维的自动化也必然是业界的趋势,要达到自动驾驶或自动化运维都需要两个共同的条件:一是有足够有效的数据,二是要有对
    发表于 03-11 11:21 555次阅读

    利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)

    对于语言模型(LLM)幻觉,知识图谱被证明优于向量数据库。知识图谱提供更准确、多样化、有趣、逻辑和一致的信息,减少了LLM中出现幻觉的可能性。
    的头像 发表于 02-22 14:13 1343次阅读
    利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)