1.摘要
本数据集由哈尔滨工业大学社会计算与信息检索研究中心(哈工大SCIR)秦兵教授和刘铭教授主持开发,是一个通用领域大规模条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。该数据集的提出能够为条件性知识图谱的研究提供数据支持。
2.条件性知识图谱
在大多数情况下,事实的成立都是有条件的。条件和事实起着同样重要的作用,然而目前的知识图谱只关注事实而忽略了条件的存在。与此同时,信息提取技术也只关注从给定文本中提取事实,而忽略了条件信息。
为了能够让知识图谱建模条件信息更加充分,我们提出了一个三层的网络结构条件性知识图谱(Conditional-KG)。条件性知识图谱和传统知识图谱都是由三元组组成,但是条件性知识图谱同时包含事实元组和条件元组,以及元组之间的条件关系。
3.数据集
为了支持条件性知识图谱的研究,我们手动标注了一个条件性知识图谱数据集。我们选择了AG News文本分类语料作为条件性知识图谱的语料。AG News语料具有三大优势:
AG News中的数据是新闻的标题和一部分正文,每条数据平均包含2.1个句子、6.4个元组和3.5个条件关系;
AG News中的数据具有完整的语法结构,长度较长,语言严谨,代词、口语、习语等较少。
AG News的文本数量足够大,多样性丰富。它包含12万条训练数据和7600条测试数据,涉及World、Sports、Business、 和Sci/Tech四个类别。
我们标注的数据集追求信息的完整性和元组的原子性。完整性的意思是标注者应该尝试从句子中提取所有断言和条件,我们将原子性定义为每个元组必须是一个不可分割的单元。只要有可能,标注者必须从带有连词的句子中提取多个原子元组。
我们通过两轮标注最终得到了人工标注的通用领域条件性知识图谱数据集。本数据集源自于AG News文本分类语料,包含四个类别,2440 条数据,每条数据都是人工标注的条件知识图谱。
4.结语
为了建模条件信息,我们提出了一个具有三层网络结构的条件性知识图谱,并且为社区贡献了一个人工标注的通用领域大规模条件性知识图谱。
编辑:jq
-
数据集
+关注
关注
4文章
1210浏览量
24865 -
知识图谱
+关注
关注
2文章
132浏览量
7752
原文标题:赛尔笔记 | 通用领域条件性知识图谱数据集
文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
三星自主研发知识图谱技术,强化Galaxy AI用户体验与数据安全
通用汽车中国裁员并筹划大规模业务改革
万里红入选《嘶吼2024网络安全产业图谱》8个细分领域
![万里红入选《嘶吼2024网络安全产业<b class='flag-5'>图谱</b>》8个细分<b class='flag-5'>领域</b>](https://file1.elecfans.com/web2/M00/FD/DD/wKgZomafUXGAD2yqAAAKAywzsk0443.jpg)
三星电子将收购英国知识图谱技术初创企业
知识图谱与大模型之间的关系
Al大模型机器人
40亿,今年芯片领域最大规模融资诞生
![40亿,今年芯片<b class='flag-5'>领域</b>最<b class='flag-5'>大规模</b>融资诞生](https://file.elecfans.com/web2/M00/43/7B/pYYBAGJ-B6aAHuNPAAAf8J1Ebk4778.jpg)
大模型应用之路:从提示词到通用人工智能(AGI)
![大模型应用之路:从提示词到<b class='flag-5'>通用</b>人工智能(AGI)](https://file1.elecfans.com//web2/M00/ED/90/wKgZomZrqM6AVMZZAADa75cpBWs825.png)
专用集成电路都是大规模的吗为什么呢
专用集成电路都是大规模的吗
专用集成电路都是大规模的吗为什么
专用集成电路都是大规模的吗对吗
名单公布!【书籍评测活动NO.30】大规模语言模型:从理论到实践
大规模数据中心网络演进的七大主流趋势
利用知识图谱与Llama-Index技术构建大模型驱动的RAG系统(下)
![利用<b class='flag-5'>知识图谱</b>与Llama-Index技术构建大模型驱动的RAG系统(下)](https://file1.elecfans.com/web2/M00/C1/82/wKgaomXW5lKAOabBAABJ6cOiGSI637.png)
评论