0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP中文自然语言处理数据集、平台和工具整理

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-11-05 09:29 次阅读

资源整理了文本分类、实体识别&词性标注、搜索匹配、推荐系统、指代消歧、百科数据、预训练词向量or模型、中文完形填空等大量数据集,中文数据集平台和NLP工具等。

本文内容整理自:https://github.com/InsaneLife/ChineseNLPCorpus

文本分类

新闻分类

今日头条中文新闻(短文本)分类数据集:https://github.com/fateleak/toutiao-text-classfication-dataset

数据规模:共38万条,分布于15个分类中。

采集时间:2018年05月。

以0.7 0.15 0.15做分割 。

清华新闻分类语料:

根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。

数据量:74万篇新闻文档(2.19 GB)

小数据实验可以筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn实验:https://github.com/gaussic/text-classification-cnn-rnn

中科大新闻分类语料库:http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论 倾向性分析

实体识别&词性标注

微博实体识别

https://github.com/hltcoe/golden-horse

boson数据

包含6种实体类型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

人民日报数据集

人名、地名、组织名三种实体类型

1998:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

2004:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3

MSRA微软亚洲研究院数据集

5 万多条中文命名实体识别标注数据(包括地点、机构、人物)

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005:一共有四个数据集,包含繁体中文和简体中文,下面是简体中文分词数据。

MSR: http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :http://sighan.cs.uchicago.edu/bakeoff2005/

搜索匹配

OPPO手机搜索排序

OPPO手机搜索排序query-title语义匹配数据集。

链接//pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

网页搜索结果评价(SogouE)

用户查询及相关URL列表

https://www.sogou.com/labs/resource/e.php

推荐系统

百科数据

维基百科

维基百科会定时将语料库打包发布:

数据处理博客

https://dumps.wikimedia.org/zhwiki/

百度百科

只能自己爬,爬取得链接:https://pan.baidu.com/share/init?surl=i3wvfil提取码 neqs 。

指代消歧

CoNLL 2012 :http://conll.cemantix.org/2012/data.html

预训练:(词向量or模型)

BERT

开源代码:https://github.com/google-research/bert

模型下载:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

开源代码:https://github.com/allenai/bilm-tf

预训练的模型:https://allennlp.org/elmo

腾讯词向量

腾讯AI实验室公开的中文词向量数据集包含800多万中文词汇,其中每个词对应一个200维的向量。

下载地址:https://ai.tencent.com/ailab/nlp/embedding.html

上百种预训练中文词向量

https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空数据集

https://github.com/ymcui/Chinese-RC-Dataset

中华古诗词数据库

最全中华古诗词数据集,唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

https://github.com/Samurais/insuranceqa-corpus-zh

汉语拆字字典

英文可以做char embedding,中文不妨可以试试拆字

https://github.com/kfcd/chaizi

中文数据集平台

搜狗实验室

搜狗实验室提供了一些高质量的中文文本数据集,时间比较早,多为2012年以前的数据。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然语言处理与信息检索共享平台

http://www.nlpir.org/?action-category-catid-28

中文语料小数据

包含了中文命名实体识别、中文关系识别、中文阅读理解等一些小量数据。

https://github.com/crownpku/Small-Chinese-Corpus

维基百科数据集

https://dumps.wikimedia.org/

NLP工具

THULAC:https://github.com/thunlp/THULAC :包括中文分词、词性标注功能。

HanLP:https://github.com/hankcs/HanLP

哈工大LTP:https://github.com/HIT-SCIR/ltp

NLPIR:https://github.com/NLPIR-team/NLPIR

jieba分词:https://github.com/yanyiwu/cppjieba

责任编辑:xj

原文标题:最全中文自然语言处理数据集、平台和工具整理

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6842

    浏览量

    88758
  • 自然语言处理

    关注

    1

    文章

    603

    浏览量

    13489
  • 自然语言
    +关注

    关注

    1

    文章

    286

    浏览量

    13322
  • nlp
    nlp
    +关注

    关注

    1

    文章

    486

    浏览量

    21993

原文标题:最全中文自然语言处理数据集、平台和工具整理

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    自然语言处理与机器学习的区别

    是计算机科学、人工智能和语言学领域的分支,它致力于使计算机能够理解、解释和生成人类语言NLP的目标是缩小人类语言和计算机之间的差距,使计算机能够
    的头像 发表于 11-11 10:35 266次阅读

    nlp自然语言处理基本概念及关键技术

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、解释和生成人类语言
    的头像 发表于 07-09 10:32 485次阅读

    nlp自然语言处理框架有哪些

    自然语言处理(Natural Language Processing,简称NLP)是计算机科学和人工智能领域的一个重要分支,它致力于使计算机能够理解和处理人类
    的头像 发表于 07-09 10:28 472次阅读

    nlp自然语言处理的主要任务及技术方法

    自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的一个分支,它研究如何让计算机能够理解、生成和
    的头像 发表于 07-09 10:26 798次阅读

    nlp自然语言处理模型怎么做

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机对人类语言的理解和生成。随着深度学习技术的发展,
    的头像 发表于 07-05 09:59 503次阅读

    nlp自然语言处理模型有哪些

    自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的一个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是对
    的头像 发表于 07-05 09:57 585次阅读

    nlp自然语言处理的应用有哪些

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个分支,它致力于使计算机能够理解和生成自然语言。随着技术的发展,
    的头像 发表于 07-05 09:55 2391次阅读

    自然语言处理技术有哪些

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言
    的头像 发表于 07-03 14:30 912次阅读

    自然语言处理模式的优点

    得到了广泛的应用,如搜索引擎、语音助手、机器翻译、情感分析等。 1. 提高信息获取效率 自然语言处理技术能够快速地从大量文本数据中提取关键信息,帮助用户节省查找和筛选信息的时间。例如,搜索引擎通过
    的头像 发表于 07-03 14:24 637次阅读

    自然语言处理技术的核心是什么

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,其核心目标是使计算机能够理解、生成和处理人类
    的头像 发表于 07-03 14:20 530次阅读

    自然语言处理是什么技术的一种应用

    自然语言处理(Natural Language Processing,简称NLP)是人工智能和语言学领域的一个分支,它涉及到使用计算机技术来处理
    的头像 发表于 07-03 14:18 571次阅读

    自然语言处理包括哪些内容

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个重要分支,它涉及到计算机与人类语言之间的交互。
    的头像 发表于 07-03 14:15 688次阅读

    什么是自然语言处理 (NLP)

    自然语言处理(Natural Language Processing, NLP)是人工智能领域中的一个重要分支,它专注于构建能够理解和生成人类语言的计算机系统。
    的头像 发表于 07-02 18:16 996次阅读

    自然语言处理技术的原理的应用

    自然语言处理(Natural Language Processing, NLP)作为人工智能(AI)领域的一个重要分支,旨在使计算机能够理解和处理人类
    的头像 发表于 07-02 12:50 417次阅读

    神经网络在自然语言处理中的应用

    自然语言处理NLP)是人工智能领域中的一个重要分支,它研究的是如何使计算机能够理解和生成人类自然语言。随着人工智能技术的飞速发展,神经网络在自然语
    的头像 发表于 07-01 14:09 418次阅读