0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

深度学习自然语言处理 来源:FudanNLP 2023-04-25 11:41 次阅读

为了助力大模型研究,复旦大学自然语言处理实验室开源了中文图书数据集合CBook-150K,包含15万本中文图书的下载和抽取方法,涵盖人文、教育、科技、军事、政治等众多领域。

当前很多研究表明,高质量数据对于训练大规模语言模型具有至关重要的作用。图书中的内容在质量、专业水准、可靠性等方面远高于互联网数据。OpenAI在训练GPT 3时,也使用了大量图书资源。但是目前还缺乏大规模的中文图书开放集合。此外,由于绝大多数电子书籍的保存方式为PDF格式,从其中抽取文本内容也需要分析工具支持。复旦大学自然语言处理实验室结合此前自主开发的相关PDF分析工具,开源了中文语料图书集合CBook-150K。

复旦大学自然语言处理实验室,自2019年起,自研了PDF处理工具DocAI,针对非扫描件PDF,具有能够处理复杂格式、高效、高准确率、可私有化部署等特点。DocAI在全CPU解决方案下,单核CPU处理100页文档仅需10秒。提取字符准确率100%,结构分析准确率95%。DocAI智能文档解析系统支持对DOC、PDF等常见电子文档进行智能解析,对文档中的标题、段落、表格等半结构化数据进行结构化分析还原。该应用场景具有文件类型多,格式复杂,兼容性要求高等特点,特别是对于跨页表格,多栏排版等复杂场景的支持。是目前支持段落、表格融合识别的为数不多的智能文档解析工具之一。DodAI不依赖第三方资源,支持离线环境下的私有化部署和使用,确保文档隐私与安全。

b3e29316-dce4-11ed-bfe3-dac502259ad0.png

b3fa4fe2-dce4-11ed-bfe3-dac502259ad0.png

结合DocAI工具以及搜索引擎,复旦大学自然语言处理实验室从互联网中筛选了大量中文图书资源链接,并构造了内容抽取算法,助力广大学者NLP大模型研究,同时也在实践与操作中不断迭代更新,完善大型语料库的部署。

下载链接:

https://github.com/FudanNLPLAB/CBook-150K

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    3323

    浏览量

    42475
  • 自然语言处理

    关注

    1

    文章

    618

    浏览量

    13553
  • nlp
    nlp
    +关注

    关注

    1

    文章

    488

    浏览量

    22033

原文标题:NLP大模型必备-FudanNLP开源中文图书集合CBook-150K

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    开源AI模型库是干嘛的

    开源AI模型库是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执
    的头像 发表于 12-14 10:33 164次阅读

    阿里通义千问代码模型全系列开源

    近日,阿里云通义大模型团队宣布了一项重大决策:将通义千问代码模型全系列正式开源。此次开源模型系列共包含6款Qwen2.5-Coder
    的头像 发表于 11-14 15:26 326次阅读

    科技云报到:假开源真噱头?开源模型和你想的不一样!

    查看、修改、分发。开源自此深刻影响了互联网行业的每一个角落。 在大模型和GenAI崛起的当下,开源再次成为业界关注焦点,对于开源和闭源的争论也久久未能平息。然而,大
    的头像 发表于 11-03 10:46 227次阅读

    搭建开源大语言模型服务的方法

    本文我们将总结5种搭建开源大语言模型服务的方法,每种都附带详细的操作步骤,以及各自的优缺点。
    的头像 发表于 10-29 09:17 182次阅读

    Llama 3 与开源AI模型的关系

    在人工智能(AI)的快速发展中,开源AI模型扮演着越来越重要的角色。它们不仅推动了技术的创新,还促进了全球开发者社区的合作。Llama 3,作为一个新兴的AI项目,与开源AI模型的关系
    的头像 发表于 10-27 14:42 364次阅读

    nlp逻辑层次模型的特点

    NLP(自然语言处理)逻辑层次模型是一种用于理解和生成自然语言文本的计算模型。它将自然语言文本分解为不同的层次,以便于计算机更好地处理和理解。以下是对NLP逻辑层次
    的头像 发表于 07-09 10:39 377次阅读

    nlp神经语言和NLP自然语言的区别和联系

    神经语言(Neuro-Linguistic Programming,NLP) 神经语言是一种心理学方法,它研究人类思维、语言和行为之间的关系。NLP的核心理念是,我们可以通过改变我们的思维方式和语言
    的头像 发表于 07-09 10:35 768次阅读

    nlp自然语言处理基本概念及关键技术

    、问答系统、文本摘要等众多领域有着广泛的应用。 1. NLP的基本概念 1.1 语言模型 语言模型NLP的基础,它用于描述一个句子在自然语言中出现的概率。语言
    的头像 发表于 07-09 10:32 576次阅读

    llm模型有哪些格式

    LLM(Large Language Model,大型语言模型)是一种深度学习模型,主要用于处理自然语言处理(NLP)任务。LLM模型的格式多种多样,以下是一些常见的LLM
    的头像 发表于 07-09 09:59 599次阅读

    nlp自然语言处理模型怎么做

    的进展。本文将详细介绍NLP模型的构建过程,包括数据预处理、模型选择、训练与优化等方面。 数据预处理 数据预处理是NLP模型构建的第一步,其
    的头像 发表于 07-05 09:59 624次阅读

    nlp自然语言处理模型有哪些

    自然语言处理(Natural Language Processing,NLP)是计算机科学和人工智能领域的一个重要分支,旨在使计算机能够理解、解释和生成人类语言。以下是对NLP领域一些模型的介绍
    的头像 发表于 07-05 09:57 713次阅读

    NLP模型中RNN与CNN的选择

    在自然语言处理(NLP)领域,循环神经网络(RNN)与卷积神经网络(CNN)是两种极为重要且广泛应用的网络结构。它们各自具有独特的优势,适用于处理不同类型的NLP任务。本文旨在深入探讨RNN与CNN
    的头像 发表于 07-03 15:59 512次阅读

    通义千问推出1100亿参数开源模型

    通义千问近日震撼发布1100亿参数的开源模型Qwen1.5-110B,这一举措标志着通义千问在AI领域迈出了重大步伐。该模型成为通义千问全系列首个千亿级参数开源
    的头像 发表于 05-06 10:49 578次阅读

    模型开源开放评测体系司南正式发布

    近日,大模型开源开放评测体系司南(OpenCompass2.0)正式发布,旨在为大语言模型、多模态模型等各类模型提供一站式评测服务。Open
    的头像 发表于 02-05 11:28 1053次阅读

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作模型,只用单机就可以训练。
    发表于 01-19 11:43 408次阅读
    机器人基于<b class='flag-5'>开源</b>的多模态语言视觉大<b class='flag-5'>模型</b>