0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在NGC上玩转飞桨自然语言处理模型库PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方

NVIDIA英伟达企业解决方案 来源:未知 2022-11-30 21:35 次阅读

飞桨自然语言处理模型库 PaddleNLP,聚合众多百度自然语言处理领域自研 SOTA 算法以及社区开源模型,并凭借飞桨核心框架底层能力,不断开源适合产业界应用的模型、场景、预测加速与部署能力,得到学术界与产业界的广泛关注。今年,PaddleNLP 带来重大升级,覆盖信息抽取、文本分类、情感分析、语义检索、智能问答等自然语言处理领域核心任务。欢迎广大开发者使用 NVIDIA 与飞桨联合深度适配的 NGC 飞桨容器,在 NVIDIA GPU 上进行体验!

PaddleNLP 开源首个面向通用信息抽取的产业级技术方案 UIE,零样本、小样本效果领先

通用信息抽取技术 UIE(Universal Information Extraction)大一统诸多任务,在实体、关系、事件和情感等 4 个信息抽取任务、13 个数据集的全监督、低资源和少样本设置下,取得了 SOTA 性能,这项成果发表在 ACL 2022。PaddleNLP 结合文心大模型中的知识增强 NLP 大模型 ERNIE 3.0,发挥了 UIE 在中文任务上的强大潜力,开源了首个面向通用信息抽取的产业级技术方案 UIE,其多任务统一建模特性大幅降低了模型开发成本和部署的机器成本,基于 Prompt 的零样本抽取和少样本迁移能力更是惊艳!

通过调用paddlenlp.TaskflowAPI即可实现零样本(zero-shot)抽取多种类型的信息,以实体抽取为例:

from pprint import pprint
from paddlenlp import Taskflow
schema = ['时间', '选手', '赛事名称'] # Define the schema for entity extraction
ie = Taskflow('information_extraction', schema=schema)
pprint(ie("2月8日上午北京冬奥会自由式滑雪女子大跳台决赛中中国选手谷爱凌以188.25分获得金牌!")) # Better print results using pprint
>>> 
[{'时间': [{'end': 6, 'probability': 0.9857378532924486, 'start': 0, 'text': '2月8日上午'}],
  '赛事名称': [{'end': 23,'probability': 0.8503089953268272,'start': 6,'text': '北京冬奥会自由式滑雪女子大跳台决赛'}],
'选手':[{'end':31,'probability':0.8981548639781138,'start':28,'text':'谷爱凌'}]}]

对于复杂目标,可以标注少量数据(Few-shot)进行模型训练,以进一步提升效果。PaddleNLP 打通了从数据标注-训练-部署全流程,方便大家进行定制化训练。以金融领域事件抽取任务为例,仅仅标注 5 条样本,F1 值就提升了 25 个点!

990ef73e-70b3-11ed-8abf-dac502259ad0.png

表 1:UIE 在信息抽取数据集上零样本和小样本效果(F1-score)

GitHub 地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

开源文心 ERNIE-Layout,文档智能不再难

(1)文心 ERNIE-Layout 多语言版跨模态布局增强文档预训练大模型

文心 ERNIE-Layout 依托文心 ERNIE,基于布局知识增强技术,融合文本、图像、布局等信息进行联合建模,能够对多模态文档(如文档图片、PDF 文件、扫描件等)进行深度理解与分析,刷新了五类 11 项文档智能任务效果,为各类上层应用提供 SOTA 模型底座。

992460e2-70b3-11ed-8abf-dac502259ad0.png

图 1:百度文档智能技术指标

(2)DocPrompt 开放文档抽取问答模型(基于 ERNIE-Layout)

DocPrompt 以 ERNIE-Layout 为底座,可精准理解图文信息,推理学习附加知识,准确捕捉图片、PDF 等多模态文档中的每个细节。通过PaddleNLP Taskflow,仅用三行Python代码即可快速体验DocPrompt功能。

995850f0-70b3-11ed-8abf-dac502259ad0.png

DocPrompt 零样本效果非常强悍!能够推理学习空间位置语义,准确捕捉跨模态文档信息,轻松应对各类复杂文档:

99788cd0-70b3-11ed-8abf-dac502259ad0.png

图 2:DocPrompt 可支持空间位置语义理解

99e701d8-70b3-11ed-8abf-dac502259ad0.png

图 3:DocPrompt 支持多维度无框线表格问答

9a17106c-70b3-11ed-8abf-dac502259ad0.png

图 4:支持 10+ 语种的多语言提问

GitHub 地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/ernie-layout

PaddleNLP 发布 NLP 流水线系统Pipelines,

10 分钟搭建检索、问答等复杂系统

Pipelines 将各个 NLP 复杂系统的通用模块抽象封装为标准组件,支持开发者通过配置文件对标准组件进行组合,仅需几分钟即可定制化构建智能系统,让解决 NLP 任务像搭积木一样便捷、灵活、高效。同时,Pipelines 中预置了前沿的预训练模型和算法,在研发效率、模型效果和性能方面提供多重保障。

Pipelines 中集成 PaddleNLP 中丰富的预训练模型和领先技术。例如针对检索、问答等任务,Pipelines 预置了领先的召回模型和排序模型,其依托国际领先的端到端问答技术 RocketQA 和首个人工标注的百万级问答数据集 DuReader。

9aae1458-70b3-11ed-8abf-dac502259ad0.png

图 5:RocketQA 问答技术领先

为了进一步降低开发门槛,提供最优效果,PaddleNLP Pipelines 针对高频场景内置了产业级端到端系统。目前已开源语义检索、MRC(阅读理解)问答、FAQ 问答、跨模态文档问答等多个应用。以检索系统为例,Pipelines 内置的语义检索系统包括文档解析(支持 PDF、WORD、图片等解析)、海量文档建库、模型组网训练、服务化部署、前端 Demo 界面(便于效果分析)等全流程功能。

9ac5b158-70b3-11ed-8abf-dac502259ad0.png

图 6:检索系统流水线示意图

9ae0b8cc-70b3-11ed-8abf-dac502259ad0.gif

图 7:检索系统前端 Demo

GitHub 地址:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/pipelines

发布多场景文本分类方案,新增数据增强策略,可信增强技术

文本分类任务是 NLP 领域最常见、最基础的任务之一,顾名思义,就是对给定的一个句子或一段文本进行分类。PaddleNLP 基于多分类、多标签、层次分类等高频分类场景,提供了预训练模型微调、提示学习、语义索引三种端到端全流程分类方案。

a0e76acc-70b3-11ed-8abf-dac502259ad0.png

图 8:模型精度-时延图

以上方案均离不开预训练模型,在预训练模型选择上,ERNIE 系列模型在精度和性能上的综合表现已全面领先于 UER/RoBERTa、Huawei/TinyBERT、HFL/RBT、RoBERTa-wwm-ext-large 等中文模型。PaddleNLP 开源了如下多种尺寸的 ERNIE 系列预训练模型,满足多样化的精度、性能需求:

  • ERNIE 1.0-Large-zh-CW(24L1024H)

  • ERNIE 3.0-Xbase-zh(20L1024H)

  • ERNIE 2.0-Base-zh (12L768H)

  • ERNIE 3.0-Base(12L768H)

  • ERNIE 3.0-Medium(6L768H)

  • ERNIE 3.0-Mini(6L384H)

  • ERNIE 3.0-Micro(4L384H)

  • ERNIE 3.0-Nano(4L312H)

… …

除中文模型外,PaddleNLP 也提供 ERNIE 2.0 英文版、以及基于 96 种语言(涵盖法语、日语、韩语、德语、西班牙语等几乎所有常见语言)预训练的多语言模型 ERNIE-M,满足不同语言的文本分类任务需求。

此外,PaddleNLP 文本分类方案依托TrustAI 可信增强能力数据增强 API开源了模型分析模块,针对标注数据质量不高、训练数据覆盖不足、样本数量少等文本分类常见数据痛点,提供稀疏数据筛选、脏数据清洗、数据增强三种数据优化策略,解决训练数据缺陷问题,用低成本方式获得大幅度的效果提升。例如,使用 TrustAI 进行脏数据清洗后,文本分类精度有明显提升。

a10e3daa-70b3-11ed-8abf-dac502259ad0.jpg

图 9:TrustAI 脏数据清洗策略效果展示

新增 AutoPrompt 自动化提示功能,轻松上手 Prompt Learning,解决小样本难题

通过配置自动化运行的提示学习框架 AutoPrompt,开发者可以以最低学习成本上手提示学习。AutoPrompt 借鉴了 OpenPrompt 对 Template、Verbalizer 等概念的抽象和设计,并在此基础上扩展了更多特性,包括更灵活的提示设计,更便捷的算法切换,通过配置即可运行选择最优模型。

a12ae4f0-70b3-11ed-8abf-dac502259ad0.png

图 10:AutoPrompt 整体流程方案

AutoPrompt 使用文档:

https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/advanced_guide/prompt.md

以上是 PaddleNLP 近期新发功能介绍,欢迎前往官方地址了解更多详情。喜欢的小伙伴欢迎star支持哦~您的支持是我们不断进取的最大动力!也欢迎加入 PaddleNLP 官方交流群,探讨前沿技术与产业实践经验。

PaddleNLP 地址:

https://github.com/PaddlePaddle/PaddleNLPa17bda0e-70b3-11ed-8abf-dac502259ad0.png

NGC 飞桨容器介绍

如果您希望体验 PaddleNLP 的新特性,欢迎使用 NGC 飞桨容器。NVIDIA 与百度飞桨联合开发了 NGC 飞桨容器,将最新版本的飞桨与最新的 NVIDIA 的软件栈(如 CUDA)进行了无缝的集成与性能优化,最大程度的释放飞桨框架在 NVIDIA 最新硬件上的计算能力。这样,用户不仅可以快速开启 AI 应用,专注于创新和应用本身,还能够在 AI 训练和推理任务上获得飞桨+NVIDIA 带来的飞速体验。

最佳的开发环境搭建工具 - 容器技术。

  1. 容器其实是一个开箱即用的服务器。极大降低了深度学习开发环境的搭建难度。例如你的开发环境中包含其他依赖进程(redis,MySQL,Ngnix,selenium-hub等等),或者你需要进行跨操作系统级别的迁移。

  2. 容器镜像方便了开发者的版本化管理

  3. 容器镜像是一种易于复现的开发环境载体

  4. 容器技术支持多容器同时运行

a19073e2-70b3-11ed-8abf-dac502259ad0.png

最好的 PaddlePaddle 容器

NGC 飞桨容器针对 NVIDIA GPU 加速进行了优化,并包含一组经过验证的库,可启用和优化 NVIDIA GPU 性能。此容器还可能包含对 PaddlePaddle 源代码的修改,以最大限度地提高性能和兼容性。此容器还包含用于加速 ETL(DALI, RAPIDS)、训练(cuDNN, NCCL)和推理(TensorRT)工作负载的软件。

PaddlePaddle 容器具有以下优点:

  1. 适配最新版本的 NVIDIA 软件栈(例如最新版本 CUDA),更多功能,更高性能。

  2. 更新的 Ubuntu 操作系统,更好的软件兼容性

  3. 按月更新

  4. 满足 NVIDIA NGC 开发及验证规范,质量管理

通过飞桨官网快速获取

a1a6d790-70b3-11ed-8abf-dac502259ad0.png

环境准备

使用 NGC 飞桨容器需要主机系统(Linux)安装以下内容:

  • Docker 引擎

  • NVIDIA GPU 驱动程序

  • NVIDIA 容器工具包

有关支持的版本,请参阅NVIDIA 框架容器支持矩阵NVIDIA 容器工具包文档

不需要其他安装、编译或依赖管理。无需安装 NVIDIA CUDA Toolkit。

NGC 飞桨容器正式安装:

要运行容器,请按照 NVIDIA Containers For Deep Learning Frameworks User’s Guide 中Running A Container一章中的说明发出适当的命令,并指定注册表、存储库和标签。有关使用 NGC 的更多信息,请参阅 NGC 容器用户指南。如果您有 Docker 19.03 或更高版本,启动容器的典型命令是:

a1dedb22-70b3-11ed-8abf-dac502259ad0.png

*详细安装介绍 《NGC 飞桨容器安装指南》

https://www.paddlepaddle.org.cn/documentation/docs/zh/install/install_NGC_PaddlePaddle_ch.html

*详细产品介绍视频

【飞桨开发者说|NGC 飞桨容器全新上线 NVIDIA 产品专家全面解读】

https://www.bilibili.com/video/BV16B4y1V7ue?share_source=copy_web&vd_source=266ac44430b3656de0c2f4e58b4daf82

飞桨与 NVIDIA NGC 合作介绍

NVIDIA 非常重视中国市场,特别关注中国的生态伙伴,而当前飞桨拥有超过 470 万的开发者。在过去五年里我们紧密合作,深度融合,做了大量适配工作,如下图所示。

a1f0bc34-70b3-11ed-8abf-dac502259ad0.png

今年,我们将飞桨列为 NVIDIA 全球前三的深度学习框架合作伙伴。我们在中国已经设立了专门的工程团队支持,赋能飞桨生态。

为了让更多的开发者能用上基于 NVIDIA 最新的高性能硬件和软件栈。当前,我们正在进行全新一代 NVIDIA GPU H100 的适配工作,以及提高飞桨对 CUDA Operation API 的使用率,让飞桨的开发者拥有优秀的用户体验及极致性能。

以上的各种适配,仅仅是让飞桨的开发者拥有高性能的推理训练成为可能。但是,这些离行业开发者还很远,门槛还很高,难度还很大。

为此,我们将刚刚这些集成和优化工作,整合到三大产品线中。其中 NGC 飞桨容器最为闪亮。

NVIDIA NGC Container – 最佳的飞桨开发环境,集成最新的 NVIDIA 工具包(例如 CUDA)

a2227c38-70b3-11ed-8abf-dac502259ad0.png

点击查看往期精彩内容

六:在 NGC 上玩转图像分割!NeurIPS 顶会模型、智能标注 10 倍速神器、人像分割 SOTA 方案、3D 医疗影像分割利器应有尽有!

五:在 NVIDIA NGC 上搞定模型自动压缩,YOLOv7 部署加速比 5.90,BERT 部署加速比 6.22

四:在 NVIDIA NGC 上体验轻量级图像识别系统

三:在 NVIDIA NGC 上体验一键 PDF 转 Word

二:PaddleDetection 发新,欢迎在 NVIDIA NGC 飞桨容器中体验最新特性!

一:NVIDIA Deep Learning Examples飞桨ResNet50模型上线训练速度超PyTorch ResNet50

原文标题:在NGC上玩转飞桨自然语言处理模型库PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方案应有尽有!

文章出处:【微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3791

    浏览量

    91313

原文标题:在NGC上玩转飞桨自然语言处理模型库PaddleNLP!信息抽取、文本分类、文档智能、语义检索、智能问答等产业方案应有尽有!

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何优化自然语言处理模型的性能

    优化自然语言处理(NLP)模型的性能是一个多方面的任务,涉及数据预处理、特征工程、模型选择、模型
    的头像 发表于 12-05 15:30 535次阅读

    什么是LLM?LLM自然语言处理中的应用

    所未有的精度和效率处理和生成自然语言。 LLM的基本原理 LLM基于深度学习技术,尤其是变换器(Transformer)架构。变换器模型因其自注意力(Self-Attention)机制而闻名,这种机制使得
    的头像 发表于 11-19 15:32 676次阅读

    ASR与自然语言处理的结合

    。以下是对ASR与自然语言处理结合的分析: 一、ASR与NLP的基本概念 ASR(自动语音识别) : 专注于将人类的语音转换为文字。 涉及从声音信号中提取特征,并将这些特征映射到文本。 NLP(
    的头像 发表于 11-18 15:19 449次阅读

    使用LLM进行自然语言处理的优缺点

    语言任务,如文本分类、情感分析、机器翻译。以下是使用LLM进行NLP的一些优缺点: 优点 强大的语言理解能力 : LLM通过训练学习了大量的语言
    的头像 发表于 11-08 09:27 519次阅读

    AI大模型自然语言处理中的应用

    AI大模型自然语言处理(NLP)中的应用广泛且深入,其强大的语义理解和生成能力为NLP任务带来了显著的性能提升。以下是对AI大
    的头像 发表于 10-23 14:38 511次阅读

    AI智能问答自然语言处理技术的重要应用

    自然语言处理(NLP)是人工智能领域的一个重要分支,它致力于使计算机能够理解、解释和生成人类语言问答系统作为NLP的一个重要应用,能够精确
    的头像 发表于 10-12 10:58 487次阅读
    AI<b class='flag-5'>智能</b>化<b class='flag-5'>问答</b>:<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>技术的重要应用

    【实操文档智能硬件的大模型语音交互流程中接入RAG知识

    非常明显的短板。尽管这些模型在理解和生成自然语言方面有极高的性能,但它们处理专业领域的问答时,却往往不能给出明确或者准确的回答。 这时就需
    发表于 09-29 17:12

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    、机器翻译、文本生成领域具有广泛应用。它们能够基于用户的提问或描述生成相关的答案或执行指令,极大地提升了信息检索和利用的效率。 2. 局限性 尽管大
    发表于 08-02 11:03

    nlp自然语言处理基本概念及关键技术

    问答系统、文本摘要等众多领域有着广泛的应用。 1. NLP的基本概念 1.1 语言模型 语言模型
    的头像 发表于 07-09 10:32 653次阅读

    自然语言处理技术有哪些

    自然语言处理(Natural Language Processing,简称NLP)是人工智能领域的一个分支,它致力于使计算机能够理解、解释和生成人类语言
    的头像 发表于 07-03 14:30 1207次阅读

    自然语言处理是什么技术的一种应用

    广泛,包括机器翻译、语音识别、情感分析、信息检索问答系统、文本摘要、聊天机器人。 一、自然语言
    的头像 发表于 07-03 14:18 994次阅读

    自然语言处理包括哪些内容

    ,从而实现人机之间的自然交流。本文将详细介绍NLP的主要内容,包括基本概念、关键技术、应用领域。 一、自然语言处理的基本概念 自然语言
    的头像 发表于 07-03 14:15 990次阅读

    卷积神经网络文本分类领域的应用

    自然语言处理(NLP)领域,文本分类一直是一个重要的研究方向。随着深度学习技术的飞速发展,卷积神经网络(Convolutional Neural Network,简称CNN)
    的头像 发表于 07-01 16:25 750次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    模型架构奠定基础。然后,引介一些经典的预训练模型,如BERT、GPT。最后,解读ChatGPT和LLaMA系列模型,帮助读者初步感知大语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】揭开大语言模型的面纱

    。这一过程的不断迭代使大语言模型语言理解和生成能力逐步提升。大语言模型
    发表于 05-04 23:55