0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在Token中加入你感兴趣的词的边界标记

深度学习自然语言处理 来源:NewBeeNLP 作者:h1654155273.8628 2022-07-13 14:33 次阅读

今天一起来看一篇腾讯和复旦大学合作的工作:MarkBERT: Marking Word Boundaries Improves Chinese BERT[1]

一句话概述:在 Token 中加入你感兴趣的词的边界标记。

MarkBERT 不是基于词的 BERT,依然是基于字,但巧妙地将「词的边界标记」信息融入模型。这样可以统一处理任意词,无论是不是 OOV。另外,MarkBERT 还有两个额外的好处:

首先,在边界标记上添加单词级别的学习目标很方便,这是对传统字符和句子级预训练任务的补充;

其次,可以通过用 POS 标签特定的标记替换通用标记来轻松合并更丰富的语义。

在 NER 任务上取得了 2 个点的提升,在文本分类、关键词识别、语义相似任务上也取得了更好的精度。

这个简单但有效的中文预训练模型 MarkBERT,考虑了词信息但没有 OOV 问题。具体有以下优势:

统一的方式处理常用词和低频词,没有 OOV 问题。

Marker 的引入允许设计词级别的预训练任务,这是对字级别的 MLM 和句子级别的 NSP 的补充。

容易扩展加入更多单词语义(词性、词法等)。

预训练阶段有两个任务:

MLM:对 Marker 也进行了 MASK,以便模型能学习到边界知识。

替换词检测:人工替换一个词,然后让模型分辨标记前面的词是不是正确的。

MarkBERT预训练

MarkBERT

如下图所示:

f641312e-026d-11ed-ba43-dac502259ad0.jpg

首先分词,在词中间插入特殊标记,这些标记也会被当做普通的字符处理。有位置,也会被 MASK,这样编码时就需要注意词的边界,而不是简单地填充,MASK 预测任务变得更有挑战(预测需要更好地理解单词边界)。这样,模型依然是字符级别的,但它知道了单词的边界(因为单词的信息是显式给出的)。

替换词检测

具体而言,当一个词被替换成混淆词,标记应该做出「被替换」的预测,标签为 False,否则为 True。

该损失函数会和 MLM 的损失函数加在一起作为多任务训练过程。混淆词来自同义词或读音相似的词,通过这个任务,标记可以对上下文中的单词跨度更敏感。使用 POS 做标记的模型称为 MarkBERT-POS。

预训练

MASK 的比例依然是 15%,30% 的时间不插入任何标记(原始的 BERT);50% 的时间执行 WWM 预测任务;其余时间执行 MLM 预测任务。

在插入标记中,30% 的时间将词替换为基于读音的混淆词或基于同义词的混淆词,标记预测读音混淆标记或同义词混淆标记;其他时间标记预测正常单词标记。为了避免不平衡标签,只计算正常标记上 15% 的损失。

实验

在 NER 任务上的效果如下表所示:

f662f6d8-026d-11ed-ba43-dac502259ad0.jpg

可以看到,效果提升还是很明显的。

在三个任务上做了消融实验:

MarkBERT-MLM:只有 MLM 任务

MarkBERT-rwd:在替换词检测时,分别移除近音词或同义词

MarkBERT-w/o:在下游任务微调时去掉 Marker(和原始 BERT 一样用法)

结果如下表所示:

f68f8ba8-026d-11ed-ba43-dac502259ad0.jpg

结论如下:

MarkBERT-MLM 在 NER 任务中获得显著提升,说明单词边界信息在细粒度任务中很重要。

不插入标记,MarkBERT-w/o 也达到了和 baseline 相近的效果,说明 MarkBERT 可以像 BERT 一样使用。

对 NER 任务来说,插入标记依然重要,表明 MarkBERT 结构在学习需要这种细粒度表示的任务的单词边界方面是有效的。

讨论

已有的中文 BERT 融入词信息有两个方面的策略:

在预训练阶段使用词信息,但在下游任务上使用字符序列,如 Chinese-BERT-WWM,Lattice-BERT。

在下游任务中使用预训练模型时使用单词信息,如 WoBERT,AmBERT,Lichee。

另外在与实体相关的 NLU 任务,特别是关系分类中有探讨插入标记的想法。给定一个主语实体和宾语实体,现有工作注入非类型标记或实体特定标记,并对实体之间的关系做出更好的预测。

f6a46f64-026d-11ed-ba43-dac502259ad0.jpg

这篇论文当时刷到时觉得真心不错,方法很简单但很巧妙,一下子解决了中文预训练模型「词」的处理,非常方便地就可以引入词级别的任务,以及丰富的词语义。其实,我们甚至可以只针对「部分感兴趣的词」添加标记,剩下的依然按字处理。

本文参考资料

[1]

MarkBERT: Marking Word Boundaries Improves Chinese BERT: https://arxiv.org/abs/2203.06378

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码
    +关注

    关注

    6

    文章

    935

    浏览量

    54765
  • 模型
    +关注

    关注

    1

    文章

    3177

    浏览量

    48721

原文标题:MarkBERT:巧妙地将词的边界标记信息融入模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    如何选择适合自己的编程语言

    。 1. 确定目标和兴趣 选择编程语言之前,首先要明确自己的目标和兴趣。这包括你想要开发什么类型的项目,以及对哪些技术领域感兴趣。例如,
    的头像 发表于 11-15 09:37 185次阅读

    TXC 产品简介-Xterniti OCXO

    学习中心TXC始终专注于技术创新和突破。通过不断的研发,我们不断推出新产品和新思路。无论是对产品使用、应用探索还是理论研究感兴趣一定会在这里找到感兴趣的东西。产品简介-Xtern
    发表于 09-20 10:39 0次下载

    目标检测与图像识别的区别在哪

    检测(Object Detection)是指在图像或视频中识别并定位感兴趣的目标,通常包括目标的类别和位置。目标检测的目的是找出图像中所有感兴趣的目标,并为每个目标分配一个边界框(bounding box)和类别标签。 图像识别
    的头像 发表于 07-17 09:51 715次阅读

    ESP32-S3 AT是否支持SPI接口?

    对 ESP32-S3 AT 感兴趣,但是不确定是否支持 SPI 接口。
    发表于 06-27 06:06

    如果要填报电子专业,这些问题最好提前知道(附院校排名名单)

    填报电子专业,这些问题最好提前知道:1、首先,兴趣很重要,如果感兴趣就做不好。电子专业可能以后经常会跟各种仪器工具打交道,如果
    的头像 发表于 06-22 08:11 260次阅读
    如果<b class='flag-5'>你</b>要填报电子专业,这些问题最好提前知道(附院校排名名单)

    请问如何在PSoC Creator中加入USB?

    如何在 PSoC Creator 中加入 USB?
    发表于 05-20 06:43

    labview屏幕找图,返回找到的位置XY坐标

    CheckSUM值。 图中的截图按钮点击后可截取屏幕上需要的任意位置,尽量只选择感兴趣的区域,保存为.bmp格式的图片到路径。选择路径后点击找图按钮即可实现找图。也有屏幕找色,OCR,窗口句柄等子vi,感兴趣的私聊。
    发表于 05-11 08:59

    华为P70新款型号或将发布,用户可先登记感兴趣机型

    2023年,华为推出Mate 60系列新款手机,重新回归高端智能手机市场,引发广泛关注。苹果iPhone在华销量下滑亦被归因于此。
    的头像 发表于 04-13 09:23 557次阅读

    STM32L011F4Ukeil5中加入dsp库后报错的原因?

    芯片STM32L011F4U,CubeMX生成的HAL库,开发环keil5中加入路径DriversCMSISDSP_LibSourceTransformFunctions中文件arm_cfft_f32.c,和库文件arm_cortexM0l_math.lib报错。
    发表于 04-12 08:15

    APP程序中加入__set_FAULTMASK(1),通过bootloader下载后跳转APP会卡死的原因?

    为什么我APP程序中加入__set_FAULTMASK(1);NVIC_SystemReset(); 生成BIN文件,然后通过bootloader下载后 跳转APP会卡死, 但是把
    发表于 04-07 07:40

    激光打标机塑料行业的高精度标记

    随着科技的不断发展,激光打标机塑料行业中的应用越来越广泛。这种高精度的标记技术为塑料产品提供了持久、清晰、可追溯的标识,满足了生产过程中的各种需求。首先,激光打标机具有高精度的标记能力。这种技术
    的头像 发表于 02-29 16:13 364次阅读
    激光打标机<b class='flag-5'>在</b>塑料行业的高精度<b class='flag-5'>标记</b>

    谈谈数字验证场景的“边界”和“异常”

    IC验证者进行测试点评审的时候,或者和DE(数字设计工程师)、SE(系统工程师)进行验证场景讨论的时候,常常会听到“边界”“异常”这俩。他俩就像是一对形影不离的好朋友,同时出现在
    的头像 发表于 01-23 13:43 727次阅读

    怎么直流电源中加入噪声

    直流电源中加入噪声可以是为了模拟真实世界中的噪声环境,也可以用于某些实验中的需要。本文将详细介绍直流电源中加入噪声的方法和技巧,并探讨其可能的应用。 首先,让我们先了解噪声的类型和
    的头像 发表于 01-16 11:00 1152次阅读

    光立方的程序软件是怎么实现的呢,有谁指导原理

    对光立方的取模软件非常感兴趣,有知道怎么弄的么
    发表于 01-10 18:43

    #2023,的 FPGA 年度关键是什么? #

    FPGA 年度关键,我的想法是“标准化”;今年的工作中遇到了不少同事的issues,本身都是小问题或者很细节的东西但是却反复出现问题,目前想到的最好的办法是做好设计规则的标准化才能避免,不知道大家有没有更好的建议?
    发表于 12-06 20:31