哈工大讯飞联合实验室发布基于全词覆盖的中文BERT预训练模型-电子发烧友网

为了进一步促进中文自然语言处理的研究发展，哈工大讯飞联合实验室发布基于全词覆盖（Whole Word Masking）的中文BERT预训练模型。我们在多个中文数据集上得到了较好的结果，覆盖了句子级到篇章级任务。同时，我们对现有的中文预训练模型进行了对比，并且给出了若干使用建议。我们欢迎大家下载试用。

下载地址：https://github.com/ymcui/Chinese-BERT-wwm

技术报告：https://arxiv.org/abs/1906.08101

摘要

基于Transformers的双向编码表示（BERT）在多个自然语言处理任务中取得了广泛的性能提升。近期，谷歌发布了基于全词覆盖（Whold Word Masking）的BERT预训练模型，并且在SQuAD数据中取得了更好的结果。应用该技术后，在预训练阶段，同属同一个词的WordPiece会被全部覆盖掉，而不是孤立的覆盖其中的某些WordPiece，进一步提升了Masked Language Model （MLM）的难度。在本文中我们将WWM技术应用在了中文BERT中。我们采用中文维基百科数据进行了预训练。该模型在多个自然语言处理任务中得到了测试和验证，囊括了句子级到篇章级任务，包括：情感分类，命名实体识别，句对分类，篇章分类，机器阅读理解。实验结果表明，基于全词覆盖的中文BERT能够带来进一步性能提升。同时我们对现有的中文预训练模型BERT，ERNIE和本文的BERT-wwm进行了对比，并给出了若干使用建议。预训练模型将发布在：https://github.com/ymcui/Chinese-BERT-wwm

简介

Whole Word Masking (wwm)，暂翻译为全词Mask，是谷歌在2019年5月31日发布的一项BERT的升级版本，主要更改了原预训练阶段的训练样本生成策略。简单来说，原有基于WordPiece的分词方式会把一个完整的词切分成若干个词缀，在生成训练样本时，这些被分开的词缀会随机被[MASK]替换。在全词Mask中，如果一个完整的词的部分WordPiece被[MASK]替换，则同属该词的其他部分也会被[MASK]替换，即全词Mask。

同理，由于谷歌官方发布的BERT-base（Chinese）中，中文是以字为粒度进行切分，没有考虑到传统NLP中的中文分词（CWS）。我们将全词Mask的方法应用在了中文中，即对组成同一个词的汉字全部进行[MASK]。该模型使用了中文维基百科（包括简体和繁体）进行训练，并且使用了哈工大语言技术平台LTP（http://ltp.ai）作为分词工具。

下述文本展示了全词Mask的生成样例。

基线测试结果

我们选择了若干中文自然语言处理数据集来测试和验证预训练模型的效果。同时，我们也对近期发布的谷歌BERT，百度ERNIE进行了基准测试。为了进一步测试这些模型的适应性，我们特别加入了篇章级自然语言处理任务，来验证它们在长文本上的建模效果。

以下是我们选用的基准测试数据集。

我们列举其中部分实验结果，完整结果请查看我们的技术报告。为了确保结果的稳定性，每组实验均独立运行10次，汇报性能最大值和平均值（括号内显示）。

▌中文简体阅读理解：CMRC 2018

CMRC 2018是哈工大讯飞联合实验室发布的中文机器阅读理解数据。根据给定问题，系统需要从篇章中抽取出片段作为答案，形式与SQuAD相同。

▌中文繁体阅读理解：DRCD

DRCD数据集由中国***台达研究院发布，其形式与SQuAD相同，是基于繁体中文的抽取式阅读理解数据集。

▌中文命名实体识别：人民日报，MSRA-NER

中文命名实体识别（NER）任务中，我们采用了经典的人民日报数据以及微软亚洲研究院发布的NER数据。

▌句对分类：LCQMC，BQ Corpus

LCQMC以及BQ Corpus是由哈尔滨工业大学（深圳）发布的句对分类数据集。

▌篇章级文本分类：THUCNews

由清华大学自然语言处理实验室发布的新闻数据集，需要将新闻分成10个类别中的一个。

使用建议

基于以上实验结果，我们给出以下使用建议（部分），完整内容请查看我们的技术报告。

初始学习率是非常重要的一个参数（不论是BERT还是其他模型），需要根据目标任务进行调整。

ERNIE的最佳学习率和BERT/BERT-wwm相差较大，所以使用ERNIE时请务必调整学习率（基于以上实验结果，ERNIE需要的初始学习率较高）。

由于BERT/BERT-wwm使用了维基百科数据进行训练，故它们对正式文本建模较好；而ERNIE使用了额外的百度百科、贴吧、知道等网络数据，它对非正式文本（例如微博等）建模有优势。

在长文本建模任务上，例如阅读理解、文档分类，BERT和BERT-wwm的效果较好。

如果目标任务的数据和预训练模型的领域相差较大，请在自己的数据集上进一步做预训练。

如果要处理繁体中文数据，请使用BERT或者BERT-wwm。因为我们发现ERNIE的词表中几乎没有繁体中文。

声明

虽然我们极力的争取得到稳定的实验结果，但实验中难免存在多种不稳定因素（随机种子，计算资源，超参），故以上实验结果仅供学术研究参考。由于ERNIE的原始发布平台是PaddlePaddle（https://github.com/PaddlePaddle/LARK/tree/develop/ERNIE），我们无法保证在本报告中的效果能反映其真实性能（虽然我们在若干数据集中复现了效果）。同时，上述使用建议仅供参考，不能作为任何结论性依据。

该项目不是谷歌官方发布的中文Whole Word Masking预训练模型。

总结

我们发布了基于全词覆盖的中文BERT预训练模型，并在多个自然语言处理数据集上对比了BERT、ERNIE以及BERT-wwm的效果。实验结果表明，在大多数情况下，采用了全词覆盖的预训练模型（ERNIE，BERT-wwm）能够得到更优的效果。由于这些模型在不同任务上的表现不一致，我们也给出了若干使用建议，并且希望能够进一步促进中文信息处理的研究与发展。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据集

数据集

+关注

关注
4

文章
1205

浏览量
24644
自然语言处理

自然语言处理

+关注

关注
1

文章
612

浏览量
13506

原文标题：刷新中文阅读理解水平，哈工大讯飞联合发布基于全词覆盖中文BERT预训练模型

文章出处：【微信号：rgznai100，微信公众号：rgznai100】欢迎添加关注！文章转载请注明出处。

科大讯飞发布讯飞星火4.0 Turbo大模型及星火多语言大模型

，科大讯飞以其一贯的创新精神，开创性地发布了星火多语言大模型。这一创新之举不仅进一步巩固了科大讯飞在中文

发表于 10-24 13:58 •322次阅读

华工科技联合哈工大实现国内首台激光智能除草机器人落地

华工科技党委书记、董事长、总裁马新强一行赴哈尔滨对哈尔滨工业大学机器人技术与系统全国重点实验室（后简称哈工大机器人实验室）、爱辉区智能激光除草机器人试点基地进行实地调研，代表华工科技中央研究院同

发表于 09-06 10:45 •701次阅读

荣耀与智谱携手共建AI大模型联合实验室

近日，荣耀终端有限公司与北京智谱华章科技有限公司正式携手，共同宣布成立AI大模型技术联合实验室，并签署了战略合作协议。此次合作标志着双方在人工智能领域的深度合作迈入新阶段，共同致力于为用户带来前所未有的智能体验。

发表于 09-03 18:15 •955次阅读

MediaTek与小米集团联合实验室正式揭幕

MediaTek 宣布携手小米集团持续强化战略合作，共同开启更深层次的多元合作，并为位于小米深圳研发总部的「联合实验室」揭牌。此次「联合实验室」的揭幕将进一步强化双方合作伙伴关系，推动

发表于 07-03 14:52 •665次阅读

中山联合光电：精密光学实验室签约落地长春理工大学中山研究院

5月7日，中山联合光电研究院有限公司与长春理工大学中山研究院“付秀华精密光学薄膜实验室”签约仪式在中山联合光电科技股份有限公司正式举行。联合

发表于 05-10 10:08 •658次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预训练数据的需求也相

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

模型架构奠定基础。然后，引介一些经典的预训练模型，如BERT、GPT等。最后，解读ChatGPT和LLaMA系列

发表于 05-05 12:17

西井科技和香港理工大学签署合作协议，将共建联合创新实验室

西井科技和香港理工大学签署了人工智能和自动驾驶方面的深度产学研合作协议，将共建联合创新实验室，双方共同探索该领域的前沿技术和应用实践。

发表于 04-29 09:42 •494次阅读

AI+教育深圳市中小学联合实验室正式启用

4月18日，深圳市中小学人工智能联合实验室在深圳高级中学（集团）南校区启用。去年，深圳市教育局发布推进中小学人工智能教育工作方案，提出要建成具有深圳特色的人工智能教育课程体系，构建社会资源支持

发表于 04-22 10:07 •226次阅读

全志科技与佰维存储签署建立联合实验室合作协议

近日，珠海全志科技股份有限公司与深圳佰维存储科技股份有限公司在深圳佰维总部签署建立联合实验室合作协议。

发表于 04-16 10:23 •534次阅读

科大讯飞发布“讯飞星火V3.5”：基于全国产算力训练的全民开放大模型

科大讯飞，作为中国领先的智能语音和人工智能公司，近日宣布推出首个基于全国产算力训练的全民开放大模型“讯飞

发表于 02-04 11:28 •1461次阅读

上海AI实验室发布新一代书生·视觉大模型

近日，上海人工智能实验室（上海AI实验室）联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型（InternVL）。

发表于 02-04 11:25 •1053次阅读

TCL华星与联想共建创新显示联合实验室

近日，TCL华星与联想在武汉光谷宣布共建创新显示联合实验室，标志着两家行业巨头在显示技术领域的深度合作。这一实验室将专注于OLED柔性显示和折叠显示等前沿技术的研究与开发，旨在引领全球显示技术的发展方向。

发表于 02-04 09:13 •1028次阅读

科大讯飞星火认知大模型V3.5发布

近日，科大讯飞举办了星火认知大模型V3.5升级发布会。在发布会上，科大讯

发表于 01-31 17:28 •1371次阅读

科大讯飞发布星火认知大模型V3.5

科大讯飞近日发布了星火认知大模型V3.5版本，该版本基于全国产化算力底座“飞星一号”平台进行训练

发表于 01-31 14:40 •842次阅读