解读NLPCC最佳学生论文：数据和预训练模型-电子发烧友网

在2020年初开始的新冠病毒蔓延影响下，NLPCC 2020采取线上+线下的会议方式，线上线下共缴费注册496人，其中现场参会总人数达372人，线上参会人数124人，另有15个赞助单位参展。汇聚了众多国内外NLP领域的知名学者。本次会议总投稿数是445篇，会议有效投稿404篇。其中，主会有效总投稿377篇，Workshop有效投稿27篇。在主会377篇有效投稿中，英文论文315篇，中文论文62篇；接收Oral论文83篇，其中英文论文70篇，中文论文13篇，录用率为22%；接收Poster 论文30篇。Workshop共计录取14篇论文。在本次会议上评选出最佳论文、最佳学生论文各1篇，并进行了颁奖仪式。来自清华大学朱小燕、黄民烈团队的王义达作为一作发表的《A Large-Scale Chinese Short-Text Conversation Dataset》获得了最佳学生论文，以下是王义达本人对获奖论文的亲自解读。

基于Transformer的大规模预训练语言模型极大地促进了开放领域对话的研究进展。然而目前这一技术在中文对话领域并未被广泛应用，主要原因在于目前缺乏大规模高质量的中文对话开源数据。为了推动中文对话领域的研究，弥补中文对话语料不足这一问题，我们发布了一个包含1200万对话的大规模中文对话数据集LCCC，并开源了在LCCC上预训练的大规模中文对话生成模型CDial-GPT。开源地址：https://github.com/thu-coai/CDial-GPT 1

LCCC数据集的构建

LCCC（Large-scale Cleaned Chinese Conversation）数据集有LCCC-base与LCCC-large两个版本，其中LCCC-base和LCCC-large中各包含6.8M和12M对话。这些数据是从79M原始对话数据中经过严格清洗得到的，也是目前所开源的规模最大、清洗最严格的中文对话数据集。

表1. 被过滤掉的噪音数据开放领域对话数据的构建通常有三种方式：1、抽取剧本对话；2、人工众包构建对话；3、爬取社交媒体上用户的交流记录。使用第一种方式构建的对话在内容上依赖于特定剧情和场景，与日常对话有较大差异。使用第二种方式构建的对话质量最高，但是由于人力成本过高，无法使用这一方式构建大规模数据集。使用第三种方式可以较为廉价地获取大规模对话数据，因此LCCC数据集中的原始数据主要使用第三种方式收集。我们同时注意到，来自社交媒体的对话数据中存在各种各样的噪音（表1），为了保证LCCC中对话数据的质量，我们设计了如下数据获取和清洗策略：

1. 数据获取我们的数据获取流程分为两个阶段。在第一个阶段，我们挑选了微博上由专业媒体团队运营的新闻媒体账号，然后收集了一批在这些新闻媒体下留言互动的活跃用户。在第二个阶段中，我们收集了这些活跃用户微博下的留言互动，并将其作为我们的原始数据。微博下的留言回复一般以一个树形结构展开，我们将这一树形回复结构中每一条从根节点到叶子节点的路径作为一个完整对话，最终共收集到了79M对话数据。

2. 数据清洗为了保证数据质量，我们对收集到的原始对话数据进行了两个阶段的清洗。第一阶段的清洗主要基于手工规则。这一阶段的主要目的是为了过滤掉对话数据中的明显噪声，如脏话、特殊符号、病句、复读机句式、广告、违法暴力信息等。在这一阶段中，我们花费了数周时间使用人工排查的方式优化规则。

第二阶段的清洗主要基于分类器过滤。在这一阶段中，我们基于BERT训练了两个文本分类器，第一个分类器主要用于甄别那些无法通过规则检测的噪音，如：1、语义模糊、语法错乱或有严重拼写错误的语句；2、时效性太强的对话；3、与上下文语义不相关的回复。第二个分类器主要用于甄别那些需要依赖额外上下文信息，如图片或视频等，才能理解的对话。这两个分类器均使用人工标注数据训练，我们为其标注了共计11万对话数据，最终的分类器在人工标注的测试集上分别达到了73.76%和77.60%的准确率。我们通过F1-score选择阈值来过滤得到高质量的对话数据。

表2. 数据统计信息，左侧为LCCC-base，右侧为LCCC-large 最终我们基于上述原始对话数据过滤得到了6.8M高质量的对话数据LCCC-base。此外，我们还收集了目前已公开的其他对话数据，并使用同样的清洗流程，结合LCCC-base构造了包含12M对话的数据集LCCC-large。表2展示了这两个数据集中单轮对话和多轮对话的详细统计信息。 2

中文对话预训练模型CDial-GPT

为促进中文对话预训练模型的发展，我们基于LCCC数据集预训练了大规模中文对话生成模型CDial-GPT。该模型的训练过程包含两个阶段，首先，我们在总计5亿字符、包含各类题材的小说数据上训练得到了一个中文小说GPT预训练模型，然后在该模型的基础上，我们使用LCCC中的对话数据继续对模型进行训练，最终得到了中文对话预训练模型CDial-GPT。

图1. 输入编码示例该模型拥有12层Transformer结构，我们按字分词，字典大小13088，字向量维度768，最长上下文长度为513。我们沿用TransferTransfo的方式对对话进行建模，即把对话历史拼接为长文本，并使用段分割向量加以区分。具体来说：我们使用[CLS]字符标志文本起始，在段落后使用[SEP]字符表示段落结束，在段落中对相邻轮次对话使用[speaker1]、[speaker2]交替分割，并在segment embedding中使用[speaker1]、[speaker2]进行编码。图1为输入数据示例。 3

模型效果评测

为了评估对话预训练模型的质量，我们在440万规模的中文对话数据集STC上对其进行了评测实验，并对比了现有的中文对话预训练模型和一些经典的非预训练对话模型。我们主要通过PPL这一指标来反映模型的拟合能力，PPL越低表示模型的拟合能力越强。我们通过基于n-gram重合度的指标BLEU和基于Embedding相似度的指标Greedy Matching 和Embedding Average来衡量对话回复与真实回复的相关性，并通过Dist-n指标来衡量生成回复的多样性。实验结果展示在表3中。可以看到我们的模型在绝大多数指标上达到了最好的效果。由于自动指标无法完全反映生成对话的质量，于是我们对各模型生成的对话进行了人工评测。

表3. 自动指标评估

表4. 人工评价在人工评测中我们主要考虑3个方面：1、语法性，也就是生成语句的流畅性；2、相关性，即生成语句与对话上文的相关性；3、信息量，即生成结果自身含有的信息量。具体来说，不符合语法性或与对话上文不相关的生成结果我们给予0分；语句流畅、和对话上文相关但信息量不足的生成结果给予1分；语句流畅、和对话上文相关并且信息量充足的生成结果给予2分，我们将人工评测结果展示在表4中。实验结果显示，我们的预训练模型拥有出色的生成质量，可以在生成信息量充足的回复的同时，保持较高的流畅性与相关性，优于其他基线模型，一些生成例子展示在表5，6中。

表5. 人机交互示例（左）和模型互相交互示例（右）

表6.在STC微调的生成结果示例目前CDial-GPT模型以及LCCC数据集都已公开，我们提供了训练以及微调代码，可以方便地应用于各种数据和下游任务上。

责任编辑：xj

原文标题：一作解读NLPCC最佳学生论文：1200万中文对话数据和预训练模型CDial-GPT

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
7067

浏览量
89127
nlp

nlp

+关注

关注
1

文章
489

浏览量
22052
训练模型

训练模型

+关注

关注
1

文章
36

浏览量
3858

原文标题：一作解读NLPCC最佳学生论文：1200万中文对话数据和预训练模型CDial-GPT

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

KerasHub统一、全面的预训练模型库

深度学习领域正在迅速发展，在处理各种类型的任务中，预训练模型变得越来越重要。Keras 以其用户友好型 API 和对易用性的重视而闻名，始终处于这一动向的前沿。Keras 拥有专用的内容库，如用

发表于 12-20 10:32 •108次阅读

什么是大模型、大模型是怎么训练出来的及大模型作用

，基础模型。大模型是一个简称，完整的叫法，应该是“人工智能预训练大模型”。预

发表于 11-25 09:29 •1662次阅读

什么是大<b class='flag-5'>模型</b>、大<b class='flag-5'>模型</b>是怎么<b class='flag-5'>训练</b>出来的及大<b class='flag-5'>模型</b>作用

AI大模型的训练数据来源分析

AI大模型的训练数据来源广泛且多元化，这些数据源对于构建和优化AI模型至关重要。以下是对AI大模型

发表于 10-23 15:32 •711次阅读

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

鹭岛论坛数据智能系列讲座第4期「预训练的基础模型下的持续学习」10月30日（周三）20：00精彩开播期待与您云相聚，共襄学术盛宴！|直播信息报告题目

发表于 10-18 08:09 •237次阅读

苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

苹果公司在最新的技术论文中披露了一项重要信息，其全新的人工智能系统Apple Intelligence所依赖的模型并非传统上大型科技公司首选的NVIDIA GPU，而是选择了在谷歌设计的云端芯片上进行预

发表于 07-30 15:00 •554次阅读

预训练和迁移学习的区别和联系

预训练和迁移学习是深度学习和机器学习领域中的两个重要概念，它们在提高模型性能、减少训练时间和降低对数据量的需求方面发挥着关键作用。本文将从定

发表于 07-11 10:12 •1084次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行训练，使

发表于 07-11 10:11 •439次阅读

LLM预训练的基本概念、基本原理和主要优势

在人工智能和自然语言处理（NLP）领域，大型语言模型（Large Language Model，简称LLM）的兴起极大地推动了技术的进步和应用的发展。LLM通过在大规模文本数据上进行预训练

发表于 07-10 11:03 •1099次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。预

发表于 07-03 18:20 •2909次阅读

解读PyTorch模型训练过程

PyTorch作为一个开源的机器学习库，以其动态计算图、易于使用的API和强大的灵活性，在深度学习领域得到了广泛的应用。本文将深入解读PyTorch模型训练的全过程，包括数据准备、

发表于 07-03 16:07 •1091次阅读

PyTorch如何训练自己的数据集

的数据集。本文将深入解读如何使用PyTorch训练自己的数据集，包括数据准备、模型定义、

发表于 07-02 14:09 •1767次阅读

【大语言模型：原理与工程实践】大语言模型的预训练

增长。DeepMind在相关论文中指出，模型大小和训练Token数应以相似速率增长，以确保最佳性能。因此，构建与模型规模相匹配的

发表于 05-07 17:10

【大语言模型：原理与工程实践】大语言模型的基础技术

模型架构奠定基础。然后，引介一些经典的预训练模型，如BERT、GPT等。最后，解读ChatGPT和LLaMA系列

发表于 05-05 12:17

【大语言模型：原理与工程实践】核心技术综述

其预训练和微调，直到模型的部署和性能评估。以下是对这些技术的综述：模型架构: LLMs通常采用深层的神经网络架构，最常见的是Transformer网络，它包含多个自注意力层，能够捕

发表于 05-05 10:56

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌AI。ELECTRA不仅拥有BERT的优势，而且在效率上更胜一筹。

发表于 02-29 17:37 •799次阅读

搜索历史

解读NLPCC最佳学生论文：数据和预训练模型

评论

KerasHub统一、全面的预训练模型库

什么是大模型、大模型是怎么训练出来的及大模型作用

AI大模型的训练数据来源分析

直播预约 |数据智能系列讲座第4期：预训练的基础模型下的持续学习

苹果揭示AI新动向:Apple Intelligence模型在谷歌云端芯片上预训练

预训练和迁移学习的区别和联系

大语言模型的预训练

LLM预训练的基本概念、基本原理和主要优势

预训练模型的基本原理和应用

解读PyTorch模型训练过程

PyTorch如何训练自己的数据集

【大语言模型：原理与工程实践】大语言模型的预训练

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】核心技术综述

谷歌模型训练软件有哪些功能和作用