入门自然语言处理的基本任务——文本匹配-电子发烧友网

2020年初，新冠疫情席卷全球。除了“待在家，不乱跑”，我想还能从哪为抗击疫情出点微薄之力呢？

碰巧室友推送了一个天池公益赛“新冠疫情相似句对判定大赛”，秉持“重在参与”的心态参加了比赛。经过半个月的努力，最终结果勉强不错（第6），收割了一台Kindle。

2021年1月，疫情形势依然严峻，幸运的是国家不仅及时稳住了疫情，还研发出了有效的疫苗。借助疫情主题的比赛，我希望帮助更多读者，入门自然语言处理的基本任务——文本匹配。

开源代码：

https://github.com/yechens/COVID-19-sentence-pair

01 数据分析任务背景非常直观，主办方给定了“肺炎”、“支气管炎”、“上呼吸道感染”等医疗背景下的用户真实提问，要求选手通过算法识别任意2个问题，是否表达同一个意思。举例：

问题1：“轻微感冒需不需要吃药？”

问题2：“轻微感冒需要吃什么药？”

问题1关心“是否得吃药”，问题2关心“该吃什么药”，侧重点不同所以意思不同。

数据集样本都是三元组（query1， query2， label）。为了降低难度，每一个问题的长度被控制在20字以内。

比赛的训练集、验证集分别包含8746、2001条三元组。我们从dev中随机保留了800条样本作为最终dev，其余均加入训练。

数据增强拿到数据简单分析后，我发现数据集已经过清洗，竟然异常的干净整齐（没有杂乱的符号、不通顺的句子），label分布几乎也接近1:1。

再观察数据，相同的query1总是按顺序排列在一起，随后跟着不同的query2。这种分布很容易想到一种数据增强策略：相似传递性。

A 《-》 B 相似 and A 《-》 C 相似 =》 B 《-》 C 相似

最终我额外获得了5000条高质量的数据，比赛准确率因此提升了0.5%。

实体替换此外，我们也尝试了训练一个NER模型挖掘文本中的医疗实体，如“胸膜炎”、“肺气肿”，再通过word2vec查找最接近的实体进行替换。

但这种方式并没有提升最终结果。我觉得原因有2个：

1W条样本规模偏小，NER模型识别误差较大

词向量没有针对医疗场景训练，包含的医疗实体很少

02 匹配方法实现文本匹配有非常多简单又实用的方法，例如：

基于字符统计：字符串匹配、编辑距离、Jaccards距离

基于语言模型：word2vec/glove词向量、BERT

基于神经网络：孪生网络、TextCNN、DSSM、FastText等

由于比赛需要尽可能获得高分，这里主要介绍基于神经网络和BERT的文本匹配算法。

BERT［1］是一种预训练语言模型，通过海量文本、Transformer架构和MLM训练任务在众多NLP任务上取得了优异成果。对BERT不了解的读者，可以参考我之前的文章“从BERT、XLNet到MPNet，细看NLP预训练模型发展变迁史”［2］。

比赛中我们测试了5-6种不同的神经网络方法，并最终选择了3种在dev上表现最好的模型加权融合。具体可以参考文件。

文本CNN（TextCNN）TextCNN是Yoon Kim［3］在2014年提出的用于句子分类的卷积神经网络。文本匹配任务本质上可以理解成二分类任务（0：不相似，1：相似），所以一般的分类模型也能满足匹配需求。

与图像中的二维卷积不同，TextCNN采用的是一维卷积，每个卷积核的大小为（h为卷积核窗口，k为词向量维度）。文中采用了不同尺寸的卷积核，来提取不同文本长度的特征。

然后，作者对于卷积核的输出进行最大池化操作，只保留最重要的特征。各个卷积核输出经MaxPooling后拼接形成一个新向量，最后输出到全连接层分类器（Dropout + Linear + Softmax）实现分类。

我们知道，文本中的关键词对于判断2个句子是否相似有很大影响，而CNN局部卷积的特效能很好的捕捉这种关键特征。同时TextCNN还具有参数量小，训练稳定等优点。

文本RNN（TextRCNN）相比TextCNN，TextRCNN的模型结构看起来复杂一些。

简单浏览论文后，会发现它的思路其实简单，粗暴。

首先通过词向量获得字符编码，随后将其通过双向RNN学习上下文特征，编码得到两个方向的特征。

再将词向量和、拼接得到新向量，输入经tanh函数激活的全连接网络。最后，将网络的输出最大池化，并输入另一个全连接分类器完成分类。

RNN模型对于长文本有较好的上下文“记忆”能力，更适合处理文本这种包含时间序列的信息。

BERT+MLP（fine-tune）最后一种方法，直接用语言模型BERT最后一层Transformer的输出，接一层Dense实现文本匹配。

实验中我们发现，对最终输出的每个token特征取平均（MeanPooling）效果好于直接使用首字符“［CLS］”的特征。

模型权重上，崔一鸣等人［5］发布的中文roberta_wwm_ext_large模型效果要好于BERT_large。

最后，我们根据这三种模型在dev上的准确率设置了不同比重，通过自动搜索找到最优权重组合，在线上测试集取得了96.26%的准确率。

读者可以在“NLP情报局”后台回复“文本匹配”直接下载模型论文。

03 涨分trick做一个深度学习主导的算法比赛，除了分析数据与模型，一些trick也是获得高分的重要因素。这里罗列了一些常用策略。

数据增强［6］

标签平滑

自蒸馏

文本对抗训练［7］

模型融合

特征筛选

使用多个学习率［8］

针对这次文本匹配任务，数据增强、标签平滑、模型融合、多学习率都被证明是有效的。

04 总结过去将近1年的天池“新冠疫情相似句对判定大赛”，任务并不复杂，是入门NLP项目实战，提升编程能力的很好锻炼机会。

比赛虽然结束了，疫情犹在。大家一定要保护好自己哦！

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4779

浏览量
101095
数据集

数据集

+关注

关注
4

文章
1209

浏览量
24801
nlp

nlp

+关注

关注
1

文章
489

浏览量
22088

原文标题：天池NLP赛道top指南

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

如何优化自然语言处理模型的性能

优化自然语言处理（NLP）模型的性能是一个多方面的任务，涉及数据预处理、特征工程、模型选择、模型调参、模型集成与融合等多个环节。以下是一些具体的优化策略：一、数据预

发表于 12-05 15:30 •689次阅读

如何使用自然语言处理分析文本数据

使用自然语言处理（NLP）分析文本数据是一个复杂但系统的过程，涉及多个步骤和技术。以下是一个基本的流程，帮助你理解如何使用NLP来分析文本数据： 1. 数据收集收集

发表于 12-05 15:27 •397次阅读

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

Learning，简称ML）是人工智能的一个核心领域，它使计算机能够从数据中学习并做出预测或决策。自然语言处理与机器学习之间有着密切的关系，因为机器学习提供了一种强大的工具，用于从大量文本数据中提取模式和知识，从而提高NLP系

发表于 12-05 15:21 •654次阅读

语音识别与自然语言处理的关系

在人工智能的快速发展中，语音识别和自然语言处理（NLP）成为了两个重要的技术支柱。语音识别技术使得机器能够理解人类的语音，而自然语言处理则让机器能够理解、解释和生成人类

发表于 11-26 09:21 •555次阅读

ASR与自然语言处理的结合

。以下是对ASR与自然语言处理结合的分析：一、ASR与NLP的基本概念 ASR（自动语音识别）：专注于将人类的语音转换为文字。涉及从声音信号中提取特征，并将这些特征映射到文本。 NLP（

发表于 11-18 15:19 •516次阅读

使用LSTM神经网络处理自然语言处理任务

自然语言处理（NLP）是人工智能领域的一个重要分支，它旨在使计算机能够理解、解释和生成人类语言。随着深度学习技术的发展，特别是循环神经网络（RNN）及其变体——长短期记忆（LSTM）网络的出现

发表于 11-13 09:56 •474次阅读

使用LLM进行自然语言处理的优缺点

语言任务，如文本分类、情感分析、机器翻译等。以下是使用LLM进行NLP的一些优缺点：优点强大的语言理解能力： LLM通过训练学习了大量的语言

发表于 11-08 09:27 •611次阅读

自动发电控制系统的基本任务

自动发电控制系统（Automatic Generation Control，简称AGC）在电力系统中扮演着至关重要的角色，其基本任务可以归纳为以下几个方面：　　发电机输出功率与总负荷功率匹配

发表于 10-03 15:03 •702次阅读

nlp自然语言处理的主要任务及技术方法

自然语言处理（Natural Language Processing，简称NLP）是人工智能和语言学领域的一个分支，它研究如何让计算机能够理解、生成和处理人类

发表于 07-09 10:26 •1286次阅读

自然语言处理技术有哪些

自然语言处理（Natural Language Processing，简称NLP）是人工智能领域的一个分支，它致力于使计算机能够理解、解释和生成人类语言。自然语言

发表于 07-03 14:30 •1321次阅读

自然语言处理模式的优点

得到了广泛的应用，如搜索引擎、语音助手、机器翻译、情感分析等。 1. 提高信息获取效率 自然语言处理技术能够快速地从大量文本数据中提取关键信息，帮助用户节省查找和筛选信息的时间。例如，搜索引擎通过NLP技术理解用户的查询意图，提

发表于 07-03 14:24 •847次阅读

自然语言处理技术的核心是什么

，广泛应用于机器翻译、情感分析、语音识别、智能问答、文本摘要等众多领域。 自然语言处理技术的发展可以追溯到20世纪50年代。1950年，图灵提出了著名的图灵测试，标志着自然语言

发表于 07-03 14:20 •866次阅读

自然语言处理是什么技术的一种应用

自然语言处理（Natural Language Processing，简称NLP）是人工智能和语言学领域的一个分支，它涉及到使用计算机技术来处理、分析和生成

发表于 07-03 14:18 •1130次阅读

自然语言处理包括哪些内容

自然语言处理（Natural Language Processing，简称NLP）是人工智能领域的一个重要分支，它涉及到计算机与人类语言之间的交互。NLP的目标是让计算机能够理解、生成和处理

发表于 07-03 14:15 •1156次阅读

什么是自然语言处理 (NLP)

理解和处理自然语言文本，从而实现人机交互的流畅和自然。NLP不仅关注理论框架的建立，还侧重于实际技术的开发和应用，广泛应用于法律、医疗、教育、安全、工业、金融等多个领域。

发表于 07-02 18:16 •1315次阅读

搜索历史

入门自然语言处理的基本任务——文本匹配

评论

如何优化自然语言处理模型的性能

如何使用自然语言处理分析文本数据

自然语言处理与机器学习的关系自然语言处理的基本概念及步骤

语音识别与自然语言处理的关系

ASR与自然语言处理的结合

使用LSTM神经网络处理自然语言处理任务

使用LLM进行自然语言处理的优缺点

自动发电控制系统的基本任务

nlp自然语言处理的主要任务及技术方法

自然语言处理技术有哪些

自然语言处理模式的优点

自然语言处理技术的核心是什么

自然语言处理是什么技术的一种应用

自然语言处理包括哪些内容

什么是自然语言处理 (NLP)