基于预训练语言模型的行业搜索的应用和研究-电子发烧友网

导读：本文将分享行业搜索的相关技术和应用，主要包括三大部分：

行业搜索的背景

相关技术研究

搜索是跟系统框架紧密耦合的：包括离线数据，搜索服务框架（绿色部分），搜索技术算法体系（蓝色部分），其底座是 Alicemind 预训练语言模型体系，同样会汇聚做文档分析、query 理解、相关性等。1. AliceMind 体系

AliceMind 是达摩院构建的层次化预训练语言模型体系。包含了通用预训练模型，多语言、多模态、对话等，是 NLP 所有任务的底座。2. 分词

搜索的分词（原子能力），决定了检索索引粒度，同时也与后续相关性、BM25 粒度有关。针对 task specific 任务，如果去定制一些预训练，能比通用的预训练效果更好。比如最近研究希望在原生 BERT 预训练任务上增加无监督的统计信息的任务，比如统计字词、Gram 粒度、或者边界熵，然后以 mse-loss 增加到预训练。在 CWS/POS、NER上（右图），的诸多任务都达到 SOTA。

另一个研究是跨领域。每次需要标数据、构建监督任务的成本很高，所以需构建跨领域无监督分词的机制。右下角的表格为例，电商分词相比开源的分词质量有明显改善，这套方法也发布到 ACL2020。3. 命名实体识别

搜索命名实体识别主要是对 query 、Doc 进行结构化的理解，识别出关键短语及类型。同时搜索知识图谱的构建也依赖 NER 功能。搜索 NER 也面临一些挑战。主要是比如 query 常常是比较短的，上下文不足。比如说电商里面 query 实体的歧义性很高，知识性很强。所以这几年在 NER 核心的优化思路，就是通过上下文或者引入知识的方式来增强 NER 的表征。

在 2020年、2021年做了隐式增强的工作 combo embedding。把已有 word extractor 或者 GLUE 的表征动态融合，能搭载在很多业务任务上面达到 SOTA。 2021年，研发基于显式的检索增强，对一条文本会通过搜索引擎得到增强的上下文，融合到 transformer结构。这个工作发表在 ACL 2021 上了。基于这个工作，我们参加了 SemEval 2022 多语言 NER评测拿了 10 项冠军，以及 best system paper 。

检索增强：输入句子本身之外，检索得到额外 context 并 concat 到输入，结合 KL 的 loss 来帮助学习。在很多开源数据集拿到 SOTA。4. 自适应多任务训练

BERT 本身效果是很好的，但实际生产很少有 GPU 集群，每个任务都要去做 inference性能代价很大。我们思考能否只做一次 inference，在 encoder 之后每个任务自己再做适配，就能得到比较好的效果。

一个直观的方法就是通过 meta-task 的框架纳入 NLP query 分析任务。但传统的 meta-task 是均匀采样的分布。我们提出了 MOMETAS，一个自适应基于元学习的方法，来自适应不同任务的采样。在多个任务去学习的过程中，我们会阶段性用 validation data 做测试看不同任务学习的效果。reward 反过来指导前面训练的采样。（下方表格）在很多任务上结合这个机制，相比 UB（均匀分布）有不少提升。

把上述机制应用在搜索很多行业的场景里去，带来的收益是仅通过一次 BERT 的编码并存储，在很多的下游任务直接复用，能大幅提升性能。5. 搜索召回预训练语言模型

深度检索，无外乎是双塔或单塔，通用的训练范式是有监督信号以及预训练模型，进行 finetune 获得 embedding，对 query 和 doc 进行表征。近期的优化路线主要是数据增强或难样本挖掘，另外是优化预训练语言模型。原生 BERT 不是特别适合搜索的文本表示，所以有针对搜索文本表示的预训练语言模型。其他优化是在于做 multi-view 文本表示，以及特别的 loss 设计。

相比原生 BERT 的随机采样，我们结合搜索词权重提升词权重比较高的词来提升采样概率，学习到的表征更适合搜索召回。除此之外，增加 sentence level 对比学习。结合这两个机制，提出了 ROM 的预训练语言模型。

在 MS MARCO 做实验，对比先前做法能够达到最好的效果。在实际的场景搜索任务中，也能带来较大的提升。同时该模型也参与了 MS 刷榜。6. HLATR 重排模型

除了 ROM 这个召回阶段之外，在精排、重排阶段，提出了一套 list aware 的 Transformer reranking，即将精排很多分类器的结果通过 Transformer 有机的融合在一起，有比较大的提升。

结合 ROM 和 HLATR 两个方案，3 月份至今（7 月份）仍旧是 SOTA 结果。

行业搜索应用

1. 地址分析产品

达摩院研发的地址分析产品，背景是各行各业有很多通讯地址。中文的通讯地址有很多特点，比如口语化表达有很多缺省。同时地址本身是人事实物，是客观世界很多实体桥接的一个重要实体单位。所以基于此建立了一套地址知识图谱，提供解析、补齐、搜索、地址分析。

这是产品的技术框图。从下到上包含了地址知识图谱的构建，以及地址预训练语言模型，包括基于搜索引擎的框架串接整个链路。上述提到的基准能力，以 API 的方式提供出来包装成行业方案。

这套技术里面比较重要的一个点是地理语义的预训练语言模型。一个地址在文本表示会是字符串，其实在空间里面它往往是表征成经纬度，在地图中还有对应的图片。所以这三种模态的信息是把它有机融合成一个多模态的地理语义的语言模型，以此来支持在定址里的任务。

上述提到需要做地址相关的很多基础能力，比如分词、纠错、结构化等分析。

最核心的链路是将地理预训练语言模型、地址基础任务、引发搜索引擎的方式将它们桥接起来。比如说搜索浙一医院，可能会对它去做结构化、同义词纠错、term weighting 做向量化、Geohash 的预测。基于分析结果做召回。这个链路是标准的搜索链路，进行文本召回、拼音召回、向量召回，还增加地理召回。召回之后是多阶段的排序，包括多粒度的 feature 融合。

地址搜索体系直观的应用，就是填地址后 suggestion 场景，或者高德地图里面去做搜索，需要把它映射到空间一个点位上。

接下来介绍两个比较行业化的应用方案。第一个是新零售 Family ID，核心诉求是维护一套客户的管理系统，然而各个系统用户信息没有打通，无法实现有效的整合。

比如品牌厂商卖了一个空调，家人由于购买、安装、维修而登记了各种地址、手机号，但对应的实际上是同一个地址。建立的地址搜索归一技术，把不同表示的地址进行归一，生成指纹，将不同用户 ID 聚合到 Family 概念中。

通过家庭聚合的概念，可以做到更好的渗透分析、广告投放触达等新零售下的营销活动。

另外一种应用场景，是 119、129、应急等智能接警应用。因为涉及到老百姓的人身财产安全，所以分秒必争。希望结合语音识别、文本语义理解技术把这个效率提升。

（左边例子）场景有很多特点，比如 ASR 转写的错别字、不流畅、口语化等问题。目标是希望基于自动语音转写分析推断报警地点。

我们提出了一整套系统方案，包括对话理解的口语顺滑纠错、意图识别，以及结合一套搜索从召回粗排精排的机制来最终实现地址推荐。链路已经比较成熟，在中国上百个城市的消防系统落地；消防从报警对话识别出具体的地点，结合推荐、匹配、地址围栏判断具体地点，对应出警。2. 教育拍照搜题

接下来介绍教育行业的拍照收集业务，在 To C、面向老师端也有不少需求。

拍照搜题有几个特点，本身有增量更新的题库，用户群体较大。另外，不同学科、年龄段对应的领域知识性很强。同时是一个多模态的算法，从 OCR 到后续语义理解、搜索等一套链路。

近几年针对拍照收集构建了一整套从算法到系统的链路。

比如，在手机拍照以及 OCR 识别后，会进行拼写纠错、学科预测、分词、词权重等一系列工作，帮助做到检索。

由于 OCR 对英文识别没有空格，训练了一套 K12 英文的预训练算法模型，进行英文的切分。

同时，学科、题目类型都是未知的，需要做一个提前预测。使用多模态，结合图片和文本进行意图理解。

拍照搜题跟普通的用户搜索不太一样，用户搜索往往 query 是比较短，拍照搜题往往是一道完整的题目。题目里面很多词是不重要的，需要做词权重分析，丢弃不重要的词或者排序予以降权。

在拍照搜题场景中优化效果最明显的是向量召回。性能上的要求不太能用 OR 的召回机制，需要用 AND 逻辑，对应特点是召回比较少。去提升 recall 的话，需要做 term weighting、纠错等较冗余的模块。（右图）通过文本加向量的多路召回效果，超过纯 or 逻辑，在 latency 降低 10 倍。

拍照搜索的链路包括了图像向量召回、公式召回、个性化召回。

提供两个例子。第一个是纯文本的 OCR 结果，（左列）旧结果是基于 ES，简单的 OR 召回，加上 BM25 的结果，（右列）经过多路召回以及相关性召回的链路有较大提升。第二个是拍照含有图形，多路中是必须结合图片召回。3. 电力知识库统一搜索

在企业搜索中有很多半结构化和非结构化数据，提供统一搜索，帮助企业整合数据资源。不仅在电力，其他行业也有类似需求。这里的搜索不再是狭义的搜索，还包含了对文档的预处理文档的AI和知识图谱的构建，还包括后续桥接问答的能力。以上是在电力知识库里，去做一套制度标准文本，从结构化到检索，到应用端的示意图。审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语言模型

语言模型

+关注

关注
0

文章
527

浏览量
10280
自然语言

自然语言

+关注

关注
1

文章
288

浏览量
13355
知识图谱

知识图谱

+关注

关注
2

文章
132

浏览量
7711

一文详解知识增强的语言预训练模型

，在实际应用场景中效果不好。为了解决这个问题，将知识注入到PLMs中已经成为一个非常活跃的研究领域。本次分享将介绍三篇知识增强的预训练语言模型

发表于 04-02 17:21 •9645次阅读

【大语言模型：原理与工程实践】大语言模型的基础技术

处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的预训练语言

发表于 05-05 12:17

【大语言模型：原理与工程实践】大语言模型的预训练

大语言模型的核心特点在于其庞大的参数量，这赋予了模型强大的学习容量，使其无需依赖微调即可适应各种下游任务，而更倾向于培养通用的处理能力。然而，随着学习容量的增加，对预

发表于 05-07 17:10

预训练语言模型设计的理论化认识

在这篇文章中，我会介绍一篇最新的预训练语言模型的论文，出自MASS的同一作者。这篇文章的亮点是：将两种经典的预

发表于 11-02 15:09 •2716次阅读

如何向大规模预训练语言模型中融入知识？

本文关注于向大规模预训练语言模型（如RoBERTa、BERT等）中融入知识。

发表于 06-23 15:07 •4254次阅读

Multilingual多语言预训练语言模型的套路

Facebook在Crosslingual language model pretraining（NIPS 2019）一文中提出XLM预训练多语言模型，整体思路基于BERT，并提出了针

发表于 05-05 15:23 •2989次阅读

一种基于乱序语言模型的预训练模型-PERT

由于乱序语言模型不使用[MASK]标记，减轻了预训练任务与微调任务之间的gap，并由于预测空间大小为输入序列长度，使得计算效率高于掩码语言

发表于 05-10 15:01 •1553次阅读

利用视觉语言模型对检测器进行预训练

预训练通常被用于自然语言处理以及计算机视觉领域，以增强主干网络的特征提取能力，达到加速训练和提高模型泛化性能的目的。该方法亦可以用于场景文本

发表于 08-08 15:33 •1411次阅读

预训练语言模型的字典描述

今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的预训练语言模型-DictBERT，全名为《Dictionary Description Know

发表于 08-11 10:37 •1178次阅读

CogBERT：脑认知指导的预训练语言模型

另一方面，从语言处理的角度来看，认知神经科学研究人类大脑中语言处理的生物和认知过程。研究人员专门设计了预

发表于 11-03 15:07 •1081次阅读

基于预训练语言模型的行业搜索的应用和研究

面向产业和消费互联网的搜索本质都是一样的：用户有信息获取需求，同时有信息资源库，通过搜索引擎把两者桥接起来。

发表于 02-01 11:23 •1052次阅读

什么是预训练 AI 模型？

预训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用，

发表于 04-04 01:45 •1456次阅读

什么是预训练AI模型？

预训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用，

发表于 05-25 17:10 •1051次阅读

预训练模型的基本原理和应用

预训练模型（Pre-trained Model）是深度学习和机器学习领域中的一个重要概念，尤其是在自然语言处理（NLP）和计算机视觉（CV）等领域中得到了广泛应用。

发表于 07-03 18:20 •2885次阅读

大语言模型的预训练

能力，逐渐成为NLP领域的研究热点。大语言模型的预训练是这一技术发展的关键步骤，它通过在海量无标签数据上进行

发表于 07-11 10:11 •438次阅读

搜索历史

基于预训练语言模型的行业搜索的应用和研究

评论

一文详解知识增强的语言预训练模型

【大语言模型：原理与工程实践】大语言模型的基础技术

【大语言模型：原理与工程实践】大语言模型的预训练

预训练语言模型设计的理论化认识

如何向大规模预训练语言模型中融入知识？

Multilingual多语言预训练语言模型的套路

一种基于乱序语言模型的预训练模型-PERT

利用视觉语言模型对检测器进行预训练

预训练语言模型的字典描述

CogBERT：脑认知指导的预训练语言模型

基于预训练语言模型的行业搜索的应用和研究

什么是预训练 AI 模型？

什么是预训练AI模型？

预训练模型的基本原理和应用

大语言模型的预训练