0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于预训练语言模型的行业搜索的应用和研究

深度学习自然语言处理 来源:深度学习自然语言处理 2023-02-01 11:23 次阅读

导读:本文将分享行业搜索的相关技术和应用,主要包括三大部分:

行业搜索的背景

相关技术研究

行业搜索应用

01

行业搜索的背景

1. 达摩院自然语言智能大图

872707fc-a1d0-11ed-bfe3-dac502259ad0.png

上图是达摩院自然语言处理智能的技术框图,从下到上包含:

NLP 数据、NLP 基础的词法、句法语义,分析的技术,以及上层 NLP 技术

行业应用:达摩院除了做基础研究之外,还赋能阿里集团,以及结合阿里云去赋能行业产业。赋能的很多行业场景都是搜索。

2. 行业搜索本质

87504b8a-a1d0-11ed-bfe3-dac502259ad0.png

面向产业和消费互联网的搜索本质都是一样的:用户有信息获取需求,同时有信息资源库,通过搜索引擎把两者桥接起来。 以电商场景来举例说明。比如用户在电商里面搜索 aj1 北卡蓝新款球鞋。为了更好地理解这样一个用户的 query,需要进行一系列任务:

查询理解的分析:NLP 纠错、分词类目预测、实体识别词权重、 query 改写等技术

(离线)文档分析:NLP分析,质量效率的分析

检索排序:通过对 query 的分析以及文档的分析,来结合搜索引擎本身一些检索排序的机制,就能实现把两者桥接的目标。

3. 行业搜索链路

87829bee-a1d0-11ed-bfe3-dac502259ad0.png

如果按搜索的范式来分,一般分为 sparse retrieval 及 dense retrieval。

sparse retrieval:传统的基于字或基于词去建立倒排索引,同时基于此去构建很多查询理解的一系列的能力,包括一些文本相关性排序等;

dense retrieval:随着预训练语言模型的兴起,基于预训练底座来实现单塔、双塔模型,再结合向量引擎建立搜索机制。

878ff028-a1d0-11ed-bfe3-dac502259ad0.png

一般将搜索做这样一个链路性的划分:召回、排序(粗排、精排、重排)。

87a95db0-a1d0-11ed-bfe3-dac502259ad0.png

召回阶段:

传统 sparse retrieval 的关键词召回

dense retrieval 向量召回,个性化召回

粗排阶段:使用文本相关性(静态)分数来做过滤

精排阶段:相对复杂,会有相关性的模型,可能结合业务的效率模型(LTR)

87b50d86-a1d0-11ed-bfe3-dac502259ad0.png

从左到右,模型复杂度、效果精度变高。从右到左,处理 Doc 数变多。以淘宝电商为例,比如召回(几十亿),初排(几十万),到精排(几百、上千),到重排(几十)量级。 搜索生产链路是检索效果跟工程效率 trade-off 的系统。随着算力的增长,复杂模型开始往前置换。比如说精排的模型,现在慢慢会下沉到粗排、甚至召回这个阶段。

87e14f54-a1d0-11ed-bfe3-dac502259ad0.png

搜索效果评估:

召回:recall 或无结果率

排序:相关性、转化效率(贴近业务)

相关性:NDCG、MRR

转化效率:点击率、转化率

4. 消费互联网和产业互联网的搜索

88091372-a1d0-11ed-bfe3-dac502259ad0.png

搜索在不同行业场景里区别是很大的,在此把它分为消费互联网搜索与产业互联网搜索

用户群体和 UV:消费互联网搜索 UV 非常大,产业互联网面向政企内部的员工;

搜索追求指标:消费互联网,除了追求搜得到、搜得准之外,还追求转化率高。在产业互联网,它更多是信息匹配的需求,所以关注召回跟相关性;

工程系统要求:消费互联网 QPS 的要求会很高,沉淀大量的用户行为,需要有实时日志分析、实时模型训练。产业互联网的要求会低一些;

算法方向:消费互联网会从 offline、nearline、online 的海量用户行为分析建模获得更大收益。产业互联网的用户行为稀疏,所以会更注重内容理解,比如 NLP 或者视觉的理解,研究方向包括 low resource、transfer learning。

02

相关技术研究

882ca7a6-a1d0-11ed-bfe3-dac502259ad0.png

搜索是跟系统框架紧密耦合的:包括离线数据,搜索服务框架(绿色部分),搜索技术算法体系(蓝色部分),其底座是 Alicemind 预训练语言模型体系,同样会汇聚做文档分析、query 理解、相关性等。1. AliceMind 体系

889a724a-a1d0-11ed-bfe3-dac502259ad0.png

AliceMind 是达摩院构建的层次化预训练语言模型体系。包含了通用预训练模型,多语言、多模态、对话等,是 NLP 所有任务的底座。2. 分词

88ffea94-a1d0-11ed-bfe3-dac502259ad0.png

搜索的分词(原子能力),决定了检索索引粒度,同时也与后续相关性、BM25 粒度有关。针对 task specific 任务,如果去定制一些预训练,能比通用的预训练效果更好。比如最近研究希望在原生 BERT 预训练任务上增加无监督的统计信息的任务,比如统计字词、Gram 粒度、或者边界熵,然后以 mse-loss 增加到预训练。在 CWS/POS、NER上(右图),的诸多任务都达到 SOTA。

895a3e9a-a1d0-11ed-bfe3-dac502259ad0.png

另一个研究是跨领域。每次需要标数据、构建监督任务的成本很高,所以需构建跨领域无监督分词的机制。右下角的表格为例,电商分词相比开源的分词质量有明显改善,这套方法也发布到 ACL2020。3. 命名实体识别

899ff7d2-a1d0-11ed-bfe3-dac502259ad0.png

搜索命名实体识别主要是对 query 、Doc 进行结构化的理解,识别出关键短语及类型。同时搜索知识图谱的构建也依赖 NER 功能。 搜索 NER 也面临一些挑战。主要是比如 query 常常是比较短的,上下文不足。比如说电商里面 query 实体的歧义性很高,知识性很强。所以这几年在 NER 核心的优化思路,就是通过上下文或者引入知识的方式来增强 NER 的表征。

89c91428-a1d0-11ed-bfe3-dac502259ad0.png

在 2020年、2021年做了隐式增强的工作 combo embedding。把已有 word extractor 或者 GLUE 的表征动态融合,能搭载在很多业务任务上面达到 SOTA。 2021年,研发基于显式的检索增强,对一条文本会通过搜索引擎得到增强的上下文,融合到 transformer结构。这个工作发表在 ACL 2021 上了。 基于这个工作,我们参加了 SemEval 2022 多语言 NER评测拿了 10 项冠军,以及 best system paper 。

89e88d30-a1d0-11ed-bfe3-dac502259ad0.png

检索增强:输入句子本身之外,检索得到额外 context 并 concat 到输入,结合 KL 的 loss 来帮助学习。在很多开源数据集拿到 SOTA。4. 自适应多任务训练

8a0da2a0-a1d0-11ed-bfe3-dac502259ad0.png

BERT 本身效果是很好的,但实际生产很少有 GPU 集群,每个任务都要去做 inference性能代价很大。我们思考能否只做一次 inference,在 encoder 之后每个任务自己再做适配,就能得到比较好的效果。

8a407374-a1d0-11ed-bfe3-dac502259ad0.png

一个直观的方法就是通过 meta-task 的框架纳入 NLP query 分析任务。但传统的 meta-task 是均匀采样的分布。我们提出了 MOMETAS,一个自适应基于元学习的方法,来自适应不同任务的采样。在多个任务去学习的过程中,我们会阶段性用 validation data 做测试看不同任务学习的效果。reward 反过来指导前面训练的采样。(下方表格)在很多任务上结合这个机制,相比 UB(均匀分布)有不少提升。

8a4f7612-a1d0-11ed-bfe3-dac502259ad0.png

把上述机制应用在搜索很多行业的场景里去,带来的收益是仅通过一次 BERT 的编码并存储,在很多的下游任务直接复用,能大幅提升性能。5. 搜索召回预训练语言模型

8a7470de-a1d0-11ed-bfe3-dac502259ad0.png

深度检索,无外乎是双塔或单塔,通用的训练范式是有监督信号以及预训练模型,进行 finetune 获得 embedding,对 query 和 doc 进行表征。近期的优化路线主要是数据增强或难样本挖掘,另外是优化预训练语言模型。原生 BERT 不是特别适合搜索的文本表示,所以有针对搜索文本表示的预训练语言模型。其他优化是在于做 multi-view 文本表示,以及特别的 loss 设计。

8a9031f2-a1d0-11ed-bfe3-dac502259ad0.png

相比原生 BERT 的随机采样,我们结合搜索词权重提升词权重比较高的词来提升采样概率,学习到的表征更适合搜索召回。除此之外,增加 sentence level 对比学习。结合这两个机制,提出了 ROM 的预训练语言模型。

8ac618da-a1d0-11ed-bfe3-dac502259ad0.png

在 MS MARCO 做实验,对比先前做法能够达到最好的效果。在实际的场景搜索任务中,也能带来较大的提升。同时该模型也参与了 MS 刷榜。6. HLATR 重排模型

8aedb674-a1d0-11ed-bfe3-dac502259ad0.png

除了 ROM 这个召回阶段之外,在精排、重排阶段,提出了一套 list aware 的 Transformer reranking,即将精排很多分类器的结果通过 Transformer 有机的融合在一起,有比较大的提升。

8b167ab4-a1d0-11ed-bfe3-dac502259ad0.png

结合 ROM 和 HLATR 两个方案,3 月份至今(7 月份)仍旧是 SOTA 结果。

03

行业搜索应用

1. 地址分析产品

8b2567b8-a1d0-11ed-bfe3-dac502259ad0.png

达摩院研发的地址分析产品,背景是各行各业有很多通讯地址。中文的通讯地址有很多特点,比如口语化表达有很多缺省。同时地址本身是人事实物,是客观世界很多实体桥接的一个重要实体单位。所以基于此建立了一套地址知识图谱,提供解析、补齐、搜索、地址分析。

8b4a4538-a1d0-11ed-bfe3-dac502259ad0.png

这是产品的技术框图。从下到上包含了地址知识图谱的构建,以及地址预训练语言模型,包括基于搜索引擎的框架串接整个链路。上述提到的基准能力,以 API 的方式提供出来包装成行业方案。

8b6db4dc-a1d0-11ed-bfe3-dac502259ad0.png

这套技术里面比较重要的一个点是地理语义的预训练语言模型。一个地址在文本表示会是字符串,其实在空间里面它往往是表征成经纬度,在地图中还有对应的图片。所以这三种模态的信息是把它有机融合成一个多模态的地理语义的语言模型,以此来支持在定址里的任务。

8b8e98c8-a1d0-11ed-bfe3-dac502259ad0.png

上述提到需要做地址相关的很多基础能力,比如分词、纠错、结构化等分析。

8bc7b216-a1d0-11ed-bfe3-dac502259ad0.png

最核心的链路是将地理预训练语言模型、地址基础任务、引发搜索引擎的方式将它们桥接起来。比如说搜索浙一医院,可能会对它去做结构化、同义词纠错、term weighting 做向量化、Geohash 的预测。基于分析结果做召回。这个链路是标准的搜索链路,进行文本召回、拼音召回、向量召回,还增加地理召回。召回之后是多阶段的排序,包括多粒度的 feature 融合。

8bf3920a-a1d0-11ed-bfe3-dac502259ad0.png

地址搜索体系直观的应用,就是填地址后 suggestion 场景,或者高德地图里面去做搜索,需要把它映射到空间一个点位上。

8c024aac-a1d0-11ed-bfe3-dac502259ad0.png

接下来介绍两个比较行业化的应用方案。第一个是新零售 Family ID,核心诉求是维护一套客户的管理系统,然而各个系统用户信息没有打通,无法实现有效的整合。

8c2d1804-a1d0-11ed-bfe3-dac502259ad0.png

比如品牌厂商卖了一个空调,家人由于购买、安装、维修而登记了各种地址、手机号,但对应的实际上是同一个地址。建立的地址搜索归一技术,把不同表示的地址进行归一,生成指纹,将不同用户 ID 聚合到 Family 概念中。

8c5330d4-a1d0-11ed-bfe3-dac502259ad0.png

8c602d98-a1d0-11ed-bfe3-dac502259ad0.png

通过家庭聚合的概念,可以做到更好的渗透分析、广告投放触达等新零售下的营销活动。

8c80c0e4-a1d0-11ed-bfe3-dac502259ad0.png

另外一种应用场景,是 119、129、应急等智能接警应用。因为涉及到老百姓的人身财产安全,所以分秒必争。希望结合语音识别、文本语义理解技术把这个效率提升。

8cb666fe-a1d0-11ed-bfe3-dac502259ad0.png

(左边例子)场景有很多特点,比如 ASR 转写的错别字、不流畅、口语化等问题。目标是希望基于自动语音转写分析推断报警地点。

8cd5dd9a-a1d0-11ed-bfe3-dac502259ad0.png

8cf5f2f6-a1d0-11ed-bfe3-dac502259ad0.png

8d1815fc-a1d0-11ed-bfe3-dac502259ad0.png

我们提出了一整套系统方案,包括对话理解的口语顺滑纠错、意图识别,以及结合一套搜索从召回粗排精排的机制来最终实现地址推荐。链路已经比较成熟,在中国上百个城市的消防系统落地;消防从报警对话识别出具体的地点,结合推荐、匹配、地址围栏判断具体地点,对应出警。2. 教育拍照搜题

8d267f2a-a1d0-11ed-bfe3-dac502259ad0.png

接下来介绍教育行业的拍照收集业务,在 To C、面向老师端也有不少需求。

8d460444-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜题有几个特点,本身有增量更新的题库,用户群体较大。另外,不同学科、年龄段对应的领域知识性很强。同时是一个多模态的算法,从 OCR 到后续语义理解、搜索等一套链路。

8d68cd8a-a1d0-11ed-bfe3-dac502259ad0.png

近几年针对拍照收集构建了一整套从算法到系统的链路。

8d97803a-a1d0-11ed-bfe3-dac502259ad0.png

比如,在手机拍照以及 OCR 识别后,会进行拼写纠错、学科预测、分词、词权重等一系列工作,帮助做到检索。

8dc3c08c-a1d0-11ed-bfe3-dac502259ad0.png

由于 OCR 对英文识别没有空格,训练了一套 K12 英文的预训练算法模型,进行英文的切分。

8dfc420e-a1d0-11ed-bfe3-dac502259ad0.png

同时,学科、题目类型都是未知的,需要做一个提前预测。使用多模态,结合图片和文本进行意图理解。

8e52a2f2-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜题跟普通的用户搜索不太一样,用户搜索往往 query 是比较短,拍照搜题往往是一道完整的题目。题目里面很多词是不重要的,需要做词权重分析,丢弃不重要的词或者排序予以降权。

8e75df88-a1d0-11ed-bfe3-dac502259ad0.png

在拍照搜题场景中优化效果最明显的是向量召回。性能上的要求不太能用 OR 的召回机制,需要用 AND 逻辑,对应特点是召回比较少。去提升 recall 的话,需要做 term weighting、纠错等较冗余的模块。(右图)通过文本加向量的多路召回效果,超过纯 or 逻辑,在 latency 降低 10 倍。

8e9de9c4-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜索的链路包括了图像向量召回、公式召回、个性化召回。

8ebb4f32-a1d0-11ed-bfe3-dac502259ad0.png

提供两个例子。第一个是纯文本的 OCR 结果,(左列)旧结果是基于 ES,简单的 OR 召回,加上 BM25 的结果,(右列)经过多路召回以及相关性召回的链路有较大提升。 第二个是拍照含有图形,多路中是必须结合图片召回。3. 电力知识库统一搜索

8ec85560-a1d0-11ed-bfe3-dac502259ad0.png

8eff121c-a1d0-11ed-bfe3-dac502259ad0.png

在企业搜索中有很多半结构化和非结构化数据,提供统一搜索,帮助企业整合数据资源。不仅在电力,其他行业也有类似需求。这里的搜索不再是狭义的搜索,还包含了对文档的预处理文档的AI和知识图谱的构建,还包括后续桥接问答的能力。以上是在电力知识库里,去做一套制度标准文本,从结构化到检索,到应用端的示意图。 审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    487

    浏览量

    10201
  • 自然语言
    +关注

    关注

    1

    文章

    279

    浏览量

    13295
  • 知识图谱
    +关注

    关注

    2

    文章

    132

    浏览量

    7663
收藏 人收藏

    评论

    相关推荐

    一文详解知识增强的语言训练模型

    ,在实际应用场景中效果不好。为了解决这个问题,将知识注入到PLMs中已经成为一个非常活跃的研究领域。本次分享将介绍三篇知识增强的训练语言模型
    的头像 发表于 04-02 17:21 9368次阅读

    【大语言模型:原理与工程实践】大语言模型的基础技术

    处理各种自然语言任务时都表现出了惊人的能力。这促使一个新的研究方向诞生——基于Transformer 的训练语言
    发表于 05-05 12:17

    【大语言模型:原理与工程实践】大语言模型训练

    语言模型的核心特点在于其庞大的参数量,这赋予了模型强大的学习容量,使其无需依赖微调即可适应各种下游任务,而更倾向于培养通用的处理能力。然而,随着学习容量的增加,对
    发表于 05-07 17:10

    训练语言模型设计的理论化认识

    在这篇文章中,我会介绍一篇最新的训练语言模型的论文,出自MASS的同一作者。这篇文章的亮点是:将两种经典的
    的头像 发表于 11-02 15:09 2597次阅读

    如何向大规模训练语言模型中融入知识?

    本文关注于向大规模训练语言模型(如RoBERTa、BERT等)中融入知识。
    的头像 发表于 06-23 15:07 4035次阅读
    如何向大规模<b class='flag-5'>预</b><b class='flag-5'>训练</b><b class='flag-5'>语言</b><b class='flag-5'>模型</b>中融入知识?

    Multilingual多语言训练语言模型的套路

    Facebook在Crosslingual language model pretraining(NIPS 2019)一文中提出XLM训练语言模型,整体思路基于BERT,并提出了针
    的头像 发表于 05-05 15:23 2815次阅读

    一种基于乱序语言模型训练模型-PERT

    由于乱序语言模型不使用[MASK]标记,减轻了训练任务与微调任务之间的gap,并由于预测空间大小为输入序列长度,使得计算效率高于掩码语言
    的头像 发表于 05-10 15:01 1421次阅读

    利用视觉语言模型对检测器进行训练

    训练通常被用于自然语言处理以及计算机视觉领域,以增强主干网络的特征提取能力,达到加速训练和提高模型泛化性能的目的。该方法亦可以用于场景文本
    的头像 发表于 08-08 15:33 1251次阅读

    训练语言模型的字典描述

    今天给大家带来一篇IJCAI2022浙大和阿里联合出品的采用对比学习的字典描述知识增强的训练语言模型-DictBERT,全名为《Dictionary Description Know
    的头像 发表于 08-11 10:37 1083次阅读

    CogBERT:脑认知指导的训练语言模型

    另一方面,从语言处理的角度来看,认知神经科学研究人类大脑中语言处理的生物和认知过程。研究人员专门设计了
    的头像 发表于 11-03 15:07 940次阅读

    基于训练语言模型行业搜索的应用和研究

    面向产业和消费互联网的搜索本质都是一样的:用户有信息获取需求,同时有信息资源库,通过搜索引擎把两者桥接起来。
    的头像 发表于 02-01 11:23 917次阅读

    什么是训练 AI 模型

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,
    的头像 发表于 04-04 01:45 1302次阅读

    什么是训练AI模型

    训练 AI 模型是为了完成特定任务而在大型数据集上训练的深度学习模型。这些模型既可以直接使用,
    的头像 发表于 05-25 17:10 880次阅读

    训练模型的基本原理和应用

    训练模型(Pre-trained Model)是深度学习和机器学习领域中的一个重要概念,尤其是在自然语言处理(NLP)和计算机视觉(CV)等领域中得到了广泛应用。
    的头像 发表于 07-03 18:20 1422次阅读

    语言模型训练

    能力,逐渐成为NLP领域的研究热点。大语言模型训练是这一技术发展的关键步骤,它通过在海量无标签数据上进行
    的头像 发表于 07-11 10:11 249次阅读