0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

纠错技术的背景

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2020-10-10 11:01 次阅读

纠错是搜索引擎中一个非常有特色的模块,对用户输入的内容进行改写从而让用户得到正确的结果,有的时候也会带有一些惊喜度,所以纠错技术是一个搜索体验的加分项,近期突然对这块有兴趣,所以就了解了一下。

纠错技术的背景

人非圣贤,孰能无过,别说是搜索的时候,哪怕是我们打字、写作文的时候,都会出现错字,一般的错别字不会对最终目标带来很大影响,且出现频率很低,不拘小节的我们常常会忽略这样的小问题,但是,在搜索场景下,错别字意味着可能就搜不到内容了,对于用户而言,就是需求无法满足,造成了很差的体验,因此在搜索场景中,就很有必要去纠错。

错误是如何产生的

要去纠错,先要去看看错误是怎么产生的。

首先是误操作类型,这种类型可以从输入法角度去看。

拼音输入法。常会出现同音异形字,例如周节伦等。

笔画输入法或者手写输入法。常会出现形似字,例如博和傅。

然后是用户的主观理解,有的时候用户只是听说过而没见过,或者就是理解问题,导致主动地出入了错误的内容,例如飞扬拔(跋)扈,然后有一些名词,例如小说、音乐、电影等,写错字是非常容易的。

当然,也有用户图方便,或者输入问题,导致直接输入拼音或者拼音前缀,或者就是因为记忆的原因,输错了。

当然这里也要补充一些常见的问题举例:

谐音。深圳-森圳。

别字。师傅-师博。

中英文。Taylor swift-泰勒斯威夫特。

近义词。爱情呼叫转移-恋爱呼叫转移。

形近字。高粱-高梁。

全拼。深圳-shenzhen。

拼音前缀。北京-bj。

内容不完整。唐人街探案-唐人。

总之错误千奇百怪。理解错误产生的机理,我们就可以尝试去处理这些问题。

词典与规则方法

词典是搜索系统中非常常用的方法,词典具有高速、高准的优点,如果词典的覆盖度高,甚至可以达到高召回的效果,因此词典基本是搜索系统中的核心存在,我们不应该小看他,而是尽可能挖掘他的潜能。

词典方法,说白了就是对query找对应词典里有没有,如果有就改写过去,这种方法的优点在于速度快,而难点在于怎么去挖掘这个词典。

至于怎么挖掘这个词典,方法有很多底层数据库抽取,用户日志等,都有很多构建起这样的词典,能够大大降低耗时,复杂度至于query和单词长度有关。那么一般都有什么词典呢,我们来一个一个看看。

拼音和拼音前缀词典。先将query或者单词转为拼音,然后通过通过拼音召回对应的结果,完成纠错。

别字词典,记录一些常见的错别字,例如百度的形近词表就很不错(就在百度百科里面)。

其他改写字典。一般基于具体业务来改写,例如用户输入唐人街探案,其实唐人街探案有3部,我们应该给那个,需要基于热度等方面去改写到具体最合适的一部。

词典只是能够匹配到合适的结果,但是我们需要知道的是,改写的内容不能和原来差距太远,否则会出现很多意料之外的结果,因此改写不能大改,只能改微调,否则出来的结果会让用户感到很懵逼。控制的方法主要是编辑距离。

所谓的编辑距离,就是改写前到改写后,需要经过的操作多少,说人话就是两句话的不同点有几个,精确到字级别。深圳-森圳的编辑距离就是1。通过编辑距离的约束,一般能够让两者的差距不是很大。

我知道很多人热衷于用语义相似度之类的操作,不管别的什么方法,编辑距离一定要约束,用户强调的是直观感受,语义相近与否不是他们第一个关心的,只有当字相近的结果不好的时候考虑语义相近才是用户的实际反映,且错别字带来的语义变化非常大,此处用予以相似度其实不完全合适。

模型类方法

说是词典和规则好处很多,但是在泛化能力上,模型还是很强的。那么在模型视角下,其实会分为下面3个步骤进行分析处理。

错误诊断。即判断有没有错。

修正召回。召回可能的修改项。保证召回率

修正确认。判断最终需要的修改项。保证准确率。

当然,如果模型足够强力,召回和确认两个步骤也可以合并,具体看准招和耗时了。

其实这个思路最广泛的应用就是推荐系统,召回和排序分离,这个我在大概是去年很早的一篇文章里谈到在这个,这是推荐系统里面非常重要的思想,这个思想其实在很多地方可以迁移下面的一条公众号文章。

至于模型层面,有下面的思路。

kenlm统计语言工具。运用统计学方法进行语言建模从而检测和修正错误。

rnn_attention。RNN加上attention还是一个非常有意思的方法。

rnn_crf模型:说起来你们可能不信,这个思路来自阿里2016参赛中文语法纠错比赛的第一名的方法。

seq2seq_attention模型:比RNN强一些,长文本效果不错,但是容易过拟合。

transformer:线性优秀的序列表征模型,大家懂的。

bert:中文微调,最妙的是mask可协助纠正错别字。

conv_seq2seq模型:基于Facebook出品的fairseq,在NLPCC-2018的中文语法纠错比赛中,是唯一使用单模型并取得第三名的成绩。

小结

怎么说呢,目前我还只是在探索,深度不是很够,后面有所补充,再和大家交流,参考文献放这里吧:

中文文本纠错算法--错别字纠正的二三事:https://zhuanlan.zhihu.com/p/40806718

pycorrector:https://github.com/shibing624/pycorrector

中文文本纠错算法走到多远了?:https://blog.csdn.net/sinat_26917383/article/details/86737361

责任编辑:lq
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 搜索引擎
    +关注

    关注

    0

    文章

    117

    浏览量

    13351
  • 模型
    +关注

    关注

    1

    文章

    3172

    浏览量

    48713
  • 语言建模
    +关注

    关注

    0

    文章

    5

    浏览量

    6261

原文标题:搜索系统中的纠错问题

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    TMS320C64x+和TMS320C674x的检错纠错机制

    电子发烧友网站提供《TMS320C64x+和TMS320C674x的检错纠错机制.pdf》资料免费下载
    发表于 10-12 11:27 0次下载
    TMS320C64x+和TMS320C674x的检错<b class='flag-5'>纠错</b>机制

    DaVinci技术背景和规格

    电子发烧友网站提供《DaVinci技术背景和规格.pdf》资料免费下载
    发表于 10-09 09:29 0次下载
    DaVinci<b class='flag-5'>技术</b><b class='flag-5'>背景</b>和规格

    华怡丰开发出背景抑制系列传感器产品

    英文全称background suppression 即背景抑制的意思,背景抑制光电开关指的是一种检测距离不受背景颜色影响的光电传感器。
    的头像 发表于 09-09 14:15 368次阅读

    SDV的发展背景背景与功能

    SDV技术不仅是对传统车辆功能的增强,更是对汽车性能、安全性及可定制性的一种全新定义。本文将深入探讨SDV技术背景、功能。 1. SDV技术的发展
    的头像 发表于 08-29 10:23 363次阅读

    探讨数字化背景下PMC的挑战和机遇

    亟待解决的问题。   一、数字化背景下的PMC挑战 在数字化时代,信息的爆炸式增长和快速传播给PMC管理带来了前所未有的挑战。传统的PMC管理往往依赖于人工统计和经验判断,难以做到精确预测和及时响应。而数字化技术以其强大的数据处理
    的头像 发表于 07-05 11:03 406次阅读

    探讨数字化背景下VSM(价值流程图)的挑战和机遇

    在信息化、数字化飞速发展的今天,各行各业都面临着前所未有的挑战与机遇。作为源自丰田生产模式的VSM(价值流程图),这一曾经引领制造业革命的工具,在数字化背景下又将如何乘风破浪,应对新的市场格局和技术
    的头像 发表于 06-25 09:24 321次阅读

    国内首颗,精准纠错!德明利TWSC2985系列:支持4K LDPC技术的存储芯片

    TWSC 2985 系列SD6.0存储芯片 国内首颗支持4K LDPC纠错技术 增强纠错、耐久可靠、性能升级   随着移动计算和AI技术对数据存储需求的增加,德明利凭借在闪存
    发表于 04-26 13:44 1009次阅读
    国内首颗,精准<b class='flag-5'>纠错</b>!德明利TWSC2985系列:支持4K LDPC<b class='flag-5'>技术</b>的存储芯片

    背景音乐和蓝牙进来的音乐,如何共享一个功放和喇叭?

    准备设计一个电路,包含用作背景音乐的芯片,和蓝牙芯片,两路音乐共用功放和喇叭。上电后默认由背景音乐芯片发出声音,如果蓝牙芯片连接上之后,播放 切换到蓝牙输出的音乐(不一定要立体声)。 现在的问题是
    发表于 04-12 21:15

    LoRa调制解调器的优势 LoRa调制解调器和Wi-Fi的区别

    LoRa调制解调器采用专利扩频调制和前向纠错技术,它融合了数字扩频、数字信号处理和前向纠错编码技术
    的头像 发表于 03-15 18:08 1933次阅读
    LoRa调制解调器的优势 LoRa调制解调器和Wi-Fi的区别

    微软画图更新:增设画笔尺寸调整与背景选项等功能

    微软还对图层面板进行了深度完善,新增的背景选项使用户能够根据喜好设定画布背景色。只需在图层面板底部点击“背景”图标或使用Ctrl+Shift+B快捷键,随即即可弹出颜色选择器对话框以挑选理想的
    的头像 发表于 03-14 10:43 437次阅读

    黑白通吃的BGS背景抑制光电是如何做出来的?

    BGS英文全称backgroundsuppression即背景抑制的意思,背景抑制光电开关指的是一种检测距离不受背景颜色影响的光电传感器。传统的漫反型光电传感器根据反射的光亮值进行检测,由于光亮值
    的头像 发表于 02-19 12:48 1694次阅读
    黑白通吃的BGS<b class='flag-5'>背景</b>抑制光电是如何做出来的?

    大数据技术是干嘛的 大数据核心技术有哪些

    大数据技术是指用来处理和存储海量、多类型、高速的数据的一系列技术和工具。现如今,大数据已经渗透到各个行业和领域,对企业决策和业务发展起到了重要作用。本文将详细介绍大数据技术的概念、发展背景
    的头像 发表于 01-31 11:07 3085次阅读

    博捷芯BJCORE:划片机行业背景、发展历史、现状及趋势

    博捷芯BJCORE:划片机行业背景、发展历史、现状及趋势随着科技的快速发展,半导体制造已成为电子设备行业的核心驱动力。在这个技术革新的浪潮中,中国半导体产业迅速崛起,不断突破技术壁垒,逐渐成为全球
    的头像 发表于 01-09 19:45 817次阅读
    博捷芯BJCORE:划片机行业<b class='flag-5'>背景</b>、发展历史、现状及趋势

    什么是逻辑量子比特?怎样用其实现量子纠错呢?

    逻辑量子比特(Logical Qubit)由多个物理量子比特组成,可作为量子计算系统的基本计算单元,因其具有较强的纠错性能而备受关注。
    的头像 发表于 12-21 18:24 956次阅读
    什么是逻辑量子比特?怎样用其实现量子<b class='flag-5'>纠错</b>呢?

    是什么导致RAM中的内存数据损坏?纠错码(ECC)如何修复位翻转?

    引起的故障等。当这些情况发生时,RAM中存储的数据可能会发生位翻转或完全丢失。 在了解纠错码(ECC)如何修复位翻转之前,我们首先需要了解ECC的工作原理以及它在RAM中的应用。 ECC是“Error Correcting Code”的缩写,它是一种能够检测和纠正数据错误的技术
    的头像 发表于 12-15 09:58 2132次阅读