0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

闻声识人——声纹识别如何走过规模商用前夜?

张慧娟 来源:电子发烧友网 作者:张慧娟 2019-10-09 07:26 次阅读

作为语音赛道一个重度垂直的领域,声纹识别终于从“等风来”,成为站在“风口”上的技术。尽管同为生物识别技术的指纹、人脸识别已经快速抢占了市场,但随着新一波人工智能技术的发展,声纹识别有望因提升用户体验、安全性等方面的独到之处而迎来发展高潮。


声纹识别近年来主要经历了哪些重大突破?发展主要受益于哪些驱动因素?

首先是技术驱动。近年来,依托算法迭代、模型升级等优化措施,识别准确率有提升,并根据特定专题的研究,初步解决了稳定性等问题;更重要的,随着抗时变、防录音技术的进步,大大提升了安全性和用户体验,打消了人们对声纹识别可靠性的顾虑,使这项有潜力的技术真正走上规模商用的道路。

其次是政策驱动。经过中国建设银行等第一波应用单位的示范,金融行业逐渐认识到声音作为身份密码是可行的。去年央行声纹应用标准的颁布,对行业基本面起到了较大的推动作用,该标准明确传递出一个信息:生物识别技术的应用在追求用户体验时必须重视安全和隐私,其信息的传导范围远远超出了金融行业,它使得现阶段,技术和场景的匹配真正明确。

第三是用户认识观念和使用习惯的变化。这一点得益于智能客服、智能音箱等以语音识别技术为主的消费级应用场景的普及,人们在真正体验到语音交互的便利之后,提出了更高的个性化需求和安全要求,可以说,语音识别技术帮助声纹识别技术在C端快速完成了用户教育

声纹识别可助智能设备“闻声识人”

当前热门的智能设备,不论是百“箱”大战的智能音箱,还是百“机”争鸣的智能机器人,初期这些产品在交互方式上实现了一定程度上的智能,但在交流方式上却有欠缺。所谓交流,即有明确的对象,与不同对象交流有不同的回应,才是更为智能的体验。声纹识别——正是实现这种“闻声识人”的技术手段。

以智能音箱这一典型产品为例,阿里的天猫精灵、京东的叮咚音箱二代,以及华为的小艺音箱等,纷纷加入了声纹识别功能。这一功能可以使智能音箱在竞争中体现出差异化的优势,而不只是千篇一律地回答天气查询、搜索歌曲名和定闹钟等功能。它能够根据不同声音识别出不同的使用者,提供更为个性化的内容回应,并且保证了安全性和私密性,特别是在进行在线支付时操作更为便捷。HomePod是苹果在2017年推出的智能音箱产品,在今年的全球开发者大会上,苹果也宣布在HomePod 加入了声纹识别功能

在CSDN组织编撰的《2018中国人工智能产业路线图》中,曾将语音交互划分为三个阶段

L1阶段:能以极高的准确率,在典型环境下响应用户的语音输入;
L2阶段:能以极高的准确率识别出交互的当事人和环境,然后进行个性化的交互;
L3阶段:只要有数据,语音交互系统的能力就可以无边界扩展(包括个性和能力)。

在L2阶段体现的就是个性化,语音交互不再停留在千人一面的固定化模式中,而是实现千人千面的个性化交互体验。在这一阶段,声纹识别技术将成为新的标配

“人脸识别”遭打脸,声纹识别为什么变得重要?

声纹识别为什么开始得到关注?除了上文提到的进一步提升用户体验之外,在满足高安全场景的诉求时也有独到优势。

AI对抗AI的音视频欺骗事件近来屡有发生,不论是被骗的人脸识别系统,还是伪造声音进行的金融诈骗,这些事件给AI的发展前景蒙上一层阴影之外,也让个人对于自己身上的“活”密码(指纹、脸、声音、瞳孔等)的安全性产生了担忧。特别是前段时间一夜爆火的AI换脸“ZAO”,使得这种担心达到极致。每个人独一无二的生物特征,一旦暴露了该怎么办?

事实上,指纹、人脸是静态的生理特征,并不能体现出个体的动态变化,因此很容易出现被盗用等安全问题。而“声纹”作为一种特殊的行为特征,每个人在说话过程中所蕴含的语音特征和发音习惯几乎是不可替代的,即使是模仿,也难以改变说话者最本质的发音特性和声道特征,它是一种“动态”的识别,因此与其他静态的生物识别方式相比,不仅具有特定性,也具有相对的稳定性,它不容易丢失,可以做到“失声(音)不失身(份)”,伪造起来也更为困难,因而被认为认证强度更高、更安全。

场景驱动下的商用浪潮

事实上,声纹识别虽然未在智能手机这样的消费级产品中普及,却早已在金融、安防、公共服务等领域得到较为广泛的应用。

成立于2002年的得意音通属于国内较早布局声纹识别领域的企业之一,形成了声纹技术自主专利多层保护,并与公安部、人民银行、工信部共同主导了声纹相关标准的制订。以其“声密保”为核心,可在手机银行、声纹身份认证云、社保生存认证、声纹门禁、声纹考勤等领域提供相应的产品和服务。

为泛金融身份认证护航

通过多年来的布局,得意音通在金融领域最早形成了规模应用,其主导起草的《移动金融基于声纹识别的安全应用技术规范》已于2018年10月9日由中国人民银行颁布至各银行、证券、保险、基金,以及非银行支付机构,成为我国金融领域第一个生物特征识别安全应用技术标准,大大推动了声纹的行业落地与应用合规

是什么样的契机使声纹识别技术最先在金融行业落地?得意音通CEO倪鸣介绍,金融领域因其丰富的场景、海量的数据、对可靠性的高要求和广泛的用户反馈等,一直是人工智能技术在民用领域(相较于公共安全领域)的理想试金石。

声纹识别也不例外,在4G时代,金融行业催生了手机银行这一形态并迅速普及,使得金融级远程身份认证的需求激增,而声纹识别刚好可以满足这个需求。2016至2018年间,中国建设银行、贵阳银行、兰州银行、西安银行、中国银联、中国互金协会等多个金融单位和机构都上线了声纹识别身份认证服务,用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也上线了基于声纹动态口令的登录方式。此外,在信贷业务中引入声纹识别技术作为反欺诈手段,还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。

为公共服务提供便利

随着语音技术的普及,越来越多的声纹识别应用场景还在不断涌现。如利用1:1声纹确认技术,可帮助居民领取养老金等社会保障金时足不出户自证身份。

城乡养老保险是社会保障体系的重要组成部分,然而冒领养老金的事件时有发生,每年冒领总金额以亿元计,但若要求高龄老人亲临现场验明身份又非常不便。由于声纹确认技术具有很强的远程操控属性,社保局通过预装声纹身份认证系统,便于进行远程身份认证,为长期居住外地、高龄、重病等特殊情况的老年人提供了方便。同时,由于声纹可很好地防假冒攻击,为社保体系防冒领提供了很好的技术保障手段。

去年,得意音通的“声纹+”身份认证云已在贵州省贵安新区落地,现已覆盖贵州省金融、社保、公安等领域,随着央行声纹标准发布,以及中国电子政务网、内蒙古社保、西北某省等项目的逐步落地,得意音通声纹身份认证技术的应用逐渐北上。今年八月,与乌兰察布市人民政府签署了战略合作协议,共同建设“草原云谷”“声纹+”身份认证云基地,以辐射周边诸省。相邻的内蒙古自治区包头市、黑龙江省牡丹江市等作为试点区,已率先开展了声纹认证领取养老金服务。

个性化语音交互场景正在涌现

声纹识别还可完成个人日常生活中各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等。

利用1:N声纹辨认技术,可在一定程度上防范电信网络诈骗,还可支持智能音箱、智能语音助手等提供个性化服务,如针对家庭用户中的老年人、儿童等不同年龄段用户,按照兴趣推荐不同的歌曲、新闻,以及开放特定的功能权限等;利用声纹检出和追踪技术,可取代人工完成会议纪要,通过语音识别和声纹识别技术的结合,将会议录音通过语音识别技术识别说话内容、通过声纹识别技术标注每段话所对应的说话人,即可轻松完成多人会议记录,大大提高工作效率。

未来的爆发点和挑战

对于声纹技术爆发的关键点,倪鸣认为决定因素主要有二:一是在于技术和场景的最佳匹配;二是在于声纹建库的建立,也就是当合法的声纹模型数据积累到一定量,就会产生裂变。

有人将2017年看做智能语音交互元年,2018年则可以说是声纹应用元年。2017年,各大品牌厂商打造的智能音箱纷纷上市,2018年语音交互落地突然加速,相关产品从智能音箱扩展到其他品类,如电视盒子、闹钟、灯、智能马桶等。这些应用几乎都产生了通过远场声纹识别实现个性化语音交互的需求。倪鸣强调,需要注意的是,这类面向未来物联网应用的新兴需求大部分还处在探索阶段

声纹识别目前在商用落地以及下一步的发展方面还面临哪些挑战?有哪些主要的克服手段?倪鸣表示,从技术发展来看,声纹识别当前还存在以下两大类挑战:

一是鲁棒性挑战:

鲁棒性是指声纹识别抵抗其他因素干扰的能力。这些干扰可能来自:

1)说话人自身。比如说话人随着身体状况改变而发声的声音改变、随着年龄增长而发声的声音变化、不同情感、语气、语速情况下的声音变化。

2)也可能来自说话人之外的环境。比如噪声干扰、远场情况下收录到的声音发生的变化。如何在众多干扰之下,精准的对声纹进行识别,是一个重要的研究方向。

3)还有可能来自说话的内容。例如超短语音挑战。短语音是指系统的识别性能对语音长度的依赖性。较长的语音会达到更高的精准度,但显然,过长的语音会影响用户体验。并且在一些特定场景下,比如司法应用中,系统只能收集到有限长度的语音。因此如何在较短语音长度的情况下,提高系统的识别性能,也是一个重要的研究方向。

二是安全性挑战:

1)防攻击能力。是指声纹识别系统拒绝非真实说话人的能力。这些尝试进入系统的声音,可能是由人类模仿发声的,也可能是机器伪造的,比如通过语音合成、声音转换以及录音重放技术,产生出和真实说话人相近的声音,尝试进入系统。如何阻止这些假冒语音通过系统,是很重要的研究方向。

2)情感识别能力。相关问题有两个:一是要做到不同情感下都能准确识别,可称为情感鲁棒性;二是要能识别出用户是否处于被胁迫或者处于焦虑状况下等,可认为是理解用户的意图真实性。而后者更为重要,所以将它归为安全性挑战之一。

由于较早将声纹技术带出实验室接受市场检验,这一先发优势造就了得意音通今天的市场地位。通过多年的积累,得意音通拥有“声纹识别+动态密码”身份认证方案的原始发明专利,还拥有与之相关的支撑技术和应用技术国家发明专利10余项,其中的国际发明专利已在日、韩、美等国获得授权。围绕这些核心专利,构筑了完整的专利墙体系。在多项国际赛事中,例如国际音频情感识别竞赛MEC 2017、国际自动说话人验证欺骗和对策挑战赛ASVspoof 2019等,得意音通均荣获冠军。

多生物特征识别融合成为必然

一个值得关注的趋势是——由于不同场景对生物特征的适应性各有不同,多生物特征识别技术融合已经成为必然。

针对金融交易验证,央行科技司司长李伟最近就指出,部分机构高估了弱隐私特征的识别作用,在网络空间仅依靠人脸等单一特征进行金融交易验证,存在严重隐患。他表示,不能简单地将人脸特征作为唯一的交易验证因素,须根据风险等级结合用户口令等其他因素进行多因素认证。

而目前看来,“声纹+人脸” 的身份认证产品,既解决了单一生物特征所具有的局限性,同时可覆盖更多身份认证场景,满足用户的多样式要求。得意音通在“声纹+”多维融合身份认证解决方案方面投入已久,今年4月,推出了无感式“声纹+人脸”方案。

倪鸣强调,这一多维方案并不是声纹与人脸识别简单的叠加,而是深度融合、一步完成、多重防伪,实现安全与体验的双重提升。此外,还有情感识别、唇纹识别、唇语识别等众多创新技术,也在不断开发中。

“孤军奋战的日子一去不复返”

“声纹开始热了,产业态势已成,孤军奋战的日子一去不复返。再好的科研成果,只有从象牙塔里走出来,放到实践中去检验,才能发光发热,造福社会。作为行业老兵,我们感到欣慰,因为这证明了我们当初的判断和坚持是正确的”——这是清华大学人工智能研究院听觉智能研究中心主任、得意音通创始人、得意音通信息技术研究院院长郑方在《中国声纹识别产业发展白皮书》发布时的感慨。

目前国内主流声纹识别企业主要背靠清华大学、厦门大学、中科院声学所、自动化研究所等高校和科研机构,得意音通则是清华系的典型代表。双方建立了“产学研”合作生态,清华以知识产权入股得意音通,得意音通投资反哺清华建立联合实验室,从而保证了能够不断将最新的前沿研究成果运用于产业,同时建立起了稳定的人才储备梯队。

从专利数量来看,2013 年起,国内相关专利公开数量呈大幅上升,5 年内翻了 10 倍以上。相对专利公开数量,专利授权数量相对增长较缓,总数不超过 40 件。但是2018 年,不论是公开数量还是授权数量,专利增幅均达到历史峰值。

图:国内声纹相关专利申请数量宏观态势
(来源:《中国声纹识别产业发展白皮书》)
据前瞻产业研究院的分析,当下全球生物识别产业规模庞大,仅语音生物识别(注:即声纹识别)这一细分方向的市场规模就将近百亿美元,预计2020年更是有望超过200亿美元(合 1346亿元人民币),占整个生物识别市场的22.4%。

从网络身份认证应用领域来看,据国外权威调研机构MarketsandMarkets数据显示,2019 年网络安全市场预计增长至1557.4亿美元,其中,身份认证信息安全市场规模将超过300 亿美元。声纹识别在其中也将扮演重要角色

赛道开始拥挤

<电子发烧友>根据公开资料统计出如下声纹识别企业。老牌企业往往掌握有深厚的技术积累和核心专利,特别是几家有高校和科研机构背景的企业。而对于AI初创企业来说,也在加强在技术深度和广度上的布局。

思必驰的语音识别++技术可进行超短时声纹识别、性别识别、情绪识别、年龄识别等,可应用于智能家居、智能车载等应用,并与长虹、美菱成立了实验室。

云知声将声纹识别技术引入到深度学习领域,联手平安好医生打造客户端“声纹登录系统”,并与国家电网合作了会议系统声纹识别项目。

腾讯云也在产品中引入声纹识别,随着云端大数据的不断积累,在智能家居、金融交易、智慧建筑领域,已经能够根据个人属性个性化地提供服务内容,并进一步提升安全性。

作为家电行业业较早涉及人工智能技术领域的企业,长虹在电视、空调中先后加入声纹识别功能,使得家电也能够智能识别用户身份,开启私人订制模式。

业内观察人士认为,在AI+IoT的发展潮流下,声纹识别技术有望推动一些场景向高阶化发展,在未来的人机交互过程中成为必要支撑,带动从硬件到软件在更多商用场景中的发展。



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 生物识别
    +关注

    关注

    3

    文章

    1210

    浏览量

    52518
  • 智能语音
    +关注

    关注

    10

    文章

    782

    浏览量

    48758
  • 声纹识别
    +关注

    关注

    3

    文章

    140

    浏览量

    21519
  • 智能音箱
    +关注

    关注

    31

    文章

    1783

    浏览量

    78567
收藏 人收藏

    评论

    相关推荐

    科技扫地机雷达导航用VCSEL模组出货突破千万颗

    近日,行业领先的VCSEL解决方案提供商瑞科技在扫地机器LDS三角测距激光雷达导航市场取得了新的里程碑——截至2024年第三季度,瑞VCSEL模组累计出货突破1000万颗且质量100%满足客户
    的头像 发表于 12-09 15:12 169次阅读
    瑞<b class='flag-5'>识</b>科技扫地机雷达导航用VCSEL模组出货突破千万颗

    科技扫地机雷达导航用VCSEL模组出货突破千万颗

    近日,行业领先的VCSEL解决方案提供商瑞科技在扫地机器LDS三角测距激光雷达导航市场取得了新的里程碑——截至2024年第三季度,瑞VCSEL模组累计出货突破1000万颗且质量100%满足客户
    的头像 发表于 12-09 14:32 153次阅读
    瑞<b class='flag-5'>识</b>科技扫地机雷达导航用VCSEL模组出货突破千万颗

    2024年星闪进入规模商用快车道

    2023年是星闪商用元年,2024年星闪进入规模商用快车道,预计到年底星闪应用将超过100个品类。我们相信星闪一定会为千行百业的无数应用场景带来全新的创新机遇。
    的头像 发表于 11-20 14:04 443次阅读

    调试PCM3500E,DAC输出噪声纹波峰峰值居然高达600mV,为什么?

    你好!最近在调试PCM3500E,发现其DAC部分,输出噪声纹波峰峰值居然高达600mV,将芯片power down之后噪声就消除了。附图是DIN输入全零时,纹波的波形特征。
    发表于 11-08 07:25

    二维码读设备有哪些类型

    随着二维码应用的日益普及,各类二维码读设备也应运而生。这些设备不仅极大地方便了我们的日常生活,也为企业提供了更加高效便捷的服务。那么,你知道二维码读设备都有哪些类型吗?让我们一起来了解一下。据
    的头像 发表于 11-05 16:10 172次阅读
    二维码<b class='flag-5'>识</b>读设备有哪些类型

    智能与徐工汽车达成战略合作,共绘商用车未来新蓝图

    近日,九智能与徐工汽车签署战略合作协议,标志着双方在智能驾驶技术与新能源商用车融合应用、联合生产及市场推广等方面迈入深度合作的新篇章,将共同引领智能驾驶技术商业化浪潮。近年来,在国家智能化发展战略
    的头像 发表于 11-01 15:26 1060次阅读
    九<b class='flag-5'>识</b>智能与徐工汽车达成战略合作,共绘<b class='flag-5'>商用</b>车未来新蓝图

    超高频RFID设备的读距离受哪些因素影响?如何挑选RFID设备+天线

    在探讨超高频RFID设备的读距离时,我们不得不深入分析影响其性能的多重因素,并据此指导如何有效挑选RFID设备及天线。超高频RFID技术以其远距离识别、高速度数据传输等优势,在物流、供应链管理
    的头像 发表于 09-19 15:17 334次阅读
    超高频RFID设备的<b class='flag-5'>识</b>读距离受哪些因素影响?如何挑选RFID设备+天线

    基于鸿蒙Next模拟扫图物的一个过程

    一、功能介绍(基础) 基于鸿蒙Next模拟扫图物的一个过程,扫描到图片,提示出相关的图片内容,是一个什么东西。 二、使用场景(大类) 支付、社交、信息获取、在线调查、教育学习等等。 三、实现步骤
    发表于 08-21 15:04

    商用清洁新纪元:为何商用清洁机器成为必选,及挑选指南

    在日新月异的商业环境中,每一处细节都关乎着品牌形象与顾客体验。随着科技的深入渗透,商用清洁机器正逐步成为现代商业空间不可或缺的“清洁卫士”。它们以高效、智能、环保的特性,引领着商用清洁领域的新风尚
    的头像 发表于 08-19 17:01 345次阅读
    <b class='flag-5'>商用</b>清洁新纪元:为何<b class='flag-5'>商用</b>清洁机器<b class='flag-5'>人</b>成为必选,及挑选指南

    UWB技术迎来规模商用

    UWB技术商用研究白皮书,详情见附件。
    发表于 05-11 18:14 1次下载

    智能声控灯具应用语音识别芯片AT6811

    AT6811是一款超低功耗的离线智能语音识别芯片,集成了先进的语音活动监测(VAD)、声纹识别、自动消噪神经网络,拥有高效的电源管理模块、数字和模拟语音信号输入接口以及ARMCortex-M0内核,并且搭配了GPIO、UART、SPI、I2C、I2S等片内外设。
    的头像 发表于 02-28 16:41 628次阅读
    智能声控灯具应用语音<b class='flag-5'>识别</b>芯片AT6811

    SynSense时科技战略收购瑞士iniVation

    SynSense时科技(以下简称“时科技”),作为类脑感知及计算领域的头部公司,近日正式宣布战略收购瑞士类脑视觉传感器公司iniVation AG。这一收购将进一步强化时科技在全球市场的影响力,并为其带来更广阔的发展空间。
    的头像 发表于 02-01 16:54 915次阅读

    测电源噪声纹波时为什么选无源探头

    在测量电源的噪声纹波时,采用无源探头是一种常见的选择。无源探头是指在测量过程中不需要额外的电源供电的探头。那么,为什么我们要选择无源探头呢?下面将详细解释这个问题。 首先,无源探头具有高频
    的头像 发表于 02-01 10:10 606次阅读
    测电源噪<b class='flag-5'>声纹</b>波时为什么选无源探头

    智能与东风股份达成深度战略合作,共同推进中国智能商用车商业化落地进程

    近日,九智能与东风股份达成深度战略合作,并完成首批50台智能商用车订单的签约!此次合作中,九与东风股份双方将基于各自的技术和资源优势,在中国智能商用车产品端和销售端开展合作,共同推
    的头像 发表于 01-12 10:40 533次阅读

    距离人形机器广泛商用还要多久?

    根据业内人士预期,人形机器要真正广泛商用,尚需十年。
    的头像 发表于 01-11 11:43 1056次阅读