一、语音识别技术介绍
语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。
二、语音识别的基本原理
系统本质上是一种模式识别系统,包括特征提取、模式匹配、参考模式库等三个基本单元,它的基本结构如下图所示:
未知语音经过话筒变换成电信号后加在识别系统的输入端,首先经过预处理,再根据人的语音特点建立语音模型,对输入的语音信号进行分析,并抽取所需的特征,在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型,将计算机中存放的语音模板与输入的语音信号的特征进行比较,根据一定的搜索和匹配策略,找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义,通过查表就可以给出计算机的识别结果。显然,这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。
三、语音识别系统的分类
系统可以根据对输入语音的限制加以分类。如果从说话者与识别系统的相关性考虑,可以将识别系统分为三类:(1)特定人语音识别系统。仅考虑对于专人的话音进行识别。(2)非特定人语音系统。识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习。(3)多人的识别系统。通常能识别一组人的语音,或者成为特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。
如果从说话的方式考虑,也可以将识别系统分为三类:(1)孤立词语音识别系统。孤立词识别系统要求输入每个词后要停顿。(2)连接词语音识别系统。连接词输入系统要求对每个词都清楚发音,一些连音现象开始出现。(3)连续语音识别系统。连续语音输入是自然流利的连续语音输入,大量连音和变音会出现。
如果从识别系统的词汇量大小考虑,也可以将识别系统分为三类:(1)小词汇量语音识别系统。通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统。通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统。通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统,将来可能就是小词汇量的语音识别系统。这些不同的限制也确定了语音识别系统的困难度。
四、语音识别的应用
可以应用的领域大致分为大五类:
办公室或商务系统。典型的应用包括:填写数据表格、数据库管理和控制、键盘功能增强等等。
制造业:在质量控制中,语音识别系统可以为制造过程提供一种“不用手”、“不用眼”的检控(部件检查)。
电信:相当广泛的一类应用在拨号电话系统上都是可行的,包括话务员协助服务的自动化、国际国内远程电子商务、语音呼叫分配、语音拨号、分类订货。
医疗:这方面的主要应用是由声音来生成和编辑专业的医疗报告。
其他:包括由语音控制和操作的游戏和玩具、帮助残疾人的语音识别系统、车辆行驶中一些非关键功能的语音控制,如车载交通路况控制系统、音响系统。
五、国内语音识别技术上市公司汇总
国内语音识别技术上市公司——科大讯飞
(股票代码:002230)
科大讯飞股份有限公司成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。2008年,科大讯飞在深圳证券交易所挂牌上市,股票代码:002230。
科大讯飞在智能语音核心技术研究领域,一直秉承“从市场中来、到市场中去”,“用正确的方法、做有用的研究”等核心理念,致力于建立智能语音及语言核心技术和核心技术应用产业化两大方面的竞争力。科大讯飞的核心技术主要包括:语音识别技术、语音合成技术、自然语言理解技术、语音评测技术、声纹语种技术、手写识别技术等。科大讯飞始终坚持提供国际领先的语音及语言整体解决方案,不断推出符合国家和社会需求的智能语音及语言技术产品及应用服务。
科大讯飞的主要核心技术介绍如下:
2017年11月22日,汇顶科技(603160)宣布获得国家集成电路产业投资基金股份有限公司(以下简称大基金)的战略投资。同时,公司控股股东张帆先生宣布,增持汇顶科技股份。其中,大基金通过协议转让方式受让汇发国际持有的汇顶科技22,712,917股股票,受让汇信投资持有的汇顶科技7,487,083股股票,共计受让股份30,200,000股,持股比例6.65%;张帆先生通过上海证券交易所交易系统以大宗交易方式增持公司股份4,542,584股,增持比例1%。
全球人机交互及生物识别技术领导者:1)公司实际控制人张帆持持股48.3946%,拥有4家全资子公司汇芯科技、汇顶香港、汇顶美国、金慧通和1家控股子公司易易非凡。2)公司主营业务电容屏触控芯片、指纹识别芯片和固定电话芯片,主要客户为手机、平板电脑等智能终端厂商。4)公司主营业务始终保持高的产销率,指纹识别芯片上升到80%多,电容屏触控芯片、固定电话芯片始终保持在100%左右。
国内语音识别技术上市公司——汇顶科技
(股票代码:603160)
汇顶科技成立于2002年,作为全球人机交互及生物识别技术领导者,目前已在包括手机、平板电脑和可穿戴产品等在内的智能移动终端领域构筑了领先优势,先后推出全球领先的单层多点触控芯片、全球首创的触摸屏近场通信技术Goodix LinkTM、全球首家应用于Android手机正面的按压式指纹识别芯片、全球首创的Invisible Fingerprint Sensor(IFSTM)、全球首创支持玻璃盖板的指纹识别芯片、全球首创应用于移动终端的活体指纹检测技术Live Finger DetectionTM、全球首创的显示屏内指纹识别技术等。
其中,Live Finger DetectionTM凭借其卓越的创新应用价值斩获了2017国际消费电子展(CES)全球创新金奖,这是汇顶科技继2016年凭借IFSTM(触控与指纹识别一体化技术)和Goodix LinkTM(触摸屏近场通信技术)两项技术获得CES创新大奖后再次得到CES创新奖项,汇顶科技也由此成为首家荣获CES全球创新金奖的中国IC设计公司。目前,产品和解决方案主要应用于华为、OPPO、vivo、小米、中兴、魅族、联想、金立、锤子、TCL、Nokia、Dell、HP、LG、ASUS、acer、 TOSHIBA、Panasonic等国际国内知名品牌,服务全球数亿人群。
国内语音识别技术上市公司——汉王科技
(股票代码:002362)
汉王科技股份有限公司成立于1998年,是全球文字识别技术与智能交互产品引领者,多年来,通过不断自主创新,在手写识别、光学字符识别(OCR)、笔迹输入等领域拥有多项具有自主知识产权的核心技术,综合技术水平在国内外均处于领先地位,手写汉字识别获得国家科技进步一等奖,OCR获得国家科技进步二等奖。
汉王科技以核心技术为基础,面向市场需求,已形成了以识别技术为核心的、针对不同细分市场的软硬件产品系列,既有通用产品,如e典笔、汉王电纸书、汉王笔、文本王、名片通、绘图板等,也有针对教育、金融等行业应用的文表识别解决方案;既有手写手机、OCR等多种技术授权方案,也有辅助方案实施的硬件产品,如证照识别等。
国内语音识别技术上市公司——共达电声
(股票代码:002655)
山东共达电声股份有限公司是专业的电声元器件及电声组件制造商、服务商和电声技术整体解决方案提供商,是国家级高新技术企业、中国电子元件百强企业。
公司始创于2001年,自设立以来,坚持“共融、共创、共享、共达”的企业核心价值观,秉承“和谐、超越、高效、求是”的企业精神,专注于电声元器件产品的研发和制造,致力于成为世界一流的电声技术整体解决方案提供商,主要产品包括微型麦克风、微型扬声器/受话器及其阵列模组,广泛应用于移动通讯设备及其周边产品、笔记本电脑、平板电视、个人数码产品、汽车电子等消费类电子产品领域。
国内语音识别技术上市公司——拓尔思
(股票代码:300229)
拓尔思是一家技术驱动型企业,历经二十余年的深耕和积累,在中文检索、自然语言处理等领域始终处于行业前沿,公司2011年在深交所创业板上市,股票代码300229,是第一家在A股上市的大数据技术企业。拓尔思以大数据+人工智能为发展战略,旨在帮助客户实现从数据洞察到智慧决策的飞跃。
拓尔思的核心业务包括软件产品研发,行业应用解决方案和数据分析挖掘云服务三大板块,涉及大数据管理、信息安全、互联网营销和人工智能等应用方向。
拓尔思是自主可靠软件产品领域的领军企业,TRS中文全文检索系统、WCM内容管理平台、CKM中文文本挖掘等软件均代表了国内相关领域自主创新的最高水平。同时拓尔思不断拓宽产品线和综合服务能力,为政府、媒体、安全、金融等多个行业提供领先的产品、技术和解决方案。为了迎接云计算时代的来临,公司近年来加快了基于云服务的数据分析和知识服务的发展步伐,旨在实现软件企业的战略转型和升级。
国内语音识别技术上市公司——精伦电子
(股票代码:600355)
精伦电子股份有限公司是“武汉·中国光谷”国家级高新技术企业,成立于1994年,于2002年上市,是中国首家以全自然人作为发起人的上市公司,注册资本24,604.46万元,股票代码:600355。现有精伦工业园位于武汉总部,占地310亩。
精伦电子致力于各类电子智能终端的研发、设计与生产。目前公司主营产品包括:电子广告媒体终端;电子伺服系统终端;二代身份证阅读终端;电子交易终端;电力终端;家庭媒体娱乐终端;导航定位终端等。涵盖了:通讯、电力、传媒、三网融合、工业缝纫制造、公共安全等多个领域。并提供各类产品的服务平台、系统及整体设计、运营方案。
精伦电子一直秉承自主知识产权和核心技术为基础的理念,每年投入销售利润的较大部分作为研发投入,与华中科技大学、上海浦东等地建立合作研发基地。拥有国家人事部批准的博士后科研工作站,在嵌入式操作系统、嵌入式硬件设计、嵌入式软件设计、音频视频信号处理、智能卡应用技术、大型数据库应用设计、网络信息安全设计技术等方面形成了自主核心技术体系。承建了多项国家高技术实施项目。公司正在逐步成为业界领先的智能终端研发与设计基地。
六、语音识别技术现状
我国语音识别研究工作起步于五十年代,但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。
清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.96%;并且可以识别普通话与四川话两种语言,达到实用要求。
中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。
评论
查看更多