新技术正在快速推动语音生成设备的进步-电子发烧友网

语言是我们日常交流的主要方式，可以让我们快速了解对方的意图，并做出适当的反应。但对很多语言障碍者而言，说话这一看似简单的行为依旧是难以想象的困难。

语言是件极其复杂的事情，不仅仅是文字表面上的发音，还与音量、音调、速度、说话环境等众多因素密切相关。

同一个词或句子，在不同的场合、不同的音量和速度，所表达的意义也是不同的。比如“你吃了么？”，可以是两人见面的问候语；也可以是我正准备去吃饭，如果你没吃，我们可以结伴去吃饭；还可以是恋人间的关怀；甚至可以是小孩子玩游戏时，跟玩偶的对话。

语言环境是如此的复杂，而对于那些因受伤或生病而无法说话的人，我们怎样才能更好的理解他们的想法？他们又如何能更快更有效的表达自己的意图？

自20世纪60年代以来，一些语音技术的先行者就致力于研发语音生成设备（SGDs）来帮助语言障碍者。

1963年，英国人Maling和Clarkson开发了专为严重身体残疾的人设计的个人通信工具POSSUM，这是一台带开关控制扫描装置的打字机。

自此，随着语音合成算法的进步及微处理器技术的发展，电子辅助和替代通信系统（AAC）得以快速普及。通信辅助设备也变得越来越小巧，功能也越来越强大。

目前，电子辅助和替代通信系统（AAC）、语音生成设备（SGDs）、语音输出通信辅助设备（VOCA）已经在美国帮助了200多万人。患有肌萎缩性侧索硬化症（ALS）、脑瘫、闭锁综合征、多发性硬化症、帕金森、脑中风、创伤性脑损伤等交流障碍或残疾人都可以使用这类语音生成设备。著名物理学家史蒂芬·霍金就使用语音生成装置与他人进行交流。

在过去几年中，随着人工智能技术与语音技术的突破，以及数字设备功能的指数级增长，数字化语音正在改变人们的交流方式，特别是翻译和医疗等领域。

据相关数据显示， 2017年，语音生成设备市场规模为1.9亿美元，预计到2025年将达到3.3亿美元。

各科技创新公司和谷歌、微软等科技巨头都在努力通过辅助应用APP、语音生成设备和脑机接口技术帮助语言障碍者能够更有效地与他人进行交流。

1）辅助应用APP

智能手机、平板电脑和数字触摸屏为患者提供更加直接的交流方式。如自闭症患者可以通过触摸屏上的物品图像、活动图片或符号来表达他们的需求。

Proloquo2Go就是这样一款面向语言障碍患者的辅助交流工具，适用于自闭症、唐氏综合症、脑瘫和其他诊断患者，目前已有20多万用户。

此外，还有很多APP可以帮助用户“说话”，如SayIt！和Predictable这两款文字处理应用，可以将用户输入的文字内容转化成语音，并具有智能联想和自动更正单词的功能。

MyTalkTools Mobile是由一位父亲开发的，以帮助他儿子克服通信困难，他的儿子出生时患有Nager综合症，这是一种影响听力、言语和其他能力的罕见疾病。目前该软件已拥有超过10万名用户。

2017年初，微软推出了GazeSpeak应用程序，帮助肌萎缩性侧索硬化（ALS）患者用眼球运动进行沟通。该应用通过手机摄像头跟踪患者的眼睛运动，并用AI进行字词预测。

2）语音生成设备

机器学习、自然语言处理和文本预测技术极大地推动辅助通信技术的发展，语音合成应用可以为用户提供定制化、个性化的服务。

语音生成设备可以将单词或图片转化成语音，比辅助应用APP更加先进。某些产品允许用户可以从几种不同的声音中进行选择，例如男性或女性，儿童或成人，甚至可以选择一些地域口音。某些算法模型可以追踪患者眼睛运动或头部运动来进行词汇选择，并合成语音。

Pocket Go Talk是一款可穿戴的小型便携式AAC设备，也可以在桌面使用，具有五种可调节的扫描速度。通过5个易操作的按钮生成25条语音消息，每条语音可以长达12秒。

便携式辅助书写平板MegaBee是在英国斯托克曼德维尔医院的闭锁综合征患者的帮助下研发出来的。通过眼球运动和闪烁作为选择字母或短语的方法，然后在屏幕上显示，从而帮助中风、多发性硬化症、运动神经元疾病患者及其它语言障碍患者进行交流。

还有很多新兴科技公司正在利用机器人技术提升患者的社交能力。卢森堡机器人公司LuxAI推出适用于自闭症儿童的社交机器人QTrobot，实验证明，该机器人可以明显增加自闭症儿童的注意力和参与度，同时减少他们的焦虑和破坏行为。

美国波士顿公司VocalID利用众包和语音混合技术为语言障碍患者提供个性化的合成语音。目前已有110多个国家的超过14000人为公司的语音库The Human Voicebank提供了600多万句话。

2017年，谷歌宣布神经网络模型WaveNet正式商用于Google Assistant中，比初始模型效率提高了1000倍，可以更好地模拟自然语音。该模型可以根据真实的人类语音对音频波形进行建模分析，从中学习并创建自己的声音。

3）代表未来的脑机接口

意念交流是很多科幻小说和电影里的场景，而现在科研人员正在通过脑机接口技术将之变成现实。

早在1998年，英国雷丁大学的研究员Kevin Warwick博士在自己的手臂上植入一个发射器来控制门和其它装置。2002年，他将电极接入自己的神经系统，以便用思维控制轮椅，并允许远程机器人手臂模仿他的手臂动作。

Warwick博士的目标是帮助语言障碍患者进行沟通，他将一个芯片植入他妻子的手臂，通过互联网将两人的大脑联系在一起，创造了世界上第一个脑—脑电子通信。

2012年，美国因中风而瘫痪的患者Cathy Hutchinson利用脑植入芯片成功的用思维控制机器手臂端起一杯咖啡，并和吸管中喝了一口。

2014年初，法国公司Axilum Robotics与西班牙巴塞罗那大学、Starlab公司和哈佛医学院一起进行第一次脑对脑的沟通，在5000公里外，实现了直接在两个人的大脑之间进行沟通。

2016年埃隆·马斯克成立了Neuralink公司进行脑机接口研究，以帮助治疗人类的脑部疾病。

2018年5月，俄罗斯新西伯利亚国立技术大学声称研制出了一款用意念控制的越野轮椅。颈部以下瘫痪者可乘坐该轮椅在室内甚至城市街道上独立行动。

2018年6月，美国麻省理工学院下属计算机科学与人工智能实验室(CSAIL)的研究人员开发了一种新界面系统，它可以读取人类操作人员的脑电波，通过思维命令机器执行任务。

目前脑控科技已经成为各国科研人员竞相研究的前沿课题。尽管大多数研究目前还停留在实验室阶段，一旦该技术成功商业化，瘫痪者、语言障碍者、盲人等群体将迎来生命中的第二个春天。

语音2.0：语音界面技术和实时翻译

未来，科技创新将使人类的交流与沟通提升到另外一个层次，它不仅仅是帮助语言障碍患者进行无障碍交流；还会在人与人或人与机器之间进行信息交换。

由于人类语言的多样化，限制了人与人之间的沟通，特别是跨国别和跨语种的交流。近几年，随着实时翻译技术的成熟，语言鸿沟正被慢慢地消除。

2017年10月，谷歌推出Pixel Buds蓝牙耳机，使用Pixel智能手机即可在40种不同语言之间进行即时翻译。

微软的Skype Translator可以对语音、视频及50种语言的文本内容实现八种语言之间的实时翻译

各种便携式翻译设备可以帮助游客在几秒钟内进行语言翻译。未来，小小的耳机设备将打破出行的语言限制，而传统的翻译这一职业也将被新技术所替代。

在语言的新技术革命中，手语也正在被技术所替代。2015年，美国德克萨斯A&M大学开发了一款可穿戴设备，通过感知用户的手臂动作，将手语翻译成英语。该设备可以识别出大约40个美国标准手语动作，准确率达到了96%。

利益于人工智能技术的飞速发展，机器不仅仅是充当翻译人员，还可以成为沟通伙伴。据Gartner预测，到今年年底，我们与新技术的互动中有30%将通过与智能机器完成。目前每六个美国成年人中，就有一个拥有智能音箱或相关设备。除了控制智能家居外，亚马逊的AI助手Alexa已经可以帮助用户在线购物。未来AI助手将能实现更多的功能。

无论是在医疗、旅游、还是商业活动，以人工智能为代表的新技术正在彻底改变人与人之间的交流方式，并将打破身体、地域、国别、语种的各种限制。未来，我们的交流对象也将不再局限在人类，可以是机器、可以是动物。

这一切都是科技带来的福利。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1792

文章
47387

浏览量
238891
语音技术

语音技术

+关注

关注
2

文章
226

浏览量
21291

原文标题：深度：语音技术革命正在改变人类的交流方式

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

3D打印技术，推动手板打样从概念到成品的高效转化

通常情况下，高精尖科技的诞生不但可以推动现有市场的升级换代，还会催生出一大批依附于此的新产业、新领域，为世界发展注入更多进步的力量。如今业界比较知名，并且在消费领域颇受欢迎的3D打印，便是其中具有

发表于 12-26 14:43

智能语音的驱动力：揭秘8脚语音芯片在智能设备中的非凡角色

语音技术渗透生活，8脚语音芯片以微缩体积、低功耗、卓越性能成智能设备语音功能核心，集成识别、合成、压缩解码等功能，实现精准

发表于 12-02 14:23 •175次阅读

语音识别与自然语言处理的关系

在人工智能的快速发展中，语音识别和自然语言处理（NLP）成为了两个重要的技术支柱。语音识别技术使得机器能够理解人类的

发表于 11-26 09:21 •451次阅读

语音识别技术的应用与发展

语音识别技术的发展可以追溯到20世纪50年代，但直到近年来，随着计算能力的提升和机器学习技术的进步，这项技术才真正成熟并广泛应用于各个领域。

发表于 11-26 09:20 •534次阅读

IDC生成式AI白皮书亮点速递

在数字化浪潮中，生成式 AI 正成为推动创新和变革的关键力量。本文将分享由 IDC 发布的《技术革新引领未来——生成式 AI 塑造核心发展引擎》白皮书，从

发表于 11-04 10:12 •242次阅读

英锐恩科技引领微控制器MCU技术创新，赋能多元化应用！

，成为国家高新技术半导体企业的佼佼者。英锐恩科技不仅致力于为客户提供高可靠性、高性能、高性价比的一站式半导体芯片供应服务，更在8位和32位MCU市场不断创新，推动技术进步与产品应用拓展。英锐恩MCU

发表于 09-29 13:40

网络光纤滑环的技术特点与品质把控

网络光纤滑环在现代通信和工业设备中扮演着至关重要的角色。随着光纤技术的发展，网络光纤滑环凭借其独特的技术特点和严格的品质把控，正在不断推动相

发表于 09-23 12:06 •240次阅读

英国“红旗法案”带来的启示：谁在阻挠数据中心进步

陷入滞后，从而影响整个国家的科技发展和经济实力。在当今这个快速发展的时代，科技的进步不断推动着社会向前发展。然而，随着新技术的涌现，也伴随着一些保守的声音和做法，它们试图以安全和规

发表于 07-18 09:44 •1013次阅读

Transformer模型在语音识别和语音生成中的应用优势

随着人工智能技术的飞速发展，语音识别和语音生成作为人机交互的重要组成部分，正逐渐渗透到我们生活的各个方面。而Transformer模型，自其诞生以来，凭借其独特的自注意力机制和并行计算

发表于 07-03 18:24 •1165次阅读

生成式AI与神经网络模型的区别和联系

生成式AI与神经网络模型是现代人工智能领域的两个核心概念，它们在推动技术进步和应用拓展方面发挥着至关重要的作用。本文将详细探讨生成式AI与神经网络模型的定义、特点、区别、联系以及它们在

发表于 07-02 15:03 •811次阅读

如何快速生成Modbus指令？教程来啦

一适用型号该笔记适用于标准Modbus协议产品（MA01系列、ME31系列、M31系列、ME15-AXAX8080）。二功能简介功能说明：Modbus指令快速生成教程旨在帮助用户快速生成

发表于 06-28 08:21 •1294次阅读

爱芯通元NPU完成Llama 3和Phi-3大模型适配，推动AI大模型技术普及

AI大模型技术的持续进步正在推动千行百业智能化升级。

发表于 04-26 16:57 •876次阅读

语音合成技术在智能驾驶中的创新与应用

的发展趋势。二、语音合成技术的创新语音质量的提升：随着深度学习等技术的不断发展，语音合成技术

发表于 02-01 18:09 •668次阅读

AI加速智能家居分布式语音技术发展

电子发烧友网报道（文/黄山明）生成式AI的出现，让人与机器的交流将变得更加自然，也在不断推动分布式语音入口在智能家居中的智能化水平升级，让家庭自动化和人机交互变得更加自然、便捷和高效，能够让用户在家

发表于 02-01 00:16 •5830次阅读

语音数据集在智能语音助手中的应用与挑战

一、引言随着人工智能技术的不断发展，智能语音助手已经成为了人们日常生活中不可或缺的一部分。语音数据集在智能语音助手中发挥着重要作用，为系统提供了丰富的

发表于 01-18 15:46 •411次阅读

搜索历史

新技术正在快速推动语音生成设备的进步

评论