0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音交互只是处于自动驾驶的L1级阶段

电子工程师 来源:未知 作者:胡薇 2018-11-05 16:51 次阅读

2017 年可以看做是智能语音交互的元年,在这一年里小爱同学、天猫精灵纷纷上市。2018 年里语音交互的落地突然加速,落地的产品从大公司关注的智能音箱扩展到其它品类,比如电视盒子、闹钟、灯、智能马桶等。那接下来语音交互会如何发展?

▌语音交互的终极目标

语音交互的便利程度正好与人工智能的发展程度成正比,智能程度越高语音交互的等级也就越高,所以其终极形态与人工智能的终极形态类似。

如果抛弃特别夸张的想象来说,那语音交互要能达成《她》或者《黑镜》里描述的样子:

当你输入数据给它后,它能够根据输入数据表现出不同的个性。

在数据的处理上它近乎是全能的,只受个人权限的限制。

如果真的赋予实体,那它可以感知周围环境并作出与人类似但很多方面会更优秀的反应。

今天的智能音箱和未来相对终极的语音交互方式以及设备相比,其差距要远大于 X86 电脑和今天 Pad 的差距。

一旦发展成以上这样的程度,那语音交互就会彻底地打开边界,而不只是我们使用数据的一种方式,甚至会成为生活的必须品。我们不会对 iPhone 产生依恋,但语音交互则会。

回顾下《黑镜》里描述的场景,可以对此有更好的理解:

女主人公的丈夫去世,过于思念自己丈夫的女主人公通过公开的自己丈夫的数据创建了一个有性格的,属于自己的语音交互机器人。这个机器人在绝大多数方面表现和女主丈夫一致。女主使用一段时间后,就升级了这服务,为这语音交互机器人赋予了和自己丈夫一样的形体。

这看着非常科幻,但实际上一旦语音交互达到上述程度,那这类事情几乎一定发生。既然我们能接受很宅并愿意躲在家里,那就一定能接受这样一种非真实、但更完美的电子助手进入心灵的世界。《她》这部电影虽然没拍,但如果有为个性化语音交互系统塑形的服务,主人公也一定会接受。

在这里反倒是互联网限制了我们的想象力,因为互联网更多体现的只是工具的属性,但实际上语音交互系统所涵盖的范围要比互联网大的多。当前之所以能做的还不多,主要是层级还不够。

▌语音交互的L1、L2、L3

我们可以这样定义语音交互的 L1 阶段:

能以极高的准确率,在典型的环境下响应用户的语音输入。极高的准确率最低应该在 90%+。这时承载语音交互的设备主要负责功能性的提示与反馈(灯与屏幕等)。

当前所有与语音相关的公司,事实上都是在达成 L1 的路上。L1 的出口为语音交互习惯彻底树立,人们面对每款设备的时候会首先想到用语音操作,而不是遥控器或者屏幕。

在 L1 阶段语音交互更像是自动化程度、精准程度更高的搜索,但搜索的范围扩大了,不单是局限于已有的数字内容,也扩展到家电、视频通话等正常搜索不会覆盖的领域。

我们可以这样定义 L2 阶段:

能以极高的准确率识别出交互的当事人和环境,然后进行个性化的交互。这时承载语音交互的设备通过摄像头等传感器能够实时感知,进行适当移动,初步拟人。

L2 阶段体现的是个性化,不再是千人一面。如果 L2 得以达成,那《她》所描述的场景是可以实现的。语音交互可以定制出性格,而这种性格很可能确实满足某个人的心理期待。

在 L2 阶段,语音交互会打破工具的边界,尝试走入从来没被搜索等介入的领域,比如排遣寂寞。现在的各种 App 是按照领域来切分的,而在 L2 阶段,所有 App 的边界会被打破,信息的输出是按照人来切分的。也就是说不再有 BAT、头条、美团等,只有张三的语音交互助理,李四的语音交互助理。

我们可以这样定义 L3 阶段:

只要有数据,语音交互系统的能力就可以无边界扩展(包括个性和能力)。交互设备可以进行拟人化输出。

L3 阶段体现的是后端内容扩展的无边界特性,不再是有多少智能就有多少人工,以及拟人化输出。拟人化输出包括移动、说话的语调、风格、姿态等。

如果 L3 阶段得以实现,那《黑镜》描述的场景是可以实现的。只要有一个人充分的数据描述,就可以立刻模拟这个人,然后赋予他一个真实的身体。

在 L3 阶段,语音交互及其载体,将是社会生活、甚至家庭的一部分。

本质上,从 L1 到 L3 体现的是数字化和智能程度不断加深,同时数字和智能又按照人类的理想形态进行物化的过程。这一过程也是完全颠覆基于手机的移动互联网的过程。

▌语音交互发展的核心障碍

整个行业迫切需要彻底解决下面的问题:

解决前端声学适配问题,否则变成每个设备都需要调整,但真正能对其调整的人员很少。

NLP 整合足够全的内容资源,开发出缺省的 Killer App,因为产品公司不可能系统地在产品周期内整合所有内容。

落地方式多样化(包括纯软件、模组的)。语音交互和移动应用的根本不同是需要面对多种多样的设备,所以其自身的落地形态必须是灵活的。

眼下不同产品公司的诉求差别很大,小公司希望的是 turn-key 的方案,有内容的公司希望的是自己做部分 NLP,偏行业的公司希望的是有带硬件可贴牌的产品、但自己开发手机 App,诸如此类。

因为用户需求的复杂性,落地是一个相对长跑且需要保持灵活的过程,不同产品公司需求的内核是一样的,但处理大品牌客户总是需要灵活处理很多细节。这对于创业公司难度不大,但对巨头会形成难以跨越的障碍。

▌未来三年必然会达成的成绩

现在与语音交互相关的公司,核心在做的就是 L1 阶段的事。这个阶段虽然在人工智能的大趋势里面,但本质上智能并没那么关键,关键的是便利以及能输出的内容。这两者会推动树立语音交互这种习惯。

如果要在数量级上进行判断的话,那三年后可以达成的目标是:

每年有 10 亿台支持语音交互的设备售出。

至少故事机、电视机、电视盒子、汽车前后装、白色家电、灯、闹钟等会加入这种特性。手机、Pad、电脑这些大品类上语音交互的能力则会变成标配,但使用频次估计需要更长的时间进行提升。在最初,交互频次会很差(这点在前文已提及),语音交互本身并非一种独立的交互方式,而是同其背后的内容深度绑定,我们很多的应用实际上是针对手机和键盘鼠标操作优化过的。

凡是电子设备都可以用语音来进行交互。

语音交互不会挑设备,同之前的交互相比,它可以更加低廉,理论上只要麦克风并且能联网就足够了。相较于给设备加入键盘鼠标或者屏幕,这个成本要低很多。这点上做出表率的仍然是亚马逊,亚马逊不停地推出新的设备,如微波炉、车载设备等。当然不同设备上语音交互的层次是不同的,有些设备如白色家电,语音交互会限制在一到三轮以内。

在更高一级的视角下,当前的所有努力本质作用就一个:通过便利性树立语音交互的习惯。但是,习惯背后跟随的是用户时间,二者又会为下面的进一步发展提供试验田。只有达成了这一目标,从技术到产品再到用户这一循环才算真正完成了第一次迭代。

▌结语

语音交互看着太简单了,不过是说话而已,所以很容易被误解为,像说话一样的交互就是现在语音交互设备所应该能干的事。其实不是,语音交互的从 L1 到 L3 有可能比自动驾驶从 L1 到 L5 还要漫长。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1789

    文章

    46545

    浏览量

    236820
  • 语音交互
    +关注

    关注

    3

    文章

    282

    浏览量

    27960

原文标题:语音交互只是说话?相比自动驾驶它还在L1级!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    l4自动驾驶的特点是什么

    L4自动驾驶作为自动驾驶技术的一个重要里程碑,代表了高度自动化的驾驶模式,能够在无需
    的头像 发表于 10-22 14:41 403次阅读

    FPGA在自动驾驶领域有哪些优势?

    。 硬件安全: 自动驾驶系统对安全性有极高的要求。FPGA的硬件安全性使其能够在硬件层面实现数据加密、防篡改和防攻击等安全功能,确保自动驾驶系统的稳定运行和数据安全。 易于集成
    发表于 07-29 17:11

    FPGA在自动驾驶领域有哪些应用?

    FPGA(Field-Programmable Gate Array,现场可编程门阵列)在自动驾驶领域具有广泛的应用,其高性能、可配置性、低功耗和低延迟等特点为自动驾驶的实现提供了强有力的支持。以下
    发表于 07-29 17:09

    自动驾驶步入L3阶段 磁性元器件行业有何新机遇?

    车企进入上述名单,拿到了L3自动驾驶试点的“入场券”,自动驾驶市场正式步入了一个全新的发展阶段。 近年来,
    的头像 发表于 07-17 09:29 301次阅读
    <b class='flag-5'>自动驾驶</b>步入<b class='flag-5'>L</b>3<b class='flag-5'>阶段</b> 磁性元器件行业有何新机遇?

    Mobileye引领自动驾驶新纪元:L4无人驾驶系统在德国成功路测

    在全球自动驾驶技术的浪潮中,Mobileye,作为全球自动驾驶解决方案的领军者,再次迈出了具有里程碑意义的一步。近日,该公司宣布其全自动无人驾驶系统(即
    的头像 发表于 07-02 17:04 1373次阅读

    工信部完成自动驾驶试点申报 长安汽车成L3智能试点单位

    上路的政策支持有了进一步的支撑。        据悉;试点的组织实施共分为五个阶段,分别是试点申报、产品准入试点、上路通行试点、试点暂停与退出、评估调整。当前,只是完成试点申报阶段的遴选,并不代表具有
    的头像 发表于 06-05 19:00 1444次阅读

    驶向L3自动驾驶:车路协同

    ,遴选具备量产条件的L3及L4自动驾驶汽车开展准入试点,大大推进了进入L3
    的头像 发表于 05-20 11:16 462次阅读
    驶向<b class='flag-5'>L</b>3<b class='flag-5'>级</b><b class='flag-5'>自动驾驶</b>:车路协同

    百度发布全球首个L4自动驾驶大模型

    近日,百度Apollo宣布了全球首个支持L4自动驾驶的大模型Apollo ADFM(Autonomous Driving Foundation Model)。这一突破性的技术成果,标志着自动
    的头像 发表于 05-17 09:58 418次阅读

    未来已来,多传感器融合感知是自动驾驶破局的关键

    的Robotaxi运营。这标志着L4自动驾驶迎来了新的里程碑,朝着商业化落地迈进了一大步。中国的车企也不甘落后:4月7日,广汽埃安与滴滴自动驾驶宣布合资公司——广州安滴科技有限公司获
    发表于 04-11 10:26

    NVIDIA和昊铂宣布双方将合作量产L4自动驾驶汽车

    北京时间3月19日,在NVIDIA GTC大会上,NVIDIA和昊铂宣布双方将合作量产L4自动驾驶汽车。
    的头像 发表于 03-20 15:06 749次阅读
    NVIDIA和昊铂宣布双方将合作量产<b class='flag-5'>L</b>4<b class='flag-5'>级</b><b class='flag-5'>自动驾驶</b>汽车

    百舸争流之势!L3自动驾驶进入路测阶段

    2023年底,政策层面给L3自动驾驶的商业化落地填了一把助燃剂,可以说对智能驾驶给出了“天高任鸟飞”般的拥抱态度。
    发表于 03-04 14:10 469次阅读
    百舸争流之势!<b class='flag-5'>L</b>3<b class='flag-5'>级</b><b class='flag-5'>自动驾驶</b>进入路测<b class='flag-5'>阶段</b>

    自动驾驶产业链爆发前夜?多家车企宣布已获得L3自动驾驶路测牌照

    工信部网站信息显示,2022年11月,工信部发布《关于开展智能网联汽车准入和上路通行试点工作的通知(征求意见稿)》,针对搭载中国国家标准(GB/T 40429-2021)定义的L3(有条件自动驾驶)/
    的头像 发表于 12-27 17:09 915次阅读
    <b class='flag-5'>自动驾驶</b>产业链爆发前夜?多家车企宣布已获得<b class='flag-5'>L</b>3<b class='flag-5'>级</b><b class='flag-5'>自动驾驶</b>路测牌照

    语音数据集在自动驾驶中的应用与挑战

    随着人工智能技术的快速发展,自动驾驶汽车已经成为交通领域的研究热点。语音数据集在自动驾驶中发挥着重要的作用,为驾驶员和乘客提供了更加便捷和安全的交互
    的头像 发表于 12-25 09:48 490次阅读

    LabVIEW开发自动驾驶的双目测距系统

    LabVIEW开发自动驾驶的双目测距系统 随着车辆驾驶技术的不断发展,自动驾驶技术正日益成为现实。从L2别的辅助
    发表于 12-19 18:02

    如何实现去高精地图?自动驾驶迎行业奇点

    车载摄像头凭借灵活的探测距离、高传输速率、成本价格低廉等优势成为自动驾驶方案中重要传感器。单车搭载的摄像头数量将增加。Yole报告指出, L1L2
    发表于 11-30 10:50 780次阅读
    如何实现去高精地图?<b class='flag-5'>自动驾驶</b>迎行业奇点