0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

云知声数据标注团队--关于研究机器人说话的研究

云知声 来源:djl 作者:云知声 2019-08-08 16:02 次阅读

“如果机器在某些现实的条件下,能够非常好地模仿人回答问题,让提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。”

—— 阿兰·图灵

人机对话是人类对人工智能最初的设想,也一直是人工智能领域的目标之一。

即使我们经常听到“这个问题我还没有学会”,但是不可否认,人工智能已经基本实现”可以说话”了。那么,机器人是怎样学习的呢?这就需要提到人工智能需求下诞生的一个新职业,也是人工智能背后的“隐形者”——数据标注专员。

众所周知,我们教小孩子认识海豚,就要拿海豚的图片告诉他,这是海豚。久而久之,他记住了海豚的特征,当他去动物园看到了海豚,就知道那是海豚。类比机器人,为了让机器人“像人一样说话”,我们先要教它学习,通过大量的学习之后,它才能对事物做出分辨。

AI 领域,教机器人学习必须有大量的训练集和测试集,训练集通俗说就像是我们学习时做的习题集,测试集像我们考试做的试题。测试集和训练集里的数据必须是支持算法可用的标注数据,而将采集的原始数据变成算法可用数据的过程叫做“数据标注”。即对采集来的文本、图片、语音数据进行梳理、整理、定性的过程。而数据标注专员就成了为人工智能的发展供应重要且源源不断的“数据燃料”的人。

云知声就有一个庞大的数据标注团队从事数据服务工作,并且,仅有的数据标注团队还在云知声的东南总部厦门公司哦。团队的小伙伴几乎每天默默戴着耳机对着电脑 7-8 小时,真的是此处无声胜有声!

数据标注是一项重复且繁琐的工作,如果把人工智能比作金字塔,最顶端的是人工智能应用(比如机器人、无人驾驶等),而最底端的则是数据服务,数据服务既是根基,也是人工智能必要且必不可少的一环。

数据标注工作真的像是工厂里的流水线操作吗?只是重复性地对数据进行标注吗?

云知声数据标注团队的负责人许建说,目前人工智能领域对于数据采集和标注的需求量非常大,数据采集后首先进行数据清洗,清洗之后才是数据标注,标注要求尽可能地详尽、清楚,最后的审查阶段对标记的数据进行正确率、精确度、完备性等方面的审查。实际是,数据质量会影响到算法效果,一旦标注人员出现了错误,也会影响到机器犯错。

目前主要有语音、图像、文本、视频数据的采集标注。云知声日常所涉及的是语音的标注,与智能产品进行语音交互和我们平时与人的交流对话相似,在生活中,你可能突然问你身边的人,“小云,现在几点了”,现在 3 点 15 分”,“小云”就是唤醒词,“现在几点了”就是命令词,唤醒词和命令词均要采集。

为了让即便带有背景嘈杂声、或是略带方言口音也能准确识别,这背后有一个数量庞大的数据训练集支撑。每个语音命令需要采集至少 100 人的语音数据,既要罗列出所有可能的句子,又要搜集尽可能多的人不同的说话方式,覆盖到地域、性别、各年龄段。

比如我们的 Pandora A1 客房智能管家,当查询酒店服务时,就有多种表达方式,“提供什么服务”、“包括哪些服务”、“有哪些服务”、“有什么服务”等。同时,会有严格的性别、年龄段、口音采集人数占比,以保证最终的精准识别。

对每一个采集的词句,都要做到精细标注,采集的语音需要符合相应的技术要求,标注的时间点要精准控制在 100 毫秒以内。数据标注的速度决定了 AI 产品的研发速度,提高标注的效率也就显得很重要。

为了配合数据标注团队的工作厦门展厅还藏着一个神秘的声学实验室,这里可以说是整个公司最安静的地方了。

声学实验室的主要用途是采集原始声音数据,为了贴近产品实际使用场景,整个装修布置符合家居场景。

实验室采用减振隔声墙体,房间被墙体隔开,墙面、吊顶与外部房间没有任何刚性连接,完全与外界隔绝。墙内的吸声材料主要由多孔的玻璃纤维板组成,具有较好的声音吸收能力,除了吸声材料外,声学实验室四周还布置了窗帘,可以让声音充分扩散,使整个空间内的声场均匀分布。地板采用的是地砖和吸声地毯,实现实验室与建筑基座的分隔,无反射和回声。

声学实验室内五脏俱全—标准麦克风、高保真音箱、声卡……应有尽有。

许建说,为了达到设备在实际应用场景中达到最优效果,在声学实验室采集时就要模拟真实环境,需要覆盖不同的噪音、信噪比、距离和角度。

为了保证支持远讲的语音产品出厂前的效果,在前期的采集阶段就要把产品在实际应用中受到的噪音干扰和不同距离、角度的声音效果考虑进去。

像我们有些设备是支持 5 米远讲识别的,就要求录音人距离录音设备一米、三米、五米距离的录音数据,同时会设置 0° 、 -30° 、 -60° 等不同角度的设备叠加采集。经常在采集的过程中根据场景需要加入音乐噪声、电视噪声、办公噪声、室外噪声等,模拟出真实场景的噪音干扰。

人工智能的发展,催生了数据标注这个新职业,随着人工智能大规模的落地应用,至少在未来的五六年内,人工智能像是一个嗷嗷待哺的婴儿,等待着数据的喂养。数据标注专员赋予冷冰冰的机器以鲜活的“生命”,教他们我们的知识,让他们变得有“温度”。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    210

    文章

    28077

    浏览量

    205769
  • 智能语音
    +关注

    关注

    10

    文章

    773

    浏览量

    48678
  • 语音交互
    +关注

    关注

    3

    文章

    282

    浏览量

    27961
收藏 人收藏

    评论

    相关推荐

    基于结构自适应的多机器人协作机制研究

    基于结构自适应的多机器人协作机制研究
    发表于 08-20 13:43

    机器人足球识别算法研究

    `机器人足球识别算法研究`
    发表于 08-20 19:59

    美国最著名的十所机器人研究顶尖高校

    美国总统是该校的毕业生。此外,学校的医学、法学、商学和新闻学院都名列前茅,其新闻学院颁发的普利策奖是美国新闻界的最高荣誉。  据网上评价,哥伦比亚大学的机器人研究团队令人印象深刻。该校学生已经制造适合
    发表于 01-13 17:15

    【Aworks申请】基于ARM的智能清扫机器人研究

    申请理由:现正在进行一个关于智能清扫机器人的项目研究,希望基于ARM搭建一款可以实现自动清扫和自动返回充电的,具有自主管理能力的清扫机器人,同时对相应功能进行改造完善。需要用到ARM芯
    发表于 07-06 10:59

    【MiCOKit申请】关于机器人热感应系统的开发与研究

    申请理由:本人是一研究生,研究的是机器人方向,里面需要的很多参数和MiCOKit 开发板有关,很希望能申请到,谢谢.项目描述:这是一款基于F2812DSP的一款和热感应有关的机器人系统
    发表于 07-24 07:18

    智易申请】智能控制机器人-脑存储

    申请理由:目前我们团队正在研发的这个脑存储智能机器人,原则上需要大量的内存空间,所以需要进行储存,wifi连接,通讯等方面的硬件开发板需要。目前也正在寻找这样一款合适的开发板能够搭配我们团队
    发表于 07-24 10:07

    OFweek行业研究中心:服务机器人将成为新一代智能终端

    概要:从产业生命周期来看,服务机器人正处于市场导入期,在计算和大数据日趋成熟的背景下,深度学习等人工智能关键技术取得一定实质性的进展,语音和图片系统的识别率得到大大的提高。OFweek行业
    发表于 01-26 14:11

    机器人在线】工业喷涂机器人误差修正方法发展趋势

    的运动学问题进行了研究,但由于研究对象适用于Pieper准则,故逆解可以运动封闭解法来求解,没有对于不满足Pieper的情况进行进一步讨论,且由于关于机器人加速度的理论
    发表于 07-13 16:03

    LabVIEW 的Tripod 机器人视觉处理和定位研究

    针对传统的物流分拣过程效率低、成本高的现状以及利用机器视觉进行分拣快速、可靠的优点对机器视觉、图像处理和Tiropd机器人进行了研究基于LabVIEW设计了Tripod
    发表于 06-01 06:00

    基于CAN总线和双传感器仿人机器人运动控制系统的研究

    一。引言  机器人研究是自动化领域最复杂。最具挑战性的课题,它集机械。电子。计算机。材料。传感器。控制技术等多门学科于一体,是多学科高技术成果的集中体现。而仿步行机器人技术的
    发表于 08-19 06:57

    功率放大器基于振动驱动的旋转及攀爬软体机器人研究

    实验名称:基于振动驱动的旋转及攀爬软体机器人研究研究方向:利用振动驱动原理,设计了能够实现快速旋转运动和攀爬运动的两种软体驱动结构。实验内容:旋转软体机器人具有可实现大变形、柔性接触
    发表于 04-09 10:02

    功率放大器基于振动驱动的旋转及攀爬软体机器人研究

    实验名称:基于振动驱动的旋转及攀爬软体机器人研究研究方向:利用振动驱动原理,设计了能够实现快速旋转运动和攀爬运动的两种软体驱动结构。实验内容:旋转软体机器人具有可实现大变形、柔性接触
    发表于 04-14 09:56

    机器人视觉系统研究

    视觉系统成为研究的新课题。1965年, Stanford建立机器人实验室开始研究机器人机器人的定义:【
    发表于 09-07 08:37

    基于TRIZ轮式机器人驱动轮的研究

    基于TRIZ轮式机器人驱动轮的研究 根据亚太机器人大赛规则,要求机器人车轮与地面有较大的摩擦力,以保证机器人在规定的时间内完成比赛任务。文中
    发表于 09-13 07:12

    智慧医疗解决方案详细介绍与分享

    值得一提的是,除以上几大智慧医疗产品与方案外,本次展会上还首次公布了旗下最新医疗产品——
    的头像 发表于 08-08 17:03 4671次阅读