0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

小米AI实验室声学团队 获婴儿啼哭声识别的挑战赛任务第一名

小米公司 来源:小米公司 作者:小米公司 2020-11-13 10:28 次阅读

对婴儿来说,啼哭声是一种通讯的方式,一个非常有限、但类似成年人进行交流的方式。它也是一种生物报警器,向外界传达着婴儿生理和心理的需求。 基于啼哭声声波携带的信息,婴儿的身体状况才能被确定,疾病才能被检测出来。因此,有效辨识啼哭声,成功地将婴儿啼哭声“翻译”成“成人语言”,让成年人读懂啼哭声的含义,有重大的实际意义。 2020 iFLYTEK A.I.开发者大赛中,有一项关于婴儿啼哭声识别的挑战赛任务。本次竞赛总共吸引了678只队伍参赛,分别来自国内不同的公司和高校。最终小米AI实验室声学团队以0.99123分的高分夺得第一名。

比赛的训练数据集包含了awake(苏醒)、diaper(换尿布)、hug(要抱抱)、hungry(饥饿)、sleepy(困乏)和uncomfortable(不舒服)六类哭声,并且人工添加了来自Noisex-92标准数据库的噪声。 这项任务旨在判别婴儿啼哭声所传递的信息,需要分别在简单噪声环境和复杂噪声环境下对婴儿啼哭进行识别,判断容易引起混淆的啼哭声,分析各类啼哭声的明显特征及简单直接的判别方式。 初赛训练数据包含918条音频,测试集包含228条。复赛赛方提供了添加不同噪声的30294条训练数据,需对7524条测试音频进行识别。

婴儿啼哭比赛背后的技术原理 小米AI实验室声学团队借鉴说话人确认的方法,训练网络使得vector的余弦距在离类间间距拉大而类内间距减小。 在模型的训练过程中,首先使用VAD算法对婴儿啼哭音频中的静音部分进行剔除。去除静音后随机选取160帧,不足160帧的语音采用Cycle Padding方式,利用中间特征进行循环填充,相比与传统的补0或用尾部填充的方式,特征更加丰富。 模型采用3 层 LSTM+256Dense 层,每层节点为 512。初赛训练集中的所有纯净语音均看作 enroll 语料,所有训练集中每个类别的 embedding 由该类别中的所有语音过模型求整体平均得到。测试集中的每条语音过模型后得到的 embedding与 enroll 中的每类 embedding 求余弦距离,分数对应最高的类别为预测类别。 训练策略为:首先迭代第一个 5000 次,学习率设置为 1e-3,第二次加载预训练模型(mAp 分数高的),调整学习率,再迭代 5000 次,最终交叉加载预训练模型在不同的 part 上训练。

模型的选择和推理过程分为以下4个步骤:

测试集统计分析:首先统计测试集语音的信噪比、时长、静音占比及语音相似度。通过对比分析,对相似数据进行归类,选取最高信噪比数据进行预测。

模型选择:在 5 个训练集上分别择优选取 2 个模型作为备用。

推理:计算测试语料经模型推理得到的vector 与每类哭声embedding间的余弦距离,取分数最高的对应类为备选结果。

投票:根据单个模型预测的结果投票得到最终结果。

声学感知技术未来将如何发展? 当前主流的声学感知技术使用的是强监督的深度学习方法,随着数据量的增大和技术的发展,未来监督学习的方法将逐渐过度为半监督甚至无监督学习。其中半监督学习正是当前声音事件检测技术的研究重点。 不仅如此,深度学习的网络模型也从人工专家设计逐渐转变为自动搜索架构,而元学习等小样本学习方法也开始逐步应用在声学感知方向。 婴儿哭声分析只是声学感知技术的其中一个应用。当前的声音场景分类和声音事件检测技术已能在设备端上实时分析当前用户所处的场景和识别出各式各样的声音,如猫狗宠物叫声、警报声、汽车鸣笛声等。

不仅如此,声学感知技术还能分析出一些连人耳也无法听出的声音,如本次竞赛的婴儿啼哭意图,以及应用在工业上,通过分析机器发出的声音来判断机器保养状态的声学分析技术。声音作为一种最常见的传感媒介之一,声音感知技术在智能家庭、自动驾驶、智能工业化等领域都有广泛的应用场景。 手机xAIoT小米AI全力打造小米智能家居 随着小米最新的手机xAIoT战略,智能家居环境是手机设备与全部智能家居设备联动最全面的使用场景。手机、TWS耳机和越来越多的智能家居设备比如智能音箱、智能电视、米家IoT设备等都具有麦克风拾音功能。 我们获得了足够多场景下的声音数据时,构建基于设备端的场景感知、事件感知、人体感知和空间感知能力成为了可能。 依赖于全球第一的AIoT平台,小米可以实现对家中每一个角落无处不在的感知能力,并完成手机端事件提醒与多事件时间线回溯,声学作为智能感知的一种手段,在未来与UWB技术、视觉图像技术相结合,相互取长补短将成为主流的趋势。

责任编辑:xj

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30126

    浏览量

    268410
  • 智能语音
    +关注

    关注

    10

    文章

    781

    浏览量

    48708
  • 小米
    +关注

    关注

    69

    文章

    14324

    浏览量

    143854

原文标题:小米AI实验室声学团队荣获2020 iFLYTEK A.I.开发者大赛婴儿啼哭声识别挑战赛冠军

文章出处:【微信号:xiaomigongsi0406,微信公众号:小米公司】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    苹果深圳实验室运营,强化iPhone等产品测试

    10月10日,苹果公司宣布其位于深圳河套深港科技创新合作区深圳园区的应用研究实验室正式启用。该实验室斥资超过10亿人民币,旨在组建支由超过1000中外高端人才构成的研发
    的头像 发表于 10-11 15:41 439次阅读

    TÜV莱茵授予联想合作实验室资质

    联想(北京)有限公司近日迎来重要里程碑,其声学实验室与安规实验室成功获得德国莱茵TÜV大中华区颁发的合作实验室资质证书。这殊荣不仅标志着联
    的头像 发表于 09-20 18:23 885次阅读

    NVIDIA为AI城市挑战赛构建合成数据集

    一年一度的 AI 城市挑战赛中,来自世界各地的数百支参赛队伍在 NVIDIA Omniverse 生成的基于物理学的数据集上测试了他们的 AI 模型。
    的头像 发表于 09-09 10:04 439次阅读

    AI4Science黑客松光子计算挑战赛成功举办

    经过数月角逐,第二届AI4Science黑客松竞赛日前落下帷幕。在曦智科技主持的光子计算挑战赛中,参赛选手何自强和来自东北大学的参赛队伍The Power of Light获得完优胜奖。
    的头像 发表于 08-07 09:58 459次阅读

    软通动力荣获2023年中国IT服务市场第一名

    近日,迪顾问最新发布《2023-2024年中国IT服务市场研究年度报告》。报告中,软通动力凭借在数字化转型浪潮中卓越的数字化能力和表现,持续领跑IT服务市场,位列2023年中国IT服务市场第一名
    的头像 发表于 07-31 10:18 394次阅读

    润和软件连续四年蝉联数字业务类解决方案市场第一名

    ,连续四年蝉联数字业务类解决方案市场第一名。在细分领域:数字信贷系统解决方案子市场持续保持第一名,数字银行解决方案子市场稳居第二,开放银行解决方案子市场上升至第三。   数字业务类
    的头像 发表于 07-31 10:10 510次阅读

    MediaTek与小米集团联合实验室正式揭幕

    MediaTek 宣布携手小米集团持续强化战略合作,共同开启更深层次的多元合作,并为位于小米深圳研发总部的「联合实验室」揭牌。此次「联合实验室」的揭幕将进
    的头像 发表于 07-03 14:52 663次阅读

    浪潮信息CVPR2024自动驾驶挑战赛"Occupancy& Flow"冠军

    北京2024年6月25日 /美通社/ -- 近日,在全球权威的CVPR 2024自动驾驶国际挑战赛(Autonomous Grand Challenge)中,浪潮信息AI团队所提交的"F-OCC
    的头像 发表于 06-25 20:29 342次阅读
    浪潮信息<b class='flag-5'>获</b>CVPR2024自动驾驶<b class='flag-5'>挑战赛</b>&quot;Occupancy&amp; Flow&quot;冠军

    基于Tiny AI技术的婴儿哭声事件离线检测方案

    基于Tiny AI技术的婴儿哭声事件离线检测模型,基于Arm Cortex/Risc V微处理器开发,芯片资源占用极少,有极高的准确率和极低的误识别率。
    的头像 发表于 06-17 15:25 627次阅读

    基于深度神经网络的婴儿哭声识别算法

    具体的软硬件实现点击 http://mcu-ai.com/ MCU-AI技术网页_MCU-AI 婴儿哭闹识别
    发表于 05-20 19:20

    华润微电子以第一名的成绩荣获新吴区区长质量奖

    近日,无锡高新区(新吴区)召开2023年度高质量发展总结暨2024年工作推进会,会议隆重表彰了新吴区区长质量奖单位,华润微电子以第一名的成绩荣获新吴区区长质量奖。
    的头像 发表于 04-07 09:19 612次阅读
    华润微电子以<b class='flag-5'>第一名</b>的成绩荣获新吴区区长质量奖

    长城汽车自主品牌首个气动-声学风洞实验室即将建成

    长城汽车自主品牌首个气动-声学风洞实验室将建成
    的头像 发表于 03-28 10:03 386次阅读
    长城汽车自主品牌首个气动-<b class='flag-5'>声学</b>风洞<b class='flag-5'>实验室</b>即将建成

    上海AI实验室发布新代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 1052次阅读

    SGS与联想成立联合实验室并为其颁发QTL认可实验室资质

    北京2024年1月10日 /美通社/ -- 2024年1月8日,国际公认的测试、检验和认证机构SGS为联想(北京)有限公司(以下简称"北京联想") 声学和影像实验室并颁发QTL(Qualified
    的头像 发表于 01-10 16:19 689次阅读
    SGS与联想成立联合<b class='flag-5'>实验室</b>并为其颁发QTL认可<b class='flag-5'>实验室</b>资质

    AMD 宣布 Pervasive AI 开发者挑战赛

    AI 开发者挑战赛 。 利用 AMD 广泛的 AI 就绪技术,开发者将直面挑战,为数据中心、工作站、笔记本电脑、游戏、机器人以及其它更多领域的应用实例创造创新的、令人激动的
    的头像 发表于 12-05 09:05 447次阅读