吱一声就知道你是谁,深度学习识别短片段说话人-电子发烧友网

UtterIdNet是一种新型的具有短语音片段识别能力的深度神经网络。该模型的灵感来自于两个成功且非常流行的深度神经网络架构：ResNet和DeepID3。据该模型背后的研究人员称，该模型采用了一种新的体系结构，通过在短语音片段中有效地增加信息的使用，使其适合于短片段说话人的识别。

他们在VoxCeleb数据集上对UtterIdNet进行了训练和测试，这是说话人识别的最新基准，并证明UtterIdNet在短片段上的表现优于最先进的技术。对不同分段持续时间的评估显示，短分段的性能一致且稳定，对于2秒、1秒、特别是微秒的分段，与之前的模型相比有显著改进。

随着智能虚拟助手的不断发展，它们对增强语音识别算法的要求也越来越高。与传统的先进模型相比，该模型显示了更好的结果。虽然在完整的语音片段中表现出了微弱的优势，这也是研究人员打算在未来的工作中进行研究的，但是UtterIdNet在增强短片段语音识别方面有很大的潜力。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：机器有了综合感官？新研究结合视觉和听觉进行情感预测 | 一周AI最火论文

文章出处：【微信号：BigDataDigest，微信公众号：大数据文摘】欢迎添加关注！文章转载请注明出处。

吱一声就知道你是谁,深度学习识别短片段说话人