一个多层机器学习程序的诞生-电子发烧友网

想象一下你正在看一部恐怖电影：女主角在一个黑暗的地下室里，高度警惕。背景中播放着悬疑的音乐，而一些看不见的，邪恶的生物在阴影中爬行……然后——砰！打到了一个物体。

如果没有强烈但恰到好处的音效，这样的场景很难有那么吸引人和恐怖。通常，这些音效是由工作室里的Foley艺术家录制的，他们使用大量可供选择的物体来产生声音。录制玻璃破碎的声音可能涉及实际反复打碎玻璃，例如，直到声音与视频剪辑非常匹配。

据悉，研究人员已经开发了一款自动化程序，可以分析视频帧中的运动，并创建自己的人工声音效果来匹配场景。在一项调查中，大多数被调查者表示他们相信这些假音效是真的。该模型名为AutoFoley，具体介绍发表在了6月25日出版的IEEE Transactions on Multimedia上面。

“自20世纪30年代以来，在后期制作中使用Foley艺术添加音效一直是电影和电视配乐的一个复杂部分，”参与创作AutoFoley的德克萨斯大学教授Jeff Prevost解释道。“如果没有一个真实的Foley配乐的控制层，，电影看起来既空洞又遥远。然而，Foley声音合成的过程也由此为电影的创作增加了大量的时间和成本。”

Prevost和他的博士生Sanchita Ghose被自动Foley系统的想法所吸引，开始创建了一个多层机器学习程序。他们创建了两种不同的模型，可以在第一步中使用，包括识别视频中的动作并确定合适的声音。

第一个机器学习模型从快速移动动作片段的帧中提取图像特征（如颜色和运动），以确定合适的声音效果。

第二个模型来分析对象在不同帧中的时间关系。通过使用关系推理来比较不同时间段的不同帧，第二个模型可以预测视频中发生的动作。

在最后一步，合成声音以匹配其中一个模型预测的活动或运动。Prevost和Ghose使用AutoFoley为1000个短片创建声音，这些短片捕捉了许多常见的动作，比如下雨、骑马和滴答作响的时钟。

分析显示，毫不奇怪的是，AutoFoley最擅长于在不需要与视频完全一致的情况下（例如，倾盆大雨、噼啪作响的大火）发出声音。但是，当视觉场景包含随时间变化的随机动作（例如打字、雷雨）时，程序可能与视频不同步。

接下来，Prevost和Ghose调查了57名当地大学生，他们认为哪些电影片段包括了原声配乐。在评估第一个模型产生的声音时，73%的受访学生选择了合成的AutoFoley剪辑作为原始片段，而不是真正的原始声音片段。在评估第二个模型时，仍有66%的受访者选择了AutoFoley剪辑而不是原来的声音剪辑。

“我们的方法的一个局限性是需要分类的主题出现在整个视频帧序列中，”Prevost说，同时还指出AutoFoley目前依赖的Foley类别的数据集非常有限。不过，AutoFoley的专利仍处于早期阶段，但Prevost说这些限制将在未来的研究中得到解决。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器学习

机器学习

+关注

关注
66

文章
8423

浏览量
132755

原文标题：又被AI骗了？人工智能欺骗人类相信合成的声音效果是真实的

文章出处：【微信号：IEEE_China，微信公众号：IEEE电气电子工程师】欢迎添加关注！文章转载请注明出处。

传统机器学习方法和应用指导

用于开发生物学数据的机器学习方法。尽管深度学习（一般指神经网络算法）是一个强大的工具，目前也非常

发表于 12-30 09:16 •242次阅读

传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

什么是机器学习？通过机器学习方法能解决哪些问题？

计算机系统自身的性能”。事实上，由于“经验”在计算机系统中主要以数据的形式存在，因此机器学习需要设法对数据进行分析学习，这就使得它逐渐成为智能数据分析技术的创新源之一，

发表于 11-16 01:07 •443次阅读

什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>？通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题？

NPU与机器学习算法的关系

在人工智能领域，机器学习算法是实现智能系统的核心。随着数据量的激增和算法复杂度的提升，对计算资源的需求也在不断增长。NPU作为一种专门为深度学习等机

发表于 11-15 09:19 •503次阅读

eda在机器学习中的应用

值和噪声数据。通过绘制箱线图、直方图和散点图，我们可以直观地看到数据中的异常值和分布情况。例如，如果一个数据集中的某个特征值远高于其他值，这可能是一个异常值，需要进

发表于 11-13 10:42 •326次阅读

具身智能与机器学习的关系

（如机器人、虚拟代理等）通过与物理世界或虚拟环境的交互来获得、发展和应用智能的能力。这种智能不仅包括认知和推理能力，还包括感知、运动控制和环境适应能力。具身智能强调智能体的身体和环境在智能发展中的重要性。 2. 机器学习的定义

发表于 10-27 10:33 •400次阅读

人工智能、机器学习和深度学习存在什么区别

人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术，但其中一个很大的子集是机器学习——让算法从数据中学习。

发表于 10-24 17:22 •2505次阅读

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

本人有些机器学习的基础，理解起来一点也不轻松，加油。作者首先说明了时间序列的信息提取是时间序列分析的一个重要环节，目标是从给定的时间序列数

发表于 08-14 18:00

如何构建多层神经网络

构建多层神经网络（MLP, Multi-Layer Perceptron）模型是一个在机器学习和深度学习

发表于 07-19 17:19 •913次阅读

深度学习在视觉检测中的应用

深度学习是机器学习领域中的一个重要分支，其核心在于通过构建具有多层次的神经网络模型，使计算机能够

发表于 07-08 10:27 •752次阅读

机器学习算法原理详解

机器学习作为人工智能的一个重要分支，其目标是通过让计算机自动从数据中学习并改进其性能，而无需进行明确的编程。本文将深入解读几种常见的

发表于 07-02 11:25 •1121次阅读

深度学习与传统机器学习的对比

在人工智能的浪潮中，机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步，为众多领域带来了革命性的变化。然而，尽管它们都属于机器

发表于 07-01 11:40 •1423次阅读

机器学习的经典算法与应用

关于数据机器学习就是喂入算法和数据，让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集，在统计

发表于 06-27 08:27 •1677次阅读

请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗？

。我发现IMAGIMOB 是一个很好的解决方案来满足我的需求，但现在的问题是， PSoC™ Creator 不支持 IMAGIMOB！ PSoC™ Creator 可以支持机器学习

发表于 05-20 08:06

大牛谈如何学习机器视觉?

国内外机器视觉发展的不同。我本人认为，只有先搞清了两边的不一样，才便于说清如何下手学习。国外机器视觉发展到今天，已经从“一包到底”式的工作

发表于 01-15 11:02 •460次阅读

如何使用TensorFlow构建机器学习模型

在这篇文章中，我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。

发表于 01-08 09:25 •1014次阅读

搜索历史

一个多层机器学习程序的诞生

评论

传统机器学习方法和应用指导

什么是机器学习？通过机器学习方法能解决哪些问题？

NPU与机器学习算法的关系

eda在机器学习中的应用

具身智能与机器学习的关系

人工智能、机器学习和深度学习存在什么区别

【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

如何构建多层神经网络

深度学习在视觉检测中的应用

机器学习算法原理详解

深度学习与传统机器学习的对比

机器学习的经典算法与应用

请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗？

大牛谈如何学习机器视觉?

如何使用TensorFlow构建机器学习模型