AI Deepfake再升级,以假乱真!安全性令人担忧-电子发烧友网

众所周知，利用 Deepfake 技术可以自动生成虚假图像，轻松达到以假乱真的结果。但这还不够，随着该技术的不断升级，它还有更多意想不到的应用正在被挖掘。现在，一个能更加方便快捷创建虚假视频和错误信息的方法出现了。

在最新的深度技术突破中，研究人员展示了一种新方法，该方法使用机器学习技术让用户编辑视频文本内容，来添加、删除或更改视频人物中的话语。

也就是说，如果你想对一段人物特写视频进行重新编辑，只需要对视频所对应的文本内容进行修改，随后人脸会根据修改的文本内容作出与之相配的动作表达。

研究人员在一段视频讲解中给出了一些例子，比如将电影《现代启示录》中的一段人物特写镜头中的台词“我喜欢早晨的汽油弹的气味”更改为“我喜欢早晨的法国土司的味道。”随着台词的变化，系统自动会重新合成人物的脸部发声动作，给出编辑后的视频。

这项研究由斯坦福大学、马克斯普朗克信息学研究所、普林斯顿大学和 Adobe 研究所的科学家共同合作完成，它表明人们能够更轻松地编辑视频人物所说的内容并制作逼真的虚假视频。

研究人员认为，他们的方法完全朝着基于文本编辑和合成一般视听内容的目标迈出了重要一步。

不过，该方法目前正处于研究阶段，普通用户还不能使用，但市面上已经有类似的软件。Adobe 就发布了一个叫 VoCo 原型软件，该方法允许用户像编辑图片一样轻松编辑语音内容。

但该系统给出的结果要更加精细。根据论文《基于文本的头部特写视频编辑》（https://www.ohadf.com/projects/text-based-editing/data/text-based-editing.pdf）介绍，该系统的输入包括讲话的头部特写视频、讲话的文本和指定的编辑操作，他们的工具支持三种类型的编辑操作:

增加新单词：编辑器在视频中的某一点添加一个或多个连续的单词。

重新排列现有的单词：编辑移动一个或多个存在于视频中的单词。

删除现有单词：编辑从视频中删除一个或多个单词。

为了做出虚假视频，研究者们主要分为五个阶段来处理视频。在音位排列阶段，他们将转录文本与视频进行比对，然后在跟踪重建阶段，用视频生成了一个三维参数头部模型。每个输入视频完成这样的预处理步骤，然后执行视位搜索（viseme search），在编辑器中找到音素的子序列和输入视频中音素的子序列之间的最佳视觉匹配。研究者们还提取了编辑位置周围的区域作为背景序列，从中提取背景像素和姿态数据。对于每个子序列他们混合三维头部模型的参数，然后加上背景像素，最终呈现一个真实的全画幅视频（full-frame video）。

（注：视觉音素 / 视素（visual phoneme/viseme）是嘴唇和面部的姿势或表达，其对应于特定的语音（音素），是具备可理解度的基本视觉单元。在计算机动画中，我们可以使用视觉音素来制作虚拟角色的动作，令它们看起来像是在说话。）

当有人编辑视频的文本内容时，系统会将所有这些收集的数据（音素、视位和 3D 脸部模型）组合在一起，以构建与文本输入相匹配的新素材，然后将其粘贴到源视频上以创建最终的结果。

研究人员还将他们的方法与其他对讲视频合成技术进行了比较。他们分别用 5% 、10%、50% 和 100% 的训练数据来测试结果。使用 100% 的数据量，每幅图像的平均 RMSE（标准误差）为 0.018，使用 50% 的数据量为 0.019，只使用 5%的数据量为 0.021 。

他们还用各种合成短语进行测试，发现短语长度与结果质量没有直接关系。而组成短语的视位和音素对齐质量等其他因素会影响最终结果。

他们还尝试将 MorphCut 应用于单词的加法问题。MorphCut 在两帧图像之间产生一个大的头部跳跃。

将检索到的viseme序列与MorphCut拼起来生成一个新单词

同时，他们与 Face2Face[Thiesetal.2016]方法进行了比较，他们的方法生成了高质量结果，而基于检索的 Face2Face 方法显示出鬼影现象，并且不稳定。

与 Face2Face 进行比较

为了定量评估基于文本的编辑系统生成的视频质量，研究人员发起了一项基于 web 的用户测试研究，参与者有 138 名。

在向 138 名志愿者进行虚假视频的测试时，大约 60％的参与者认为编辑过的视频是真实的，虽然这个数据听起来不怎么好，但另一数据显示，同一组内只有 80％的参与者认为原始未经编辑的镜头才是合理的。（研究人员指出，这可能是因为一些人在测试前被告知他们的答案会用于视频编辑研究，这意味着受试者已经准备好要找到虚假视频。）

以上评估表明，他们的方法展示了令人信服的结果，但该研究也存在一定的局限性，还有进一步优化的空间。

例如，新的合成方法需要重新计时（re-timed）的背景视频作为输入，但重新计时会改变动作的速度，因此眨眼和手势可能不再与讲话动作完全一致，为了减少这种影响，他们使用了比实际编辑更长的重新计时区间以修改更多原始视频片段。

这里的算法只能用于对特写风格的视频施加影响，并且这需要 40 分钟的输入数据。编辑过的语音似乎与源材料的差别不大，并且在最优质的虚假视频中，研究人员要求拍摄对象录制新的音频以匹配这种变化，然后用 AI 生成视频。

研究人员还指出，他们还不能改变人物说话声音的情绪或语调，因为这样做会产生“不可思议的结果”，例如，如果人物在说话时挥手对脸部进行遮挡会让算法完全失效。

在未来，研究人员指出，端到端学习可以用来学习一种从文本到视听内容的直接映射。

这些局限性始终存在于早期研究中，不过研究人员可以保证它们能够及时得到克服，这意味着任何人都可以在没有技术培训的情况下使用系统来编辑人们在视频中所说的内容。

这项技术的潜在危害非常令人担忧，该领域的研究人员经常因未能考虑可能滥用其研究而受到批评。但参与这一特定项目的科学家表示，他们已经考虑过这些问题。

在这篇论文附带的博客文章中，他们写道：“虽然图像和视频处理的方法与媒介本身一样久远，但当其应用于思想和意图等权威证据的交流方式时，滥用的风险会更高。“他们也承认，不法分子可能会使用此类技术伪造个人陈述并用于诽谤知名人士。

为了防止人们混淆原始视频和虚假视频，他们给出的解决方案是人工智能编辑的视频应该通过使用水印或通过上下文直接清楚地呈现（例如观众理解他们正在观看的是虚构电影）。

但显然，The Verge 指出，水印很容易被消除，而且网络媒体在传播会去掉上下文场景描述，虚假事物并不需要完美无瑕。很多虚假的新闻文章很容易被揭穿，但这并不能阻止它们的传播，尤其是对于那些想要相信这种符合他们先入之见的谎言的社区。

当然，这样的技术也有许多有益的用途，比如对电影和电视行业有很大的帮助，可以让他们在不重新录制镜头的情况下修复读错的台词，并帮助不同语言的演员进行无缝配音。不过，与潜在的滥用等威胁相比，这些益处好像并不足以使人们信任这项技术，反而，它在技术上的突破更大，人们会更加感到不安。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉