首例“AI声音侵权案”，声音AI化用于短视频-电子发烧友网

电子发烧友网报道（文/李弯弯）AI技术的应用，给我们的生活带来了巨大改变。同时，它的不当使用也带来了侵权、诈骗等风险。近日，北京互联网法院首次组成五人合议庭，依法公开审理全国首例“AI声音侵权案”。

该案中，原告殷某某以配音为职业，曾录制多部有声作品。殷某某意外发现，自己的声音被AI化后，在一款名为“魔音工坊”的APP上以“魔小璇”的名义对外出售。因此，殷某某以被告行为侵害其声音权为由，将“魔音工坊”的运营主体北京小问智能科技有限公司等五被告起诉到北京互联网法院。

AI声音侵权案始末

目前，该案件仍在审理中，五被告均否认侵权。北京小问智能科技有限公司认为，其APP中的声音产品有合法来源，来自于微软（中国）有限公司。微软（中国）有限公司称其使用的声音来源于中广影音（北京）文化传媒有限公司。

中广影音（北京）文化传媒有限公司认为其与原告有过合作，约定经原告录制形成的作品著作权归属其所有。上海蓝云网络科技有限公司和北京信诺时代科技发展有限公司辩称，其分别为微软中国的平台运营商与涉案产品的经销商，不构成侵权。

原告则认为，他人利用原告声音的配音作品在抖音、直播吧等APP广泛流传，其中抖音用户“小禾侃剧”自2021年9月7日至今，共发布使用原告声音的作品119部。经声音筛选和溯源，发现上述声音作品中的声音来自于被告北京小问智能科技有限公司运营的“魔音工坊”APP。

被告中广影音（北京）文化传媒有限公司将原告为其录制的3本书的音频交给被告微软（中国）有限公司，被告微软（中国）有限公司将原告的声音进行AI化处理，并向被告上海蓝云网络科技有限公司和被告北京信诺时代科技发展有限公司授权对外出售。

但是，原告从未授权过任何第三人将其录制的声音进行AI化并对外销售，上述被告的行为已经严重侵犯了原告的声音权，应承担停止侵权、赔礼道歉及赔偿原告经济损失、精神损失的侵权责任。

北京小问智能科技有限公司是出门问问旗下公司，魔音工坊是出门问问面向AI配音场景推出的新一代AI配音产品。在大模型技术的加持下，“魔音工坊”是全球首款搭载了大模型AI写作功能的配音平台，覆盖了AI写作、AI配音和剪辑等多个场景。用户可以在它的辅助下轻松完成影视解说、有声书、在线教育、新闻播报等集文案与配音于一体的内容创作。

如今，短视频、有声书市场蓬勃发展，这也使得声音合成技术有了广泛的应用空间。在应用市场和深度学习技术的发展下，语音合成技术已经非常成熟。可以看到上述情况是，原告给某公司录过几本书，它的声音在没被授权的情况下通过AI化之后，进行出售。

这其实就是现在大家谈到的声音克隆，也称为语音合成定制，是一种深度学习算法。平台方可以通过各种渠道获得某人的声音之后，哪怕这个人只是说了几段话，通过AI技术都可以合成与原说话人非常相似的声音。

语音合成历史及应用趋势

语音合成，又称文语转换（Text to Speech）技术，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，是中文信息处理领域的一项前沿技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。

事实上，早在18到19世纪，语音合成技术就已经出现，当时是用机械装置来模拟人的发声，那时候科学家们会制作出一些精巧的气囊和风箱去搭建发声的系统，可以合成出一些元音和单音。20世纪初，出现了用电子合成器来模拟人发声的技术，最具代表性的就是贝尔实验室的Dudley，他在1939年推出了名为“VODER”的电子发声器，使用电子器件来模拟声音的谐振。

到了20世纪80年代，随着集成电路技术的发展，出现了比较复杂的组合型的电子发生器，比较代表性的KLATT在1980年发布的串/并联混合共振峰合成器。到了20世纪80、90年代随着PSOLA方法的提出和计算机能力的发展，单元挑选和波形拼接技术逐渐走向成熟，90年代末刘庆峰博士提出听感量化思想，首次将中文语音合成技术做到了实用化地步。

在20世纪末期，还有另外一种基于HMM的参数合成技术出现。而近些年，随着AI技术不断发展，基于深度学习的语音合成技术逐渐被人们所知道，DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的训练，深度学习的算法可以更好地模拟人声变化规律。语音合成技术应用也迎来了高速发展。

当下，AI声音合成技术的市场需求确实非常明显。直播、短视频、有声书的市场需求空间大，然而未接受过声音培训的普通人对于自己的声音满意度并不高。而通过AI技术让配音，或者美化自己的声音正在成为趋势。上文提到的魔音工坊正是通过技术手段为用户提供好听的声音。

小结

当前来说，AI技术侵权的问题仍然还未得到解决，就如之前使用图片所有权人的图片进行训练，生成的图片，这是否构成对图片所有权人的图片的侵权。声音训练也是如此，使用某人的声音训练出了跟这个人类似的声音，这个合成的声音所有权算谁的？这些还需要进一步探讨出相应的规范才行。