0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

首例“AI声音侵权案”,声音AI化用于短视频

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-12-20 00:28 次阅读

电子发烧友网报道(文/李弯弯)AI技术的应用,给我们的生活带来了巨大改变。同时,它的不当使用也带来了侵权、诈骗等风险。近日,北京互联网法院首次组成五人合议庭,依法公开审理全国首例“AI声音侵权案”。

该案中,原告殷某某以配音为职业,曾录制多部有声作品。殷某某意外发现,自己的声音被AI化后,在一款名为“魔音工坊”的APP上以“魔小璇”的名义对外出售。因此,殷某某以被告行为侵害其声音权为由,将“魔音工坊”的运营主体北京小问智能科技有限公司等五被告起诉到北京互联网法院。

AI声音侵权案始末

目前,该案件仍在审理中,五被告均否认侵权。北京小问智能科技有限公司认为,其APP中的声音产品有合法来源,来自于微软(中国)有限公司。微软(中国)有限公司称其使用的声音来源于中广影音(北京)文化传媒有限公司。

中广影音(北京)文化传媒有限公司认为其与原告有过合作,约定经原告录制形成的作品著作权归属其所有。上海蓝云网络科技有限公司和北京信诺时代科技发展有限公司辩称,其分别为微软中国的平台运营商与涉案产品的经销商,不构成侵权。

原告则认为,他人利用原告声音的配音作品在抖音、直播吧等APP广泛流传,其中抖音用户“小禾侃剧”自2021年9月7日至今,共发布使用原告声音的作品119部。经声音筛选和溯源,发现上述声音作品中的声音来自于被告北京小问智能科技有限公司运营的“魔音工坊”APP。

被告中广影音(北京)文化传媒有限公司将原告为其录制的3本书的音频交给被告微软(中国)有限公司,被告微软(中国)有限公司将原告的声音进行AI化处理,并向被告上海蓝云网络科技有限公司和被告北京信诺时代科技发展有限公司授权对外出售。

但是,原告从未授权过任何第三人将其录制的声音进行AI化并对外销售,上述被告的行为已经严重侵犯了原告的声音权,应承担停止侵权、赔礼道歉及赔偿原告经济损失、精神损失的侵权责任。

北京小问智能科技有限公司是出门问问旗下公司,魔音工坊是出门问问面向AI配音场景推出的新一代AI配音产品。在大模型技术的加持下,“魔音工坊”是全球首款搭载了大模型AI写作功能的配音平台,覆盖了AI写作、AI配音和剪辑等多个场景。用户可以在它的辅助下轻松完成影视解说、有声书、在线教育、新闻播报等集文案与配音于一体的内容创作。

如今,短视频、有声书市场蓬勃发展,这也使得声音合成技术有了广泛的应用空间。在应用市场和深度学习技术的发展下,语音合成技术已经非常成熟。可以看到上述情况是,原告给某公司录过几本书,它的声音在没被授权的情况下通过AI化之后,进行出售。

这其实就是现在大家谈到的声音克隆,也称为语音合成定制,是一种深度学习算法。平台方可以通过各种渠道获得某人的声音之后,哪怕这个人只是说了几段话,通过AI技术都可以合成与原说话人非常相似的声音。

语音合成历史及应用趋势

语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

事实上,早在18到19世纪,语音合成技术就已经出现,当时是用机械装置来模拟人的发声,那时候科学家们会制作出一些精巧的气囊和风箱去搭建发声的系统,可以合成出一些元音和单音。20世纪初,出现了用电子合成器来模拟人发声的技术,最具代表性的就是贝尔实验室的Dudley,他在1939年推出了名为“VODER”的电子发声器,使用电子器件来模拟声音的谐振。

到了20世纪80年代,随着集成电路技术的发展,出现了比较复杂的组合型的电子发生器,比较代表性的KLATT在1980年发布的串/并联混合共振峰合成器。到了20世纪80、90年代随着PSOLA方法的提出和计算机能力的发展,单元挑选和波形拼接技术逐渐走向成熟,90年代末刘庆峰博士提出听感量化思想,首次将中文语音合成技术做到了实用化地步。

在20世纪末期,还有另外一种基于HMM的参数合成技术出现。而近些年,随着AI技术不断发展,基于深度学习的语音合成技术逐渐被人们所知道,DNN/CNN/RNN等各种神经网络构型都可以用来做语音合成系统的训练,深度学习的算法可以更好地模拟人声变化规律。语音合成技术应用也迎来了高速发展。

当下,AI声音合成技术的市场需求确实非常明显。直播、短视频、有声书的市场需求空间大,然而未接受过声音培训的普通人对于自己的声音满意度并不高。而通过AI技术让配音,或者美化自己的声音正在成为趋势。上文提到的魔音工坊正是通过技术手段为用户提供好听的声音。

小结

当前来说,AI技术侵权的问题仍然还未得到解决,就如之前使用图片所有权人的图片进行训练,生成的图片,这是否构成对图片所有权人的图片的侵权。声音训练也是如此,使用某人的声音训练出了跟这个人类似的声音,这个合成的声音所有权算谁的?这些还需要进一步探讨出相应的规范才行。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268334
收藏 人收藏

    评论

    相关推荐

    首例AI机器人致死震惊全球

    AI机器人的安全性、友好性、是否符合积极正面的价值导向一直被质疑,现在在佛罗里达州出现了一例AI聊天机器人对青少年人身安全造成威胁的现实案例。这也是已知的AI技术出现以来第一次对青少年人身安全造成
    的头像 发表于 10-25 16:32 700次阅读

    知网状告AI搜索:搜到我家论文题目和摘要,你侵权了!

    创业团队秘塔AI搜索,被知网给告了!足足28页的侵权告知函,总结一句话就是:贵司的AI搜索,能搜到我家的学术文献题录及摘要数据,且没经我司许可,严重侵权
    的头像 发表于 08-16 17:47 271次阅读
    知网状告<b class='flag-5'>AI</b>搜索:搜到我家论文题目和摘要,你<b class='flag-5'>侵权</b>了!

    云开发AI助手

    AI
    草帽王路飞
    发布于 :2024年07月22日 14:41:54

    视频3--场景自动化AI助手

    AI
    草帽王路飞
    发布于 :2024年07月22日 11:16:13

    视频2--场景自动化AI助手

    AI
    草帽王路飞
    发布于 :2024年07月22日 11:15:34

    EPSON公司发布带有专用于2声道声音声音硬件的32位微控制器

    EPSON爱普生半导体公司已开始出货S1C31D50的样品,S1C31D50是一种32位微控制器,带有专用于2声道声音声音硬件。爱普生计划每个型号每月生产200,000件。在家用电子产品,家用电器
    的头像 发表于 07-17 10:30 401次阅读
    EPSON公司发布带有专<b class='flag-5'>用于</b>2声道<b class='flag-5'>声音</b>的<b class='flag-5'>声音</b>硬件的32位微控制器

    声音测量的定义和典型应用

    一、什么是声音测量?声音测量是声学测量的一种。声学测量是研究声学测量技术的科学,包括测量方法和测量仪器。基本的声学测量包括声强测量、声质点速度测量、波长测量、加速度测量、传声器和水听器绝对校准、通信
    的头像 发表于 06-29 08:31 1230次阅读
    <b class='flag-5'>声音</b>测量的定义和典型应用

    AI PC:真正的AI PC,敢于下场

    在过去的半年里,我们无一不在聆听关于人工智能(AI)PC的种种声音,然而当步入现实生活时,恐怕仍有众多读者对此感到迷茫:这些AI PC究竟具有哪些AI功能呢?诚然,这并非易解之题。毫不
    的头像 发表于 06-11 15:02 659次阅读

    微软与OpenAI联手打造声音识别AI技术专利

    这款创新的系统旨在通过辨别环境音响,为使用者提供潜在风险预警,对于公共安全及灾害预控领域具有不可估量的价值。它的关键技术在于对声音信号的深度分析与处理。
    的头像 发表于 04-09 15:55 299次阅读

    [技术干货] MoneyPrinterTurbo,利用 AI 大模型,一键生成高清短视频

    开始使用 步骤 1 访问该促销活动购买页面,按照如下配置完成 AI 生成短视频服务器的部署。 步骤 2 登录弹性云服务器控制台。使用 Linux 连接工具登录服务器,或者在控制台单击“远程登录
    的头像 发表于 04-07 15:11 1423次阅读
    [技术干货] MoneyPrinterTurbo,利用 <b class='flag-5'>AI</b> 大模型,一键生成高清<b class='flag-5'>短视频</b>

    NanoEdge AI的技术原理、应用场景及优势

    NanoEdge AI 是一种基于边缘计算的人工智能技术,旨在将人工智能算法应用于物联网(IoT)设备和传感器。这种技术的核心思想是将数据处理和分析从云端转移到设备本身,从而减少数据传输延迟、降低
    发表于 03-12 08:09

    Stability AI与Morph AI共同推出一体化AI视频创作工具

    近日,业界领先的AI技术公司Stability AI与中国AI创业公司Morph AI达成重要合作。双方宣布共同推出一款革新性的all-in-one(一体式)
    的头像 发表于 03-05 10:44 835次阅读

    首例虚拟数字人侵权案判决!数字人面临的挑战及发展趋势

    网络平台上有超过5000万个虚拟数字人的主播账号,相关的市场规模已经达到一百余亿元,周边市场更是超过了千亿元的量级。   然而随着市场规模的不断发展扩大,相关的纠纷也随之而来。全国首例涉“虚拟数字人”侵权案近日二审宣判引
    的头像 发表于 01-15 00:01 1514次阅读

    让“聋人”看到声音 行空板 —“AI助听器”

    世界上有各种各样的残障人士,这些人或不能说话,或听不见声音。聋人,是听力因先天遗传或后天人为因素而受损的残疾人,也叫听力障碍者,简称听障人。根据最近的全国人口普查统计,全中国大约有2700多万听障人
    的头像 发表于 01-12 13:12 391次阅读

    labview声音采集与处理

    LabVIEW是一种用于数据采集与处理的编程语言和开发环境。它具有强大的声音采集和处理功能,可以帮助用户实现声音信号的采集、分析和处理。本文将详细介绍LabVIEW在声音采集与处理方面
    的头像 发表于 01-04 10:48 2167次阅读