0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

旷视AI开源新突破:上传照片即可生成表情包视频!

AI机械姬 来源:AI机械姬 作者:AI机械姬 2024-07-12 11:20 次阅读

日前,旷视科技发布了一项新的开源AI人像视频生成框架——MegActor。该框架让用户只需输入一张静态肖像图片和一段视频(如演讲、表情包、rap),便可生成一段表情丰富、动作一致的AI人像视频。生成的视频长度取决于输入的视频长度。与阿里EMO、微软VASA等最新AI视频模型不同,旷视MegActor采用开源方式,供开发者社区使用。MegActor生成的视频画质更出色,面部细节更加丰富自然。

wKgZomaQp8CARJnFAAAUzJBUboU053.png

为了展示其泛化性,MegActor甚至可以将VASA中的人物肖像和视频组合生成,得到生动的表情视频。即使与阿里EMO的官方案例相比,MegActor也能生成近似的效果。

wKgaomaQp0qAR1g4AAGuNBaURo8083.png

总的来说,无论是让肖像开口说话、唱歌、模仿搞怪表情包,MegActor都能生成逼真的效果。

论文链接:https://arxiv.org/abs/2405.20851

代码地址:https://github.com/megvii-research/megactor

项目地址:https://megactor.github.io/

MegActor是旷视研究院的最新研究成果。旷视研究院是旷视公司级研究机构,旨在通过基础创新突破AI技术边界,以工程创新实现技术到产品的快速转化。多年来,旷视研究院已成为全球领先的人工智能研究机构。

目前的人像视频生成领域中,许多工作通常使用高质量的闭源数据进行训练,以追求更好的效果。而旷视研究院始终坚持全面开源,确保实际效果的可复现性。MegActor的训练数据全部来自公开可获取的开源数据集,配合开源代码,使得感兴趣的从业者可以从头开始完整复现这些效果。

为了完全复刻原始视频的表情和动作,MegActor采用原始图像进行驱动,这与多数厂商使用的中间表示方法(如sketch、pose、landmark)不同,能够捕捉到细致的表情和运动信息

旷视科技研究总经理范浩强表示,在AI视频生成领域,我们发现目前主流的骨骼关键点控制方式不仅要求用户提供难以获取的专业控制信号,同时生成视频的保真度也不尽如人意。通过研究发现,使用原视频进行驱动,不仅降低了控制信号的门槛,更能生成保真且动作一致的视频。

具体来说,MegActor主要由两个阶段构成:

wKgaomaQp2yAMbsSAAINHxF7tf0305.png

使用ReferenceNet对参考图像进行特征提取,获取参考图像的外观和背景信息;

使用PoseGuider对输入视频进行运动和表情信息提取,将这些信息迁移到参考图像上。

虽然使用原始视频进行驱动能带来更丰富的表情细节和运动信息,但也存在ID泄露和背景干扰等挑战。为此,MegActor采用了条件扩散模型,引入了合成数据生成框架,创建具有一致动作和表情但不同身份ID的视频,以减轻ID泄露的问题。MegActor还分割了参考图像的前景和背景,并使用CLIP对背景细节进行编码,确保背景的稳定性。

在数据训练方面,旷视研究院团队使用公开数据集(VFHQ和CeleV)进行训练,总时长超过700小时。为了避免ID泄露问题,团队还使用换脸和风格化方法1:1生成合成数据,实现表情和动作一致但ID不一致的数据。此外,团队使用注视检测模型处理数据,获取大约5%的高质量数据进行Finetune训练。

wKgaomaQp4-Ad7nyAAIrJv12wFw194.png

通过新的模型框架和训练方法,旷视研究院团队仅使用了不到200块V100显卡小时的训练时长,最终实现了以下特性:

根据输入视频生成任意持续时间的模仿视频,确保角色身份一致性;

支持各种驱动视频,如演讲、唱歌、表情包等;

支持不同画风(照片、传统绘画、漫画、AI数字人等);

音频生成方法相比,MegActor生成的视频不仅能确保表情和动作一致,更能达到自然程度。

目前,MegActor已经完全开源,供开发者和用户即开即用。



审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30106

    浏览量

    268398
  • 开源
    +关注

    关注

    3

    文章

    3245

    浏览量

    42396
收藏 人收藏

    评论

    相关推荐

    生成AI工具作用

    生成AI工具是指那些能够自动生成文本、图像、音频、视频等多种类型数据的人工智能技术。在此,petacloud.ai小编为您整理
    的头像 发表于 10-28 11:19 173次阅读

    重庆两江新区与吉利汽车集团、科技签署合作协议

    日前,重庆两江新区与吉利汽车集团、科技签署战略合作协议。市委书记袁家军,市委副书记、市长胡衡华会见了吉利控股集团董事长李书福、科技董事长兼CEO印奇一行并见证签约。
    的头像 发表于 09-02 14:13 447次阅读

    聚焦物联网场景,科技核心技术能力持续升级

    曾经备受青睐的“AI四小龙”之一,科技在更早的时候曾向港交所递交上市申请,闯关未果后转向上交所科创板。   科技核心技术能力  
    的头像 发表于 07-25 00:09 4091次阅读

    MediaTek与快手携手创新,端侧视频生成技术引领AI新纪元

    在科技日新月异的今天,MediaTek与快手再次携手,于近日宣布了一项重大技术突破——高效端侧视频生成技术的诞生。这项技术不仅是对即将于2024年世界移动通信大会(MWC 2024)上亮相的先进视频生成技术的有力延续,更是双方在
    的头像 发表于 07-05 11:52 965次阅读

    MediaTek联合快手推出高效端侧视频生成技术

    只需在设备上选取图片,应用即可智能地识别照片中的人物和场景,生成自然流畅的视频佳作,从而显著提升视频制作的创意表现和效率。
    的头像 发表于 07-05 11:23 4755次阅读

    阿里云视频生成技术创新!视频生成使用了哪些AI技术和算法

    电子发烧友网报道(文/李弯弯)日前,阿里云宣布通义实验室研发的视频生成模型EMO正式上线通义App,免费对所有人开放。借助这一功能,用户可以在歌曲、热梗、表情中任选一款模板,然后通过上传
    的头像 发表于 05-08 00:07 3320次阅读

    与乐天国际物流在北京正式签署战略合作协议

    4月17日,与韩国乐天国际物流(LOTTE GLOBAL LOGISTICS)在北京正式签署战略合作协议。
    的头像 发表于 04-23 11:52 519次阅读
    <b class='flag-5'>旷</b><b class='flag-5'>视</b>与乐天国际物流在北京正式签署战略合作协议

    科技与上海家化正式签署《AI科技创新合作框架协议》

    3月18日,在2024年上海家化“致美·致时代”年度发布会上,上海家化联合股份有限公司与北京科技有限公司正式签署《AI科技创新合作框架协议》,双方将在AI赋能美业领域进一步展开深度
    的头像 发表于 03-20 10:21 548次阅读

    新火种AI|围攻光明顶:Sora效应下的AI视频生成竞赛

    Sora的出现,让AI视频生成领域真正“活”了起来
    的头像 发表于 03-16 11:12 601次阅读

    除了刷屏的Sora,国内外还有哪些AI视频生成工具

    。Sora的发布也让AI生成视频有了突破性进展。   过去一年多,全球科技公司都在发布各种大模型,然而AI
    的头像 发表于 02-26 08:42 4243次阅读
    除了刷屏的Sora,国内外还有哪些<b class='flag-5'>AI</b><b class='flag-5'>视频生成</b>工具

    OpenAI 在 AI 生成视频领域扔出一枚“王炸”,视频生成模型“Sora”

    ABSTRACT摘要2月16日凌晨,也就是中国大年初七,OpenAI在AI生成视频领域扔出一枚“王炸”,宣布推出全新的生成式人工智能模型“Sora”。这家旧金山公司周四推出的该工具使用
    的头像 发表于 02-22 08:25 345次阅读
    OpenAI 在 <b class='flag-5'>AI</b> <b class='flag-5'>生成</b><b class='flag-5'>视频</b>领域扔出一枚“王炸”,<b class='flag-5'>视频生成</b>模型“Sora”

    探索OpenAI Sora视频AI生成技术及其应用如何使用指南

    OpenAI的Sora现已扩展其能力范围,进入视频生成领域,标志着人工智能技术在多媒体内容创作上的一个重大突破。Sora的视频AI功能使得用户能够根据文本描述自动
    的头像 发表于 02-20 12:01 1398次阅读

    OpenAI新年开出王炸,视频生成模型Sora问世

    近日,OpenAI在AI生成视频领域取得重大突破,发布了全新的生成式人工智能模型“Sora”。该模型在
    的头像 发表于 02-20 11:46 737次阅读

    AI视频年大爆发!2023年AI视频生成领域的现状全盘点

    2023年,也是AI视频元年。过去一年究竟有哪些爆款应用诞生,未来视频生成领域面临的难题还有哪些?
    的头像 发表于 02-20 10:40 1132次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>视频</b>年大爆发!2023年<b class='flag-5'>AI</b><b class='flag-5'>视频生成</b>领域的现状全盘点

    OpenAI发布文生视频模型Sora,引领AI视频生成新纪元

    在人工智能(AI)领域掀起新一轮革命浪潮的,正是OpenAI最新推出的文生视频大模型——Sora。这款被业界广泛赞誉的模型,以其“逼真”和“富有想象力”的视频生成能力,彻底颠覆了传统视频生成
    的头像 发表于 02-19 11:03 883次阅读