0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数字人“复刻”主播爆火网络,接入大模型有望开启实时互动

Carol Li 来源:电子发烧友网 作者:李弯弯 2023-10-22 07:54 次阅读

电子发烧友网报道(文/李弯弯)数字人(Digital Human / Meta Human)是运用数字技术创造出来的、与人类形象接近的数字化人物形象。近些年数字人发展迅速,在短视频、直播、金融、医疗等各行业上都有所应用。而且随着AI技术的发展,数字人的生成也越来越容易。

在不久前的深圳国际人工智能展,就有众多企业展示其数字人技术,包括出门问问、华为、元境科技、相芯科技等。在展会期间,电子发烧友网记者与现场工作人员进行了详细交流,发现当前数字人技术和应用已经越来越成熟。

可以说多国语言的数字人

此次展会上,华为重点展示了盘古大模型及其行业应用。在其展台上,记者注意到,华为也展示了其盘古数字人直播案例。基于华为云MetaStudio分身数字人,多语种泛化,一次训练匹配多个语种,及多语言克隆,多语言驱动等特点,万兴科技打造了AIGC“真人”出海营销神器万兴播爆视频版及直播版,结合盘古数字人大模型,其实现母语一次训练、多种语言流畅适配,助力企业轻松出海营销。

数字化时代,跨境电商成为了许多企业发展的新方向。然而,从文化差异、语言问题,再到市场洞察、营销引流、用户运营,跨境电商立足海外市场面临重重压力。但全链路AIGC创作的“万能”助理万兴播爆,解决了外籍演员难找、多语言难适配、制作周期长、成本居高不下等痛点,帮助企业大幅降本增效,轻松出海营销。

在今年7月的华为开发者大会2023上,华为宣布,基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务和技术赋能,赋能千行百业提升数字内容创作体验和效率。

华为云MetaStudio数字内容生产线,基于华为云盘古基础大模型能力、渲染引擎和实时音视频能力,使用PB级的音视频数据进行训练,构建了数字人通用大模型,包括数字人形象、动作、表情、口型、声音等;每个用户还可以结合个人数据进行训练,构建自己的数字人个性化大模型。数字人生成后,用户通过文字、语音、视频等方式生产驱动向量信息,从而驱动数字人生成高清视频。

除了万兴播爆数字人直播案例之外,现场还展示了多家基于华为云的数字人案例。展会现场,工作人员告诉电子发烧友,目前市面上有很多通过图片、文字生成的数字人,看上去是平面的,并不立体,华为云MetaStudio分身数字人看上去跟真人很相似了。对于数字人直播能否现场互动的问题,现场工作人员表示,当前数字人直播基本难以做到现场互动,不过通过盘古大模型,后续会继续进行优化,使得数字人能够实时回答现场用户提出的部分问题。

展会现场,出门问问的展台吸引了不少观众驻足观看。出门问问成立于2012年,是一家以生成式AI与语音交互为核心的人工智能公司。该公司拥有领先的AI基础设施能力、前沿通用大模型能力(自研大模型「序列猴子」),以及丰富的垂直领域软硬结合的优化算法技术模块,是为数不多的同时服务于消费者、企业、创作者三大类不同群体的公司。

出门问问打造的AI数字人分身奇妙元,是一款专注于数字人短视频和直播服务的软件。包括多类型数字人和百种语言。据现场工作人员介绍,只需输入一段文本内容就能生成数字人视频,几秒钟就能完成,制作起来非常方便。

出门问问提供4种超前沿的克隆与定制服务,包括真人形象克隆、声音克隆、3D数字人定制和IP活化。比如真人形象克隆,可以实现真人形象1:1还原,只需录制一个5分钟视频,即可终身使用,输入文字数字人即可说话,表情神态接近真人。

奇妙元数字人视频制作非常简单,一键就可以将文本合成视频。相比于传统视频制作,奇妙元视频制作的优势在于:1、速度非常快,即使是制作一个真人口播视频,也仅需5分钟;2、数字人视频,可随时修改文本,随时生成;3、数字人更智能,一个数字人可说10国语言,500种声音。

如今数字人已经适用于各种应用场景,包括新闻播报、科普服务、培训视频、线上客服、带货种草、产品宣传、企业代言、金融宣传等。出门问问还提供形象和声音克隆,比如医生、律师等各种需要大量科普的职业,非常适合克隆自己的形象做数字人。

虚拟数字人涉及哪些前沿技术

在此次展会上,除了体验到快速生成数字人之外,我们也看到了数字人生成所涉及到的诸多技术。在参展的企业中,有一家提供全栈式虚拟数字人多场景应用解决方案服务的企业元境科技,该公司成立于2021年12月,由A股上市公司天娱数科战略投资。

元境科技以元享SaaS云平台、元趣AI为基础,通过计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机技术,并打通AI智能交互设备链接,快速打通AI在各个垂直场景中的应用,赋能各行业。元境科技核心技术团队从2016年开始布局虚拟人业务,拥有全球顶尖的动态光场扫描、三维重建算法、无标记点视觉捕捉、AI语音驱动等前沿技术,在北京总部拥有400平米XR动捕基地。

虚拟人生成SaaS云平台“元享”,是以底层数据为核心生成各类产品应用的架构平台。从元境科技提供的材料来看,其包含动态光场扫描建模、三位重建算法、AI驱动、XR动捕基地等技术。制作流程上:1、动态动态光场扫描真人;2、AI算法进行三维重建;3、AI动画绑定;4、渲染;5、AI驱动。

数据方面,元境科技拥有LightStage扫描建模技术,包括面部三位模型与重光照数据采集、亚微米级别超高精度输出等;专业级表演捕捉技术,包括400平米超大动捕棚、实时多人动捕、实现线上线下同步直播;3D视觉捕捉芯片技术,包括3D视觉深度引擎、3D传感和AI计算、SLAM实时跟踪建图引擎。

算法方面,表情学习模型:1、利用LightStage对被采集人员面部动态表情进行扫描数据采集;2、自研SaaS平台对采集数据进行深度学习;3、一键生成虚拟形象独有的动态表情数据库。保障在数字人生成内容时高度还原真人在说话时的面部神经反应与细微表情。

AI算法表情驱动:利用综合动捕方案与自研智能算法,在直播期间可实现面部细微表情的高速传递与智能修正。

元境科技基于全球领先的完备人工智能元鲸框架,推出了数字员工产品线,从数据采集、训练到上线,最快仅需10小时。支持创建拥有情感交互能力、专业技能和内容生产能力的数字人,目前已被应用于很多领域及场景中。

记者在展会现场还看到一家提供数字人服务的企业相芯科技,据现场工作人员介绍,他们公司不直接给C端用户提供生成数字人,而是为需要制作数字人的企业提供SDK,让这些企业能够基于他们的SDK快速的生成数字人。

相芯科技成立于2016年,由全球图形学顶级专家领衔,团队成员来自微软、苹果、华为等国际知名企业。自研的“数字人平台AvatarX”和“数字物平台ObjectX”可刻画人的音容笑貌,描绘物的流光溢彩,已服务数千家海内外企业,实现手机、电商、金融、汽车、互娱、融媒体、政务、文博等领域的规模化应用。

此次展会重点展示其AvatarX数字人平台,该平台依托独创的“虚拟数字人引擎”,为各行各业提供从虚拟形象生成、自定义、驱动、云渲染到应用于一体的跨平台数字人解决方案。用户可通过组合不同能力的SDK,打造更面向未来的,更具差异化的数字人应用产品和数宇资产,赋能元宇由生态布局。

相芯科技拥有全栈数字人技术和全品类数字人产品,包括卡通数字人、视频数字人、超写实数字人、仿真数字人、全真数字人。应用场景包括社交、短视频创作、智能客服、虚拟主播、品牌代言人、智能车载等。相芯科技数字人方案具有诸多优势,比如形象自由生成;支持面部驱动、身体驱动、手势识别、语音驱动;支持实时云端渲染,兼容第三方渲染引擎;不同能力SDK自由组合,帮助开发者快速构建不同应用程序等。

在通过AvatarX SDK DEMO进行体验的时候,可以发现,AI形象生成非常快,只需上传照片,便可一键生成还原度极高的虚拟形象。该平台还支持形象自定义,支持拼脸扭脸、身体捏形、服饰美妆等不同方式对虚拟形象自定义编辑。据介绍,云平台为用户提供海量素材自由选择搭配,并保持定期更新与维护。

根据其官网介绍,其AI面部驱动支持51个维度的面部表情检测与3个维度的舌头活动检测,实时人脸追踪技术实现真人与虚拟人表情同步,即使只有侧脸也能稳定使用。AI身体驱动,通过实时驱动跟踪技术,实现真人与虚拟人动作同步,共同支持全身31个人体点位、26根骨骼方向驱动,单手21个手部点位。AI语音驱动,通过文本或语音驱动虚拟人口型,集成TTS、ASR和NLP服务,支持多种音色自由切换支持虚拟形象情绪和表情设置,并能控制虚拟形象肢体动作。

此外,用户的虚拟形象不仅可以与其他虚拟形象互动,也可与虚拟场景、虚拟道具互动,支持多人聊天功能与视频远程共享功能并实现了WebRTC服务集成。

小结

当前已经有不少虚拟数字人出现在短视频创作、直播等场景中,然而可以看到,不少数字人在表情、动作、语言方面与真人相比还相差甚远,在直播中数字人也无法进行互动,体验还有待提高。虚拟数字人的制作涉及很多技术,包括数据采集、动作捕捉、AI驱动、渲染等,要想让数字人有更好的体验,每个技术环节都需要打磨好。另外大模型的接入也让数字人在直播中能够互动有了可能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数字人
    +关注

    关注

    0

    文章

    127

    浏览量

    2023
  • 大模型
    +关注

    关注

    2

    文章

    2410

    浏览量

    2623
收藏 人收藏

    评论

    相关推荐

    如何开启Stable Diffusion WebUI模型推理部署

    如何开启Stable Diffusion WebUI模型推理部署
    的头像 发表于 12-11 20:13 79次阅读
    如何<b class='flag-5'>开启</b>Stable Diffusion WebUI<b class='flag-5'>模型</b>推理部署

    双十一我为什么选择华为云 Flexus 数字?广告输出更高效率、更有创意

      虚拟偶像、数字、各种各样的数字密集出现在传媒和营销领域,成为时下最受捧的新鲜事物。作为一种新的广告形式,
    的头像 发表于 12-03 17:59 281次阅读
    双十一我为什么选择华为云 Flexus <b class='flag-5'>数字</b><b class='flag-5'>人</b>?广告输出更高效率、更有创意

    通信与网络开启数字时代的新征程

    严峻,成为关注焦点。展望未来,通信与网络将继续朝着高速、智能、安全的方向发展。5G 网络的普及将进一步推动各行业的数字化转型,6G 等新一代通信技术的研发也在紧锣密鼓地进行,有望带来更
    的头像 发表于 11-05 16:48 248次阅读
    通信与<b class='flag-5'>网络</b>:<b class='flag-5'>开启</b><b class='flag-5'>数字</b>时代的新征程

    大屏数字互动墙软件 液晶拼接屏互动软件 LED大屏交互软件

    在这个数字化浪潮汹涌的时代,各种数字多媒体互动设备不断出现,为数字展览提供了众多不一样的展示与互动效果,大屏
    的头像 发表于 10-23 17:19 258次阅读
    大屏<b class='flag-5'>数字</b><b class='flag-5'>互动</b>墙软件 液晶拼接屏<b class='flag-5'>互动</b>软件 LED大屏交互软件

    Al大模型机器

    金航标kinghelm萨科微slkor总经理宋仕强介绍说,萨科微Al大模型机器有哪些的优势?萨科微AI大模型机器由清华大学毕业的天才少年N博士和王博士团队开发,与同行相比具有许多优
    发表于 07-05 08:52

    品牌出海!中央广电总台亚非中心专访思看科技

    5月15日,来自中央广播电视总台亚非中心印尼语部、缅甸语部、土耳其语部、普什图语部、菲律宾语部团队走进思看科技,深度体验3D视觉数字化技术及产品,与思看科技展开了一场媒体与科技的跨界交流。
    的头像 发表于 06-14 15:24 280次阅读
    品牌出海!中央广电总台亚非中心<b class='flag-5'>主</b><b class='flag-5'>播</b>专访思看科技

    助听器降噪神经网络模型

    在堆栈网络方法中,参数少于一百万个。该模型使用挑战组织者提供的 500 小时的嘈杂语音进行训练。 该网络能够进行实时处理(一帧输入,一帧输 出)并达到有竞争力的结果。将这两种类型的信号
    发表于 05-11 17:15

    融合AI大模型技术,数字交互更自然、应用更广泛!

    电子发烧友网报道(文/李弯弯)数字是通过先进的计算机图形学、深度学习等技术创建出的具有高度逼真形象和行为的虚拟人物。AI大模型则是指具有大规模参数量和复杂结构的人工智能模型,能够处理
    的头像 发表于 04-27 00:58 3824次阅读

    京东官宣:刘强东AI数字即将开启直播

    4月15日下午,“京东黑板报”宣布刘强东的AI数字即将开启直播的消息。
    的头像 发表于 04-16 15:22 591次阅读

    优必选宣布人形机器Walker S接入百度文心大模型

    优必选宣布人形机器Walker S接入百度文心大模型,共同探索中国AI大模型+人形机器的应用。
    的头像 发表于 04-07 10:17 902次阅读

    蓝蜂网关接入天津市粉尘涉企业风险监测预警系统

    蓝蜂网关接入天津市粉尘涉企业风险监测预警系统 一、应用背景 按天津市应急管理部要求,参照《粉尘涉企业安全生产风险监测预警 数据接入规范》。天津市已有的粉尘涉
    的头像 发表于 03-07 14:50 379次阅读
    蓝蜂网关<b class='flag-5'>接入</b>天津市粉尘涉<b class='flag-5'>爆</b>企业风险监测预警系统

    汤姆猫正在推进申请接入OpenAI的Sora模型

    汤姆猫在互动平台上透露,公司正在积极推进申请接入OpenAI的Sora模型,并计划进行相关素材制作的测试。目前,汤姆猫尚未正式接入Sora模型
    的头像 发表于 03-05 10:20 889次阅读

    怪兽智能数字实时交互数字直播系统,3D超写实虚拟形象直播

    也在不断创新,推出了许多令人惊叹的技术产品。其中,可互动的怪兽智能数字以及实时交互数字直播系
    的头像 发表于 03-05 09:08 629次阅读

    首例虚拟数字侵权案判决!数字人面临的挑战及发展趋势

    电子发烧友网报道(文/李弯弯)近年来,越来越多的数字出现在各大电商平台的直播间,他们超写真的形象不仅让观众很有代入感,而且这些还能24小时直播带货、帮助客户解答疑问等。据统计,目
    的头像 发表于 01-15 00:01 1575次阅读

    【爱芯派 Pro 开发板试用体验】人体姿态估计模型部署前期准备

    使用到,这里给大家举几个例子: 1、虚拟:大家看到B站直播时的“皮套”,通常通过一个2D live的形象展示一个动漫形象,然后和
    发表于 01-01 01:04