电子发烧友网报道(文/李弯弯)虚拟数字人(DigitalHuman/MetaHuman),是运用数字技术创造出来的、与人类形象接近的数字化人物形象。虚拟数字人系统一般情况下由人物形象、语音生成、动画生成、音视频合成显示、交互等5个模块构成。
虚拟数字人核心技术
人物形象根据人物图形资源的维度,可分为2D和3D两大类,从外形上又可分为卡通、拟人、写实、超写实等风格。
语音生成模块和动画生成模块可分别基于文本生成对应的人物语音以及与之相匹配的人物动画,语音生成基于表达内容文本生成语音,应用智能语音TTS技术,动画生成,基于表达内容文本生成动画,核心技术为驱动与渲染。
音视频合成显示模块将语音和动画合成视频,基于终端显示技术,将数字人产品呈现于手机等智慧终端屏幕,显示给用户。
交互模块使数字人具备交互功能,即通过语音语义识别等智能技术识别用户的意图,并根据用户当前意图决定数字人后续的语音和动作,驱动人物开启下一轮交互。
其中计算驱动型交互对厂商的对话式AI能力要求高,往往由对话式AI厂商进行能力提供。对话式AI能力,包括基于语义理解、知识库、知识图谱给到信息回馈,基于语音识别、计算机视觉完成用户信息输入。
在虚拟数字人的制作流程,最为核心、最具挑战的是建模、驱动、渲染三大流程。建模环节以真人为模型或设计人物,为虚拟数字人建立基本的3D模型,3D建模为构建虚拟人形象的基础,重点在于实现细节的精细还原。
驱动环节,通过训练驱动模型等形式确定虚拟数字人的基本动作;渲染环节,根据在设计环节中确定的虚拟人最终呈现效果和应用场景等外界要素,将模型与其运动进行渲染以呈现最佳效果。渲染技术用于提升虚拟人的逼真程度,实时互动亦需要实现实时渲染。
虚拟数字人产业链
当前虚拟数字人理论和技术日益成熟,应用范围不断扩大,产业正在逐步形成、不断丰富,相应的商业模式也在持续演进和多元化。
从产业链来看,虚拟数字人从上到下可以分为基础层、平台层和应用层。基础层为虚拟数字人提供基础软硬件支撑,硬件包括显示设备、光学器件、传感器、芯片等,基础软件包括建模软件、渲染引擎。
显示设备是数字人的载体,既包括手机、电视、投影、LED显示等2D显示设备,也包括裸眼立体、AR、VR等3D显示设备。
光学器件用于视觉传感器、用户显示器的制作;传感器用于数字人原始数据及用户数据的采集;芯片用于传感器数据预处理和数字人模型渲染、AI计算。
建模软件能够对虚拟数字人的人体、衣物进行三维建模。渲染引擎能够对灯光、毛发、衣物等进行渲染,主流引擎包括UnityTechnologies公司的Unity3D、EpicGames公司的UnrealEngine等。
平台层包括软硬件系统、生产技术服务平台、AI能力平台,为虚拟数字人的制作及开发提供技术能力。建模系统和动作捕捉系统通过产业链上游的传感器、光学器件等硬件获取真人/实物的各类信息,利用软件算法实现对人物的建模、动作的重现。
渲染平台用于模型的云端渲染。解决方案平台基于自身技术能力为广大客户提供数字人解决方案。AI能力平台提供计算机视觉、智能语音、自然语言处理技术能力。
平台层汇聚的企业较多,包括AI相关的企业科大讯飞、追一科技、竹间智能、商汤科技等,以及互联网厂商百度、阿里、华为、火山引擎、腾讯、京东、网易伏羲等。
小结
从目前的情况来看,近几年虚拟数字人的热度居高不下,互联网厂商、人工智能厂商、CG厂商等各类玩家纷纷入局。然而当前虚拟数字人产业链存在割裂现象,生产环节分散在各个主体之间,难以达到高效协同。
而具备全栈集成能力的大型互联网厂商正尝试通过生态开放、平台建设集成各环节资源,为客户提供覆盖全流程、低成本、短周期的虚拟数字人平台,降低虚拟数字人产业的应用门槛,在这场虚拟数字人商业落地推进中占据优势。
-
Ar
+关注
关注
24文章
5082浏览量
169182 -
AI
+关注
关注
87文章
29892浏览量
268185
发布评论请先 登录
相关推荐
评论