英伟达开发新AI算法，视频通话的流量最高压缩90%以上-电子发烧友网

为了让网速慢的用户用上高清通话，英伟达可谓绞尽脑汁。他们开发的新AI 算法，可以将视频通话的流量最高压缩90%以上。

和其他视频相比，通话的场景比较单一，基本上只有人的头部在运动。因此只要能把头像数据大规模压缩，就能大大节约流量。

英伟达的新算法face vid2vid正是从这一点出发。只要一张图片，就能实现重建各种头部姿势图片。

H.264视频所需的带宽是这种新算法的2~12倍，从前面的演示也能看出，如果让二者使用相同比特率，那么H.264视频几乎不可用。

转动面部不扭曲

英伟达提供了一个试用Demo，可以在Pitch（俯仰角）、Yaw（偏航角）、Roll（翻滚角）三个方向上任意旋转。

输入一张人脸，最多可以在每个方向上最多旋转30度。以下是三个方向上旋转到最大角度生成的图片。

与相比之前的方法，英伟达的这种技术即使在面部转动幅度较大时，人脸也不会扭曲变形。

然而，图片终究是不动的，要把生成的人脸放在运动的视频中还要多一个步骤。

合成面部视频

我们把上传的清晰照片作为源图像，从中获取外貌特征。然后把视频中一帧帧画面作为重构视频的依据，从中提取出面部表情和头部姿势等信息。

而表情和姿势这两个数据可以通过关键点进行编码，这样就分离了人物身份信息和运动信息。在传输视频时只要有运动信息即可，从而节约了流量。

从源图像s中，我们得到了两组数据：关键点坐标x和雅可比矩阵J。这两组参数与面部的具体特征无关，只包含人的几何特征。

其中，雅可比矩阵表示如何通过仿射变换将关键点周围的局部补丁转换为另一幅图像中的补丁。如果是恒等雅可比矩阵，则补丁将直接复制并粘贴到新位置。

下图展示了计算前5个关键点的流程。给定源图像以及模型预测的规范关键点。

从运动视频估计的旋转和平移应用于关键点，带动头部姿势的变化。然后可以感知表情的变形将关键点调整为目标表情。

接下来开始合成视频。使用源和运动的关键点与其雅可比矩阵来估计流wk，从生成流组合成掩码m，将这两组进行线性组合即可产生合成流场w。

接着输入人脸面部特征f，即可生成输出图像y。

这种方法不仅能用于视频通话，也有其他“新玩法”。

比如觉得人物头像有点歪，可以手动输入纠正后的数据，从而将面部转正。

又或者是，把一个人的面部特征点和雅可比矩阵用于另一个人，实现面部视频动作的迁移。

团队简介

这篇文章的第一作者是来自英伟达的高级研究员Ting-Chun Wang。

文章的通讯作者是英伟达的著名研究员刘洺堉。

如果你长期关注CV领域，一定对这两位作者非常熟悉。他们在图像风格迁移、GAN等方面做出了大量的工作。

△ GauGAN

两人之前已经有过多次合作。比如。无监督图像迁移网络（NIPS 2017），还有从涂鸦生成照片的GauGAN（CVPR 2019），都是出自这二位之手。

责任编辑：PSY

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4622

浏览量
93097
开发

开发

+关注

关注
0

文章
370

浏览量
40875
AI

AI

+关注

关注
87

文章
31211

浏览量
269574
视频通话

视频通话

+关注

关注
0

文章
49

浏览量
11787
英伟达

英伟达

+关注

关注
22

文章
3807

浏览量
91428

英伟达超越苹果成为市值最高英伟达取代英特尔加入道指

苹果公司的市值，重新成为全球市值最高的公司。在AI领域，英伟达正疯狂奔跑，我们看到有外媒报道英伟达

发表于 11-05 15:22 •417次阅读

英伟达与阿联酋G42合作开发天气预测AI模型

英伟达近期宣布与阿联酋的领先AI应用开发企业G42达成战略合作，共同探索天气预测技术的新前沿。双方将整合各自的技术优势，依托英伟

发表于 09-24 15:41 •295次阅读

英伟达投资日本AI公司Sakana AI

英伟达现身日本人工智能研发初创公司Sakana AI的A轮融资名单中；据悉；Sakana AI的A轮融资而完成超过1亿美元，此次融资由New Enterprise Associates

发表于 09-05 15:46 •672次阅读

英伟达Blackwell架构揭秘：下一个AI计算里程碑？# 英伟达# 英伟达Blackwell

英伟达行业资讯

jf_02331860
发布于 :2024年08月26日 10:58:09

英伟达TITAN AI显卡曝光，性能狂超RTX 4090达63%！# 英伟达# 显卡

显卡英伟达

jf_02331860
发布于 :2024年07月24日 17:18:28

英伟达推出AI模型推理服务NVIDIA NIM

英伟达近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型部署过程，为全球的2800万英伟

发表于 06-04 09:15 •694次阅读

英伟达首席执行官黄仁勋：AI模型推动英伟达AI芯片需求

近来，以ChatGPT为代表的AI聊天机器人已经导致英伟达AI芯片供应紧张。然而，随着能够创造视频并进行近似人类交流的新型

发表于 05-24 10:04 •527次阅读

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

在 AI 超级计算和量子计算服务方面的最新进展。 **10.NVIDIA NIM **软件栈和 OVX 计算系统推出新的软件和计算系统，加速企业级 AI 应用的开发和部署。英伟

发表于 05-13 17:16

英伟达宣布收购Run:ai

英伟达近期宣布收购Run:ai公司，以进一步推动后者的产品路线图并整合其资源至Nvidia DGX Cloud。虽然具体的收购金额和完成时间尚未对外公布，但这一举措无疑显示了英伟

发表于 05-06 10:34 •471次阅读

基于门控线性网络（GLN）的高压缩比无损医学图像压缩算法

实现基于门控线性网络（GLN）的高压缩比无损医学图像压缩算法，以提高医学图像存储和分发系统的效率。与“传统”的基于上下文的数据压缩算法相比，

发表于 04-08 10:29 •689次阅读

英伟达拟将收购AI基础设施虚拟化初创企业Run:ai

据外媒最新报道，英伟达公司正考虑收购一家名为Run:ai的AI基础设施虚拟化初创企业，双方的交易金额最高可能达到惊人的10亿美元。

发表于 03-22 10:47 •729次阅读

市值最高的半导体公司　英伟达市值短暂突破两万亿美元

，英伟达的市值短暂突破2.02万亿美元。是目前市值最高的半导体公司。而且非常多的投资都相信AI热潮远未结束；英伟

发表于 02-24 18:13 •1198次阅读

英伟达市值跃居全球第四文生视频大模型Sora带动

英伟达市值跃居全球第四文生视频大模型Sora带动文生视频大模型Sora引发市场关注；OpenAI的首款文生视频大模型Sora横空出世带动

发表于 02-19 16:48 •1015次阅读

英伟达推出全新AI聊天机器人

近日，英伟达（Nvidia）宣布推出其全新的AI聊天机器人——“Chat With RTX”。这款聊天机器人被视为英伟达版的ChatGPT，

发表于 02-19 11:09 •953次阅读

【机器视觉】欢创播报 | 英伟达拿下全球90%的AI芯片市场

预计最高可能已经达到了90%，创下新高纪录。在目前的人工智能智能加速芯片市场，英伟达的A100/H100系列AI GPU可谓是市场的首选。

发表于 02-01 11:29 •771次阅读

搜索历史

英伟达开发新AI算法，视频通话的流量最高压缩90%以上

评论

英伟达超越苹果成为市值最高英伟达取代英特尔加入道指

英伟达与阿联酋G42合作开发天气预测AI模型

英伟达投资日本AI公司Sakana AI

英伟达Blackwell架构揭秘：下一个AI计算里程碑？# 英伟达# 英伟达Blackwell

英伟达TITAN AI显卡曝光，性能狂超RTX 4090达63%！# 英伟达# 显卡

英伟达推出AI模型推理服务NVIDIA NIM

英伟达首席执行官黄仁勋：AI模型推动英伟达AI芯片需求

进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

英伟达宣布收购Run:ai

基于门控线性网络（GLN）的高压缩比无损医学图像压缩算法

英伟达拟将收购AI基础设施虚拟化初创企业Run:ai

市值最高的半导体公司　英伟达市值短暂突破两万亿美元

英伟达市值跃居全球第四文生视频大模型Sora带动

英伟达推出全新AI聊天机器人

【机器视觉】欢创播报 | 英伟达拿下全球90%的AI芯片市场