0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能化编码面临的算力瓶颈 如何利用CPU解决全链路智能编码?

LiveVideoStack 来源:LiveVideoStack 2023-08-09 09:09 次阅读

智能化编码面临的算力瓶颈

图中是一个视频转码推流的一般性流程图。主播将视频上传到上行CDN,然后再由视频处理中心进行各种前处理,包括内容理解,审核,编辑,增强和超分,然后进行编码,再推送到下行CDN,供观众观看。

ae71458e-364a-11ee-9e74-dac502259ad0.png

红色框部分都是和AI相关的部分。智能化编码中,AI所需算力已经超过编码本身。1080p的数据超成4K,编码只需要20几个物理核,但是如果要超分,就需要一张GPU卡。一张GPU卡5000块一个月,对比下来成本优势一目了然。

根据相关视频企业公开的财报,视频转码和带宽的成本占到公司全年收入的10%左右。随着AIGC的发展,未来肯定不局限于10%,因此成本问题是我们的痛点之一。

aeb51f70-364a-11ee-9e74-dac502259ad0.png

CPU全链路智能化编码的优势就在于成本节约,运维简单。下面举一个更具体的例子:

我们都知道转码方式有很多种,但CPU有两个不可替代的优势:1.高灵活性;2.高复用性。CPU的升级几乎没有成本,只需升级一下软件部分即可,以云为基础,申请一个虚拟主机,无论是docker还是container都可以随用随放,十分自由灵活,成本很低。

由于超分部分对算力的要求非常高,需要通过GPU来辅助,但同时也会引发一些问题:客户将高要求的AI负载迁移到GPU上,将编码和前处理完全分离。这就像在一间屋子里解码——发送到另一间屋子进行前处理——再转回来编码。这不仅让流程变得冗长,也对运维造成了极大负担,数据的反复调度也造成了一定时延的增加。

CPU全链路智能化编码正是解决了这一痛点。

英特尔第四代至强可扩展处理器及AMX赋能智能化编码

接下来会介绍英特尔第四代至强可扩展处理器及其内置的AI加速器AMX,以及如何利用AMX和英特尔成熟的软件栈和工具链帮助视频编解码工作者,打造全链路智能化编码。

最新的统计数据,英特尔至强服务器在中国市场的数据中心的占有率保持在80%以上,可以说至强服务器是数据中心的基石。第四代至强一个重要的革新就是内置了数个硬件加速器,用于不同应用场景的性能加速,例如之前需要外置的PCIE插卡就已经内置在CPU内部。

aed170a8-364a-11ee-9e74-dac502259ad0.png

从左往右第一个AMX适用于AI;QAT负责压缩、解压和加解密;DLB负责Load Balance,CDN负责负载均衡,自动dispatch到闲散的资源上;DSA负责内存拷贝,不需要CPU参与,异步拷贝不仅速度快,而且不占用CPU内存;IAA负责存内分析,更多和数据库相关,IAA可以在不解压数据的情况下分析数据。

AMX的全称是Advanced Matrix eXensions,高级矩阵扩展指令集。它在AVX512的基础之上做了进一步的扩展。AMX有两个核心思想,一个是Tiles,一个是Timo。Tiles是物理上两地寄存器的叠加,16个AVX512叠加在一块。Timo是针对两地Tiles的矩阵运算。最新的至强每一颗物力核上都有一个内置的AMX,充当AI 的加速卡。

aff5c86c-364a-11ee-9e74-dac502259ad0.png

和大多数加速卡一样,AMX加速的是量化精度。目前第四代至强支持的是BF16和INT8,未来也会很快支持FP8和FP16。BF16的表达范围和FP32一模一样,只是精度比FP32小一点。目前绝大多数的场景,BF16已经足够。对于训练来说FP16足矣,而推理则只需要INT8。

b0668dae-364a-11ee-9e74-dac502259ad0.png

AMX是如何加速矩阵乘的呢?我们在做大的矩阵时可以把矩阵拆成16*64,然后一次性计算。如果算力不够,可以用oneDNN和MLKDNN处理,而AMX加速矩阵乘计算,算力是前一代产品的8倍。

b0ad32d6-364a-11ee-9e74-dac502259ad0.png

这张图是至强服务器峰值计算能力的演进过程。从2019年开始的第二代至强可扩展处理器支持VNNI,最新发布的第四代至强可扩展处理器支持AMX,可以看到每个指令周期的计算能力得到8倍的提升。

b0f880c4-364a-11ee-9e74-dac502259ad0.png

硬件性能只是一方面,软件生态某种意义上说对开发者来说更为关键。这是一张英特尔 AMX的软件生态图,从下往上,从最底层的操作系统到虚拟化KVM、HyperV,再到核心AI计算库都是英特尔开发的。在框架层面,主流的TF和PyTorch也都包含在内,除此之外英特尔还提供了丰富的推理工具。这些成熟的软件生态使得我们的开发者可以专注于算法创新,而不用考虑如何部署等细节,开箱即用。

b1770fca-364a-11ee-9e74-dac502259ad0.png

BF16和INT8的高算力对将AI从GPU迁到CPU之上确实有很大的帮助,但如何保证精度呢?英特尔有一个工具叫做INC,内置了很多专门用于精度的校正算法。作为开发者,只需要做三件事:输入模型、输入数据集和输入精度要求即可。INC会根据客户的输入进行tuning,直到有一个用户满意的算法。如果最终达不到设定的精度要求,还可以对某些层进行回滚,从而保证设定的精度可以达到要求。

b1e11672-364a-11ee-9e74-dac502259ad0.png

回到视频编解码领域,我们知道视频前处理是在FFmpeg解码之后,对YUV或者RGB数据进行处理,处理结束后再送到编码器x264或者x265编码。由于整个pipeline中,数据的处理速度并不一致,因此为了让整个过程的数据顺滑地流动起来,就需要做一部分的改造,比如解码后的raw data放入一个buffer队列中,AI推理异步从这个队列中取数据做推理,并把推理后的结果送到编码器中,这需要一定量针对FFmpeg的开发工作。

幸运的是,英特尔已经帮用户做好了。FFmpeg中有一个英特尔的OpenVINO后端,用户直接使用就行。FFmpeg的DNN AI推理后端,目前只支持2个后端,一个是Tensorflow,另外一个就是英特尔的OpenVINO。

总结:FFmpeg已经集成了OpenVINO作为AI 的后端推理引擎且英特尔有专门的团队去维护,大家可以放心使用。

b2365eac-364a-11ee-9e74-dac502259ad0.png

这是一个和合作伙伴的实际案例。在视频增强和目标检测这两个场景下,使用了英特尔第四代至强可扩展处理器AMX优化的AI推理性能相对上一代平台分别提升了1.86倍和1.95倍。与此同时,精度损失被控制在可接受的范围,这也使得英特尔的客户在CPU上实现了全链路智能化编码,大幅降低了部署成本和运维成本。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    19167

    浏览量

    229153
  • 编码器
    +关注

    关注

    45

    文章

    3597

    浏览量

    134171
  • DSA
    DSA
    +关注

    关注

    0

    文章

    48

    浏览量

    15124
  • 硬件加速器
    +关注

    关注

    0

    文章

    42

    浏览量

    12759
  • GPU芯片
    +关注

    关注

    1

    文章

    303

    浏览量

    5781

原文标题:面对算力瓶颈,如何利用CPU解决全链路智能编码?

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    100T极致+开发支持,地瓜机器人为具身智能造“基座”

    专为新一代通用机器人而生的旭日5智能计算芯片、极致易用全能开发首选RDK X5机器人开发者套件、具身智能全场景核心RDK S100,以及赋能
    发表于 09-21 14:15 361次阅读
    100T极致<b class='flag-5'>算</b><b class='flag-5'>力</b>+<b class='flag-5'>全</b><b class='flag-5'>链</b><b class='flag-5'>路</b>开发支持,地瓜机器人为具身<b class='flag-5'>智能</b>造“基座”

    MT6501 磁编码 IC:推动智能仓储系统与自动穿梭车的应用

    一、引言 在当今数字智能化的时代,仓储物流行业正经历着深刻的变革。智能仓储系统凭借其高效、精准和自动的特点,成为了提升企业竞争的关键
    的头像 发表于 08-15 16:32 291次阅读
    MT6501 磁<b class='flag-5'>编码</b> IC:推动<b class='flag-5'>智能</b>仓储系统与自动穿梭车的应用

    智能化浪潮中的联想转型与获取的革新

    成果的缩影。 六年前,联想开始布局智能化转型,构建起3S栈优势,不仅在智能设备、智能基础设施和方案服务上取得突破,更在推进行业智能化转型中
    的头像 发表于 08-08 11:15 259次阅读

    前沿情报局 | 合众恒跃HZHY-AI500G集成Hailo-8™智能模块,超高助力边缘设备实现高性能人工智能

    近年来,随着人工智能和大数据的迅速崛起,对高性能计算的需求大幅增长。传统的CPU在处理复杂计算任务时已显现出瓶颈,GPU和专用的AI加速器等
    的头像 发表于 07-27 08:45 430次阅读
    前沿情报局 | 合众恒跃HZHY-AI500G集成Hailo-8™<b class='flag-5'>智能</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模块,超高<b class='flag-5'>算</b><b class='flag-5'>力</b>助力边缘设备实现高性能人工<b class='flag-5'>智能</b>!

    如何利用生成式人工智能进行精确编码

    随着技术的飞速发展,生成式人工智能(Generative AI)在软件开发领域的应用日益广泛。生成式AI以其强大的学习和创造能力,为精确编码提供了前所未有的可能性。本文将深入探讨如何利用生成式人工
    的头像 发表于 07-05 17:51 549次阅读

    斩获大奖!移远通信以高智能模组产品,推动工业生产智能化发展

    6月27日,在2024MWC上海期间,由通信世界媒体主办的2024信息通信业“新智推荐”优秀企业/方案获奖名单重磅发布。作为全球领先的物联网整体解决方案供应商,移远通信凭借其丰富的高智能
    的头像 发表于 06-29 08:29 291次阅读
    斩获大奖!移远通信以高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>智能</b>模组产品,推动工业生产<b class='flag-5'>智能化</b>发展

    京东云发布智能编码应用JoyCoder,助力开发者提升效率

    京东云近日推出了一款基于大模型的革命性智能编码应用——JoyCoder。这款应用不仅支持智能代码评审、批量生成单元测试等独家功能,更具备代码预测续写、注释生成代码、智能代码生成接口文档
    的头像 发表于 06-11 09:31 455次阅读

    AI核心板:Core-1688JD4

    采用SOPHON能八核AI处理器BM1688,INT8高达16TOPS,支持16解码+10编码
    的头像 发表于 05-15 08:02 1257次阅读
    AI<b class='flag-5'>算</b><b class='flag-5'>力</b>核心板:Core-1688JD4

    汽车迈入智能化,需要芯片做什么?

    计算场景的底座,既面临着整车厂商对高性价比芯片的大量需求,也在电子电气架构向集中式演进的过程中迎来技术创新和软硬件深度结合的挑战。 市场回归理性,需要高性价比芯片 汽车芯片企业作为Tier2,不仅在汽车产业
    的头像 发表于 04-30 14:57 383次阅读

    长城汽车携手软件测评中心打造整车智能化的深度测试模式

    近日,长城汽车和中汽研软件测评(天津)有限公司(以下简称“软件测评中心”)宣布,将联手打造整车智能化的深度测试模式。
    的头像 发表于 03-25 10:55 776次阅读

    智能规模超通用,大模型对智能提出高要求

    的缩写,即每秒所能够进行的浮点运算数目(每秒浮点运算量)。   可以分为通用智能
    的头像 发表于 02-06 00:08 6117次阅读

    网络面临三大挑战

    2024年,以AIGC为代表的人工智能技术将进一步激发需求,网络、智中心、超
    的头像 发表于 01-12 10:39 1020次阅读

    FM350-2可以带8增量式编码器采集速度吗?

    请问FM350-2可以带8增量式编码器采集速度吗? FM350-2是8 通道智能计数器模块,我想用来采集8增量式编码器,采用速度测量模式
    发表于 12-20 08:19

    驱动, AI生态合作共赢

    — “我们通过多元产品布局,以智能大视频为基础构建智能应用平台,通过AI 面赋能,与多家行业标杆客户建立战略合作关系,并配合客户在
    的头像 发表于 12-08 18:40 913次阅读
    <b class='flag-5'>全</b>志<b class='flag-5'>算</b><b class='flag-5'>力</b>驱动, AI生态合作共赢

    探索AIGC未来:CPU源码优化、多GPU编程与中国瓶颈与发展

    ,大大提高人工智能模型的计算能力,更好地满足实际应用的需求。 本文将分析AIGC的最新进展,深入探讨以上话题,以及中国产业的瓶颈和趋势。
    的头像 发表于 12-08 11:49 1486次阅读
    探索AIGC未来:<b class='flag-5'>CPU</b>源码优化、多GPU编程与中国<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>瓶颈</b>与发展