0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI Codec在应用落地方面的案例

LiveVideoStack 来源:LiveVideoStack 2023-06-19 09:50 次阅读

AI Codec自2016年首次提出以来,众多海内外高校、企业研究院等机构对此展开了广泛研究。6年时间里,AI Codec 的SOTA方案的压缩性能已经超越了H.266(最新的传统Codec标准),展现了强大的技术潜力。但受限于计算复杂度、非标等原因,AI Codec在应用落地方面的案例却屈指可数。LiveVideoStackCon2022北京站邀请了来自双深科技的田康为大家分享基于双深科技的AI Image Codec技术落地探索经验。

文/田康 编辑/LiveVideoStack

大家好,本次分享的主题为:AI Image Codec技术落地实践,主要将分三部分介绍我们在移动端方面取得的技术成果。第一部分介绍图像视频行业发展趋势和我们的理解;第二部分简单总结AI Codec发展;第三部分为重点,即AI Image Codec移动端落地实践。

-01-

图像视频行业发展趋势

fda172d2-0e36-11ee-962d-dac502259ad0.png

首先介绍图像视频行业发展趋势,“我们身处图像数据大爆发的时代”可能已成为了一项行业共识。据我们从相关机构取得的调研数据显示,全球图片视频数据总量至2025年预计将超过140ZB,每年的数据复合增长率达到27%,这是一个很恐怖的数量级。随着近年来ChatGPT等技术的火爆,相信增长率还会进一步提升。 简单分析数据量迅速增长的原因:首先是在医疗、安防等应用场景下,影像数据按照国家政策要求需要长期或永久存储,导致数据积累量越来越大。第二是随着大众对高画质、高帧率等高质量视频需求的增长,导致数据密度提升。第三是随着视频数据在互联网、安防、无人机、云游戏(不同于传统游戏,过程中伴随着超大量视频传输)等等多种应用场景的拓展带来了数据量的巨量增长。 那么要高效运用这些数据必定伴随着压缩、传输和存储等底层技术的发展优化,我们认为压缩技术的提升是其中的关键,主要原因有三个:首先是带宽和存储的提升是有瓶颈的。其次针对野外巡检等特殊应用场景,增加带宽并不适用。第三是存储和带宽的提升并没有从根本解决传输数据量庞大这个问题。

fdeecbc2-0e36-11ee-962d-dac502259ad0.png

上图为我们设计的视觉AI应用链路图,首先通过摄像头或计算机生产影像内容,然后进行修复、剪辑或AI审核等处理,并将数据呈递给用户进行数据查看,过程中可能伴随着AI动作识别交互或超分,随后传递至存储设备进行数据存储。在应用前通过文本、图片、跨模态等检索方式查找所需的数据,最终可以对其进行结构化解析和隐私/分布式计算等应用。 可以看到整个流程都由编解码来进行衔接。同时在每个环节都可能存在AI的应用,这也是数据处理后续的发展趋势。 和传统编解码相比,AI端到端编解码在天然上更适应这种趋势。从算法层面来看,AI编解码以提取的图像特征直接进行下游应用,从而节约了下游特征提取计算量。从硬件层面来看,AI的大量应用使当下硬件都或多或少地带有AI算力,这同时为AI编解码的应用创造了条件。

-02-

AI Codec发展

fe75cd20-0e36-11ee-962d-dac502259ad0.png

接下来介绍AI Codec的发展,上图为传统和AI编解码发展历程的对比。可以看到,AI Codec压缩性能超越传统的H.264、H.265仅使用了传统方法1/6的发展时间。从1988年的H.261到2020年的H.266,相较于传统编解码器平均十年一次的迭代频率,AI编解码实现了飞速发展,从2016年端到端编码框架的提出到后续GAN、1857标准的应用,甚至是后续AIGC编码发展方向的出现,它在短时间内不断涌现可落地应用的各种新方法。

fee170b6-0e36-11ee-962d-dac502259ad0.png

另一方面是AI芯片行业的发展同时为AI编解码提供了落地土壤。近年来GPT-4、AIGC的大规模使用在侧面推动了AI芯片业整体的快速发展,随着行业利好,高通等著名边缘芯片企业也在逐步启动对AI芯片的开发研究。其次是存算一体、类脑芯片、量子计算等未来技术为芯片算力发展带来了更好前景。

-03-

AI Image Codec移动端落地实践

ff69524c-0e36-11ee-962d-dac502259ad0.png

接下来介绍我们关于AI Image Codec在移动端的落地实践,以互联网移动端CDN图片分发场景为应用场景,首先解释采用该场景的原因。

第一,当下大量社交、内容社区、电商APP均涉及该场景,中心端以一对多方式进行图片的分发,即使是抖音这种小视频平台也会涉及很多图片内容。同时由于CDN 80%左右的运营成本为流量带宽费用,因此它有很大的图片压缩诉求,优化图片压缩技术可以有效节约成本。第三是该场景为闭环场景,可以解决目前AI Codec非标的问题。最后是移动端的AI算力相对于其他物联网设备较强,可以实现更好的编解码效果。

ffed4336-0e36-11ee-962d-dac502259ad0.png

以上为我们自研的AI图像编解码模型框架,它被称为ANF。不同于传统编解码器通过分块预测处理来进行数据压缩,ANF编解码器在接收图片后,通过神经网络提取高层像素规律作为数据量化和辅助熵模型概率预估的依据。数据最终传递至传输端进行熵解码和像素重建,向用户呈现图片。

我们在整个流程中针对AI训练设置了两个约束,第一是R-Loss,它代表比特流和超先验的存储信息量;第二是D-Loss,它用于衡量输入和输出图片之间的质量差,以上两个指标都需要保持尽量小。

针对该模型我们也提出了一些优化策略,如在特征提取阶段采用Neighbor-patch-attention策略来参考周边信息,提取更深层次特征。其次是在熵模型概率预估阶段: 采用Space Shuffle策略,提升概率估计准确度。第三是在超先验阶段,将局部感受野扩展到全局感受野来提取更准确的辅助信息。

右图为测试结果,其中红线代表ANF模型数据,可以看到相比于VVC等传统编码器,它的测试结果要超出0.5~0.7dB左右。

002dfb06-0e37-11ee-962d-dac502259ad0.png

由于ANF模型的架构比较复杂,为了更好的在移动端上进行应用,我们对它进行了轻量化处理,在量化和部署加速方面做了相当多的工作。在画质损失尽量小的前提下尽量获取加速收益。

00856ce2-0e37-11ee-962d-dac502259ad0.png

以上是轻量化后的ANF模型和其他编解码器使用LPIPS指标测试的对比结果,用于衡量ANF和其他编解码器之间的差距,该指标越小代表压缩后的图像和原图主观质量越接近。通过在多种场景下测试可以看到,ANF压缩的图片质量要明显优于其他编解码器。

00c97c02-0e37-11ee-962d-dac502259ad0.png

在客观指标结果较好的基础上,我们组织对压缩图像进行了主观评测,选择了数十种不同场景,约两万张涵盖不同分辨率的图片作为数据集进行测试。以avif的压缩图像作为基准进行对比,按照三种不同比例将原始图片用ANF和avif编解码器进行压缩,将压缩后的图片从相同位置裁取100*100左右大小的块,与原图对应小块对比压缩画质,最后征集志愿者进行测评。

下表为评测结果,可以看到同体积下,主观选择ANF的比例(49.4%)明显高于AVIF(18.6%),说明ANF主观质量明显比AVIF好; 体积比为1:1.4时,结果与1:1时相同;体积比为1:2时,选择ANF和AVIF的次数相当,且有较大比例“不选择”,说明两者主观画质相当。

01027ef8-0e37-11ee-962d-dac502259ad0.png

以上为同体积比下,两种编码器的测试效果图,可以看到ANF压缩图片的质量和原图更加接近。

01480392-0e37-11ee-962d-dac502259ad0.png

以上为体积比为1:1.5时,两种编码器的测试效果图。可以看到ANF的图像细节效果仍然不错。

018b8040-0e37-11ee-962d-dac502259ad0.png

接下来介绍ANF的解码速度,我们在骁龙8gen1平台上对解码速度进行了测试,使用自封SDK测试从图片载入到最终在移动端显示所需的时间。可以看到在1080P分辨率下,ANF的平均延迟可以达到29.4毫秒,这个量级是人眼感受不到的,可以满足应用需求。

01d5e66c-0e37-11ee-962d-dac502259ad0.png

以上为编码吞吐对比结果,在同样的硬件条件下和传统编码器相比,ANF可获得10-30倍的编码加速。

020b275a-0e37-11ee-962d-dac502259ad0.png

以上为压缩对二次识别检测影响的测试结果,选取了精确率和召回率两个指标进行衡量。可以看到在低压缩比下,ANF压缩图片的检测精度略高于avif, 两项指标与原图相当;在高压缩比下,ANF压缩图片的检测精度明显高于avif, 与原图的差距保持在2-5%范围。

0249b3e4-0e37-11ee-962d-dac502259ad0.png

接下来进行总结,首先在当前的图像视频大爆发时代,我们认为编解码技术的提升迫在眉睫和势在必行的。第二是图像处理AI化的趋势明显,基于AI的编码方式从算法和硬件层面均能够更好地协同。第三是AI Codec的发展速度很快,未来发展前景光明;同时AI Codec的发展也顺应了AI芯片发展的趋势。最终我们基于AI Codec的主观优化,可以超过AVIF 30%以上,解码效率可在高端机型落地,编码效率显著优于传统Codec的CPU软编方案,具备在CDN图片场景落地的可行性。我的分享到此结束,谢谢大家!
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 带宽
    +关注

    关注

    3

    文章

    907

    浏览量

    40837
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268337
  • 移动端
    +关注

    关注

    0

    文章

    40

    浏览量

    4363

原文标题:AI Image Codec技术落地实践

文章出处:【微信号:livevideostack,微信公众号:LiveVideoStack】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    risc-v多核芯片在AI方面的应用

    多核芯片在AI方面的应用具有广阔的前景和巨大的潜力。随着技术的不断进步和应用的深入,我们期待看到更多基于RISC-V多核芯片的AI解决方案实际应用中得到验证和推广。
    发表于 04-28 09:20

    NEC MCU马达方面的应用

    NEC MCU马达方面的应用 Agenda1、NEC MCU马达应用方面的特点 1.1 NEC 8位MCU马达应用
    发表于 03-17 16:48 53次下载

    CODEC,CODEC是什么意思

    CODEC,CODEC是什么意思 CODEC是“COder/DECoder”的缩写,CODEC芯片负责数字与模拟信号的转换。它可将电脑里的数字信号转变成模拟声音信
    发表于 03-23 09:38 5792次阅读

    阿里AI方面的布局和战略投资出手阔绰

    人工智能如火如荼的当下,对于国内科技巨头来说,布局AI就是布局未来,因此阿里AI方面的布局
    的头像 发表于 12-05 09:03 4420次阅读

    算法是新的医药:AI医学方面的行业发展趋势

    影像学专家和临床学者,Hugh Harvey医生撰文提出,算法是一种全新的医药,以制药业发展的历史为鉴,可以预见AI医学方面的行业发展趋势。
    的头像 发表于 03-21 17:16 4414次阅读

    商汤科技智能视觉方面的进展和落地应用方面的实践

    算力方面,今年商汤会拥有超过14000块GPU,体现了旺盛的需求,商汤超过18个行业有各种各样的落地场景,在这些行业里必然有各种各样不同的基于计算机视觉的需求,所以造成对算力巨大的渴望。我们一
    的头像 发表于 11-13 15:53 3760次阅读

    远程医疗如何更好地落地 ADIAI方面的发展规划

    日前爆发的武汉疫情,人们再度关注医疗器械的紧缺,以及关键半导体芯片的作用,同时思考远程医疗如何更好地落地,智能可穿戴设备如何提高精度,AI如何加速等。
    发表于 02-07 16:28 833次阅读

    AI制造领域落地面临的挑战

    华为智能制造方面的经验对于中国制造升级非常有价值,了解华为是如何实现智能制造之前,让我们先来看看AI制造领域
    的头像 发表于 09-03 09:53 2914次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>在</b>制造领域<b class='flag-5'>落地</b>面临的挑战

    Python语言AI、大数据方面的重要性

    Python语言AI、大数据方面的重要性
    发表于 09-02 16:20 25次下载

    全球金融机构使用AI方面的主要趋势

    2022 年调查确定了全球金融机构使用 AI 方面的主要趋势。
    的头像 发表于 04-25 11:39 1526次阅读

    英特尔推动AI落地方面的最新成果

    英特尔On产业创新峰会(Intel Vision)上,英特尔公布了人工智能产品、软件和服务方面取得的多项进展,展示了未来办公,远程医疗,精准农业,现代物流等以技术为核心的创新案例。
    的头像 发表于 05-30 16:54 947次阅读

    GPSGIS方面的应用

    电子发烧友网站提供《GPSGIS方面的应用.pdf》资料免费下载
    发表于 10-23 10:51 0次下载
    GPS<b class='flag-5'>在</b>GIS<b class='flag-5'>方面的</b>应用

    fpga通信方面的应用

    FPGA通信方面的应用非常广泛,以下是一些主要的应用场景。
    的头像 发表于 03-27 14:10 974次阅读

    NVIDIA加速识因智能AI大模型落地应用方面的重要作用介绍

    本案例介绍了 NVIDIA 加速识因智能 AI 大模型落地应用方面的重要作用。生成式大模型已广泛应用于各领域,通过学习人类思维方式,能快速挖掘海量内容,满足不同需求。
    的头像 发表于 03-29 15:28 578次阅读

    微处理器人工智能方面的应用

    微处理器人工智能(AI方面的应用日益广泛且深入,成为了推动AI技术发展的重要力量。本文将从微处理器
    的头像 发表于 08-22 14:21 812次阅读