0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA 助力火山引擎开源多媒体处理框架 BMF,将抖音、西瓜视频的先进技术推向千行百业

NVIDIA英伟达 来源:未知 2023-09-19 11:10 次阅读

案例介绍

火山引擎通过与 NVIDIA 团队合作开发了 BMF(Babit Media Framework,多媒体处理框架),提供了丰富的 GPU 即用模块,低门槛的扩展方式,多语言接口以及各类主流框架 SDK 的简单接入,方便用户快速打造高效的全 GPU 视频处理流水线,有效解决开发效率低,链路缺乏整体优化的问题,使得 GPU 能够充分发挥其强大的并行计算能力,应用于各类视频 AI 场景。

视频成为企业数字化增长新动力

在当今人们的生活中,视频化场景已经渗透到了方方面面。QuestMobile 数据显示,截止到 2023 年 5 月,中国移动视频行业整体用户规模达到 10.76 亿,月人均时长达到 64.2 小时[1]。在艾瑞研究院报告的数据中也显示,目前中国用户量排名前 100 的 APP 中,有 69% 搭载了视频类功能,65% 搭载了点播功能,51% 有直播类功能,32% 有实时音视频类功能[2]。视频应用正在从内容、娱乐行业拓展至泛互联网和大量传统行业。

2016 年抖音上线,同年全民直播和短视频时代正式开启。2018 年,业界已经广泛地使用 AI 进行内容理解,视频增强。2019 年则是云游戏的元年,这一年,低延迟成为业务关注焦点。进入 2021 年,市面上已经有大量的基于 AI 的视频增强,特效贴纸,AI 视频编辑的产品出现。如今,以 Stable Diffusion 和大语言模型(LLM) 掀起的生成式 AI 浪潮,正席卷整个行业进入另一个全新时代。GPU 不断增强的计算能力和视频图像处理能力,正好和业界的发展完全契合。与图文内容相比,企业自建视频应用对技术积累和资金成本要求较高。为此,火山引擎与 NVIDIA 团队合作,开源了 BMF(Babit Media Framework)多媒体处理框架。该框架是视频化部署的“底座”,可为企业提供从视频生产到消费的全链路场景支持,并能协助帮助开发者低成本构建视频应用。

从 GPU 加速图像处理,

到 GPU 上部署生成式 AI 业务

NVIDIA 自 1999 年发明 GPU 驱动了 PC 游戏市场的增长,并重新定义了现代计算机图形,开启了现代 AI 时代。2012 年,NVIDIA 在 Kepler 架构上添加了硬件视频编解码器,能更好地支持视频串流和直播,也就是现在云游戏和游戏直播的原型。到了 2016 年,以卷积神经网络为代表的深度学习技术为整个图像处理和计算机视觉领域带来革命,NVIDIA 也顺势推出了用于模型推理的 TensorRT,加速深度学习图像处理。2019 年,为了配合深度学习的发展,NVIDIA 发布了 nvJPEG,使得 GPU 可以进行图片编解码。2022 年,NVIDIA 和字节跳动联合开源了 CV-CUDA,把加速进一步推进到前后处理。

wKgaomULIY6ALtoTAACciOLcXDc870.jpg

图 1. GPU 加速图像处理发展历程

但是从图像处理到视频内容生成,并非一蹴而就。

理想情况下,我们以 ControlNet 为例,它可以配合 Stable Diffusion 进行更精细的文生图。如果单纯向 Stable Diffusion 提供 cute dog 作为 prompt,Stable Diffusion 会生成形态各异的小狗。但是如果用户想要某一个特定姿势的小狗图片,就需要用更加精细的方式控制生成过程。ControlNet 就可以做到这一点。以下图为例,使用 Canny edge detector 生成输入图片的轮廓图,检测出的轮廓会和 prompt 一起被输入 ControlNet 和 Stable Diffusion,即可生成姿势样貌相同,但其他细节不同的可爱小狗了。实际上,在其他场景下我们也可以将 Canny edge detector 替换成其他的传统图像处理或者 AI 算法,比如使用 pose detector 提取人体姿势。类似的技术还可用于文生图、图生图、image inpainting 等。

wKgaomUO1eOAWPhdAAFy4JCafos095.png

图 2. ControlNet + Stable Diffusion

部署这样一个业务具体涉及到哪些模块和环节呢?首先,需要图片和视频的编解码,模型的推理(ControlNet/Stable Diffusion),还有前后处理(Canny edge detector)。GPU 有编解码器,可以运行 TensorRT 和 CV-CUDA,能够将这些模块一一加速。理想情况下,开发者应当充分利用 GPU 各种的硬件单元,减少 GPU 和 CPU 之间的拷贝,让视频和图片存留在 GPU;如果涉及跨界点通信,如将处理前后的视频在网络和 GPU 之间传输,还需要结合 GPU Direct RDMA,简化通信链路,大幅降低延迟、提升吞吐。并且开发过程遵循阿姆达尔定律(Amdahl's law),将尽可能多的环节加速,整体的性能才能最优。

但实际上,火山引擎视频团队遇到了不同模块之间通信不畅,整体性能不高等诸多问题。本质上是因为视频处理变得越来越复杂,环节越来越多。2000 年 FFmpeg 刚出现的时候,需要面对的编解码需求是非常简单的,单机、个人用户、简单处理、容错要求低、用户耐心强。但是用户对于视频处理的要求已经今非昔比,算法和应用的复杂度越来越高,用户体验要求也越来越高。以前用户在电脑前长时间等待编解码完成的耐心,已经被短视频的秒级延迟,甚至 VR/AR、云游戏这样的毫秒级延迟所取代。视频处理涉及的技术栈也越来越多,包括编解码、图像处理、深度学习甚至图像渲染。

NVIDIA 加速火山引擎为视频云

提供更理想的处理框架:BMF

面对这些挑战,NVIDIA 和火山引擎紧密合作开发了 BMF,旨在帮助企业和开发者将各类视频的原子能力与方案做到优势互补、协同工作和快速落地。多媒体处理框架 BMF 的整体架构分为应用层、框架层、模块层和异构层,共 4 个部分:

  1. 应用层:即顶层,为用户提供多语言的 API,包括 Python、Go、C++,方便用户根据不同的项目需求进行开发集成。

  2. 框架层:即中间层,包括框架对 graph / pipeline 的调度、跨数据类型跨设备的数据流转 ackend、以及常用的跨设备 reformat、color space conversion、tensor 算子等 SDK。

  3. 模块层:包含了具备各种原子能力的模块,提供多种语言的模块开发机制,用户可根据自身需要将算法/处理实现为 Python、Go、C++ 语言的任意一种。

  4. 异构层:负责提供高效的视频处理算力,包括火山引擎自研的视频编解码芯片 ASIC

wKgaomULIY6AN0b4AAG4wQdQyPo493.jpg

图 3. BMF 架构图(绿色高亮表示支持 GPU 加速)

火山引擎通过与 NVIDIA 团队深入合作,针对 GPU 相关的框架层能力、处理能力进行了深度优化,从框架层和模块层对 BMF 都进行了深入改造,针对各种场景进行了开发和测试,并且贡献了多种应用层示例。BMF 提供了丰富的 GPU 即用模块,低门槛的扩展方式,多语言接口以及各类主流框架 SDK 的简单接入,方便用户快速打造高效的全 GPU 视频处理流水线,有效解决前文所述的开发效率低,链路缺乏整体优化的问题。这一系列的工作,使得 GPU 能够充分发挥其强大的并行计算能力,应用于各类视频 AI 场景。

比如在大型活动直播、电商直播间等场景中,通过“极致超清”技术,能够有效提升画质体验;针对不同损伤情况的经典影片,通过“AI 修复”技术,能够对损伤后的影片进行全面的画质提升;在 VR/AR 等复杂图像场景中,通过“ VR 360° 全景图像技术”帮助图像实现更加高清的效果。

火山引擎总裁谭待表示:在营销、空间、商业和知识的交互体验都在发生变化的视频化时代,视频云技术因其从视频生产,处理、传输至消费的全链路技术能力被赋予了重要使命。随着 AIGC、XR 等技术的兴起,新技术与视频云的融合将带来更多创新和价值。

字节跳动视频架构负责人、火山引擎视频云架构技术总监王悦表示:“BMF 框架是基于抖音多年实践打磨出来的,火山引擎又携手 NVIDIA 针对 GPU 相关能力进行了深度优化,使其能够发挥更强大的并行计算能力。“

目前,BMF 已经全面开源,包含 BMF 框架层整体开源、9 个开箱即用案例、20+ API 调用范例,旨在帮助开发者低成本地构建视频应用。

欢迎访问BMF Githubhttps://github.com/BabitMF/bmf)页面,了解更多信息

数据来源:

[1] 资料来源于 QuestMobile 研究院《2023 内容视频化与商业化洞察报告》:https://www.questmobile.com.cn/research/report/1678658723797635073 。[2] 资料来源于艾瑞咨询《2022 年中国视频云服务行业研究报告》:https://report.iresearch.cn/report/202207/4038.shtml。 GTC 2024 将于 2024 年 3 月 18 至 21 日在美国加州圣何塞会议中心举行,线上大会也将同期开放。点击“阅读原文”扫描下方海报二维码,关注更多会议及活动信息。

wKgaomULIY-AfE8NAAFtccdApf0231.jpg


原文标题:NVIDIA 助力火山引擎开源多媒体处理框架 BMF,将抖音、西瓜视频的先进技术推向千行百业

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3739

    浏览量

    90790

原文标题:NVIDIA 助力火山引擎开源多媒体处理框架 BMF,将抖音、西瓜视频的先进技术推向千行百业

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    倒计时1天 | 第三届OpenHarmony技术大会——明天,上海见!

    技术引领筑生态,万物智联创未来 OpenHarmony 开源生态 繁荣于各方共建,又赋能于千行百业 开创了万物智联的新纪元,开源盛事,亦是
    发表于 10-11 23:29

    第三届OpenHarmony技术大会开启 上海见

    技术引领筑生态,万物智联创未来 OpenHarmony 开源生态 繁荣于各方共建,又赋能于千行百业 开创了万物智联的新纪元,开源盛事,亦是
    的头像 发表于 10-11 10:08 118次阅读
    第三届OpenHarmony<b class='flag-5'>技术</b>大会开启 上海见

    火山引擎推出豆包·视频生成模型

    在近期举办的2024火山引擎AI创新巡展上,火山引擎总裁谭待隆重推出了豆包·视频生成模型,这一举措标志着
    的头像 发表于 09-25 14:11 254次阅读

    千行百业用AI大模型,为什么火山引擎是聚处?

    筑一座AI“良港”,汇万智能潮涌
    的头像 发表于 09-06 10:58 2321次阅读
    <b class='flag-5'>千行</b><b class='flag-5'>百业</b>用AI大模型,为什么<b class='flag-5'>火山</b><b class='flag-5'>引擎</b>是聚处?

    AI时代创新潮涌,从探路到引路,萤石云引领千行百业创新

    步入AI新时代,AI、云计算、大数据等技术迅速迭代,并日益融入经济社会发展各领域全过程,数字经济成为推动千行百业转型升级的重要驱动力量。今年的政府工作报告提出,深入推进数字经济创新发展。积极推进数字
    的头像 发表于 07-01 15:17 374次阅读
    AI时代创新潮涌,从探路到引路,萤石云引领<b class='flag-5'>千行</b><b class='flag-5'>百业</b>创新

    5G+北斗高精度定位终端技术,赋能千行百业应用

    5G+北斗高精度定位终端技术的融合,正以前所未有的精准度和实时性,为千行百业带来革命性的变革。从智慧城市的精细化管理,到智能交通的实时调度,再到精准农业的播种与收割,这一技术正不断拓宽
    的头像 发表于 06-18 14:42 449次阅读
    5G+北斗高精度定位终端<b class='flag-5'>技术</b>,赋能<b class='flag-5'>千行</b><b class='flag-5'>百业</b>应用

    算能亮相第七届数字中国建设峰会,以算力赋能千行百业

    题,全面展示了其在核心算力产品、产业数智化落地应用以及智算生态共建等领域的最新成果,以算力赋能千行百业。算力创新:筑基数字未来本届峰会期间,算能为广大行业客户与伙伴重
    的头像 发表于 05-29 08:33 501次阅读
    算能亮相第七届数字中国建设峰会,以算力赋能<b class='flag-5'>千行</b><b class='flag-5'>百业</b>

    爱芯通元NPU完成Llama 3和Phi-3大模型适配,推动AI大模型技术普及

    AI大模型技术的持续进步正在推动千行百业智能化升级。
    的头像 发表于 04-26 16:57 829次阅读
    爱芯通元NPU完成Llama 3和Phi-3大模型适配,推动AI大模型<b class='flag-5'>技术</b>普及

    华为云以系统性创新加速千行智能化升级

    近日,“华为云:一切皆服务,加速千行智能升级”主题论坛在第21届华为全球分析师大会期间举办。
    的头像 发表于 04-20 09:53 801次阅读

    携手打造开放AI生态,英特尔助力千行百业数智化变革

    还分享了在互联网、教育、制造及医疗等垂直领域的诸多应用落地,深度展示其携手生态伙伴推动千行百业数智化变革的进程。 构建高效解决方案,释放企业AI潜力 2023年被业界视为生成式AI的元年,随着大模型和生成式AI的高速发展,企业正迎来AI发展转折点。预
    的头像 发表于 04-19 16:23 450次阅读
    携手打造开放AI生态,英特尔<b class='flag-5'>助力</b><b class='flag-5'>千行</b><b class='flag-5'>百业</b>数智化变革

    智向未来 | 2024高通&amp;广和通边缘智能技术进化日成功举办

    高通与广和通作为新质生产力的重要推动力量,以AI技术和解决方案驱动千行百业实现数智化转型,创造更丰富的智能商业机会。
    的头像 发表于 03-29 10:32 296次阅读
    智向未来 | 2024高通&amp;广和通边缘智能<b class='flag-5'>技术</b>进化日成功举办

    AI大模型将如何推动中国产业升级?华为盘古大模型深耕千行

    AI大模型将如何推动中国产业升级?日前,华为混合云副总裁胡玉海在做客央视网《中国神气局》时,畅谈AI大模型发展趋势以及如何助力产业创新。胡玉海表示,盘古大模型通过行业深耕和聚焦价值场景,助力千行
    的头像 发表于 03-22 10:40 561次阅读

    首个鸿蒙生态创新中心在深揭幕,开启鸿蒙产业新篇章共绘鸿蒙原生应用开发新篇章

    鸿蒙原生应用开发,赋能鸿蒙应用开发者;三是赋能千行百业,帮助伙伴企业转型升级;四是开展鸿蒙人才培养和考试认证,打造鸿蒙人才实训基地。 此次鸿蒙生态创新中心的揭幕,是鸿蒙迈出的又一个坚实步伐,也开启从
    发表于 03-20 09:55

    云+大模型的2024格局

    云厂商要如何经营好AI时代的“火锅店”,助力千行百业智能化?
    的头像 发表于 02-27 09:52 2192次阅读
    云+大模型的2024格局

    上海站报名启动! 2023年开源产业生态大会OpenHarmony生态分论坛

    终端操作系统根社区和万物互联的底座。 OpenHarmony生态分论坛旨在倡议更多生态伙伴加入OpenHarmony社区,携手伙伴赋能产业升级,助力万物互联的大业和千行百业的数字化转型。我们诚挚邀请
    发表于 11-24 14:55