0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OPPO造芯,首推6nm影像专用NPU芯片剑指夜景视频

荷叶塘 来源:电子发烧友网 作者:程文智 2021-12-16 13:48 次阅读
电子发烧友/程文智)火热的芯片市场又迎来了一个新玩家。12月14日,OPPO在主题为“致善·前行”的OPPO 2021年度未来科技大会(OPPO INNO DAY 2021)上正式发布了其首款影像专用NPU——马里亚纳 MariSilicon X芯片。该芯片采用了DSA架构和台积电的6nm工艺,算力和能效比十分均衡,同时还融合了OPPO积累多年的影像处理技术,将计算影像推向了4K+20bit RAW+AI+Ultra HDR的新极限。
图:OPPO芯片产品高级总监姜波在介绍马里亚纳 MariSilicon X芯片
据悉,在新NPU的支持下,夜景视频将会有新的突破,搭载马里亚纳 MariSilicon X的手机将可以在4K AI HDR视频中实现超清夜景照片的清晰画质,让视频的每一帧都是一张好照片。那么,MariSilicon X是如何实现夜景视频的优秀性能的呢?让我们看看这颗芯片到底有何过人之处。

MariSilicon X芯片的主要架构和核心参数

马里亚纳 MariSilicon X采用的是DSA(Domain Specific Architecture)新黄金架构理念,里面包括了两大核心IP:MariNeuro AI计算单元和MariLumi影像处理单元。还有专为MariNeuro AI计算单元配置的双层存储架构,包括万亿比特每秒(Tb/s)读写速度的片上内存子系统,以及8.5GB/s的独立DDR带宽,为AI的高效运算提供充足的内存读写支持。
所谓的DSA架构,就是一种更加以应用场景为中心的设计思路,通过特殊的计算架构,为解决特定领域的问题提供强大且高效的性能。DSA架构尤其适用于AI领域。通俗地讲,就是专芯专用,设计出来的芯片不是解决所有问题,而是解决特定的一类问题,从而满足对效率的需求。
也就是说,马里亚纳 MariSilicon X就是一颗专为影像而生的NPU芯片,它只做一件事,那就是把影像做到极致。它的具体核心配置可以参考表1。
表1:MariSilicon X的核心配置。

专芯专用,跨越算力鸿沟

OPPO芯片产品高级总监姜波表示,基于DSA的设计理念,OPPO将专用的AI算法进行了芯片化,在芯片的底层硬件中,直接嵌入了适合这一算法的算子。MariNeuro AI计算单元就是专门用来实现像素级图像处理的,它的有效算力高达18TOPS,每秒可以进行18万亿次的运算。
众所周知,算力是一切计算的基础,而在手机影像的应用中,算力一般分为四个等级,分别是场景感知、场景重构、像素级处理和多维度立体图像处理。AI在影像领域的不同的应用场景中,对算力有着不同的需求。
图:AI在影像领域的不同应用场景对算力的需求。(来源:OPPO)
传统的计算摄影由于算力的限制,只能做到场景重构这一层级,比如大部分手机目前对于人像处理时采用的人脸检测和美颜的计算。想要更进一步,逐个像素对图像进行处理,乃至未来对AR/VR的三维图像进行实时处理,高算力是必不可少的。“根据OPPO的测试经验,实现像素级的图像处理至少需要10-50TOPS级别的算力。”姜波表示。
他同时强调,堆砌算力并非重点。算力往往可以通过提升计算主频或者增加计算核心数量来粗暴地实现,而更具挑战的是在手机的功耗发热约束之下依然能够实现高算力,这就是能效比的重要性。
马里亚纳 MariSilicon X 的能效比就达到了11.6 TOPS/W,这也是手机AI能效罕见地实现了双位数的每瓦性能,是手机NPU芯片AI能效新的里程碑。
在OPPO的实际测试中,采用了OPPO自研的AI降噪算法(这一算法目前已经应用在了Find X3 Pro的夜景拍照中)。在实际的测试中,这样的算法加载在Find X3 Pro上,AI的性能只能做到2fps,而功耗则接近1.7W;这样的帧率,完全不够视频最低的30fps的要求。而1.7W的功耗,也远远超出了手机对视频处理的最高功耗要求。
而同样的模型加载在马里亚纳 MariSilicon X的时候,可以做到40fps的运行速度,同时功耗只有不到0.8W,这样的性能是20倍的提升,功耗则不到之前的一半。“越专用,越高效,在这组实测数据中得到了最好的体现。”姜波分享说。
除了算力,AI神经网络的处理速度还受限于内存的容量和读写速度,也就是行业常说的冯·诺依曼“内存墙”瓶颈。计算单元的运算速度和传输速度就像一个木桶中的不同木板,最短的那个限制了计算单元的能力。
为了更好地发挥马里亚纳 MariSilicon X的运算能力,OPPO非常奢侈地集成了双层存储架构,包括万亿比特每秒(Tb/s)级读写速度的片上内存子系统,以及8.5GB/s的独立DDR带宽,为AI的高效运算提供充足的内存读写支持。
片上内存子系统集成在AI计算单元MariNeuro上,只服务于与AI运算相关的数据吞吐,最高可以提供数十倍于目前手机中最先进的LPDDR5的数据传输速度,极大程度地降低数据在存储与计算两个单元的繁复读写,让AI数据在计算的时候不需要离开AI计算单元,这就能大幅降低计算时的功耗。
不仅如此,马里亚纳 MariSilicon X独立的DDR带宽专门为芯片内的各个IP提供独立带宽,也在SoC的基础上,增加了17%的系统总带宽。
此外,OPPO还为内存子系统和独立DDR带宽设计了分层结构与多行并行流程,保证图像数据在MariLumi影像处理单元与MariNeuro AI计算单元间的输入与输出可以实现最低的时延,降低因反复读写数据造成的功耗,令视频处理更快更高效。

AI降噪算法前置,带来更优画质

马里亚纳 MariSilicon X里面另外一个重要的自研IP——MariLumi 影像处理单元,它针对视频流趋势进行了独特设计,能够流畅地面向4K规格的视频数据量进行计算。像素级的处理速度也让智能HDR融合算法可以在这颗单元的前端运行,最终令画面动态范围达到了20bit 120db(20 stops),相比Find X3 Pro提升4倍,达到20bit Ultra HDR超级动态范围。20bit-120dB意味着对于一张图片而言,最暗和最亮的部分相差100万倍。
姜波指出,OPPO通过该芯片的HDR能力,可以将原来只属于白天的动态范围,首次拓展到在夜间视频上。相比Find X3的方案来看,马里亚纳 MariSilicon X处理后的视频画面更自然,动态范围达到人眼可分辨的极限。
其实,从镜头到最终存储的影像,是一个数据不断压缩的过程。具体来看,影像处理过程中涉及3个空间,RAW-RGB-YUV,数据每经过一次转换,就会受到一定损失。
RAW是原始数据的空间,这里承接的是从传感器光电转换得来的所有无损数据,有着更丰富的信息量和更大的数据量。但RAW域的图像信息是无法直接观看的,必须在RGB域“上色”,再输出到YUV域进行格式转化,最后生成JPEG/HEIF等可在屏幕上观看的格式。
RAW有一个好处就是它的线性度、色彩比较好,有更原始的信息,所以在RAW上处理,可以得到更好的处理效果。但算法复杂度、实际相应的硬件投入都会更多。因此,传统的HDR都选择在YUV里合成。
而马里亚纳 MariSilicon X将传统在后端的处理前置到了RAW域,并且因为强大的算力,最高可以支持20bit位宽的RAW数据处理。而且是基于更先进的AI算法和20bit HDR融合的计算,对每个像素做实时的计算。
通过算法前置,MariSilicon X能够为整个链路带来最多8dB的信噪比提升,这意味着在YUV等待计算的通用平台,拿到的也是更优质的图像信息,就能够在后处理,比如色调映射、3A校准等基础计算实现更高质量的表现。

打破影像的不可能三角

人工智能的三要素是数据、算力和算法,对应到计算影像上来说就是传感器、芯片和AI算法,这三者环环相扣,缺一不可。但行业主要面临的问题,就是传感器、芯片和算法的技术发展不同步。一般来说,芯片的开发周期基本需要两年以上,传感器则是一年一代更新迭代,而算法开发和训练所需的时间则更短,这就意味着很难有厂商可以将三者在一个时间节点上完美调优。
此外,在传统的技术生态中,传感器、芯片和影像算法会由产业链中不同领域的公司负责。假设有企业要做一颗芯片,通常的做法是去找专业的算法公司来购买算法,再找一个前端公司做芯片的逻辑设计,很少有公司会负责所有部分。这样做在公司运营和成本方面好处有很多,但也带来了用户体验上的问题——无法耦合各个模块,也就无法将指标做到最优。
完美打通算法、芯片和传感器是行业中长期以来都无法解决的问题,“我们称之为手机影像的「不可能三角」。”姜波解释称。
如今,OPPO通过自己在影像领域的技术和算法积累,再加上近年来逐步建构起的芯片设计能力,通过自研芯片和自研算法的整合,自研芯片和深度定制传感器的配合,以及自研芯片和通用平台的打通,打破手机影像的不可能三角。
RGBW Pro模式就是打破手机影像的不可能三角最好的例证。通过双通路设计,马里亚纳 MariSilicon X实现了对RGB和W像素的分隔处理,最大化利用每一种像素特性,释放出RGBW阵列的全部潜力。马里亚纳 MariSilicon X的RGBW Pro模式带来了8.6dB的信噪比提升,以及1.7倍的解析力提升,在传感器尺寸规格都没有变化的前提下实现大幅的影像效果增强。

四项能力突破,解决夜景视频画质问题

得益于前面提到的技术,马里亚纳 MariSilicon X获得了四项关键的技术能力,即(1)强大的AI计算能效;(2)领先行业的Ultra HDR;(3)无损的实时RAW计算;(4)最大化传感器能力的RGBW Pro。而这思想能力的突破,让OPPO可以解决手机影像长期尚未解决的难题——夜景视频画质的问题。
在全新标准之下,安卓影像第一次有能力同时支持4K + 20bit RAW + AI + Ultra HDR的极限规格。最终的结果,就是夜景视频的画质得到了质的提升。

从1080P到4K:传统弱光下的视频拍摄,只要打开AI视频增强,由于算力所限,画质被限制在1080P。马里亚纳 MariSilicon X超强AI性能将分辨率提升了4倍,首次让AI计算夜景视频达到4K规格。
从有损到无损:相较于传统计算影像都发生在YUV域的有损后处理,马里亚纳 MariSilicon X将复杂的计算前置在RAW域,为整体影像链路输出更高质量的原始图像信息。
从AI拍照到AI视频:马里亚纳 MariSilicon X也让原本只能用于拍照的AI降噪算法,首次拓展到了视频应用,为视频的每一帧带来极高的纯净度。
从18bit HDR到20bit Ultra HDR:马里亚纳 MariSilicon X支持的画面动态范围达到了20bit Ultra HDR,是目前主流平台18bit的4倍(2的20次方与2的18次方相比),信噪比达到120db,让视频的每一帧都拥有和人眼一致的动态范围。


结语

总的来说,马里亚纳 MariSilicon X是一颗极致功耗的NPU,结合20bit的HDR,RAW处理、以及RGBW传感器的耦合,加上OPPO多年来在影像技术方面的探索和影像算法方面的积累,将视频拍摄推向了一个新的高度。
以前,手机上只能做YUV的1080p的AI降噪处理,有了马里亚纳 MariSilicon X的助力后,4K的AI在RAW上实现了可能,让用户体验有了4倍的提升。也就是说,有了马里亚纳 MariSilicon X后,不论是拍照,还是录视频;也不论是拍夜景,还是录夜景视频,用户都将得心应手。
一般来说,消费类电子产品使用的芯片是一年一升级,明年的马里亚纳 MariSilicon X是否会推出其第二代产品呢?姜波回应称,对于下一代产品,目前已经在探索中了。
最后,姜波透露说,马里亚纳 MariSilicon X芯片将会首先搭载在Find X系列手机上,预计明年一季度就可以与广大用户见面,请大家拭目以待。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • OPPO
    +关注

    关注

    20

    文章

    5233

    浏览量

    78928
  • NPU
    NPU
    +关注

    关注

    2

    文章

    279

    浏览量

    18582
收藏 人收藏

    评论

    相关推荐

    NPU的工作原理解析

    随着人工智能技术的快速发展,深度学习算法在各个领域得到了广泛应用。为了满足日益增长的计算需求,NPU应运而生。 NPU的基本概念 NPU是一种专用硬件加速器,专门为深度学习算法设计。它
    的头像 发表于 11-15 09:17 597次阅读

    什么是NPU芯片及其功能

    在人工智能(AI)技术迅猛发展的今天,NPU芯片已经成为推动这一领域进步的关键技术之一。NPU芯片,即神经网络处理单元,是一种专门为深度学习算法设计的硬件加速器。 一、
    的头像 发表于 11-14 15:48 977次阅读

    天玑9400旗舰影像能力全面起飞

    无论你是专业的视频创作达人,还是热衷于记录生活的影像爱好者,天玑 9400 旗舰都能凭借其影像录制能力的强大提升,满足你所需。内置旗舰级 ISP
    的头像 发表于 10-31 13:54 260次阅读

    什么是NPU?什么场景需要配置NPU

    处理AI任务上的效率更高,在现今ARM主板配置中也变得越来越重要。本文将带大家了解 NPU 的作用、必要性,以及国产芯片厂商是如何对它进行布局的。
    的头像 发表于 10-11 10:13 1489次阅读
    什么是<b class='flag-5'>NPU</b>?什么场景需要配置<b class='flag-5'>NPU</b>?

    快人一步迅为LPDDR5版本瑞微RK3588核心板升级了

    性能强--iTOP-3588开发板采用瑞微RK3588处理器,是全新一代ALoT高端应用芯片,采用8nm LP制程,搭载八核64位CPU,四核Cortex-A76和四核Cortex-A55架构
    发表于 09-12 10:52

    迅为瑞微RK3588与3588S如何选型硬件区别

    G610 MP4四核GPU、支持OpenGLES 1.1、2.0、3.2,OpenCL 2.2和Vulkan1.2。6TOPs的NPU算力,8K编码+8K解码,多路视频源同时解码。这款处理器在接口
    发表于 09-11 11:31

    6nm异构多核!国内首款Arm架构AI PC处理器此P1发布

    计算平台因此得到了广泛的关注。现在,国内公司也完成了Arm架构AI PC处理器“破冰”,开始扬帆启航。   7月30日,在以“从此出发”为主题的此科技AI PC战略暨首款芯片发布会上,此
    的头像 发表于 08-01 01:21 4072次阅读
    <b class='flag-5'>6nm</b>异构多核!国内首款Arm架构AI PC处理器此<b class='flag-5'>芯</b>P1发布

    基于RK3588的NPU案例分享!6T是真的强!

    本帖最后由 Tronlong创龙科技 于 2024-7-19 16:53 编辑 RK3588 NPU简介:作为瑞微新一代旗舰工业处理器,RK3588 NPU性能可谓十分强大,6
    发表于 07-17 10:55

    迅为RK3568手册上新 | RK3568开发板NPU例程测试

    iTOP -RK3568开发板使用手册上新,后续资料会不断更新,不断完善,帮助用户快速入门,大大提升研发速度。 本次新增《itop-3568开发板NPU例程测试手册》是NPU视频教程的扩展手册,目的
    发表于 07-12 14:44

    今日看点丨微软将在日本投资29亿美元;台积电JASM熊本厂设立微科技专用40nm产线

    1. 台积电JASM 熊本厂设立微科技专用40nm 产线   Microchip Technology(微科技)扩大了与台积电的合作伙伴关系,台积电在日本先进半导体制造公司(JAS
    发表于 04-10 10:55 928次阅读

    采用NPU IP的人工智能(AI)类芯片已在全球出货超过1亿颗

    2024年2月29日,中国上海——原股份(原,股票代码:688521.SH)今日宣布集成了原神经网络处理器(NPU)IP的人工智能(AI)类
    的头像 发表于 03-06 17:10 686次阅读

    采用NPU IP的AI类芯片已在全球出货超过1亿颗

    原股份发布重要消息,其集成了原神经网络处理器(NPU)IP的人工智能(AI)类芯片,已在全球范围内出货超过1亿颗。这一里程碑式的成就标志着
    的头像 发表于 03-06 10:54 852次阅读

    采用NPU IP的AI类芯片已在全球出货超过1亿颗

    原股份(原,股票代码:688521.SH)今日宣布集成了原神经网络处理器(NPU)IP的人工智能(AI)类芯片已在全球范围内出货超过1
    的头像 发表于 02-29 10:26 445次阅读

    基于RK3588的NPU案例分享!6T是真的强!

    RK3588 NPU简 介 作为瑞微新一代旗舰工业处理器,RK3588 NPU性能可谓十分强大,6TOPS设计能够实现高效的神经网络推理计算。这使得RK3588在 图像识别、语音识别
    的头像 发表于 02-27 14:14 1732次阅读
    基于RK3588的<b class='flag-5'>NPU</b>案例分享!<b class='flag-5'>6</b>T是真的强!

    OPPO,锐思智,高通三方携手,共同推动智能手机影像AI Motion变革

    美国拉斯维加斯,2024年1月11日——OPPO,锐思智,高通近期发布,合作推动创新性融合视觉传感(Hybrid Vision Sensing, HVS®)技术在智能手机领域应用。通过HVS
    发表于 01-11 09:07 661次阅读
    <b class='flag-5'>OPPO</b>,锐思智<b class='flag-5'>芯</b>,高通三方携手,共同推动智能手机<b class='flag-5'>影像</b>AI Motion变革