0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

UWA平台支持PowerVR芯片,新增四大GPU模块分析

颖脉Imgtec 2022-10-19 11:18 次阅读

日前,游戏和VR应用性能优化平台 UWA 宣布新的 GPU Counter 功能更新:增加了对 PowerVR 品牌 GPU 芯片的支持。针对 PowerVR GPUCounter,UWA提供了 GPU 负载、GPU 着色、GPU 带宽、GPU 图元 4 个模块的分析。最新的 UWA SDK 2.4.4 已发布,下载最新版 SDK,并使用搭载 PowerVR GPU IP 芯片的设备进行测试,即可在GOT Online Overview的GPU模块下查看到对应的数据,掌握GPU压力和性能消耗情况。

以下针对PowerVR GPU Counter,围绕UWA所提供的GPU 负载、GPU着色、GPU带宽、GPU图元4个模块的分析进行详细说明。


1、GPU负载

GPU Counter下的GPU负载包含Non Fragment Utilization和Fragment Utilization两个性能指标,分别代表非片段处理占整体GPU处理耗时百分比和片段处理开销占整体GPU处理开销百分比。

9ddd0478-4f29-11ed-b116-dac502259ad0.png

在GPU上运行的工作负载由作业管理器统一协调,该任务管理器负责将工作负载调度到GPU内部的各个处理单元上,它将两个FIFO工作队列,称为作业插槽。其中,一个插槽用于非片段工作负载,另一个插槽则用于片段着色工作负载。当出现GPU瓶颈时,正常情况下Non Fragment Utilization和Fragment Utilization至少有一个是接近100%,如果两者都低于100%,则有可能是Non Fragment和Fragment之间存在数据依赖关系。

当Non Fragment Utilization过高时,开发者可以从顶点数、复杂的Compute Shader的使用情况以及Geometry Shader、Tessellation Shader等角度着手进行优化。当Fragment Utilization过高时,则可以考虑项目中是否存在是否存在片段数目过多、片段Shader过于复杂。


2、GPU着色

包含Overdraw和Cycles/Pixel两个指标。

9df65c16-4f29-11ed-b116-dac502259ad0.png

Overdraw(过度绘制)

该项表示项目运行过程中,单帧中整个屏幕被填充的倍数。倍数越高,则GPU的压力越大。在游戏运行过程中,场景中半透明物体的重合会使得同一个像素点在一帧中会被绘制多次,造成Overdraw过高的情况。如下图所示,UI和粒子特效层叠导致容易出现Overdraw。9e0b3a28-4f29-11ed-b116-dac502259ad0.png

Cycles/Pixel

表示平均每个像素耗费的GPU时钟周期。一般来说,Shader复杂度会极大地影响GPUCycles占用的情况。当画面的Shader复杂度过高时,GPU需要消耗大量的时钟周期对Shader进行运算,容易造成GPU耗时变高,造成卡顿。

因此,通过查看GPU着色模块,就可以快速定位高Overdraw和高Cycles的场景,判断这个场景的GPU压力较高是Overdraw还是Shader复杂度过高造成的,进行有针对性的优化。


3、GPU带宽

CPU一样,GPU带宽也是芯片耗电的重要指标。当GPU持续进行高负载外部读写时,掉电就会过快。

UWA的GPU带宽模块统计了测试过程中单帧的读写带宽总量,通过查看GPU带宽模块,可以快速定位测试过程中带宽较高的场景和原因,并进行进一步测试优化。9e3ef5e8-4f29-11ed-b116-dac502259ad0.png


4、GPU图元处理渲染面是产生GPU压力的重要因素之一,我们可以通过 Overview 模式里的 Triangle 指标来查看和分析哪些画面的渲染面较多。

9e4bc48a-4f29-11ed-b116-dac502259ad0.png

渲染面过多,一方面可能是模型过于复杂,一般可以通过 LOD、HLOD 等常用技术来简化远距离的模型,在不影响画质的情况下显著降低渲染面;另一方面,可能是地形、大建筑物等大面积模型没有进行适当的拆分,导致进入视域体的面片可能不多,但提交GPU的渲染面依然很多。对于第二种情况,我们可以通过新功能“GPU图元”来进行初步的判断。

9e798d84-4f29-11ed-b116-dac502259ad0.png

总图元数:提交到GPU端的图元总数,该数值基本等同于引擎端统计的渲染面片总数。可见图元数:在GPU端通过各种裁剪之后,留下的参与渲染的三角面。可见图元不包括:因为在视域体外而被裁剪的三角面,因为朝向而被裁剪的三角面。因此,在3D场景中,比较理想的情况下,可见图元的数量应该接近或高于 50%(对于大部分模型,有一半三角面会因为朝向被裁剪)。如果某些角度下,可见图元的比例非常低,则很可能存在上文提到的第二种情况,从而可以针对性地检查和优化场景中,这个角度下,被提交到GPU的大面积模型。

GPU图元处理数量过多会对设备的带宽和能耗造成较大的影响,应尽量在程序端完成剔除,并减小送往GPU的图元数。

需要注意的是,基于架构不同,同一参数在不同品牌芯片上的推荐值也会存在差异,不同设备间横向对比的意义不大,更推荐大家在相同的设备上进行纵向对比。同时,由于同品牌芯片的架构之间也会存在差异,UWA目前仅支持部分芯片的GPU Counter数据采集,具体支持设备列表可通过下图或登录UWA官网对“Mali/Power VR/Adreno GPUCounter支持设备”列表进行查询:

https://www.uwa4d.com/main/supported.html9ec4f774-4f29-11ed-b116-dac502259ad0.png以上就是这次关于搭载 PowerVR GPU IP 芯片的新功能介绍了,希望会对开发者们在 GPU 优化上和项目的整体性能监控上有所帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    454

    文章

    50689

    浏览量

    423022
  • vr
    vr
    +关注

    关注

    34

    文章

    9638

    浏览量

    150191
收藏 人收藏

    评论

    相关推荐

    赛逸展2025响应四大行业协会倡议,审慎采购美国芯片

    ,中国互联网协会、中国汽车工业协会、中国半导体行业协会、中国通信企业协会发表声明,呼吁国内企业审慎选择采购美国芯片。赛逸展坚定不移地与中国四大行业协会站在一起,迅速加入四大协会阵营,全力支持
    的头像 发表于 12-05 09:56 117次阅读

    国科微亮相2024 UWA联盟会员大会

    近日,2024 UWA SUMMIT暨世界超高清视频产业联盟会员大会在深圳开幕,超高清产业生态体验展同期举办。作为UWA联盟会员单位、超高清视频赛道领先企业,国科微重磅展出4K/8K超高清解码芯片系列与4K/8K超高清显示
    的头像 发表于 11-30 09:35 351次阅读

    UVLED固化机结构的四大模块

    UVLED固化机作为一种高效、节能的固化设备,在多个行业中发挥着重要作用。其结构设计的合理性直接决定了设备的性能和使用效果。UVLED固化机的四大模块主要包括光源系统、控制系统、散热系统和传送系统
    的头像 发表于 11-25 16:10 183次阅读
    UVLED固化机结构的<b class='flag-5'>四大</b><b class='flag-5'>模块</b>

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:从图形引擎到AI加速器的蜕变

    CPU、GPU的演进历程,AI专用芯片或将引领未来计算平台的新方向。正如爱因斯坦所说:\"想象力比知识更重要\" —— 在芯片设计领域,创新思维带来的突破往往令人惊叹。
    发表于 11-24 17:12

    软银升级人工智能计算平台,安装4000颗英伟达Hopper GPU

    达Ampere GPU。通过新增的4000颗Hopper GPU,该平台的总计算性能已跃升至每秒约4.7百亿亿次。
    的头像 发表于 11-04 16:18 424次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--了解算力芯片GPU

    本篇阅读学习第七、八章,了解GPU架构演进及CPGPU存储体系与线程管理 █从图形到计算的GPU架构演进 GPU图像计算发展 ●从三角形开始的几何阶段 在现代图形渲染中,三角形是最常用的基本图形元素
    发表于 11-03 12:55

    Orin芯片的编程语言支持

    Orin是一款高度集成、高性能的车载计算平台,由英伟达推出,并采用了英伟达自家的Volta架构GPU和其他高级处理器技术。关于Orin芯片的编程语言支持,可以从以下几个方面进行介绍:
    的头像 发表于 10-27 16:45 263次阅读

    GPU加速计算平台是什么

    GPU加速计算平台,简而言之,是利用图形处理器(GPU)的强大并行计算能力来加速科学计算、数据分析、机器学习等复杂计算任务的软硬件结合系统。
    的头像 发表于 10-25 09:23 242次阅读

    GPU算力租用平台是什么

    GPU算力租用平台是一种基于云计算的服务模式,它允许用户通过互联网按需租用高性能GPU资源,而无需自行购买、部署和维护这些硬件。
    的头像 发表于 10-16 10:15 197次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

    本帖最后由 1653149838.791300 于 2024-10-16 22:19 编辑 感谢平台提供的书籍,厚厚的一本,很有分量,感谢作者的倾力付出成书。 本书主要讲算力芯片CPU
    发表于 10-15 22:08

    名单公布!【书籍评测活动NO.43】 算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

    。本书对华为等厂商推出的NPU芯片设计也做了架构描述,中国也拥有独立自主知识产权的高算力芯片,并且支持芯片、高带宽互连。本书也回顾了近20年来主流的CPU、
    发表于 09-02 10:09

    探秘四大主流芯片架构:谁将主宰未来科技?

    在科技日新月异的今天,芯片作为现代电子设备的心脏,其架构的选择与设计显得尤为重要。目前市场上主流的芯片架构有种:X86、ARM、RISC-V和MIPS。它们各具特色,广泛应用于各种电子设备中。本文将详细剖析这
    的头像 发表于 07-31 11:15 2596次阅读
    探秘<b class='flag-5'>四大</b>主流<b class='flag-5'>芯片</b>架构:谁将主宰未来科技?

    凌科推出M24型连接器卡扣模块升级新品

    近日,凌科LP、BD、YM、DH四大系列M24型10芯/12芯/19芯/24芯推出性能提升版的新品。上述新品最大的亮点就是优化了模块结构,新增了卡扣式模块,有效化解了焊线后组装存在易散
    的头像 发表于 06-07 08:13 282次阅读
    凌科推出M24型连接器卡扣<b class='flag-5'>模块</b>升级新品

    8芯M16接口四大优点

      德索工程师说道8芯M16接口作为一种高性能的电气连接器,凭借其独特的设计和优越的性能,在多个领域得到了广泛的应用。以下是关于8芯M16接口的四大优点,进行详细的分析和阐述。
    的头像 发表于 05-23 17:43 397次阅读
    8芯M16接口<b class='flag-5'>四大</b>优点

    MES实施的四大疑惑

    电子发烧友网站提供《MES实施的四大疑惑.docx》资料免费下载
    发表于 03-01 15:35 0次下载