深入阐述GPU的渲染过程和步骤

四、GPU运行机制

4.1 GPU渲染总览

由上一章可得知，现代GPU有着相似的结构，有很多相同的部件，在运行机制上，也有很多共同点。下面是Fermi架构的运行机制总览图：

从Fermi开始NVIDIA使用类似的原理架构，使用一个Giga Thread Engine来管理所有正在进行的工作，GPU被划分成多个GPCs(Graphics Processing Cluster)，每个GPC拥有多个SM（SMX、SMM）和一个光栅化引擎(Raster Engine)，它们其中有很多的连接，最显著的是Crossbar，它可以连接GPCs和其它功能性模块（例如ROP或其他子系统）。程序员编写的shader是在SM上完成的。每个SM包含许多为线程执行数学运算的Core（核心）。例如，一个线程可以是顶点或像素着色器调用。这些Core和其它单元由Warp Scheduler驱动，Warp Scheduler管理一组32个线程作为Warp（线程束）并将要执行的指令移交给Dispatch Units。 GPU中实际有多少这些单元（每个GPC有多少个SM，多少个GPC ......）取决于芯片配置本身。例如，GM204有4个GPC，每个GPC有4个SM，但Tegra X1有1个GPC和2个SM，它们均采用Maxwell设计。SM设计本身（内核数量，指令单位，调度程序......）也随着时间的推移而发生变化，并帮助使芯片变得如此高效，可以从高端台式机扩展到笔记本电脑移动。

如上图，对于某些GPU（如Fermi部分型号）的单个SM，包含：

32个运算核心（Core，也叫流处理器Stream Processor）

16个LD/ST（load/store）模块来加载和存储数据

4个SFU（Special function units）执行特殊数学运算（sin、cos、log等）

128KB寄存器（Register File）

64KB L1缓存

全局内存缓存（Uniform Cache）

纹理读取单元

纹理缓存（Texture Cache）

PolyMorph Engine：多边形引擎负责属性装配（attribute Setup）、顶点拉取(VertexFetch)、曲面细分、栅格化（这个模块可以理解专门处理顶点相关的东西）。

2个Warp Schedulers：这个模块负责warp调度，一个warp由32个线程组成，warp调度器的指令通过Dispatch Units送到Core执行。

指令缓存（Instruction Cache）

内部链接网络（Interconnect Network）

4.2 GPU逻辑管线

了解上一节的部件和概念之后，可以深入阐述GPU的渲染过程和步骤。下面将以Fermi家族的SM为例，进行逻辑管线的详细说明。

1、程序通过图形API(DX、GL、WEBGL)发出drawcall指令，指令会被推送到驱动程序，驱动会检查指令的合法性，然后会把指令放到GPU可以读取的Pushbuffer中。 2、经过一段时间或者显式调用flush指令后，驱动程序把Pushbuffer的内容发送给GPU，GPU通过主机接口（Host Interface）接受这些命令，并通过前端（Front End）处理这些命令。 3、在图元分配器(Primitive Distributor)中开始工作分配，处理indexbuffer中的顶点产生三角形分成批次(batches)，然后发送给多个PGCs。这一步的理解就是提交上来n个三角形，分配给这几个PGC同时处理。

4、在GPC中，每个SM中的Poly Morph Engine负责通过三角形索引(triangle indices)取出三角形的数据(vertex data)，即图中的Vertex Fetch模块。

5、在获取数据之后，在SM中以32个线程为一组的线程束(Warp)来调度，来开始处理顶点数据。Warp是典型的单指令多线程（SIMT，SIMD单指令多数据的升级）的实现，也就是32个线程同时执行的指令是一模一样的，只是线程数据不一样，这样的好处就是一个warp只需要一个套逻辑对指令进行解码和执行就可以了，芯片可以做的更小更快，之所以可以这么做是由于GPU需要处理的任务是天然并行的。

6、SM的warp调度器会按照顺序分发指令给整个warp，单个warp中的线程会锁步(lock-step)执行各自的指令，如果线程碰到不激活执行的情况也会被遮掩(be masked out)。被遮掩的原因有很多，例如当前的指令是if(true)的分支，但是当前线程的数据的条件是false，或者循环的次数不一样（比如for循环次数n不是常量，或被break提前终止了但是别的还在走），因此在shader中的分支会显著增加时间消耗，在一个warp中的分支除非32个线程都走到if或者else里面，否则相当于所有的分支都走了一遍，线程不能独立执行指令而是以warp为单位，而这些warp之间才是独立的。

7、warp中的指令可以被一次完成，也可能经过多次调度，例如通常SM中的LD/ST(加载存取)单元数量明显少于基础数学操作单元。

8、由于某些指令比其他指令需要更长的时间才能完成，特别是内存加载，warp调度器可能会简单地切换到另一个没有内存等待的warp，这是GPU如何克服内存读取延迟的关键，只是简单地切换活动线程组。为了使这种切换非常快，调度器管理的所有warp在寄存器文件中都有自己的寄存器。这里就会有个矛盾产生，shader需要越多的寄存器，就会给warp留下越少的空间，就会产生越少的warp，这时候在碰到内存延迟的时候就会只是等待，而没有可以运行的warp可以切换。

9、一旦warp完成了vertex-shader的所有指令，运算结果会被Viewport Transform模块处理，三角形会被裁剪然后准备栅格化，GPU会使用L1和L2缓存来进行vertex-shader和pixel-shader的数据通信。

10、接下来这些三角形将被分割，再分配给多个GPC，三角形的范围决定着它将被分配到哪个光栅引擎(raster engines)，每个raster engines覆盖了多个屏幕上的tile，这等于把三角形的渲染分配到多个tile上面。也就是像素阶段就把按三角形划分变成了按显示的像素划分了。

11、SM上的Attribute Setup保证了从vertex-shader来的数据经过插值后是pixel-shade是可读的。

12、GPC上的光栅引擎(raster engines)在它接收到的三角形上工作，来负责这些这些三角形的像素信息的生成（同时会处理裁剪Clipping、背面剔除和Early-Z剔除）。

13、32个像素线程将被分成一组，或者说8个2x2的像素块，这是在像素着色器上面的最小工作单元，在这个像素线程内，如果没有被三角形覆盖就会被遮掩，SM中的warp调度器会管理像素着色器的任务。

14、接下来的阶段就和vertex-shader中的逻辑步骤完全一样，但是变成了在像素着色器线程中执行。由于不耗费任何性能可以获取一个像素内的值，导致锁步执行非常便利，所有的线程可以保证所有的指令可以在同一点。

15、最后一步，现在像素着色器已经完成了颜色的计算还有深度值的计算，在这个点上，我们必须考虑三角形的原始api顺序，然后才将数据移交给ROP(render output unit，渲染输入单元)，一个ROP内部有很多ROP单元，在ROP单元中处理深度测试，和framebuffer的混合，深度和颜色的设置必须是原子操作，否则两个不同的三角形在同一个像素点就会有冲突和错误。

4.3 GPU技术要点

由于上一节主要阐述GPU内部的工作流程和机制，为了简洁性，省略了很多知识点和过程，本节将对它们做进一步补充说明。

4.3.1 SIMD和SIMT

SIMD（Single Instruction Multiple Data）是单指令多数据，在GPU的ALU单元内，一条指令可以处理多维向量（一般是4D）的数据。比如，有以下shader指令：

float4 c = a + b; // a, b都是float4类型对于没有SIMD的处理单元，需要4条指令将4个float数值相加，汇编伪代码如下：

ADD c.x, a.x, b.x ADD c.y, a.y, b.y ADD c.z, a.z, b.z ADD c.w, a.w, b.w 但有了SIMD技术，只需一条指令即可处理完：

SIMD_ADD c, a, b

SIMT（Single Instruction Multiple Threads，单指令多线程）是SIMD的升级版，可对GPU中单个SM中的多个Core同时处理同一指令，并且每个Core存取的数据可以是不同的。

SIMT_ADD c, a, b 上述指令会被同时送入在单个SM中被编组的所有Core中，同时执行运算，但a、b 、c的值可以不一样：

4.3.2 co-issue

co-issue是为了解决SIMD运算单元无法充分利用的问题。例如下图，由于float数量的不同，ALU利用率从100%依次下降为75%、50%、25%。

为了解决着色器在低维向量的利用率低的问题，可以通过合并1D与3D或2D与2D的指令。例如下图，DP3指令用了3D数据，ADD指令只有1D数据，co-issue会自动将它们合并，在同一个ALU只需一个指令周期即可执行完。

但是，对于向量运算单元（Vector ALU），如果其中一个变量既是操作数又是存储数的情况，无法启用co-issue技术：

于是标量指令着色器（Scalar Instruction Shader）应运而生，它可以有效地组合任何向量，开启co-issue技术，充分发挥SIMD的优势。

4.3.3 if - else语句

如上图，SM中有8个ALU（Core），由于SIMD的特性，每个ALU的数据不一样，导致if-else语句在某些ALU中执行的是true分支（黄色），有些ALU执行的是false分支（灰蓝色），这样导致很多ALU的执行周期被浪费掉了（即masked out），拉长了整个执行周期。最坏的情况，同一个SM中只有1/8（8是同一个SM的线程数，不同架构的GPU有所不同）的利用率。同样，for循环也会导致类似的情形，例如以下shader代码：

void func(int count, int breakNum) { for(int i=0; i

4.3.4 Early-Z

早期GPU的渲染管线的深度测试是在像素着色器之后才执行（下图），这样会造成很多本不可见的像素执行了耗性能的像素着色器计算。

后来，为了减少像素着色器的额外消耗，将深度测试提至像素着色器之前（下图），这就是Early-Z技术的由来。

Early-Z技术可以将很多无效的像素提前剔除，避免它们进入耗时严重的像素着色器。Early-Z剔除的最小单位不是1像素，而是像素块（pixel quad，2x2个像素，详见[4.3.6 ](#4.3.6 像素块（pixel quad）)）。但是，以下情况会导致Early-Z失效：

开启Alpha Test：由于Alpha Test需要在像素着色器后面的Alpha Test阶段比较，所以无法在像素着色器之前就决定该像素是否被剔除。

开启Alpha Blend：启用了Alpha混合的像素很多需要与frame buffer做混合，无法执行深度测试，也就无法利用Early-Z技术。

开启Tex Kill：即在shader代码中有像素摒弃指令（DX的discard，OpenGL的clip）。

关闭深度测试。Early-Z是建立在深度测试看开启的条件下，如果关闭了深度测试，也就无法启用Early-Z技术。

开启Multi-Sampling：多采样会影响周边像素，而Early-Z阶段无法得知周边像素是否被裁剪，故无法提前剔除。

以及其它任何导致需要混合后面颜色的操作。

此外，Early-Z技术会导致一个问题：深度数据冲突（depth data hazard）。

例子要结合上图，假设数值深度值5已经经过Early-Z即将写入Frame Buffer，而深度值10刚好处于Early-Z阶段，读取并对比当前缓存的深度值15，结果就是10通过了Early-Z测试，会覆盖掉比自己小的深度值5，最终frame buffer的深度值是错误的结果。避免深度数据冲突的方法之一是在写入深度值之前，再次与frame buffer的值进行对比：

4.3.5 统一着色器架构（Unified shader Architecture）

在早期的GPU，顶点着色器和像素着色器的硬件结构是独立的，它们各有各的寄存器、运算单元等部件。这样很多时候，会造成顶点着色器与像素着色器之间任务的不平衡。对于顶点数量多的任务，像素着色器空闲状态多；对于像素多的任务，顶点着色器的空闲状态多（下图）。

于是，为了解决VS和PS之间的不平衡，引入了统一着色器架构（Unified shader Architecture）。用了此架构的GPU，VS和PS用的都是相同的Core。也就是，同一个Core既可以是VS又可以是PS。

这样就解决了不同类型着色器之间的不平衡问题，还可以减少GPU的硬件单元，压缩物理尺寸和耗电量。此外，VS、PS可还可以和其它着色器（几何、曲面、计算）统一为一体。

4.3.6 像素块（Pixel Quad）

上一节步骤13提到：

32个像素线程将被分成一组，或者说8个2x2的像素块，这是在像素着色器上面的最小工作单元，在这个像素线程内，如果没有被三角形覆盖就会被遮掩，SM中的warp调度器会管理像素着色器的任务。

也就是说，在像素着色器中，会将相邻的四个像素作为不可分隔的一组，送入同一个SM内4个不同的Core。

为什么像素着色器处理的最小单元是2x2的像素块？笔者推测有以下原因： 1、简化和加速像素分派的工作。 2、精简SM的架构，减少硬件单元数量和尺寸。 3、降低功耗，提高效能比。 4、无效像素虽然不会被存储结果，但可辅助有效像素求导函数。详见4.6 利用扩展例证。

这种设计虽然有其优势，但同时，也会激化过绘制（Over Draw）的情况，损耗额外的性能。比如下图中，白色的三角形只占用了3个像素（绿色），按我们普通的思维，只需要3个Core绘制3次就可以了。

但是，由于上面的3个像素分别占据了不同的像素块（橙色分隔），实际上需要占用12个Core绘制12次（下图）。

这就会额外消耗300%的硬件性能，导致了更加严重的过绘制情况。

参考文献

Real-Time Rendering Resources
Life of a triangle - NVIDIA\'s logical pipeline
NVIDIA Pascal Architecture Whitepaper
NVIDIA Turing Architecture Whitepaper
Pomegranate: A Fully Scalable Graphics Architecture
Performance Optimization Guidelines and the GPU Architecture behind them
A trip through the Graphics Pipeline 2011
Graphic Architecture introduction and analysis
Exploring the GPU Architecture
Introduction to GPU Architecture
An Introduction to Modern GPU Architecture
GPU TECHNOLOGY: PAST, PRESENT, FUTURE
GPU Computing & Architectures
NVIDIA VOLTA
NVIDIA TURING
Graphics processing unit
GPU并行架构及渲染优化
渲染优化-从GPU的结构谈起
GPU Architecture and Models
Introduction to and History of GPU Algorithms
GPU Architecture Overview
计算机那些事(8)——图形图像渲染原理
GPU Programming Guide GeForce 8 and 9 Series
GPU的工作原理
NVIDIA显示核心列表
DirectX
高级着色器语言
探究光线追踪技术及UE4的实现
移动游戏性能优化通用技法
NV shader thread group
实时渲染深入探究
NVIDIA GPU 硬件介绍
Data Transfer Matters for GPU Computing
Slang – A Shader Compilation System
Graphics Shaders - Theory and Practice 2nd Edition

编辑：黄飞

阅读全文

gpu(126253) gpu(126253)
内存(72585) 内存(72585)
PGC(6532) PGC(6532)

FPGA比CPU和GPU快的原理是什么

本文首先阐述了FPGA的原理了，其次分析了FPGA比CPU和GPU快的原理，最后阐述了CPU与GPU的区别。

2018-05-31 09:00:29

15956

深入阐述全球首款异构3D FPGA芯片

核心提示：不久前，赛灵思公司（Xilinx：All Programmable技术和器件的企业） Virtex-7 H580T FPGA—全球首款3D异构All Programmable芯片正式发货。本文将为大家深入阐述此款3D异构All Programmable芯片

2012-08-23 11:10:25

1160

GPU Render Engine详细介绍

硬件模块。每个硬件对应一个或者多个引擎。本文主要介绍 render 引擎，从 GPU 渲染的硬件单元，到用户态顶点，命令等数据下发给 GPU 硬件执行过程等方面进行详细介绍，帮助大家更好地理解 render 引擎工作流程。（特别声明：本文主要以 Intel GPU 为参考介绍）

2023-05-30 09:54:25

642

Xen双系统GPU资源分配过程

分配一个 GPU 的方式目前 NXP 给出的系统已经实现，为了让大家熟悉 GPU 的分配过程，我们分配两个 GPU 给 Android 系统。

2023-12-04 13:53:16

259

GPU

GPU，Graphic Processing Unit，图形处理器。GPU是相对于CPU的一个概念，由于在现代的计算机中（特别是家用系统，游戏的发烧友）图形的处理变得越来越重要，需要一个专门的图形

2016-01-16 08:59:11

GPU150HF120D2

GPU150HF120D2

2023-03-28 18:08:25

GPU300HF120D2

GPU300HF120D2

2023-03-29 17:17:40

GPU450HF120D2SE

GPU450HF120D2SE

2023-03-28 18:08:25

GPU八大主流的应用场景

的讯号和影像重组过程，这些过程将X光或超音波感测器检测到的原始数据转换成2D横切面或3D立体影像。这种影像处理耗时、数据量大、要求画面渲染品质准确且稳定。凭着强大的并行计算能力，GPU可以完成影像即时渲染

2021-12-07 10:04:11

GPU是如何工作的？与CPU、DSP有什么区别？

、双重纹理四像素256位渲染引擎等，而硬体T&L技术可以说是GPU的标志。工作原理：简单的说GPU就是能够从硬件上支持T&L（Transform and Lighting，多边形转换

2016-08-05 13:00:01

深入浅出统计过程控制

2016-09-24 17:19:20

深入测试CAN接口的通讯过程

了。这次调试需要深入测试CAN接口的通讯过程，正好把之前的对CAN的认识再复习深化一下。之所以采用CAN总线，是因为它只需要两根双绞线就可以连接多个通讯节点，并且可以传输相对远的距离，在工业现场抗干扰

2021-08-06 07:59:30

ARM Mali-T600系列GPU OpenCL开发人员指南

GPU计算，或图形处理单元上的通用计算(GPGPU)，是将GPU的并行计算能力用于3D图形渲染以外的任务的实践。应用程序处理器被设计为尽可能快地执行单个线程。这类处理通常包括标量操作和控制代码

2023-08-24 07:07:47

BLDC无刷电机6步换向步骤的过程分别是什么？

BLDC无刷电机6步换向步骤的过程分别是什么？为什么是这样呢？

2021-06-26 06:47:20

Bifrost GPU可编程核心的顶级布局、优势和着色器核心功能

顶点着色（IDVS）几何体管道的好处。在开始之前，本指南假设您了解马里GPU采用的基于分幅的渲染方法。有关详细信息，请阅读我们的“基于平铺的渲染”指南。

2023-08-02 17:52:53

CPU和GPU擅长和不擅长的地方

CPU和GPU都是具有运算能力的芯片，CPU更像“通才”——指令运算(执行)为重+ 数值运算，GPU更像“专才”——图形类数值计算为核心。在不同类型的运算方面的速度也就决定了它们的能力——“擅长

2017-12-03 20:08:47

CPU和GPU擅长和不擅长的地方

；游戏中人工智能，物理模拟等等；3D建模-光线追踪渲染；虚拟化技术——抽象硬件，同时运行多个操作系统或者一个操作系统的多个副本等等。 GPU擅长的：图形类矩阵运算，非图形类并行数值计算，高端3D游戏

2017-12-03 15:43:58

Gaudi Training系统介绍

训练时都经过多次调整和更改，导致处理时间非常长，即使在大规模多GPU系统上也是如此。本文对培训过程作了进一步的阐述。尽管近年来在GPU硬件、网络架构和训练方法方面取得了重大进展，但事实仍然是，在单机

2023-08-04 06:48:48

HFSS设计包括哪些步骤？求过程

2021-05-26 06:01:34

HarmonyOS/OpenHarmony应用开发-ArkTS语言渲染控制if/else条件渲染

使用条件渲染语句时，条件渲染语句内仅允许使用GridItem组件。二、更新机制当if、else if后跟随的状态判断中使用的状态变量值变化时，条件渲染语句会进行更新，更新步骤如下： 1.评估

2023-08-21 14:29:50

HarmonyOS/OpenHarmony应用开发-ArkTS语言渲染控制概述

渲染控制语句包括控制组件是否显示的条件渲染语句，基于数组数据快速生成组件的循环渲染语句以及针对大数据量场景的数据懒加载语句。后面我们会持续对这这三种方式进行详细阐述。

2023-08-09 09:54:05

Imagination Rogue GPU技术有哪些优势？

PowerVR 6系列GPU与竞争对手Mali-T600系列GPU的规格对比PowerVR的看家本领——TBDR渲染技术

2021-02-26 07:39:38

LLC设计步骤

资料对LLC设计步骤进行了详细阐述，是学习者的较好入门资料。

2015-04-21 15:51:58

LWRP的渲染流程

LWRP渲染流程梳理

2021-01-21 07:01:19

Midgard Shader核心技术介绍

Mali-T600、Mali-T700和Mali-T800系列产品。要优化应用程序的二维和三维性能，您需要对硬件的工作原理有深入的了解。例如，在使用GPU的性能计数器进行优化时，了解马里GPU块架构非常重要。这是

2023-08-02 06:20:08

NVIDIA火热招聘GPU高性能计算架构师

：hrallenlinGPU高性能计算架构师 (功能验证)- 校招/社招工作职责： * 深入了解下一代GPU架构与GPU高性能计算领域的最新功能* 与GPU架构设计者深入沟通以制定架构验证测试计划* 基于测试计划和随机

2017-09-01 17:22:28

OpenHarmony开源GPU库Mesa3D适配说明

: Dayu200-rk3568 一、背景介绍 OpenHarmony对图形的渲染，支持CPU和GPU两种方式。为了支持流畅的用户体现，GPU适配是必不可少的。OpenHarmony使用GPU渲染，就必须依赖OpenGL

2023-12-25 11:38:07

VMware GPU分配/在GPU 1之前首先使用GPU 0

嗨，我在ESX 6中使用GRID K2。Atm有像GPU0和GPU1之间的负载平衡。如果我在主机上打开2 K240q，则第一个VM被分配给GPU0，即第二个GPU1。我无法启动此主机上的任何

2018-09-10 17:14:36

XS GPU是什么？XS GPU的主要特性包括哪些？

请问一下XS GPU是什么？XS GPU的主要特性包括哪些？XS GPU具备哪些功能？主要应用于哪些领域？

2021-07-01 06:55:05

【昉·星光 2 高性能RISC-V单板计算机体验】体验Imagination GPU带来的丝滑3D图形渲染效果

GPU渲染的glmark2 SDK镜像上集成了Imagination的GPU驱动，可以使用GPU进行图形渲染加速。另外，SDK镜像内部已经编译好了GLMark2测试程序，可以开箱即用的进行测试。接下来

2023-12-24 21:24:06

一文看完GPU八大应用场景，抢食千亿美元市场

2021-12-07 09:59:04

一文详解渲染管线

渲染管线简单梳理

2021-02-03 07:13:56

在RK3399上运行开源的GPU驱动

就是尽量去跑轻量级的图形界面，如果想跑 Debian、Ubuntu 这种发行版上默认搭配的 Gnome 或者 KDE，这种没有 GPU 支持，所有的图像合成渲染都要通过 CPU 来运算，是很难跑流畅

2022-10-20 17:44:37

在RK3399开发板上运行Arm mali GPU驱动

、Ubuntu 这种发行版上默认搭配的 Gnome 或者 KDE，这种没有 GPU 支持，所有的图像合成渲染都要通过 CPU 来运算，是很难跑流畅的。所以如果你对图形显示功能比较看重，在选开发板的时候

2022-07-27 15:43:16

基于ArkUI框架开发-ImageKnife渲染层重构

我们来看看Image组件和Canvas组件对于渲染这一块的支持情况。从上表我们可以看出：Image组件虽然支持了PixelMap的绘制，但是基本没有绘制控制能力，而且扩展性能力也比较弱，并且渲染过程

2023-04-06 10:01:28

基于磁贴的GPU架构优缺点

本指南介绍了基于磁贴的GPU架构的优缺点。它还将ARM马里基于瓷砖的GPU架构设计与台式PC或控制台中常见的更传统的即时模式GPU进行了比较。马里GPU使用基于平铺的渲染体系结构。这意味着GPU

2023-08-02 12:54:29

嵌入式技术的学习步骤

本节结合迅为的 iTOP-4412 开发板来介绍一下嵌入式技术的学习步骤。大家都知道，嵌入式技术的知识面非常广，学起来往往不知道如何下手，我们通过这一小节给大家阐述一下嵌入式技术应该从哪里开始学起

2021-12-27 07:45:48

时钟和IO口的配置步骤过程是怎样的？

2021-11-25 08:35:03

电子电路设计调试的步骤

`谁来阐述一下电子电路设计调试的步骤？`

2020-02-25 16:01:46

缺少VGlite字体渲染api文档，求分享

我试图使用 vglite api 在 MIMXRT1166/1176 上使用 verisilicon gpu 渲染图形，并且特别缺乏关于此的文档。我能够很好地初始化 GPU 并渲染矢量和光栅对象

2023-04-24 06:42:10

详细阐述接受数据和发送数据的过程

1，下面详细阐述接受数据和发送数据的过程目前根据芯片的寄存器容量，我们将接受到的数据按照ID的不同，进行了划分，基本上就是一个ID对应一个寄存器，这个寄存器能够存储该ID的所有的数据。这种寄存器和收

2021-12-21 07:07:23

详细阐述转速环参数的设计过程

记得很久以前写过一篇转速环PI参数整定的文章，但是实际效果却不太好，为此对这个遗留已久的问题，今天在这篇文章内详细阐述转速环参数的设计过程。由于也很长时间没有再碰自动控制原理这一块，因此文章将会

2021-09-06 09:09:04

请问M4内核可以使用STM32MP157 GPU吗？

我想用M4内核显示一些可以在GPU上渲染的动画和图像？

2023-01-31 08:09:26

请问TableLayout图片是用什么渲染的？

TableLayout图片是用什么渲染的，服务器返回的是网络图片String格式的。

2022-03-24 11:29:12

谈GPU的作用、原理及与CPU、DSP的区别

计算步骤和复杂数据依赖的计算任务，如分布式计算，数据压缩，人工智能，物理模拟，以及其他很多很多计算任务等。GPU由于历史原因，是为了视频游戏而产生的（至今其主要驱动力还是不断增长的视频游戏市场），在三

2015-11-04 10:04:53

基于GPU的水面实时渲染算法

提出基于可编程图像硬件实时生成真实水面的渲染方法，通过实现水面建模、水面折射和反射完成整个渲染过程。在正弦波叠加的同时，利用2个凹凸纹理实现水面的动画效果，通过

2009-04-14 08:40:47

基于几何剪切图和GPU的渲染地形新方法

大规模地形渲染技术一直是计算机图形学研究的热点问题之一。在总结现有算法的基础上，提出了一种基于现代GPU 和Geometry Clipmap 的地形渲染算法。应用了类似于几何剪切图的数据

2009-12-14 13:45:28

242.GPU是如何渲染游戏场景的呢？为什么AI及区块链需要GPU而非CPU呢

gpu

小凡发布于 2022-10-04 13:31:33

gpu工作原理介绍

gpu的众核架构非常适合把同样的指令流并行发送到众核上，采用不同的输入数据执行，gpu图形处理过程可以分成5个步骤，如下图箭头的部分。分别为 vertex shader、primitive

2016-10-15 12:27:00

13755

赛昉科技VisionFiv2上的GPU渲染测试，平均60帧每秒，非常丝滑

gpu渲染

xusiwei1236发布于 2023-12-24 21:23:11

使用OVR_multiview优化VR渲染器

”的重要部分在本文中，我将阐述如何使用OVR_multiview扩展减少渲染VR应用程序所需的CPU和GPU功耗。不使用OVR_multiview的渲染在标准的优化VR应用程序中，场景将在帧缓冲区对象(FBO)中进行两次渲染——一次渲染左眼图像，另一次渲染右眼图像。要进行渲染，应用程

2017-02-09 15:50:01

944

Dwarf Hall：PowerVR GPU上基于物理的渲染

基于物理的渲染(PBR)在移动类GPU中变得越来越盛行。在本文中，我将简要阐述PBR的概念和优缺点，并就如何使用PBR和延迟渲染在PowerVR GPU上运行提供相关建议。我还将展示如何在我们最新发

2017-02-10 04:56:06

308

什么是强制gpu渲染_强制渲染gpu有什么用

本文主要介绍了gpu的定义、gpu工作原理、gpu功能作用及手机的强制进行GPU渲染的详细解释，最后介绍了强制GPU渲染有的作用以及好处坏处是什么。

2018-01-05 17:13:42

7218

gpu渲染和cpu渲染有什么区别_GPU渲染有何优势？

GPU与CPU有何不同呢？两者之间的不同，体现在他们处理任务的不同方式上。CPU由专为串行任务而优化的几个核心组成，是由数以千计的更小、更高效的核心组成的大规模并行架构，这些核心专为同时处理多任务而设计。因此，在并行处理特定数据的时候，GPU比CPU高效很多。

2018-01-06 10:54:25

118428

手机要不要强制gpu渲染_强制gpu渲染能省电吗_长期开着强制gpu渲染影响及利弊分析

强制进行GPU渲染会充分利用手机的GPU，提高手机运行以及一些应用运行的流畅度，但是也是提高手机的功耗。因此我们在没有一些特殊需求（如：玩游戏、看电影等）的时候，建议还是谨慎选择，当然你可以保证电量充足也就无所谓了。

2018-01-08 09:54:15

53533

用实例深入阐述双端口分析和回归比分析

负反馈电路分析最常用的方法是双端口分析 (TPA) 和回归比分析 (RRA)，两者之间的不同之处及相似之处常令人困惑。本设计实例用大家熟悉的电路实例深入阐述这两种技术。

2018-01-26 16:01:16

5729

强制GPU渲染是一把双刃剑，有利有弊

而除影响续航外，强制GPU还有一个致命的弊端，那就是有一些较老的软件在强制GPU渲染下是无法正常运行的，会经常性的出现FC的情况，主要原因是过去程序的SDK版本多数不支持GPU加速，或者默认不开启GPU渲染，所以当你开启强制GPU渲染的时候就会出现问题。

2018-04-19 15:04:09

44508

GPU原理 GPU渲染流程

GPU渲染流水线，是硬件真正体现渲染概念的操作过程，也是最终将图元画到2D屏幕上的阶段。GPU管线涵盖了渲染流程的几何阶段和光栅化阶段，但对开发者而言，只有对顶点和片段着色器有可编程控制权，其他一律不可编程。

2018-04-27 11:33:00

9071

GPU和CPU有什么区别为什么只GPU可处理图形工作

GPU主要采用立方环境的材质贴图、硬体T&L、顶点混合、凹凸的映射贴图和纹理压缩、双重纹理四像素256 位的渲染引擎等重要技术。由于图形渲染任务具有高度的并行性，因此GPU可以仅仅通过增加并行处理单元和存储器控制单元便可有效的提高处理能力和存储器带宽。

2018-04-28 09:24:00

4826

GPU管线各个阶段知识点详细的分析理解

2018-04-28 16:28:26

5121

pcb布线的设计过程和步骤

布线是PCB设计中极为重要的一环，它将直接影响着PCB板的性能。在PCB设计过程中，不同到layout工程师对layout都有着自己的理解，但是所有的layout工程师在如何提高布线的效率上却是一致，这样不仅能够为客户节省项目的开发周期，还能够最大限度保证质量和成本。下面是一般的设计过程和步骤。

2018-06-10 08:31:00

5708

彰显黑科技奥义渲云XRENDER2018耀世而出支持GPU渲染

渲云是国内最快的云渲染公共服务平台，已成为AUTODESK唯一合法授权的云渲染平台及战略合作伙伴。渲云全面拥抱公有云，与阿里携手共筑云渲染蓝图，海量节点可动态拓展；自主研发的集群调度系统，可快速调动

2018-05-02 18:55:45

863

基于GPU下AGP显卡的渲染流程

首先根据下图粗略说明一下当前普遍流行的AGP（Accelerated Graphics Port，图形加速端口）显卡的渲染流程。

2018-05-07 10:43:00

1442

NVIDIA Quadro GPU推动渲染提速实现前所未有的速度和品质

Aixsponza能够以前所未有的速度渲染大型模型，主要得益于NVIDIA Quadro GP100 GPU的强大性能。

2018-08-09 17:54:19

4694

GPU渲染过程的几个阶段

GPU的渲染流水线的主要任务是完成3D模型到图像的渲染工作。常用的图形学API编程模型中的渲染过程被分为几个可以并行处理的阶段，分别由GPU中渲染流水线的不同单元进行处理。

2019-02-02 11:38:00

8219

渲云GPU渲染全面升级！Tesla P40上线专享非凡体验

三维设计师击掌同乐的消息:渲云GPU渲染服务(http://www.xrender.com)将全面配备NVIDIA Tesla P40,可部署提供更大的吞吐量。每个GPU可带来47TOPS(万亿次运算

2019-04-10 22:09:46

2155

SMT组件的返修过程与步骤介绍

就整个SMT组件的返修过程而言，可以将其分为拆焊、元器件整形、PCB焊盘清理、贴放元器件、焊接及清洗等几个步骤。

2019-11-04 11:42:44

5464

bnc接头制作步骤

本文主要阐述了bnc接头制作步骤。

2020-01-02 10:11:37

13889

dsp系统开发的步骤_dsp系统的一般设计过程

本文主要阐述了dsp系统开发的步骤与dsp系统的一般设计过程。

2020-04-08 15:25:02

19398

dsp系统的特点是什么_dsp系统硬件设计过程都有哪些步骤

本文主要阐述了dsp系统的特点及dsp系统硬件设计过程的步骤。

2020-04-09 09:01:26

6394

PCB组装过程中的步骤

PCB 组装是一个漫长的过程，涉及几个自动化和手动步骤。这些步骤中的每一个都必须通过最大程度地注意细节来正确执行。组装过程中任何步骤的微小错误都将导致最终组装失败。这篇文章旨在使您熟悉 PCB 组装

2020-11-17 18:56:10

6216

GPU的原理渲染流程详细说明

GPU 相关知识具有兴趣，不妨继续往下阅读哦。 GPU 渲染流水线，是硬件真正体现渲染概念的操作过程，也是最终将图元画到 2D 屏幕上的阶段。GPU 管线涵盖了渲染流程的几何阶段和光栅化阶段，但对开发者而言，只有对顶点和片段着色器有可编程控制权，其他一律不可编程。如

2020-12-25 07:24:00

GPU的原理和渲染流程详细说明

　GPU是每台电脑不可缺少的组件，缺少GPU，我们的笔记本将无法正常显示图像。即便我们每天都在运用GPU，但是大家真的了解GPU的原理吗？了解GPU渲染流程吗？如果你对GPU以及GPU相关知识具有兴趣，不妨继续往下阅读哦。

2020-11-28 10:39:47

7816

AMD与Pixelary合作,创造了3D渲染照片

今日 AMD 公布了一组由最新的 Radeon ProRender 2.0 渲染器渲染的梅赛德斯 F1 赛车的照片，展现了最新渲染器的效果。AMD 与设计公司 Pixelary 深入合作，为梅赛德斯 AMG F1 W11 EQ 创造了 3D 渲染照片。

2020-12-19 10:24:14

1511

CMOS图像传感器市场的深入阐述

在韦尔股份日前的一份报告中，他们对CMOS图像传感器进行了深入阐述，现在我们摘录如下：根据Yole Development 的研究报告，2016-2018年全球CMOS图像传感器市场规模分别为

2020-12-28 11:13:04

3255

全新高通骁龙888移动平台集成有史以来最强大的Adreno 660 GPU

Adreno GPU是骁龙移动游戏体验的核心。骁龙888集成的Adreno 660 GPU是迄今为止最强悍的Adreno GPU，图形渲染速度相比前代提高了35%，在图形渲染性能上实现了同比最大的飞跃。

2021-01-04 14:25:16

24781

深入大规模芯片设计全过程

介绍了navida公司设计图象处理芯片（GPU）的全过程，本站对文章中一些专业内容进行了修改和补充，让大家可以对大规模芯片设计的过程，以及FPGA在IC设计中的作用，有一个形象的了解。

2021-04-10 10:17:32

深入理解LED开发过程

不知道你是否想过，一个LED灯点亮过程的本质是什么。当你是一个小白的时候，点亮一个LED灯，IDE都会帮你做好所有的事情，你只需要点击一下编译即可。但是，当你成长到一定程度时，就需要好好想想，一个LED的点亮，其实是对单片机中背后原理机制真正的深入理解。今天我就带你，来深入理解一个LDE点亮的过程。

2021-12-22 19:08:21