Adreno GPU 矩阵乘法——第2部分：主机代码和内核函数

这是我们Adreno™工程师Vladislav Shimanskiy 撰写的Adreno GPU 矩阵乘法系列文章的第二部分，也是最后一个部分。上一个部分Vladislav Shimanskiy解释了Adreno 4xx和5xx GPU系列设备端矩阵乘法（MM）内核函数和主机端参考代码的优化实现相关概念。本文中，他将结合代码分析，详细介绍基于OpenCL的主机代码和内核函数的实现。

Vlad Shimanskiy是Qualcomm® GPU计算解决方案团队的高级工程师。

正如我上次在讨论问题“GPU矩阵乘法存在哪些困难？”时提到的，由于近来依赖于卷积的深度学习引起广泛关注，矩阵乘法（MM）运算也在GPU上变得流行起来。像Adreno GPU这样的并行计算处理器是加速此类运算的理想选择。然而，MM算法需要在各个计算工作项之间共享大量数据。因此，优化Adreno的MM算法需要我们利用GPU内存子系统。

在OpenCL中实现

前面已经给大家介绍了常用的四种优化技术，这里，我们进一步介绍在OpenCL中实现这些优化技术的主机参考代码和内核函数，这些参考代码和内核函数你将可以直接应用到你自己的代码中。

主机代码

首先，我们运行防止内存复制的主机代码。如前文所述，一个矩阵通过TP/L1加载，另一个矩阵通过常规全局内存访问路径加载。

两个输入矩阵中的一个矩阵用图像表示方法进行表示，即示例代码中的矩阵B，通过图像对矩阵进行抽象，并利用图像读取原函数访问，如第一部分中的图3所示。对于其他矩阵，都使用全局内存缓冲区进行存储和访问。这也是为什么为矩阵A和矩阵B应用不同的内存分配方式的原因。而在矩阵C的访问和表示中，因为只需要往矩阵C是写入数据，并且每个矩阵元素只需要写一次，到C的流量非常低，所以矩阵C将始终通过直接路径访问。

矩阵A和C的内存分配

下面例程显示了如何分配可以通过直接路径访问的矩阵A和C，这一点相对简单：

cl::Buffer * buf_ptr = new cl::Buffer(*ctx_ptr, CL_MEM_READ_WRITE | CL_MEM_ALLOC_HOST_PTR, na * ma * sizeof(T));

T * host_ptr = static_cast (queue_ptr->enqueueMapBuffer( *buf_ptr, CL_TRUE, CL_MAP_WRITE, 0, na * ma * sizeof(T)));

lda = na;

图4通过L2缓存加载的矩阵的内存分配（A和C）

根据前面介绍，为矩阵A和C分配内存中，我们是想得到一个可以被CPU运算访问的主机指针（CPU指针），并且希望可以通过该指针对CPU上的缓冲区进行写入和读取操作。因此，上述代码的第1行中调用OpenCL的Buffer函数实现了内存分配，并得到了指向CL缓冲区的指针。

· 该驱动程序分配一个缓冲区。

· CL_MEM_ALLOC_HOST_PTR宏表示该内存可以被主机访问。

· 通过na和ma我们可以指定矩阵的水平和垂直维度。

注意，这里的内存不能使用malloc()函数在主机CPU上分配；必须在GPU空间中进行分配，并在CPU代码可以写入之前，将分配得到的内存显式映射到具有CL API映射函数的CPU地址空间。

在调用buffer函数完成了缓冲区内存分配之后，我们必须得到host_ptr指针，在CPU上通过该指针可以访问分配的矩阵内存。

为了得到host_ptr指针，在图4所示代码的第2行中，我们调用了OpenCL API中的enqueueMapBuffer，使用第1行代码中得到的缓冲区指针buf_ptr来获得host_ptr指针。enqueueMapBuffer函数返的host_ptr指针是一个T类型的指针（示例中T是浮点数），使用host_ptr指针可以在CPU上对分配得到的矩阵缓存区内存进行读写。如果我们已经分配了矩阵A，这就是我们用来传递该矩阵的指针。

接着我们看到图4中代码的第3行，这里通过lda 确定矩阵每行使用的内存量，以类型T为单位。因此，如果我们在程序中分配一个100×100矩阵，则lda将为100个T类型长度的内存空间。（注意，lda不一定等于矩阵的水平维度；在某些情况下，lda可能与之不同）。

这里，我们在主机端将lda、ldb和ldc提交给内核，以指定矩阵A、B和C的行距。

矩阵B的内存分配（图像）

接下来我们来了解矩阵B是如何分配的，矩阵B的分配比前面介绍的矩阵A和C的分配更复杂，因为在矩阵B的分配中我们使用了2D图像。

图像比缓冲区限制更加严格。它们通常拥有4个颜色通道（RGBA），并且在内存中为图像分配内存空间的时候必须保证适当的对齐。这里，我们先假定一个图像，并且图像的每个颜色分量是一个浮点数。如果我们从矩阵的角度来观察图像，我们希望平展颜色分量。如上所述，为提高效率，我们通过一个包括4个float类型数据的向量运算来读取矩阵，将元素按每4个float类型打包到图像像素中。因此，我们在计算过程中必须将矩阵的水平大小除以4，这样我们表示的才是图像的像素数量，具体实现代码如下图5所示：

cl::Image * img_ptr = new cl::Image2D(*ctx_ptr, CL_MEM_READ_WRITE | CL_MEM_ALLOC_HOST_PTR, cl::ImageFormat(CL_RGBA, CL_FLOAT), na/4, ma, 0);

cl::size_t<3> origin;

cl::size_t<3> region;

origin[0] = 0; origin[1] = 0; origin[2] = 0;

region[0] = na/4; region[1] = ma; region[2] = 1;

size_t row_pitch;

size_t slice_pitch;

T * host_ptr = static_cast (queue_ptr->enqueueMapImage( *img_ptr, CL_TRUE, CL_MAP_WRITE, origin, region, &row_pitch, &slice_pitch));

ldb = row_pitch / sizeof(T);

图5：通过纹理管道（texture pipe） (B)加载的float32矩阵进行内存分配

上述代码中，第1行通过调用OpenCL中的Image2D函数来分配内存，与A和C的内存分配一样，使用了CL_MEM_ALLOC_HOST_PTR宏来指定分配的内存可以从主机端访问。

分配得到图像可以从主机端访问的图像内存后，接着看第8行，通过enqueueMapImage返回可以在CPU端使用的指针host_ptr（和前面矩阵A和C使用的enqueueMapBuffer类似），并确保我们在GPU内存中分配的图像区域对于CPU可见。在CPU端可以通过host_ptr访问到该图像数据。

从CPU调用内核函数

前面已经介绍了如何分配内存，接下来介绍如何从CPU调用内核函数，该操作包括三个步骤：

· 从CPU中取消映射，使矩阵A和B针对GPU更新。

· 运行内核函数。

· 重新映射，使得矩阵C中的结果对于CPU可见。

这个过程中我们还必须将A和B的内存映射回CPU，以便CPU可以更改这些矩阵；但是，这些更改不能同时被GPU和CPU获取，需要一个同步的过程。在下面的列表中，我们利用了Snapdragon处理器上的共享虚拟内存（SVM）方法来实现内核函数运行周期和内存同步：

// update GPU mapped memory with changes made by CPU

queue_ptr->enqueueUnmapMemObject(*Abuf_ptr, (void *)Ahost_ptr);

queue_ptr->enqueueUnmapMemObject(*Bimg_ptr, (void *)Bhost_ptr);

queue_ptr->enqueueUnmapMemObject(*Cbuf_ptr, (void *)Chost_ptr);

// run kernel

err = queue_ptr->enqueueNDRangeKernel(*sgemm_kernel_ptr, cl::NullRange, global, local, NULL, &mem_event);

mem_event.wait();

// update buffer for CPU reads and following writes

queue_ptr->enqueueMapBuffer( *Cbuf_ptr, CL_TRUE, CL_MAP_READ | CL_MAP_WRITE, 0, m_aligned * n_aligned * sizeof(float));

// prepare mapped buffers for updates on CPU

queue_ptr->enqueueMapBuffer( *Abuf_ptr, CL_TRUE, CL_MAP_WRITE, 0, k_aligned * m_aligned * sizeof(float));

// prepare B image for updates on CPU

cl::size_t<3> origin;

cl::size_t<3> region;

origin[0] = 0; origin[1] = 0; origin[2] = 0;

region[0] = n_aligned/4; region[1] = k_aligned; region[2] = 1;

size_t row_pitch;

size_t slice_pitch;

queue_ptr->enqueueMapImage( *Bimg_ptr, CL_TRUE, CL_MAP_WRITE, origin, region, &row_pitch, &slice_pitch);

图6：内核函数运行周期和内存同步过程

上述代码实现分为两个部分，其中第一部分是使用enqueueUnmapMemObject函数调用取消映射过程。需要传递对CPU端矩阵做出的所有改变，使其对于GPU可见，供乘法使用。这是一个缓存一致性事件：我们分配了矩阵A和B，在CPU端传播，然后使它们对GPU可见，而不是复制内存。

完成了第一部分的处理，到了第二部分，GPU现在可以看到分配的矩阵了，并且可以使用。enqueueNDRangeKernel运行将对矩阵进行运算的内核函数。（经验丰富的OpenCL程序员知道如何设置内核函数的参数，为简洁起见，在此予以省略）。

第二部分的其余部分大同小异，不过与第一部分相反。内核函数将矩阵乘以矩阵C，因此现在我们需要使矩阵C对CPU可见。MM运算经常重复，因此我们将A和B内存映射回CPU，为下一个运算周期做好准备。在下一次迭代时，CPU能够为A和B分配新值。

运行在GPU上的内核函数代码

前面已经知道了如何进行内存分配和内核函数的调用，为了进一步了解整个MM运算的性能，我们来分析运行在GPU上的MM运算内核函数代码，这部分代码说明了拥有float 32格式元素的MM运算的本质。它是BLAS库中SGEMM运算的简化版本，C = αAB + βC，（为简洁起见）其中，α= 1和β= 0。

__kernel void sgemm_mult_only(

__global const float *A,

const int lda,

__global float *C,

const int ldc,

const int m,

const int n,

const int k,

__read_only image2d_t Bi)

{

int gx = get_global_id(0);

int gy = get_global_id(1);

if (((gx << 2) < n) && ((gy << 3) < m))

{

float4 a[8];

float4 b[4];

float4 c[8];

for (int i = 0; i < 8; i++)

{

c[i] = 0.0f;

}

int A_y_off = (gy << 3) * lda;

for (int pos = 0; pos < k; pos += 4)

{

#pragma unroll

for (int i = 0; i < 4; i++)

{

b[i] = read_imagef(Bi, (int2)(gx, pos + i));

}

int A_off = A_y_off + pos;

#pragma unroll

for (int i = 0; i < 8; i++)

{

a[i] = vload4(0, A + A_off);

A_off += lda;

}

#pragma unroll

for (int i = 0; i < 8; i++)

{

c[i] += a[i].x * b[0] + a[i].y * b[1] + a[i].z * b[2] + a[i].w * b[3];

}

#pragma unroll

for (int i = 0; i < 8; i++)

{

int C_offs = ((gy << 3) + i) * ldc + (gx << 2);

vstore4(c[i], 0, C + C_offs);

}

图7：实现C = A * B矩阵运算的内核函数示例

一般而言，我们会展开固定大小的循环，然后将从矩阵A中读取图像和数据的操作进行分组。具体过程如下：

· 开始时，我们设置了一些限制，确保在处理矩阵时不致严重限制其维度，因此可以部分占用工作组。每个工作组水平和垂直地覆盖一定数量的micro-tile，但是视乎不同的矩阵维度，我们可能面临这样的情况，即macro-tile中的micro-tile仅部分被矩阵占用。因此，我们要跳过macro-tile未占用部分中的任何运算；这就是这个条件的作用。矩阵维度仍然必须是4x8的倍数。

· 然后，通过代码将矩阵C的元素初始化为零。

· 最外层的for循环遍历pos参数，并包含三个子循环：

· 第一个子循环中，我们通过拥有read_imagef函数的TP/L1读取矩阵B的元素。

· 第二个子循环包含直接从L2读取的矩阵A的元素值。

· 第三个子循环计算部分点积。

· 注意，为提高效率，所有加载/存储和ALU操作均使用由4个float元素构成的向量。

通过上述代码分析，整个内核函数可能看起来比较简单，但实际上它是一个经过高度优化、均衡的运算和数据大小组合。在使用的过程中南建议使用-cl-fast-relaxed-math标记编译内核函数。

工作组大小

根据上述分析，macro-tile是由多个4×8 micro-tile组成。水平和垂直维度中micro-tile确切数量由2-D工作组大小确定。通常，最好使用较大的工作组，避免GPU计算单元利用不足。我们可以使用OpenCL API函数getWorkGroupInfo查询最大工作组大小。但是，上边界为工作组中工作项的总数。因此，我们仍然可以在总的大小的限制下，自由选择实际的维度组成。以下是查找正确大小的一般方法：

· 最小化部分占用工作组的数量。

· 基于不同大小的矩阵开发启发式算法，并在运行时使用。

· 使用为特殊情况量身定制的内核函数；例如，在矩阵维度特别小的时候。

· 如果GPU卸载开销成为瓶颈，就在CPU上完成小型MM运算。

开始行动

如本文中所示，MM是一项瓶颈运算，因此，您需要在OpenCL代码中利用上述高性能技术。这是一种加速使用Adreno GPU上内存子系统的深度学习应用的有效方法。

更多Qualcomm开发内容请详见：Qualcomm开发者社区。

阅读全文

Qualcomm(51674) Qualcomm(51674)

使用CUDA并行化矩阵乘法加速Blender Python

　　这篇文章描述了两种不同的加速矩阵乘法的方法。第一种方法使用 Numba 编译器来减少 Python 代码中与循环相关的开销。第二种方法使用 CUDA 并行化矩阵乘法。速度比较证明了 CUDA 在加速矩阵乘法方面的有效性。

2022-04-24 17:04:51

4950

8.5部分实例

2015-03-12 17:44:47

Droppin'Traces：easyEDA的第1部分

一些良好的干净的怪异乐趣。对于那些使用过不同EDA工具的人，我希望easyEDA.com的一瞥至少是有趣的，如果不是鼓励，如果你想尝试不同的东西。在本系列的第2部分中，我将分享我对KiCad的经历

2018-11-01 15:54:02

FLUENT算例 —— Vertical Axis Wind Turbine (Part 1) 垂直轴风力机（第1部分）精选资料推荐

Wind Turbine (Part 1) 垂直轴风力机（第1部分）以ANSYS 17.0为例。该算例分为两个部分，第一部分将采用运动参考系（Moving Frame of Reference（MRF...

2021-07-12 06:38:54

GB 7000.1-2015 灯具第1部分：一般要求与试验

本帖最后由飞儿朵朵2012 于 2016-11-3 22:20 编辑 GB 7000.1-2015 灯具第1部分：一般要求与试验

2016-09-18 22:02:20

GBT 20234.2-2015 电动汽车传导充电用连接装置第2部分交流充电接口

2018-03-22 08:02:30

IEC 62305-1（雷电防护第1部分总则）

IEC 62305-1（雷电防护第1部分总则）前言3简介31. 范围和目标.42. 规范性参考文件.43. 术语和定义.44. 雷击电流参数... 95. 雷电的损害... 95.1 对建筑物

2011-01-22 17:03:54

MCC和引导加载程序代码，代码的一部分是指另一张图片

看到，它可能是生成的一部分。ED代码是指另一个PICIT是已知的bug？MPLABX iDEV3.30MCC V3.0PIC18F25K22MPASM 5.58现在感谢来自Italycarlo的LosioAO

2019-08-16 10:24:37

ORCAD同一个分裂的元器件，经过annotate之后，一部分的位号是U1，另一部分的位号为U2了，请问是什么问题，谢谢！

2016-11-23 17:47:31

PADSlogic电子档第2部分

PADSlogic电子档第2部分有需要的可以下载

2013-09-21 18:00:38

Protel99se 安装好了，一部分ddb文件能打开一部分pcb格式打不开

Protel99se 安装好了，一部分ddb文件能打开，一部分pcb格式打不开，该怎么办

2011-12-21 20:14:15

Qualcomm Adreno SDK概述

初识Qualcomm Adreno SDK概述Adreno 是著名的Qualcomm Snapdragon SoC中的GPU计算单元。Qualcomm公司也为Adreno GPU硬件提供了单独

2018-09-20 10:19:30

TCL93219421部分9621部分TDA3505TEA1014原理图相关资料推荐

TCL 9321/9421部分/9621部分（TDA3505/TEA1014）原理图文件下载

2021-06-25 08:32:05

TensorFlow指定CPU和GPU设备操作详解

，如果系统有 3 个 GPU 设备，那么第一组乘法将由'/：gpu：1'执行，第二组乘以'/gpu：2'执行。解读分析函数 tf.device() 选择设备（CPU 或 GPU）。with 块确保设备

2020-07-28 14:33:28

YY 0505-2012 医用电气设备第1-2部分安全通用要求并列标准电磁兼容要求和试验

YY 0505-2012 医用电气设备第1-2部分安全通用要求并列标准电磁兼容要求和试验（见附件）

2015-06-03 12:49:54

Zynq UltraScale + MPSoC Ubuntu第2部分 - 从源代码构建和运行Ubuntu桌面

™-R5实时处理单元（RPU）和ARM®Mali™-400 MP2图形处理单元（GPU）。它是业界首款多处理器SoC，可提供5倍系统级性能 - 每瓦特和任意对任意连接。本技术提示涵盖了针对ZCU102板

2019-01-03 09:43:31

matlab 矩阵运算

matlab 矩阵运算矩阵运算MATLAB对矩阵的运算包括算术运算，关系运算和逻辑运算。算术矩阵运算矩阵的基本算术运算（当然标量是矩阵的特殊情况）有：+ 加法- 减法* 乘法/ 右除\ 左除^ 取幂

2009-09-22 15:32:42

multisim10.0中的仪器少了一部分

multisim中的仪器少了一部分求助啊卸载了几次了

2013-10-31 00:33:18

ucos2源码分析朱有鹏

ucos2源码分析朱有鹏-内核部分-第4季第3部分视频课程互联网课程品牌《朱老...

2021-07-20 07:39:57

《RT-Thread 内核实现与应用开发实战指南》免费下载

`本书第一部分以RT-Thread Nano 3.0.3官方源码为蓝本，抽丝剥茧，不断迭代，教你怎么从0开始把RT-Thread内核写出来。书中涉及到的数据类型，变量名称、函数名称，文件名称，文件

2018-07-17 15:55:00

【下载】《工程与科学数值方法的MATLAB实现（第2版）》

`内容简介《国外计算机科学经典教材：工程与科学数值方法的MATLAB实现（第2版）》共分6大部分。第1部分介绍数值方法的背景知识、MATLAB的软件环境和编程模式，后5部分集中介绍数值方法的主要

2017-08-28 17:27:50

【安富莱——DSP教程】第20章 MatrixFunctions的使用（二）

第20章MatrixFunctions的使用（二）本期教程主要讲解矩阵运算中的放缩，乘法和转置。 20.1 矩阵放缩MatScale 20.2 矩阵乘法MatMult 20.3 转置矩阵MatTrans 20.4 总结

2015-06-22 11:47:17

主要讲解矩阵运算中的放缩，乘法和转置

第22章 DSP矩阵运算-放缩，乘法和转置矩阵本期教程主要讲解矩阵运算中的放缩，乘法和转置。目录第22章 DSP矩阵运算-放缩，乘法和转置矩阵22.1 初学者重要提示22.2 DSP基础运算指令

2021-08-11 08:41:19

使用高速转换器时，有哪些重要的PCB布局布线规则？(第3部分）

使用高速转换器时，有哪些重要的PCB布局布线规则？第一部分讨论了为什么AGND和DGND接地层未必一定分离，除非设计的具体情况要求您必须这么做。第二部分讨论了输电系统(PDS)，以及电源层和接地

2018-10-30 14:56:34

使用高速转换器时，有哪些重要的PCB布局布线规则？（第2部分）

使用高速转换器时，有哪些重要的PCB布局布线规则？（第2部分）本RAQ的第一部分讨论了为什么AGND和DGND接地层未必一定分离，除非设计的具体情况要求您必须这么做。第二部分讨论印刷电路板(PCB

2018-10-30 14:57:01

保护您的 IP 内核——第一部分软 IP，第一节：HDL 代码的加密

保护您的 IP 内核——第一部分软 IP，第一节：HDL 代码的加密 IEEE Std 1735 2014 IEEE IP HDL 源代码保护加密和管理推荐实践 IEEE Std 1735

2022-02-23 12:27:05

保护您的 IP 核——第一部分软 IP——前言

核 – 第 I 部分软 IP，第五部分：远程激活保护您的 IP 内核 – 第 I 部分软 IP，第 6 节：物理不可克隆函数 (PUF)保护您的 IP 核 – 第 I 部分软 IP，第 7 节：密钥

2022-02-23 11:59:45

医用电气设备第1部分：安全通用要求

GB 9706.1-2007 医用电气设备第1部分：安全通用要求

2014-12-23 16:12:22

在RK3399上运行开源的GPU驱动

，基本就没法使用 GPU 加速了，这也是为什么我们目前看到的大部分开发板如果搭载了 mainline 内核，基本都不会有 GPU 加速功能，或者直接就不开图形显示功能。但是也有一部分黑客们不满于这种

2022-10-20 17:44:37

在RK3399开发板上运行Arm mali GPU驱动

是为什么我们目前看到的大部分开发板如果搭载了 mainline 内核，基本都不会有 GPU 加速功能，或者直接就不开图形显示功能。但是也有一部分黑客们不满于这种封锁，他们勇于探索，积极尝试，逆向了

2022-07-27 15:43:16

在STM32中执行中断主要分三部分

在STM32中执行中断主要分三部分：1.配置NVIC_Config()函数2.配置EXTI_Config()函数3.编写中断服务函数（注：本文章所用代码为中断按键代码，实现了按键进入中断从而控制

2021-08-13 08:10:37

在STM32中执行中断主要分三部分

2021-08-20 07:53:57

如何使用M4 DSP来计算矩阵函数

代码使用CMSIS DSP库来计算矩阵函数,包括: 矩阵矩阵加矩阵减法乘法矩阵矩阵反向矩阵矩阵缩缩矩阵矩阵转换用户可以使用这些函数来实施数学方程式。样本代码比较了使用 DSP 计算时间

2023-08-22 07:22:43

如何使用M4 DSP来计算矩阵函数

2023-08-29 06:11:53

如何使用arm内核库的矩阵计算函数

，要求逆还得编一个，求行列式还得编，而且自己写的函数代码效率低，本来要跑在单片机上的算法，就难达到计算速度。这篇教程将教会你如何使用arm内核库的矩阵计算函数，让你降低代码编写难度还能提高运算效率。笔者所知，目前ARM M4内核自带DSP库。

2021-07-16 06:56:52

如何找到我的代码的一部分多长时间完成PSoC 5LP上的执行？

有没有办法找到我的代码的一部分多长时间完成PSoC 5LP上的执行？谢谢你

2019-10-28 07:03:08

如何计算ARM内核矩阵？

2021-11-05 08:31:01

小编科普一种适用于Linux系统的Arm编译器

的 Arm Compiler 的一部分提供。BLAS 性能改进自上一个版本以来，我们一直在继续改进 BLAS（基本线性代数子程序）函数的实现，特别关注改进我们处理小问题的方式。我们注意到解决许多小问题对于许多

2022-07-18 16:33:52

工业驱动控制架构：第2部分

。很多正在被开发的驱动系统保持了与FPGA组合在一起的C语言可编程微控制器或微处理器。这个处理器的C代码生成和调试开发环境被人所熟知，并且是必须的。现在，将一个FPGA引入到这个系统需要额外的开发流程

2018-08-31 15:06:33

布局电源板以最大限度地降低EMI：第1部分

2019-09-05 15:36:07

布局电源板以最大限度地降低EMI：第2部分

2019-09-06 08:49:33

带通滤波电路只能看懂一小部分，求教分析指点

问题：1.第1部分看懂一点，第2部分完全不知道要干什么，第3部分那样处理也不知道是要做什么。2.这个电路要实现的功能是一个从几十到几百赫兹的带通滤波。3.已经用Multisim仿真过，得到的结果是

2018-07-26 10:00:39

建筑混合测试系统的第1部分

构建混合测试系统第1部分：为成功过渡奠定基础

2019-11-06 09:36:06

微功率降压/升压电路第2部分：将四节电池转换为5V

DN110- 微功率降压/升压电路，第2部分：将四节电池转换为5V *

2019-06-11 16:31:41

怎么读labview二进制文件的一部分

2014-04-22 09:59:53

手机GPU大全

高通（Qualcomm）不只是一家在移动SoC芯片和3G通信技术上造诣颇深的公司，而且是一家拥有移动GPU自主设计能力和生产能力的公司。移动GPU是SoC芯片的一部分，与ARM架构的通用处理器（CPU）一起构成SoC芯片体现应用性能的两个重要部分。·······

2011-08-09 10:52:23

探究宽带GSPS ADC中的DDC（第1部分）

。图1.抽取系数为8时，每8个样本仅选择第8个样本，抛弃7个样本。你们猜猜第二个问题是什么？在第2部分中，我们将看看其他常见问题之一，敬请期待。

2018-10-26 11:16:21

每周分享之第一周：STM32部分知识共享

STM32部分知识共享：

2015-08-10 13:43:15

电源设计#6 高频谐振转换器设计注意事项，第2部分

第一部分重点介绍了影响谐振转换器设计的关键寄生参数，以及元件选择标准和变压器设计。本部分重点介绍谐振转换器同步整流器（SR）的设计注意事项。谐振转换器中的工作状态可能比脉宽调制转换器中的工作状态复杂

2020-08-02 10:34:49

硬件乘法器的相关资料分享

乘法器大大提高了 MSP430 单片机的数据处理能力，其支持的运算如下：硬件乘法器是外围设备，不是MSP430 CPU的一部分。这意味着，它的活动不会干扰CPU活动。乘法器寄存器是通过CPU指令加载和读取的外围寄存器。如果一个中断发生在写入OP1之后，而在写入OP2之前，使用乘法器对该中断进行..

2021-12-09 07:05:15

第二部分基础篇 - 第3章按键

的。图 3-2 NVIC 在内核中的位置 NVIC 结构体成员当我们要使用 NVIC 来配置中断时，自然想到 ST 库肯定也已经把它封装成库函数了。查找库帮助文档，发现在 Modules->

2018-05-03 13:26:32

第二部分基础篇 - 第2章 Systick系统定时器

库函数。分析底层库函数，要有 SysTick 定时器工作分析的知识准备。  检查输入参数 SysTick_Confi g() 第 3 行代码是检查输入参数 ticks，因为 ticks 是脉冲计

2018-04-28 13:12:28

视频教程-STM32标准库的引入视频课程-第3季第6部分-单片机/工控精选资料分享

STM32标准库的引入视频课程-第3季第6部分互联网课程品牌《朱老师物联网...

2021-08-03 06:31:06

讲解矩阵运算中的放缩，乘法和转置

2021-08-11 06:05:03

请问C6748的DSPLIB中有double型矩阵乘法函数吗？

我用的板子是6748，想对矩阵乘法进行优化，但发现674X 各个版本的DSPLIB里函数没有dp的。是因为TI公司还没有开发相应的函数吗？还是因为我没有找到呢？期待回复，谢谢！

2018-07-25 07:56:57

请问CC2650开发主机端发送数据包，从机代码部分需要添加哪些函数？

请问在主机烧录了simpleBLECentral,从机烧录了 simpleBLEPeripheral。1.主机端发送数据包，从机代码部分需要添加哪些函数？还是不用添加，只要连接就可以直接发送，对方就能收到？2 另外，传输数据包只能要 notify和indicate的方式吗？谢谢！

2019-11-06 06:13:02

请问LAbview2012能截取图片中的一部分的控件在哪？

LAbview2012能截取图片中的一部分的控件在哪？？

2019-04-02 20:55:30

请问Mali GPU的并行化计算模型是怎样构建的？

Mali T604 GPU的结构是由哪些部分组成的？Mali T604 GPU的编程特性有哪些？Mali GPU的并行化计算模型是怎样构建的？基于Mali-T604 GPU的快速浮点矩阵乘法并行化该如何去实现？

2021-04-19 08:06:26

请问STM32部分重映射和完全重映射的区别是什么？

2022-02-21 06:42:07

请问dump.vcd波形为什莫有一部分没有生成显示出来？

我做.sv矩阵乘法的时候，生成dump.vcd观察波形，输入是a,b输出是c，dump部分代码写的都一样，但是不知道为什么vcd波形里只有a和b没有c

2022-08-04 16:11:47

请问nice协处理器可以处理矩阵的乘法吗？

请问nice接口可以运算矩阵的乘法吗，例程中给了加法的运算，但是过程我没太看明白，特别是fun3和fun7的定义，还有寄存器的使用，比如例程中： __STATIC_FORCEINLINE

2023-08-16 08:00:42

运放传递函数推导和零极点分析（TI运放稳定性合集第10部分）

[tr=transparent]如下图，是TI运放稳定性合集（第10部分）关于双反馈电路补偿（图中FB#1改成FB#2），最后两个图是关于FB#2反馈路径传递函数和零极点的推导，求解，图中画红线

2018-02-28 16:12:33

运算放大器稳定性分析（TI合集）第5部分 beta计算问题

在学习运算放大器稳定性分析（TI合集）第5部分的时候，计算beta是有点疑惑，为什么beta = VFB / delta VOA ?而不是beta = VFB / VOA?

2022-04-01 10:21:51

通过库函数方式进行学习相关软件

8　　第1部分：产品系列名，固定为STM32　　第2部分：产品类型；F表示这是Flash产品，目前没有其它选项　　第3部分：产品子系列；103表示增强型产品，101表示基本型...

2021-08-20 08:13:45

高密度DC/DC转换器的PCB布局第二部分

无数个小时为EMI、噪声、信号完整性以及与较差布局相关的其它问题进行调试，这会让设计人员感到非常高兴。其它资源：在EDN上阅读《DC/DC转换器PCB布局》的第1部分、第2部分和第3部分。观看

2018-09-05 15:24:34

高频谐振转换器设计注意事项，第2部分

2022-05-25 10:16:54

Linux内核源代码

Linux内核源代码本章讲述在L i n u x内核源码中，应该从何处开始查找特定的内核函数。本书并不要求读者具有C语言编程能力，也不要求读者有一份可参阅的L i n u x

2010-02-09 15:24:49

嵌入式LINUX内核网络栈(源代码)

本文选择 LINUX-1.2.13 内核所包含的网络部分代码分析（注意网络部分代码与内核代码的演变是分离的，如LINUX1.2.8 网络代码与1.2.13 是一样的，而内核显然是有差的）。LINUX-1.2.13 网络部分

2011-05-12 10:39:46

Qualcomm宣布Adreno 530 GPU支持Vulkan API

Qualcomm Incorporated （NASDAQ： QCOM）今日宣布，其子公司Qualcomm Technologies， Inc.在集成于高通骁龙™ 820处理器的Qualcomm® Adreno™ 530 GPU上，实现了对Khronos™最新图形和计算API——Vulkan™的支持。

2016-02-19 11:24:31

5800

乘法口诀源代码

乘法口诀源代码分享，有需要的朋友下来看看

2016-05-20 16:29:55

矩阵主机培训资料

2017-01-04 14:42:38

Adreno GPU 矩阵乘法——第1讲：OpenCL优化

文章中的概念和下一篇文章中的OpenCL代码清单，表示Adreno 4xx和5xx GPU系列设备端矩阵乘法内核函数和主机端参考代码的优化实现。我们希望本系列文章将帮助和鼓励您使用这些想法和代码示例写出

2018-09-18 19:15:08

1553

使用英特尔ComposerXE 2015在C++中进行矩阵乘法

矩阵乘法：使用英特尔®数学核心函数库和C++测试英特尔®ComposerXE 2015

2018-11-12 06:42:00

2657

如何使用英特尔SDK for OpenCL调试工具调试OpenCL主机和内核代码

了解如何使用英特尔®SDKfor OpenCL™调试工具来调试OpenCL™主机和内核代码

2018-11-08 06:33:03

5763

使用英特尔数学核心函数库优化三重嵌套循环矩阵乘法

我们使用英特尔®数学核心函数库（MKL）在Linux *上优化了三重嵌套循环矩阵乘法的版本。

2018-11-07 06:04:00

3313

OpenCL应用程序的主机代码和内核元素

用于异构计算的OpenCL标准为实现OpenCL标准的所有计算设备定义了基本编程模型。该视频介绍了OpenCL应用程序的主机代码和内核元素。这些映射......

2018-11-30 06:17:00

1950

Adreno GPU助力电子设备可享受最佳的移动游戏体验

近日，小米10、小米10 Pro和Redmi K30 Pro推出了Adreno GPU驱动更新功能，用户可以像更新应用程序一样简单便捷地更新Adreno GPU驱动。

2020-04-30 11:25:24

2913

谷歌披露存高通骁龙Adreno GPU的高危漏洞

代码细节可以访问谷歌提供的列表。根据博文描述，Adreno GPU 驱动程序为每个内核图形支持层（KGSL）描述符链接了一个私有设备结构，而描述符包含上下文切换所需的页表。此结构与 process ID （PID）相关联，但同一流程中可以被其他 KGSL 描述符重用，可能会提高性能。当调用进

2020-12-16 11:50:38

1114