基于CUDA技术的视频显示系统设计方案-电子发烧友网

NVIDIA 推出的CUDA（计算统一设备架构）是基于GPU 进行通用计算的开发平台，非常适合大规模的并行数据计算。在GPU 流处理器架构下用CUDA 技术实现编码并行化，并针对流处理器架构特点进行内存读写等方面的优化。

本文在此采用CUDA技术，实现了计算机桌面环境的多屏幕融合显示的纯软件拼接系统。该系统不但较以往单一的视频拼接系统功能更加强大，也较采用分屏器等硬件辅助的融合系统成本更低，适应性更强。目前实验表明，CUDA 技术在并行处理方面的优越性使得该系统画面实时处理快，互动展示性好，具有很大的商业使用前景。

0 引言

近年来随着大屏幕显示技术在各领域应用的逐步深入，市场已经不满足单一的影片展示，更多的转向了对互动性更强的计算机桌面环境的融合显示上来。而目前市场上主流的桌面融合系统，多采用分屏器等硬件辅助设备，成本高，性能差。

统一计算架构（Compute Unified Device Architect-ure,CUDA）是英伟达（NVIDIA）公司近年来推出的通用并行计算架构，它以高性能显卡GPU为硬件依托，采用CPU+GPU的混合计算极大的提高了大规模的图形数据实时处理效率。本文设计的视频显示系统，采用CUDA开发方式实现了计算机桌面图片的分割计算、贝塞尔曲线拟合、以及融合图像计算等三方面处理。实时性高，画面数据计算理论上精确值1 4 像素，精度好。

1 系统框架设计

图像处理的本质是大规模矩阵运算，特别适合并行处理。但CPU 通用计算很难利用该特性。与此相反，GPU 在并行数据运算上具有强大的计算能力，特别适合作运算符相同而运算数据不同的运算，当执行具有高运算密度的多数据元素时，内存访问的延迟可以被忽略。CUDA 编程模型将CPU 作为主机（Host ），GPU作为协处理器（Coprocessor）或设备（Device），一个系统中可以存在多个设备。在这个模型中，CPU 与GPU共同工作，CPU 负责逻辑性强的事务处理和串行计算，GPU 则专注于执行高度线程化的并行处理任务。

本系统以NVIDIA GeForce GTX470 搭建的计算平台为运行环境，利用显卡的多头输出特性，连接多台投影仪组成拼接屏幕阵列，不需要额外增加其他硬件设备。由于桌面融合显示系统要处理的图像数据大、实时性高的特点，所以本系统的软件设计上则广泛使用了多CPU并行编程技术和CUDA并行计算技术，针对每一个投影设备的图像处理和显示，系统会分配一个专门的线程来处理。该线程会对应固定的CPU和固定的GPU计算核心，保证多投影设备完全并行处理，从而避免了其他系统由于显示设备增多，处理数据变大而造成的性能下降。CUDA架构如图1所示。

本系统在设计中，首先设置定时器。定期采集控制屏幕图像信息保存到公共存储空间，然后针对外设显示设备个数动态的开启数个线程完成图像的数据分割、图像的数据融合以及图像的显示等工作。其中在线程开启初始就与固定的GPU 计算核心相关联，并把数据图形分割和融合部分采用CUDA技术进行实现，最后同样采用定时器技术同步各个线程中图像数据显示工作。

通常采用贝塞尔曲线拟合方法来完成图像数据的融合。该方法的一般做法是先由控制点得出目标图像每行的贝塞尔曲线，组成二维贝塞尔曲面，再将目标图像数据采用贴纹理的方法拟合到贝塞尔曲线上从而实现图像变形。Bezier 曲线是法国雷诺汽车公司Bezier 提出的一种用控制多边形定义曲线和曲面的方法。它的拟合插值公式为：

式中：Pi 为构成该曲线的特征多边形；Bi,n （t）是Bezier基函数，是曲线上各点位置矢量的调和函数。Bezier曲线的始点、末点与其特征多边形端点重合，且始点、末点的切线方向与特征多边形的第一和最后一条边一致。

该曲线具有凸包性、对称性等特性。贝塞尔曲线的优点是给定足够的控制点后，它能够拟合任意形状的曲线。

Bezier曲线的拟合插值公式中，函数的次数是与特征多边形的顶点数相应的，当特征多边形顶点数为4时，就构成三次Bezier 曲线。三次Bezier曲线的拟合插值公式为：

OPenGL技术提供了易于操作的贝塞尔曲线生成函数和贴图函数，但却无法控制硬件运算，效率不高。本系统出于对时效性的考虑在实现过程中并未采用该方法，而是采用CUDA技术并行矩阵运算的方式来进行纹理贴图。根据CUDA 程序的结构特点，本系统处理时，首先根据人机交互部分得到的控制点信息采用通常方法生成目标图像每行的贝塞尔曲线。开辟显存存入GPU,然后对应CUDA 程序结构，针对目标图像上的每一个像素点，为其分配一个GPU thread 来进行处理。

观察上面的计算公式发现，当获得了初始控制点坐标后，在得出每一条贝赛尔曲线上的点的过程中，彼此并不影响，具有多线程的粗粒度的特性，所以CUDA 并行计算的时效性有很大的提高。

2 性能评估

在多媒体拼接系统中实时性是最基本、也是最重要的指标。我们观看到的大屏幕拼接动态效果是由一帧一帧图片快速显示而产生的。根据正常的人眼视觉残留水平系统要达到显示流畅的画面，1 s 要处理至少25 张图片，也就是说整个程序一次图像处理流程不会超过40 ms.下面本文将分析一下该系统的时效性。

由于图像采集部分和处理部分采用的是异步方式，时间复用，而显然处理部分的耗时又远远超过采集部分，所以只列出处理部分的时间消耗，又因为该部分效率主要受显卡GPU 性能影响，所以之对比不同型号GPU 的时间消耗情况。具体如表1所示。

由此我们看出采用GeForce8800GT 显卡可以基本上完成显示功能，而采用GeForceGTX470则可以每秒钟显示35~40张图片，是用户完全感觉流畅的视频体验。

3 结语

今年来大屏幕对计算机操作演示的需求越来越多，而高性能显卡的发展又促使GPU计算逐渐成为大规模并行计算重要的解决途径。本系统采用了CUDA技术实现了视频拼接系统，目前本系统采用两个双头显卡组成显示功能模块最多实现四屏拼接，如果需要更多屏幕拼接显示时可以考虑使用网络C-S 结构进行扩展。由于耗时的图像处理部分完全有GPU 进行计算，屏幕越多需要计算的内容也随之增多，而同时系统显卡数量也会增多，所以该系统不会随着拼接屏幕增多而性能下降。由于系统总体采用并行技术，所以将来可以方便地为系统加入时下流行的人机互动模块、真实感渲染模块等部分，使之真正成为一款高性能多媒体展示系统，给用户一个全方位真实的体验。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

NVIDIA

NVIDIA

+关注

关注
14

文章
4978

浏览量
102987
gpu

gpu

+关注

关注
28

文章
4729

浏览量
128890
CUDA

CUDA

+关注

关注
0

文章
121

浏览量
13620
分屏器

分屏器

+关注

关注
0

文章
4

浏览量
10747

别墅能源管理系统通信设计方案

水货应届毕业生刚入职实习，领导要求提出一个别墅能源管理系统具体的通信方案。系统应该包括以下几个部分的通信： 1光伏PV 2.逆变器pcs 3.储能电池，电池能源管理系统BMS 4.电表

发表于 10-25 14:44

智能家居系统设计方案

、安全的生活体验。本案例将详细介绍一套智能家居系统的设计方案，包括系统架构、功能模块、设备选型、应用场景以及实施步骤等方面。

发表于 07-23 15:28 •1756次阅读

打破英伟达CUDA壁垒？AMD显卡现在也能无缝适配CUDA了

、英特尔等厂商虽然在努力追赶，但目前还未能看到有威胁英伟达地位的可能。最近一家英国公司Spectral Compute推出了一款方案，可以为AMD的GPU原生编译CUDA源代码，目前正在RNDA2、RDNA3上进行规模测试。这或许可以打破

发表于 07-19 00:16 •4662次阅读

复杂电磁环境模拟系统设计方案

智慧华盛恒辉复杂电磁环境模拟系统的设计方案是一个综合性的工程任务，涉及多个方面的考虑和技术实现。以下是一个基于现有技术和应用需求的设计方案概

发表于 07-17 17:06 •419次阅读

电磁频谱数据综合管理系统设计方案

智慧华盛恒辉电磁频谱数据综合管理系统的设计方案是一个复杂且精细的过程，旨在实现对无线电频谱资源的全面监控、分析和管理。以下是一个基于当前技术和应用需求的设计方案概述：智慧华盛恒辉

发表于 07-15 17:19 •474次阅读

电磁频谱管理系统设计方案

智慧华盛恒辉电磁频谱管理系统设计方案是一个综合性的项目，旨在有效地管理和利用电磁频谱资源，确保各种无线通信服务的顺畅进行，并避免频谱资源的冲突和浪费。以下是一个基于当前技术和应用需求的电磁频谱管理

发表于 07-15 16:40 •452次阅读

电磁轨迹预测分析系统设计方案

智慧华盛恒辉电磁轨迹预测分析系统的设计方案是一个综合性的项目，它结合了电磁学、运动学、数据分析以及可能的人工智能或机器学习技术，以实现对电磁运动轨迹的精确预测和深入分析。以下是一个基于当前技术

发表于 07-15 16:22 •396次阅读

UPS系统设计方案解读

UPS的应用场景日趋多样化，每个场景都有其独特的需求，对应不同的方案。UPS系统方案指南继续上新，本文将聚焦UPS设计方案展开讲述。

发表于 06-26 10:06 •781次阅读

光伏储能系统设计方案

使用。本文旨在详细阐述一个光伏储能系统的设计方案，包括系统概述、系统组成、设计原则、关键技术、设计步骤和预期效果等方面。

发表于 05-17 16:36 •1301次阅读

Keil使用AC6编译提示CUDA版本过高怎么解决？

\' ArmClang: warning: Unknown CUDA version 10.2. Assuming the latest supported version 10.1

发表于 04-11 07:56

LED显示屏设计方案

1、LED显示屏基础知识2、LED显示屏设计要素3、LED显示屏驱动方案4、LED显示屏控制系统

发表于 04-03 17:21 •12次下载

基于 PCIe 的多路视频采集与显示子系统介绍

电子发烧友网站提供《基于 PCIe 的多路视频采集与显示子系统介绍.pdf》资料免费下载

发表于 02-23 09:47 •0次下载

V4L2视频采集，基于PCIe的多路视频采集与显示子系统

视频采集与显示子系统可以实时采集多路视频信号，并存储到视频采集队列中，借助高效的硬实时视频帧出入

发表于 02-22 20:05 •948次阅读

诺瓦星云成功上市，专注LED显示控制及视频处理技术

近日，主营LED显示控制系统及视频处理系统产品研发、生产和销售的诺瓦星云，在深圳证券交易所成功上市。这家自2008年成立的公司，长期专注于视频

发表于 02-18 11:17 •935次阅读

什么是CUDA？谁能打破CUDA的护城河？

在最近的一场“AI Everywhere”发布会上，Intel的CEO Pat Gelsinger炮轰Nvidia的CUDA生态护城河并不深，而且已经成为行业的众矢之的。

发表于 12-28 10:26 •1.3w次阅读

搜索历史

基于CUDA技术的视频显示系统设计方案

评论

别墅能源管理系统通信设计方案

智能家居系统设计方案

打破英伟达CUDA壁垒？AMD显卡现在也能无缝适配CUDA了

复杂电磁环境模拟系统设计方案

电磁频谱数据综合管理系统设计方案

电磁频谱管理系统设计方案

电磁轨迹预测分析系统设计方案

UPS系统设计方案解读

光伏储能系统设计方案

Keil使用AC6编译提示CUDA版本过高怎么解决？

LED显示屏设计方案

基于 PCIe 的多路视频采集与显示子系统介绍

V4L2视频采集，基于PCIe的多路视频采集与显示子系统

诺瓦星云成功上市，专注LED显示控制及视频处理技术

什么是CUDA？谁能打破CUDA的护城河？