2.3 DDR3吞吐量分析
本系统处理的数据量大,FPGA内部的存储资源无法满足数据存储要求,需要配置系统外部存储器DDR3[6]。从图 2可以看出,整个系统流程最多经过DDR3共9次,下面依次介绍每次读写DDR3的必要性和数据量。
① 图形及字符生成模块读写数据,由于图形及字符生成时,没有严格按照屏幕自上而下、自左而右的顺序,所以每一帧图形都需要存入到DDR3中,并等待一帧处理完再进行整体的其他处理。由于像素点操作会涉及到读取背景值,所以是双向的。考虑吞吐量最大的情况,即图形生成模块对每帧图形的一半像素点都进行一次读写操作,则图形生成模块读写数据量为
② 图形缩放模块读数据及清屏操作,由于缩放模块是对整个画面的处理,所以需要从DDR3中读取出来。而由于图形及字符不是对每个像素点都进行操作的,所以取出后,需要进行清屏操作。则读写数据量为474.6 。
③ 图形旋转模块写数据,由于图形处理速度和视频处理速度不完全匹配,所以先将缩放及旋转后的数据存储到DDR3,等待视频处理完后,再统一取出,写数据量为237.3 MB/s。
④ 图形输出读数据,同时进行平移、翻转、镜像等坐标变换操作,写数据量为237.3 MB/s。
⑤ PAL视频输入数据,为了实现去隔行和帧速率转换,必须将数据存储到DDR3中进行变换操作,读写数据量为
⑥ 视频缩放模块读数据,从DDR3中取出进行缩放操作,读数据量为
⑦ 视频旋转模块写数据,由于视频处理速度和图形处理速度不完全匹配,所以先将缩放及旋转后的数据存储到DDR3,等待图形处理完后,再统一取出,读写数据量为237.3 MB/s。
⑧ 视频输出读数据,同时进行平移、翻转、镜像等坐标变换操作,读写数据量为237.3 MB/s 。
⑨ 预畸变参数读数据,用64位来存储每个像素点对应的四个预畸变参数,则读数据量为
表1为该系统数据吞吐量的计算表,其吞吐量合计为2677.6 MB/s 。
表1系统数据吞吐量计算表
本文采用DDR3作为系统外部存储器,其型号为W3H128M72E,数据宽度为72比特(64比特为数据位,8比特为校正位),采用的时钟为400MHz,由于DDR3在上升沿和下降沿都进行数据的读写操作,等效于其内部读写时钟为800MHz,即数据带宽为6400MB/s(800MHz*64bit),满足本文设计系统的数据吞吐量要求。
3 机载显示系统架构优化
设计的机载显示系统架构能够满足性能要求,但是还需要进一步优化。如图 5所示,改变不同模块之间的顺序来优化设计,同时改进算法。具体改变如下:
① 图形整体相对于屏幕的缩放和旋转功能在CPU端发送命令前实现,因为CPU端旋转和缩放是针对顶点进行的,方便快速,同时减少了FPGA的BRAM资源占用,减少了进出DDR3的次数;
② 改进帧速率提升算法,进一步减少延迟,提高实时性;
③ 改进视频旋转算法,进一步降低缓存区的大小,减少BRAM的占用率;
④ 帧速率提升和平移、翻转、镜像都需要通过读写DDR3来完成,将两者合并,同时完成,减少进出DDR3的次数。
图 5 FPGA逻辑优化的整体流程图
3.1 实时性分析
实时性是机载显示系统重要的衡量标准之一,为了确保飞机运行安全,必须确保视频处理的各个模块都有较高的实时性。视频采集、视频缩放、视频校正、视频输出延迟都是几行,延迟时间在 以内。帧速率提升模块的延迟远大于其他各个模块延迟之和,需要进一步改进,在保证显示质量的同时,进一步降低延迟时间。
3.1.1 帧速率提升算法优化
改进的帧速率提升算法仍使用帧复制法。在DDR3中开辟4个存储空间做切换用于存放帧速率为25Hz、场速率为50Hz的PAL图像。有4个场缓存区,当接收当前帧的奇场后与前一帧的偶场结合成一帧数据输出。
帧速率改进算法示意图如图 6所示。A场正好写完,B场正好读完,下一帧读取A场数据,这样延迟为PAL的1场(半帧);A场正好还差1行写完,B场已读完,下一帧继续读B场,这样延迟为PAL的1+(25/60)=1.42场。延迟为PAL的1~1.42场。最大延迟为 。
图 6 帧速率改进算法示意图
3.2 BRAM资源占用
原设计的机载显示系统架构使用反向映射的方法实现旋转算法,每一行旋转后数据反向旋转时需要缓存334行视频旋转前数据,即需要279个36Kb的BRAM。相对于其它模块缓存几行相比,占用了大量的BRAM空间,因此需要改进。
3.2.1 视频旋转算法优化
视频旋转提出了一种改进的旋转映射法,降低缓存空间。示意图如图 7所示。对以行扫描的方式获取的视频图像,缓存两行就能开始旋转处理,先进行正向映射,根据当前两行对应的旋转后浮点坐标,找到两行内的整点坐标,再对其进行反向映射,利用当前两行来得到旋转后整点坐标的像素值。
图 7 视频旋转改进算法示意图
该算法涉及原始图像中的2*2大小邻域,为了提高该模块的处理速度,设计了一组由三个双端口块存储器BRAM组成的原始图像数据缓存器。每个BRAM用来存储1行原始图像的数据,3个BRAM中存储的原始图像数据包括当前旋转计算涉及的两行原始图像数据以及下一行旋转计算涉及的一行原始图像数据。因此,需要缓存3行,使用3个36Kb的BRAM。
3.3 DDR3吞吐量分析
从图 5可以看出,优化后的系统流程最多经过DDR3共5次,下面依次介绍每次读写DDR3的必要性和数据量。
① 图形及字符生成模块读写数据,此与原模块相同,则图形生成模块读写数据量为
② 图形输出模块读数据及清屏操作写数据,由于视频输出模块是对整个画面的处理,所以需要从DDR3中读取出来,而由于图形及字符不是对每个像素点都进行操作的,所以取出后,需要进行清屏操作。则读写数据量为474.6 MB/s 。
③ 视频旋转写数据,旋转后的数据没有严格按照屏幕自上而下的顺序,必须将数据存储到DDR3中进行变换操作,读写数据量为
④ 视频输出模块读数据,从DDR3中取出进行视频输出操作,取出的同时还能进行一些坐标变换操作,如平移、翻转、镜像等,读写数据量为
⑤ 预畸变参数读数据,用64位来存储每个像素点对应的四个预畸变参数,则读写数据量为
表 2为该系统数据吞吐量的计算表,其吞吐量合计为2135.7MB/s。DDR3的数据带宽为6400MB/s(800MHz*64bit),满足本文设计系统的数据吞吐量要求。
表 2优化后系统数据吞吐量计算表
结论
本文设计一种基于FPGA的机载显示系统架构,能够实现2D图形绘制,构成各种飞行参数画面,同时叠加外景视频图像。实时性方面,帧速率提升模块延迟最大为 ;BRAM资源占用方面,视频旋转算法需要279个36Kb的BRAM;DDR3吞吐量方面,系统吞吐量为2677.6 MB/s 。
优化后的机载显示系统,实时性方面,帧速率提升模块延迟最大为 ;BRAM资源占用方面,视频旋转算法需要3个36Kb的BRAM;DDR3吞吐量方面,吞吐量为2135.7 MB/s。
经过对比分析,优化后的机载显示系统实时性提高、BRAM资源占用减少、吞吐量降低,整体性能得到了提升。
评论
查看更多