0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于TMS320DM642 DSP芯片实现IMlab6421视频服务器的设计

电子设计 来源:微计算机信息 作者:微计算机信息 2021-03-17 11:50 次阅读

1 引言

AVS是具有自主知识产权的数字音视频编解码技术标准,其包括系统、视频、音频、数字版权管理等四个主要技术标准和一致性测试等支撑标准。其中,移动视频标准AVS-M (AVS第七部分)适用范围包括视频会议、可视电话、移动多媒体等领域。

TMS320DM642是TI公司开发研制的一款专门面向多媒体应用的专用数字信号处理芯片,使用此DSP芯片并利用AVS-M算法来进行视频压缩,可大幅提高视频压缩率,减少传输流量,即使在低带宽情况下也可以有效保证实时性和监控需求。

我们开发的IMlab6421视频服务器,是基于Internet 的视/音频监控设备。核心DSP芯片采用DM642芯片。而应用软件、视频压缩算法是根据AVS-M标准进行设计、优化的。下面针对这款视频服务器的系统结构、视频优化的软件设计等进行详细的介绍。音频压缩的优化本文不做介绍。

2 硬件设计

视频服务器IMlab6421原理框图如图1所示,系统采用TMS320DM642 用于音视频压缩。DM642芯片包含一个64位的外部存储器接口,可驱动4个片选地址空间(CE0,CE1,CE2,CE3), 它支持8,16,32,64位宽度的同步和异步访问。我们在 DM642的片外扩展了16M Bytes的SDRAM,位于EMIF的CE0地址空间,用于存放程序和数据。SDRAM工作时钟为100MHz,是由DM642芯片的CPU工作时钟6分频产生的。数据更新由DM642自动完成。还在DM642板上设计有512K Bytes的Flash存储器,位于DM642的CE1地址空间,宽度为8 bits。另外能实现与Internet连接的以太网处理器采用的是CRYSTAL公司的CS8900A,它高度集成设计使其不再需要其它以太网控制器所必需的昂贵外部器件。

视频编码工作原理大致为:输入的模拟视频信号经TVP5150(支持PAL和NTSC两种制式)被数字化为YUV4:2:2的数字视频格式,经由I2C总线被送至输入缓冲区(采用三缓冲机制), DM642的CPU把捕捉到的视频数据从一个输入缓冲区中取出待编码图像数据进行压缩编码处理,形成的压缩码流放到输出缓冲区,然后打包通过网口直接传输到Internet。

基于TMS320DM642 DSP芯片实现IMlab6421视频服务器的设计

图1 IMlab6421硬件原理框图

3 软件设计

DSP嵌入式程序受硬件资源的限制,对程序流程和数据组织需要从硬件资源和代码运行效率上做仔细的考虑。通过分析AVS-M编码器的程序流程,借助实验中积累的经验,本文给出了AVS-M编码器的优化方案,主要介绍Cache性能优化、存储空间的分配以及CPU与DMA的并行性设计等。

3.1 存储结构及CACHE性能优化

(1)存储结构:DM642的存储器系统由片内内存L1、 L2和片外外存两部分组成,L1, L2和片外SDRAM构成了整个存储器系统的三级层次结构,如图2所示。其中,片内内存采用两级缓存结构,第一级由L1P和L1D组成,L1距离DSP核最近,数据访问速度最快,只需一个时钟周期,只能作为不能寻址的Cache使用。第二级L2是一个统一的程序/数据空间,可以整体作为SRAM映射到存储空间,也可以整体作为第二级Cache,或是二者按比例进行组合。第三级是片外外存,一般由SDRAM构成。L1P cache大小为16KB,直接映射,每行大小32 字节;L1D cache大小16KB, 2路映射,每行大小64 字节。L2是L1和外存储器的中间层,容量较大有256KB,访问速度较慢,根据 L2 配置为Cache 或SRAM 的不同选择,访问速度需8个或6个时钟周期。片外存储器容量很大但访问速度很慢,一般都会远远大于 8 个时钟周期。

图2 三级存储系统

(2)CACHE性能优化:要优化Cache的使用性能需了解Cache的具体结构,如Cache容量、行大小、组相联数等。下面总结了一些优化Cache性能的方法:合理配置L2;合理布置程序代码段和数据段的内存布局,为防止有效代码、数据在缓冲存储器中相互排挤,应尽量把顺序执行的代码、同时使用的数据放在相互邻接的物理空间当中;若函数模块和数据包含在一个循环中,循环体的大小应和Cache的容量相吻合,以便能把整个循环体全部放入Cache中。为了提高Cache中数据的重复利用率,把数据操作构成一条数据处理链,链中的下一级操作就能直接使用上一级操作留在Cache中的数据。此外还可以根据Cache行数据宽度信息调节数据在物理内存中的存放位置,从而利用数据预取增加Cache的命中率;挖掘L1D的不命中流水处理能力,加速待使用数据的读入速度;通过合理的数据填充策略,避免同一时钟周期对相同存储体的读写操作将造成存储器的存取冲突。

3.2 存储空间的分配

在DSP上由于内存空间有限,需要合理分配内存空间,这对于程序的运行效率十分重要。使用的一个原则是:应尽量把数据和代码放入片内存储器。因为外存比CPU工作的速度要慢很多,如果用CPU来处理访问外部存储器的工作,大量时间将浪费在存取等待上。

DM642的L2片内存储器可以配置为SRAM或Cache。由于编码器的数据流程是有规律的,因此我们考虑用程序控制DMA控制器来进行内存和外存之间的数据交换,这样比硬件自动地来处理效率要高。

由于片内存储器容量的限制,不可能将编码器的所有数据都放入片内存储器。原始图像和重构图像是无法完全放到片内存储器中的。事实上,没有必要将这些数据放在片内,因为编码器的处理过程是以宏块为单位的,我们只需要在片内维护一个宏块的数据结构,CPU访问这些数据进行计算。每编码一个宏块的时候把该宏块需要的数据从外存调入内存,填到相应的这些数据结构中。利用DM642提供的QDMA机制,CPU发出QDMA请求后就可以继续对其它数据进行计算,由DMA负责将数据从外存调到内部存储器。因此如何设计使CPU与DMA之间协调工作很重要,本文2.3部分将详细讨论这个问题。

需要注意的问题是当前宏块编码过程中需要用到前面编码已经获得的一些信息。参考代码中是保留所有宏块的编码信息,这样的做法是不适合DSP实现的,需要的存储空间太大,片内存储器无法容纳。实际上编码当前宏块只需要参考它上面和左面的宏块。因此设计编码器中各模块的局部数据结构如图3所示。该数据结构保留上面一行的值和左边宏块的值,每编码完一个宏块,确定当前宏块的信息后更新这些缓冲区,这些数据可以放在L2中,不用访问外存。而且实验证明用来维护这样的数据结构所需要的计算时间很小。

经过优化的程序和常用的数据结构的大小可以放在L2中。所以按照上面的分析将L2配置为256KB SRAM,将程序代码段(.text)、变量初值表(.cint)、常量字符串(.const)、全局变量静态变量(.bss/.far)、堆栈段(.stack)等放入L2 SRAM当中,全局堆(.sysmem用于动态存储器分配)置于外部存储器。表1总结了编码器所要用到的存储空间分配情况。

图3模块的局部数据结构

表1 编码器存储空间的分配

其中整像素运动估计参考缓冲区包括亮度和色度。因为参考帧有两个,整像素运动估计参考缓冲区也有两个。分像素运动估计参考缓冲区也是两个:一个用来调入SKIP编码模式的预测值,一个用来做分像素运动估计。

3.3 CPU与DMA并行性设计

I帧编码可以说是P帧编码的特例,如果P帧中不用运动估计的话,则与I帧编码流程相同。因此下面对于CPU与DMA的并行性的讨论只针对P帧。

我们要解决的问题是CPU什么时候发QDMA请求,命令DMA控制器将需要的数据调入内存中。而且这种调度方式要保证CPU发命令之后可以进行其它的计算,等CPU需要这些数据的时候,DMA已经将其调入内存中了。

为了解决这个问题需要了解编码器各个模块的运行时间,以及DMA调度数据到内存所需要的时间。通过在DM642上运行优化过的程序,一个参考帧情况下测得各部分占程序运行时间的比例大致如表2所示:

表2 程序各部分运行时间所占比例

图4中由CPU指向DMA的箭头表示启动QDMA传输。每个DMA传输所用的时间相对于程序运行的时间比例是:传输原始像素占1%,传输SKIP和分像素运动估计参考区各占3%,传输整像素亮度和色度参考区共15%,传输环路滤波结果5%。整个DMA传输的时间大概占CPU计算时间的30%。通过这些数据可以看出,按照图4进行安排可以达到上面所述目标。

图4 CPU与DMA并行工作

只依靠上面这些方法进行优化,视频压缩还不能达到实时要求,还需要进行算法级优化,以及对编码器中各个模块进行程序代码级的优化。常通过采用内联函数、软件流水、线性汇编优化等方法,以及合理使用针对视频处理而设计的特殊指令集,充分利用DM642内部的并行计算单元,提高了程序的运行速度。由于篇幅有限,对这些优化方法本文不再重点论述。

4. 结论

结合AVS-M视频压缩处理流程的特点,本文完成了一个基于DM642平台的编码器的设计与实现。通过对编码流程的合理安排使得CPU能与DMA控制器并行工作,CPU不用等待数据,需要的数据已经被DMA调到内存中。实验表明通过系统级优化、程序级优化、汇编级优化、算法级优化等优化之后,基于这款视频服务器(实物图见图5),能达到2路CIF352x288格式实时视频压缩,以及音频实时编码、解码处理,且图像主观效果及音频效果良好。

本文创新点是:把具有自主知识产权的数字音视频编解码技术标准第七部分(AVS-M)应用于视频服务器的视频压缩,目前市场上还没有采用此压缩标准的产品,此产品具有极高得性价比,采用此压缩标准还可以避免产品产业化之后知识产权之争,具有很好的应用前景。

图5 IMlab6421视频服务器实物图

责任编辑:gt

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    552

    文章

    7962

    浏览量

    348240
  • 芯片
    +关注

    关注

    453

    文章

    50387

    浏览量

    421750
  • 服务器
    +关注

    关注

    12

    文章

    9016

    浏览量

    85175
收藏 人收藏

    评论

    相关推荐

    基于DSP TMS320DM642芯片实现运动控制卡的设计

    目前,视频运动控制卡的研究已经成为热点。本文针对TI公司的视频高速处理芯片TMS320DM642,设计了对目标物体进行视频实时跟踪的运动控制
    发表于 10-19 10:24 1457次阅读
    基于<b class='flag-5'>DSP</b> <b class='flag-5'>TMS320DM642</b><b class='flag-5'>芯片</b><b class='flag-5'>实现</b>运动控制卡的设计

    TMS320DM642视频图像处理双路应用主板

    CIPS-VIDEO双向实时图像处理双路应用主板,采用专业的多媒体(图像视频/音频)处理芯片(TI 的DSP TMS320DM642)为核心,内嵌自主开发的嵌入式实时多任务操作系统(C
    发表于 12-01 11:35

    TMS320DM642

    有在使用TMS320DM642的吗?加好友啊
    发表于 12-05 18:47

    怎么实现基于TMS320DM642视频采集驱动开发?

    本文针对自行研制的基于TMS320DM642(以下简称DM642DSP视频处理板卡,使其在C64x系列DSP的实时操作系统
    发表于 06-08 06:07

    基于TMS320DM642视频采集驱动程序的怎么实现

    本文针对自行研制的基于TMS320DM642(以下简称DM642DSP视频处理板卡,使其在C64x系列DSP的实时操作系统
    发表于 06-08 07:05

    TMS320DM642 pdf datasheet

    fixed-point DSP generation in the TMS320C6000™ DSP platform. The TMS320DM642 (
    发表于 08-07 21:18 117次下载

    基于DSP TMS320DM642的H.264视频编码的实现

            阐述了低码率视频编码国际标准H.264的主要内容,重点讨论了H.264编码在DSP TMS320DM642上的
    发表于 09-11 10:54 26次下载

    基于TMS320DM642的网络视频监控服务器的研究与实现

    基于TMS320DM642 DSP 处理构建的硬件平台,采用JPEG 图像压缩标准,系统在软件设计上采用了TI 的RF5 框架和DSP/BIOS 实时内核,采用了扩展的“类驱动/微驱
    发表于 12-21 10:20 40次下载

    基于TMS320DM642视频采集卡设计

     针对构建高稳定性、高鲁棒性的多媒体数字监控系统设计并实现了一款基于TMS320DM642型数字信号处理的四路实时MPEG-4视频采集兼压缩处理PCI板卡。详细介绍
    发表于 12-03 16:22 80次下载

    基于TMS320DM642的嵌入式Web服务器设计

    基于TMS320DM642的嵌入式Web服务器设计。
    发表于 05-10 16:31 15次下载

    TMS320DM642中文手册

    TMS320DM642中文手册,又需要的下来看看
    发表于 08-05 18:37 28次下载

    如何从进行TMS320DM642TMS320DM6467的迁移

     本文件描述了从TMS320DM642设备迁移TMS320DM6467的装置,以TMS320DM642装置及其熟悉设备   表1显示了TMS320DM642的基本特征和
    发表于 04-18 14:11 12次下载
    如何从进行<b class='flag-5'>TMS320DM642</b>到<b class='flag-5'>TMS320DM</b>6467的迁移

    基于TMS320DM642视频采集驱动开发

    采集驱动的原理。 结合TMS320DM642芯片类/微型驱动模型,提供了按帧采集ITU-R BT.656数据驱动的实现方法,并详细讨论视频采集驱动的硬件配置及软件设计中的帧缓存管理、同
    发表于 02-03 00:13 493次阅读

    基于TMS320DM642多媒体芯片实现视频监控系统的应用方案

    本文以TMS320C6000系列DSP中的一款TMS320DM642多媒体芯片为例,来具体说明如何设计嵌入式DSP数字
    的头像 发表于 03-17 09:44 3319次阅读
    基于<b class='flag-5'>TMS320DM642</b>多媒体<b class='flag-5'>芯片</b><b class='flag-5'>实现</b><b class='flag-5'>视频</b>监控系统的应用方案

    TMS320DM642迁移至TMS320DM648/DM6437

    电子发烧友网站提供《从TMS320DM642迁移至TMS320DM648/DM6437.pdf》资料免费下载
    发表于 10-14 09:17 0次下载
    从<b class='flag-5'>TMS320DM642</b>迁移至<b class='flag-5'>TMS320DM</b>648/<b class='flag-5'>DM</b>6437