资料介绍
虽然Texas Instrument推出的C6000系列DSP使对信号处理的能力显著提高,但对信息处理能力要求的不断提升使提对DSP程序的优化越来越成为DSP开发工作中非常重要的环节。本文讨论2Mbps视频数据流的Viterbi算法的移植与优化策略、技巧。
1 Viterbi算法原理简介
Viterbi译码算法是由Viterbi于1967年提出的一种最大似然译码方法,译码器根据接收序列R按最大似然准则力图找出正确的原始码序列。随着大规模集成电路技术的发展,采用Viterbi算法的卷积编码技术已成为广泛应用的纠错方案。Viterbi译码过程可用状态图表示,图1表示2个状态的状态转移图。Sj,t和Sj+N/2,t表示t时刻的两个状态。在t+1时刻,这两个状态值根据路径为0或者1,转移到状态S2j,t+1和S2j+1,t+1。每一种可能的状态转移都根据接收到的有噪声的序列R计算路径度量,然后选择出各个状态的最小度量路径(幸存路径)。Viterbi算法就是通过在状态图中寻找最小量路径向前回溯L步,最后得到的即为译码输出。
在卷积码(n,k,m)表示法中,参数k表示每次输入信息码位数,n表示编码的输出卷积码位数,m称为约束长度(一些书中采用k=m+1为约束长度,也可称(2,1,2)码网格图,r=k/n称为信息率,即编码效率。本文使用的是(2,1,3)码,约速长度为2,状态数为2 2=-4。
2 目标处理器简介
TMS320C6000系列DSPs(数字信号处理器)是TI公司推出的一种并行处理的数字信号处理器,是基于TI的VLIW技术的。本文采用的是TMS320C6211。该处理器的工作频率经过倍频可达到150MHz,每个时钟周期最多可并行执行8条指令,从而可以实现1200MIPS定点运算能力。C6000系列CPU采用哈佛结构,其程序总线与数据总线分开,取指令与执行指令可以并行运行。其程序总线宽度为256位,每一次取指操作都是取8条指令,称为一个取指包,执行时每条指令占用1个功能单元。取指、指令分配和指令译码单元都具有每周期读取并传递8条32位指令的能力。C6000系列CPU有2个类似的可进行数据处理的数据通道A和B,每个通路有4个功能单元(.L、.S、.M、.D)和1组包括16个(C64有32个)32位寄存器的通用寄存器组,每个功能单元完成一定的算术或逻辑运算。
C6000的特殊结构使多个指令交迭地在不同功能单元内处理,大大提高了微处理器的处理能力。另外在其CPU硬件结构上,C6000的流水线分为三个阶段:取指、译码、执行,每一级又包含几个节拍。流水处理使得若干条指令的不同执行阶段可以并行执行,从而能够大幅度提高程序运行速度。
3 算法的编程实现及优化
根据C6000的软件编程流程,对Viterbi算法的编程及其优化可分为三个阶段来进行。这三个阶段分别为:开发C代码、优化C代码、编写线性汇编代码。在代码编写和优化过程中,这三个阶段不是必须都要经过的,只要在某一阶段已经满足了算法代码的功能和性能要求,就不必继续进行下面的阶段。
①开发C代码。这一阶段完全是根据任务要求来完成算法的代码编写工作。在C6000的集成开发环境CCS(Code Composer Studio)下进行代码的编译和功能验证,然后可用CCS的调试工具(如Profiler),利用在程序中设置断点的方法可找出程序中耗时最多、最影响整体性能的代码段。为改进代码性能,可进入下一阶段。如下是针对(2,1,3)码的Viterbi算法代码中完成算法功能的核心循环,也是最耗时、最影响代码整体性能的低效率段。
for(c=0;c《unmber_of_input;c++) //对每一个输入值,设number_of_input=24
{for(j=0;j《number_of_states;j++) //对于每个状态(2,1,3)状态数为4
{for(i=0;i《2;i++) //对于状态的每个可能输入,比如1,0
{/*计算度量值*/
branch_metric=hamm(conv_output,c,channel_data);
/*比较累计度量保留其中最小,并且记录其状态路径*/
if(accum_err_metric[nextstate[j][1]》accum_err_metric[j][0]+branch_metric]
{accum_err_metric[nextstate[j][1]=accum_err_metric[j][0]+branch_metri;
state_history[nextstate[j]][sh_ptr]=j;
}
}*/end of i《2*/
}/*end of j《number_of_states*/
}/*end of c《number_of_input*/
其中调用函数hanmm是计算当前输入值与网络图上的值相比较所返回的度量值。
Int hamm(char output_vector,int x,char channel_output[24])
{char target_vector=0;
int hamm=0;
int i=0;
int i=0;
target_vector=(output_vector)^channel_output[x];
for(i=1;i》=0;i--)
hamm+=(target_vector》》i)&0x01;
return hamm;
}
在验证了算法代码实现功能并以设置断点的方法测试代码的性能,这段循环运行耗时(时钟周期)为1790。显然,性能不能达到要求,就要进入代码优化的第二阶段了。
②一般在代码调试中,最影响性能的是其中的循环代码段。而软件流水是一种用于安排循环内的指令运行方式,尽可能充分利用CPU的功能单元等资源,使循环的多次迭代能够并行执行的一种技术。在C6000的C/C++编译器里,采用软件流水使编译出来的程序代码优化是一项核心技术。所以在进一步优化之前,需要调整并尽可能简化代码的结构并去除影响软件流水的因素使其能够被编译器充分流水,这对大幅提高整个代码的性能非常重要。
所以,在考虑影响因素同时对Viterbi算法的循环代码进行如下调整;
*使用内联函数(intrinsics)替代复杂的C语言程序。C6000编译器提供了许多intrinsics,可以快速优化C代码。Intrinsics是直接参与C6000汇编指令映射的内联函数。在这里使用了 _extu(x,y,z),以简化其中hamm代码部分。
*尽管软件流水循环可包含intrinsics,但不能包含函数调用。所以需要把调用函数 hamm在循环中展开实现。
*由于编译器仅对最内部的循环执行流水,所以为了提高性能应尽可能创造一比较大的内循环。在代码中可以看到,在最内循环是i的两次循环,仅对它进行流水,对整个代码的性能提高不大。所以一个想法是,将i和j循环全部展开,使编译器直接面对最大的C循环以最大发挥软件流水的作用。
*另外,展开循环后代码中的变量如果可以确定其运行中的值,就尽量以实值代入,这样减少了变量个数,也就是减少了所需分配的寄存器个数(C62xxCPU中有32个寄存器)。
在进行上述调整后运行代码,进行测试发展,性能没有太大改善;用编译器反馈表(feedback)进行观察发现,循环并没有发生流水。这是为什么呢?原来在展开内部循环后导致C循环内代码尺寸太大,需要的寄存器数目大于C62XX 的32个寄存器,所以不能进行软件流水。为了解决这问题,需要简化循环或将循环拆成几个小循环。在这里先将C循环内部的小循环展开,然后将其拆成分别完成度量计算和累计度量比较的两个循环,这样就减小了每个循环中的代码尺寸。
1 Viterbi算法原理简介
Viterbi译码算法是由Viterbi于1967年提出的一种最大似然译码方法,译码器根据接收序列R按最大似然准则力图找出正确的原始码序列。随着大规模集成电路技术的发展,采用Viterbi算法的卷积编码技术已成为广泛应用的纠错方案。Viterbi译码过程可用状态图表示,图1表示2个状态的状态转移图。Sj,t和Sj+N/2,t表示t时刻的两个状态。在t+1时刻,这两个状态值根据路径为0或者1,转移到状态S2j,t+1和S2j+1,t+1。每一种可能的状态转移都根据接收到的有噪声的序列R计算路径度量,然后选择出各个状态的最小度量路径(幸存路径)。Viterbi算法就是通过在状态图中寻找最小量路径向前回溯L步,最后得到的即为译码输出。
在卷积码(n,k,m)表示法中,参数k表示每次输入信息码位数,n表示编码的输出卷积码位数,m称为约束长度(一些书中采用k=m+1为约束长度,也可称(2,1,2)码网格图,r=k/n称为信息率,即编码效率。本文使用的是(2,1,3)码,约速长度为2,状态数为2 2=-4。
2 目标处理器简介
TMS320C6000系列DSPs(数字信号处理器)是TI公司推出的一种并行处理的数字信号处理器,是基于TI的VLIW技术的。本文采用的是TMS320C6211。该处理器的工作频率经过倍频可达到150MHz,每个时钟周期最多可并行执行8条指令,从而可以实现1200MIPS定点运算能力。C6000系列CPU采用哈佛结构,其程序总线与数据总线分开,取指令与执行指令可以并行运行。其程序总线宽度为256位,每一次取指操作都是取8条指令,称为一个取指包,执行时每条指令占用1个功能单元。取指、指令分配和指令译码单元都具有每周期读取并传递8条32位指令的能力。C6000系列CPU有2个类似的可进行数据处理的数据通道A和B,每个通路有4个功能单元(.L、.S、.M、.D)和1组包括16个(C64有32个)32位寄存器的通用寄存器组,每个功能单元完成一定的算术或逻辑运算。
C6000的特殊结构使多个指令交迭地在不同功能单元内处理,大大提高了微处理器的处理能力。另外在其CPU硬件结构上,C6000的流水线分为三个阶段:取指、译码、执行,每一级又包含几个节拍。流水处理使得若干条指令的不同执行阶段可以并行执行,从而能够大幅度提高程序运行速度。
3 算法的编程实现及优化
根据C6000的软件编程流程,对Viterbi算法的编程及其优化可分为三个阶段来进行。这三个阶段分别为:开发C代码、优化C代码、编写线性汇编代码。在代码编写和优化过程中,这三个阶段不是必须都要经过的,只要在某一阶段已经满足了算法代码的功能和性能要求,就不必继续进行下面的阶段。
①开发C代码。这一阶段完全是根据任务要求来完成算法的代码编写工作。在C6000的集成开发环境CCS(Code Composer Studio)下进行代码的编译和功能验证,然后可用CCS的调试工具(如Profiler),利用在程序中设置断点的方法可找出程序中耗时最多、最影响整体性能的代码段。为改进代码性能,可进入下一阶段。如下是针对(2,1,3)码的Viterbi算法代码中完成算法功能的核心循环,也是最耗时、最影响代码整体性能的低效率段。
for(c=0;c《unmber_of_input;c++) //对每一个输入值,设number_of_input=24
{for(j=0;j《number_of_states;j++) //对于每个状态(2,1,3)状态数为4
{for(i=0;i《2;i++) //对于状态的每个可能输入,比如1,0
{/*计算度量值*/
branch_metric=hamm(conv_output,c,channel_data);
/*比较累计度量保留其中最小,并且记录其状态路径*/
if(accum_err_metric[nextstate[j][1]》accum_err_metric[j][0]+branch_metric]
{accum_err_metric[nextstate[j][1]=accum_err_metric[j][0]+branch_metri;
state_history[nextstate[j]][sh_ptr]=j;
}
}*/end of i《2*/
}/*end of j《number_of_states*/
}/*end of c《number_of_input*/
其中调用函数hanmm是计算当前输入值与网络图上的值相比较所返回的度量值。
Int hamm(char output_vector,int x,char channel_output[24])
{char target_vector=0;
int hamm=0;
int i=0;
int i=0;
target_vector=(output_vector)^channel_output[x];
for(i=1;i》=0;i--)
hamm+=(target_vector》》i)&0x01;
return hamm;
}
在验证了算法代码实现功能并以设置断点的方法测试代码的性能,这段循环运行耗时(时钟周期)为1790。显然,性能不能达到要求,就要进入代码优化的第二阶段了。
②一般在代码调试中,最影响性能的是其中的循环代码段。而软件流水是一种用于安排循环内的指令运行方式,尽可能充分利用CPU的功能单元等资源,使循环的多次迭代能够并行执行的一种技术。在C6000的C/C++编译器里,采用软件流水使编译出来的程序代码优化是一项核心技术。所以在进一步优化之前,需要调整并尽可能简化代码的结构并去除影响软件流水的因素使其能够被编译器充分流水,这对大幅提高整个代码的性能非常重要。
所以,在考虑影响因素同时对Viterbi算法的循环代码进行如下调整;
*使用内联函数(intrinsics)替代复杂的C语言程序。C6000编译器提供了许多intrinsics,可以快速优化C代码。Intrinsics是直接参与C6000汇编指令映射的内联函数。在这里使用了 _extu(x,y,z),以简化其中hamm代码部分。
*尽管软件流水循环可包含intrinsics,但不能包含函数调用。所以需要把调用函数 hamm在循环中展开实现。
*由于编译器仅对最内部的循环执行流水,所以为了提高性能应尽可能创造一比较大的内循环。在代码中可以看到,在最内循环是i的两次循环,仅对它进行流水,对整个代码的性能提高不大。所以一个想法是,将i和j循环全部展开,使编译器直接面对最大的C循环以最大发挥软件流水的作用。
*另外,展开循环后代码中的变量如果可以确定其运行中的值,就尽量以实值代入,这样减少了变量个数,也就是减少了所需分配的寄存器个数(C62xxCPU中有32个寄存器)。
在进行上述调整后运行代码,进行测试发展,性能没有太大改善;用编译器反馈表(feedback)进行观察发现,循环并没有发生流水。这是为什么呢?原来在展开内部循环后导致C循环内代码尺寸太大,需要的寄存器数目大于C62XX 的32个寄存器,所以不能进行软件流水。为了解决这问题,需要简化循环或将循环拆成几个小循环。在这里先将C循环内部的小循环展开,然后将其拆成分别完成度量计算和累计度量比较的两个循环,这样就减小了每个循环中的代码尺寸。
下载该资料的人也在下载
下载该资料的人还在阅读
更多 >
- 基于MLS的NB-IoT信道插值估计算法 17次下载
- 基于信道状态相位信息的生命体征监测算法 13次下载
- 两个宽带无线信道的稀疏信道估计算法 8次下载
- 结合深度与演化算法的群竞争合作优化算法 20次下载
- 基于匹配理论的用户-子信道双边匹配算法 6次下载
- 基于实时信道状态信息估计的速率自适应算法 3次下载
- 基于视频业务质量优化的信道选择技术 1次下载
- 虹膜识别算法的DSP移植及其优化 7次下载
- 基于DSP的图像去雾算法优化方法_杨梦雯 3次下载
- JPEG图像压缩编码算法的DSP优化实现_李世军 2次下载
- 认知无线网络中多信道频谱感知周期优化算法_刘洋 0次下载
- 基于DSP实现WCDMA信道估计
- 基于DSP的任意码长RS编码及算法优化
- 色噪声下MIMO信道估计优化及容量下限分析
- 基于DSP 的信道译码算法优化
- 神经网络优化算法有哪些 267次阅读
- dsp是什么意思 dsp怎么调音质最好 9434次阅读
- DSP芯片的特点与分类 2185次阅读
- 边缘计算计算卸载与资源分配联合优化算法 1027次阅读
- 如何对spmv算法进行优化 1061次阅读
- 基于群体的元启发式算法——象鼻虫伤害优化算法 808次阅读
- 基于DSP及FPGA器件实现软件无线电多信道发射机系统的设计 3164次阅读
- 用于实现并行处理加速硬件的H.264算法的改进和优化 2149次阅读
- 深度学习中多种优化算法 2475次阅读
- 浅析嵌入式DSP设计中的功耗优化设计 1499次阅读
- 深读解析反向传播算法在解决模型优化问题的方面应用 5463次阅读
- DSP核心算法和数据价值的应用 1888次阅读
- JPEG2000 MQ编码算法的优化和FPGA实现 3226次阅读
- 基于机器学习算法的SVM优化 4100次阅读
- 怎么延长固态硬盘寿命,固件算法优化带来的性能提升 1706次阅读
下载排行
本周
- 1电子电路原理第七版PDF电子教材免费下载
- 0.00 MB | 1489次下载 | 免费
- 2单片机典型实例介绍
- 18.19 MB | 91次下载 | 1 积分
- 3S7-200PLC编程实例详细资料
- 1.17 MB | 27次下载 | 1 积分
- 4笔记本电脑主板的元件识别和讲解说明
- 4.28 MB | 18次下载 | 4 积分
- 5开关电源原理及各功能电路详解
- 0.38 MB | 9次下载 | 免费
- 6基于AT89C2051/4051单片机编程器的实验
- 0.11 MB | 4次下载 | 免费
- 7基于单片机和 SG3525的程控开关电源设计
- 0.23 MB | 3次下载 | 免费
- 8基于单片机的红外风扇遥控
- 0.23 MB | 3次下载 | 免费
本月
- 1OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 2PADS 9.0 2009最新版 -下载
- 0.00 MB | 66304次下载 | 免费
- 3protel99下载protel99软件下载(中文版)
- 0.00 MB | 51209次下载 | 免费
- 4LabView 8.0 专业版下载 (3CD完整版)
- 0.00 MB | 51043次下载 | 免费
- 5555集成电路应用800例(新编版)
- 0.00 MB | 33562次下载 | 免费
- 6接口电路图大全
- 未知 | 30319次下载 | 免费
- 7Multisim 10下载Multisim 10 中文版
- 0.00 MB | 28588次下载 | 免费
- 8开关电源设计实例指南
- 未知 | 21539次下载 | 免费
总榜
- 1matlab软件下载入口
- 未知 | 935053次下载 | 免费
- 2protel99se软件下载(可英文版转中文版)
- 78.1 MB | 537791次下载 | 免费
- 3MATLAB 7.1 下载 (含软件介绍)
- 未知 | 420026次下载 | 免费
- 4OrCAD10.5下载OrCAD10.5中文版软件
- 0.00 MB | 234313次下载 | 免费
- 5Altium DXP2002下载入口
- 未知 | 233045次下载 | 免费
- 6电路仿真软件multisim 10.0免费下载
- 340992 | 191183次下载 | 免费
- 7十天学会AVR单片机与C语言视频教程 下载
- 158M | 183277次下载 | 免费
- 8proe5.0野火版下载(中文版免费下载)
- 未知 | 138039次下载 | 免费
评论
查看更多