经过20多年的努力后,在工艺技术进步和市场需求的推动下,“大器晚成”的FPGA终于从外围逻辑应用进入到信号处理系统核心。在多个应用场合击败ASIC后,现在FPGA厂商又开始将目光瞄向了一向是亲密战友的DSP阵营。
20亿美元的新兴高性能信号处理市场吸引了众多供应商目光。
同属可编程处理平台,尽管FPGA和DSP芯片供应商表面上惺惺相惜,但面对20亿美元的新兴高性能信号处理市场,他们的暗战已经开始。前者将DSP功能从高端FPGA平台扩展到了低成本FPGA,并加强了相关开发工具,希望在复杂算法和大量并行处理中补充甚至完全替代DSP,从DSP应用中的配角变成主角;而后者则通过集成ASIC的DSP SoC和多核DSP提升处理能力,目的也是减少FPGA和ASIC的使用,捍卫DSP的主角地位。此外,一些初创公司也在开发并行阵列处理器,宣称能在单芯片上以相对较低的时钟频率和功耗获得“前所未有的DSP性能”。
FPGA渴望“修成正果”
尽管FPGA和DSP一样拥有20多年的历史,但和DSP早早成名相比,FPGA由于成本、功耗和性能限制,一直在系统外围暗自发力,从最初用于胶合逻辑,到用于控制逻辑,再到用于数据通路,艰难地接近系统核心。传统上,FPGA被用作DSP解决方案中所需要的系统逻辑、多路处理及合并,或是多I/O接口。
进入21世纪后,FPGA终于迎来了“修成正果”、与CPU、DSP并列于系统核心的最好机会:一方面,随着90和65纳米工艺的采用,FPGA在成本、功耗和性能上大幅改善,具备成为系统核心的条件;另一方面,三网合一(Tri-play)和融合时代来临,要求复杂和大量并行处理,DSP在做并行处理时不如FPGA,这为具有强大并行处理能力的FPGA带来了需求。
正是因为如此,从90纳米开始,FPGA巨头们就争相推出面向DSP应用优化的高端FPGA平台,并在65纳米FPGA中进一步增强了DSP功能。例如,赛灵思面向DSP应用的XtremeDSP产品线包括高端的Virtex-4 SX和Virtex-5 SXT,不久前又推出了低成本Spartan-3A DSP系列,而Altera的Stratix II和Stratix III,以及65纳米低成本Cyclone III系列同样强调DSP应用。他们的高端FPGA平台,瞄准的是高端通信和视频应用,如无线基站和包括监控、广播以及3D医疗图像在内的高分辨率视频应用;低端平台则定位于大量对价格和功耗都很敏感的应用,包括微蜂窝基站、军用移动软件定义无线电、超声系统、辅助驾驶/多媒体系统、高清视频以及智能IP相机等——这些也都是传统DSP芯片看重的新兴应用。
吴晓东:在需要大量并行处理时,FPGA更优于传统DSP。
赛灵思公司中国区运营总经理吴晓东强调说:“为什么会用FPGA做DSP应用呢?DSP表示的是数字信号处理,并不代表DSP芯片,实际上数字信号处理有很多不同实现方法,可以用DSP芯片,也可以是MCU,还可以是FPGA和ASIC作数字信号处理。事实上,由于FPGA是一个天生的并行处理结构,因此在进行复杂计算时性能远远超过传统DSP芯片。”
赛灵思亚太区市场营销董事郑馨南表示,过去20年里算法复杂性快速提升是推动FPGA进入DSP应用的最重要市场动力。他以通信领域为例回顾DSP应用历史说,20世纪70年代,DSP应用的驱动力为语音频带,性能需求的数量级为“KHz”,微处理器和MCU可以满足需求;20世纪80、90年代,无线电为DSP应用驱动力,性能需求为“MHz”级,DSP独领风骚;而进入21世纪,三网合一(Tri-play)要求非常复杂的处理,只有DSP+FPGA才能够满足需求。
吴晓东进一步解释说,传统DSP芯片是实时信号处理的最佳答案,但它毕竟是一个串行结构,进行复杂运算时可能来回循环几百次,因此速度反而不是很快,单个DSP处理器很难满足5GMACS以上性能需求;而FPGA是天生的并行处理结构,包含了几百个MAC单元,因此性能远远高于传统DSP芯片,例如我们的Virtex-5 SXT FPGA在550MHz下性能可达550MSPS;而主频为1GHz的DSP性能只能达到8MSPS。他总结说:“由于FPGA可以弥补DSP芯片的不足,在信号处理系统中FPGA与DSP相得益彰。”他一再强调FPGA不是要与DSP直接竞争,“我们现在更多的还是互补的关系。”
他举例说,以前视频监控应用的通道数不多,对图像质量和实时性等也要求不高,很少有人用FPGA;但是随着监控由标清转向高清,从单通道转到八通道,从非实时转到对实时的要求,外加人脸识别和运动估计等分析功能,普通DSP就很难实现,需要多片DSP来一起处理,成本十分昂贵。而用DSP+FPGA的方式则十分完美,可以大大节省成本。其中,FPGA用于加速实时视频处理和压缩,而DSP运行实时操作系统和第三方分析软件。
对于另一个目前的大热市场,3G和WiMAX基站,他则表示可利用FPGA的并行处理能力来设计数字上下变频器,因为对于需要多载波的数字变频器,并行的FPGA是最好地选择;而DSP则适合于变频后的符号率处理。
但是,DSP厂商绝不会只满足于仅做后端的符号处理,比如TI早就推出针对数字上下变频的产品。
另一边,赛灵思实际上也并不满足于协处理器的位置。在其代理商安富利前不久举办的“安富利与赛灵思技术研讨会”上,安富利展示的一些视频应用已完全将FPGA作为主芯片,并不是协处理器来使用。作为赛灵思最主要的方案推广商,这也暗示了FPGA未来要走的路。
DSP阵营捍卫主角地位
对于来自战友的挑战,DSP厂商正在通过集成ASIC+DSP的SoC(系统级芯片)和多核DSP提升处理能力,目的也是减少FPGA和ASIC的使用,捍卫自己的主角地位。
郑小龙:DSP SoC和多核DSP可以取代DSP+FPGA/ASIC方案。
对于FPGA作为协处理器的观点,TI中国区通用DSP业务拓展经理郑小龙也表示认同,他指出:“在需要高级别并行处理的情况下FPGA是一种选择,也是FPGA最适合的场合。在高性能和多通道应用中采用DSP+FPGA往往更能胜任,而不是单独采用其中某一种平台。有了可编程DSP,大多系统控制、排序化处理、用户功能化和信号处理可在DSP上运行。如果要加快并行处理,采用FPGA就理所当然。”
但郑小龙同时指出,当某个应用中FPGA实现的并行加速处理达到一定市场规模而足以进行专用集成时,TI会将硬件加速器集成到DSP中去,这样可以比外挂FPGA在获得同样性能的前提下价格和功耗保持在一个较低的水平。他解释说:“虽然FPGA能提高信号处理链路的速度,但随着技术成熟,这些功能可以以较低成本集成到DSP处理器中,比外加一个芯片效率更高。因此,对于那些特定应用,DSP将提供更优异的解决方案。
另外,TI还通过多核DSP提升性能。一个典型的例子就是,TI不久前针对WCDMA基站推出了高集成度的TCI6488,它采用3个1GHz DSP核,能够在单芯片上支持宏基站所需的所有基带功能,无需FPGA、ASIC及其它桥接器件。这是因为TCI6488中已经包含了WCDMA系统处理所需的专用协处理器,例如传统DSP中没有的Viterbi(VCP2)与Turbo(TCP2)协处理器——过去它们或采用FPGA/ASIC来实现,或要靠DSP核来解决,这就需要增加额外的DSP。TCI6488还具有典型DSP所没有的多种外设,如新兴的高速天线接口OBSAI/CPRI,而其它没有这种接口的器件必须采用一个FPGA或ASIC管理协议转换。此外,如果一个系统需要规模扩展到去支持更多的用户,TCI6488还可以通过采用RapidIO接口或者外设去实现互连。郑小龙总结说:“TCI6488是一个三核DSP,它具有很大的处理能力去支持多种多样的基带处理,无需ASIC/FPGA参与。”
他还强调说,单核DSP同样可以取代DSP+FPGA/ASIC方案,只是单核DSP SOC只可以支持有限数量的用户,而多核DSP则能够支持更多用户和更多功能。郑小龙指出:“只要DPS具有恰当的外设、协处理器和处理速度(MIPS)去有效实现所需的功能,它就可以成为SoC。在一些情况下,处理需求受到现行技术的限制,就必须考虑多核,例如TCI6488具有总计3GHz性能来满足指定需求,而单个的3GHz核在当今还不能实现,所以就要采用多核。”
其实,吴晓东也坦承FPGA和DSP虽然不是替代关系,但也存在一定的竞争关系,尤其是Spartan-3A DSP这种低成本FPGA开始覆盖更广阔的DSP应用(1-30 GMACS性能范围),与DSP的竞争难免。他表示:“目前趋势是一个往下走(FPGA),一个往上走(DSP),双方都为了弥补性能上的鸿沟,都是为了更好满足市场需求,最终的抉择取决于客户和应用。”吴晓东指出,很难为客户选择DSP还是FPGA划定一个明显的界限,目前看来5GMACS以下普通DSP容易实现,5GMACS以上可能就需要多片DSP去处理,这时候FPGA更有优势。
而作为信号处理的传统主导者,TI则认为未来DSP将继续是用户的首选。郑小龙表示,高速数字信号实时处理是DSP和FPGA所共同面对的应用,两者都属于可编程处理平台,但实现的方法却大相径庭,DSP采用软件编程,而FPGA则借助硬件编程手段。当一个软件可编程DSP被用于承担任何一种处理负载时,它就可以成为优选的平台,因为相比其它处理器,DSP可以在较低的成本下同时具有好的性能和功耗。他强调说:“通过在DSP平台上持续发展多种多样的外设、嵌入式软件、加速器和协处理器,TI DSP将持续保持作为今天和未来实时应用中优选系统构架的地位。”
但是,吴晓东也表示,他们通过将XtremeDSP核固化后,可以将功耗大大降低,且在实现MAC功能时,比DSP具有更低的成本。比如通过Spartan-3A可实现性能超过20GMACS,但成本不到30美元的方案。
高性能DSP处理器未来的发展方向
在TI看来,多核和SoC是高性能DSP未来的发展方向。郑小龙介绍说,TI对高性能DSP的展望包括增强灵活的协处理器,与单核或多核DSP协作。这些下一代的DSP将整合许多现在所使用的ASIC类型功能,还将支持更多特性和性能,并有能力运行在更高速度以支持更多的数据吞吐量。通过性能提升,DSP在目前采用CPU或ASIC的应用领域中更有优势——部分地取代任何一种。事实上,在大众市场上,TI已经有DSP和CPU相结合的产品推上市场,也就是已经量产的“达芬奇(DavVinci)”系列产品。
在多核DSP方面,目前的TI多核产品设计为满足不同细分市场的不同需求。TCI6488目标是无线基站处理市场;TNETV3020针对有线网络的高密度语音市场。前者采用3个1GHz DSP核,后者则采用了6个500MHz DSP核。
不过与TI、飞思卡尔等厂商的多核DSP策略有所不同的是,许多初创公司正在开发并行阵列处理器芯片,宣称能在单一芯片上以相对较低的时钟频率和功耗获得“前所未有的DSP性能”。
例如,新兴基站芯片厂商PicoChip的多核DSP——picoArray处理器是一种粗粒度的超大规模并行异构16位处理器阵列,其运算和通信资源是静态分配的。它含有322个处理单元,在160MHz的主频下能提供200GMIPS和40GMACS的性能,据称性价比或功率/性能比至少是其它架构(无论是DSP还是FPGA)的10倍,可取代含有多个DSP、FPGA及通用控制器的混合架构体系,适用于3G/4G和WiMax基站,并且能够实现“软件无线电”。
但TI表示,这种如此庞大的并行架构应用非常有限,而且存在固有缺陷,因此TI没有去开发这种产品。郑小龙解释说:“将数以百计的DSP核放到一个芯片上完全可能,TI目前并没有追求这种类型的大规模并行架构,其原因在于这种产品的局限性。例如一个客户所需要运行的应用必须有益于这样一种架构,而由集成上百个DSP所带来的固有挑战在于三个方面,一是存储器的局限性,如此多的核要有效运行就需要一个相当大的数据和程序存储器;二是当上百个核都要去访问数据时,提供平等的访问去共享如外设、板上和外部存储器将很困难;三是在器件中有更多的核就会有更多的互连,这将增加阻塞。”
其实,这些新兴处理器厂商面临的更严重问题是缺乏像DSP和FPGA这样完善的软件工具支持,这才是新兴处理器厂商进入市场最致命的挑战。
评论
查看更多