随着神威蓝光超级计算机的问世,中国成为继美国和日本之后成为第三个采用自主CPU构建千万亿次级超级计算机的国家。在这之前,一提到国产自主高端CPU,人们的第一反应便是中科院计算所研制的“龙芯”处理器,但这次神威蓝光装配的却是出自江南计算所的神威1600A处理器。这一消息让国人为之一振,原来国产高端处理器不止“龙芯”一家啊,也让国外业者对中国在处理器事业上的进步刮目想看。其实,在“中国制造到中国创造”的国家战略下,我国在高科技领域可以说是全面追赶,已经在很多领域取得了一定的建树。本文中笔者将带大家认识几款国产处理器中的佼佼者,旨在让大家能更更深入的了解国产处理器的发展。
本文按照架构的差异将国产处理器分为三个部分,分别是MIPS架构、Alpha架构和ARM架构(从大的分类来看这三种架构都属于精简指令集计算机(RISC),而多数X86处理器属于复杂指令集处理机(CISC)。比起CISC架构来,RISC架构拥有可充分利用VLSI芯片的面积,可提高计算机运算速度,便于设计(设计复杂性比较低),可降低成本,提高可靠性以及有效支撑多种高级语言等特点。我国处理器产业发展目标就是摆脱对西方软硬件的依赖,从RISC架构处理器便是最佳选项。而在专利方面,在这三种架构上的研究也有一定的便利条件,国内的ARM和MIPS架构处理器的研制已获得相关机构的全面授权,而神威处理器所采用的Alpha兼容架构也是DEC公司15年前的专利,也快要超出专利追溯期。适合在相对较低制程下研制主流性能的处理器。
“龙芯”处理器是中科院计算所的研究小组在“龙芯之父”胡伟武教授的带领下设计和研发的。而处理器的量产是交由北京神州龙芯集成电路设计有限公司来完成的。这家公司是由中国科学院计算技术研究所和江苏综艺股份有限公司共同投资创办的,于2002年底在北京市中关村注册成立, 是一家专门开发、销售具自主知识产权的龙芯系列微处理器芯片(CPU)、硅知识产权(CPU-IP)以及相关嵌入式系统产品的高新技术企业。
从诞生到现在经历了三代产品,其中最新的就是“龙芯3”处理器,这是一款8核处理器,其主频为1.05GHz,拥有8个四发射乱序执行处理核心(每个核心有九级流水线,2个定点单元、2个浮点单元(每个每个浮点单元支持256位向量运算)和1个访存单元,采用交叉开关进行核间互连,并采用通过HT接口进行片间可伸缩互连。)。缓存方面,每个处理器核的一级指令cache和数据cache各64KB,八个处理器核通过交叉开关共享4MB的二级cache。内存方面集成了两个DDR2/3-800控制器。在1GHz下可提供高达16 GFLOPs每核的浮点计算能力,而在1.05GHz下可提供160 GFLOP的双精度浮点处理能力。同时代的3.3GHz Intel Core i7 3960X(拥有新的AVX指令集)在峰值情况下可提供160 GFLOPs的计算能力,而上一代的Core i7 990X 峰值情况下可提供90 GFLOPs,AMD FX8150可提供110 GFLOPs的峰值处理能力。相比之下,“龙芯3”虽然不是性能最强的,但其能耗却是最低的(其TDP仅为40W)。
需要补充的是,“龙芯3”处理器还有一个存有200个扩展指令的独立“盒子”,其作用是使用QEMU(开源虚拟机之一)对X86软件进行加速(Alpha处理器也曾尝试使用类似技术对运行在Alpha Windows NT上的软件进行加速)。使大部分软件的运行都能达到原生速度,而其面积只占整个处理器面积的5%。
鉴于“龙芯3”的每个核心已足够高效,“龙芯3”的发展方向将是28nm制程的16核版本,其模型很有可能于2012年下半年推出。核心设计将进行小幅改动,主频将提升到1.6GHz,二级缓存将进一步增大,而一级缓存将保持不变。
软件方面,已有数款Linux发行版本提供了对“龙芯3”的支持,其中包括Debian,Gentoo,Mandriva以及Red Flag。而BSD和Windows CE在很早以前便可以在“龙芯”处理器上运行。可惜的是在消费级市场上,我们还很少见到装备“龙芯”处理器的设备,不过相信随着技术的成熟,在不久的将来也许可以见到使用“龙芯”处理器的Android或Windows 8平板电脑。
还记得世纪之交时,Alpha处理器曾大方异彩,它采用经典RISC架构(设计简单,扩展性强)、对于原生速度的关注以及纯粹的64位设计(避免了对32位的兼容性问题)。在1993到2001年间,Alpha处理器作为常胜将军,创造了所有与处理器性能有关的记录,仅在某些DEC不太关注的方面(内存接口和I/O系统)失手。其中为DEC赢得最多美名的处理器就是Alpha 21264 EV5系列处理器(经历了处理器制程发展的三个阶段0.50微米,0.35微米以及0.25微米)。
在1996到1997年间,0.35微米制程的21164A处理器成为了最广泛使用的Alpha处理器,其原始频率达到了667MHz,在测试中得分达到了同时代Intel Pentium处理器(主频266MHz)的二倍以上。其后继21164处理器也继承了简单的设计和高效的执行能力(高主频、四发射顺序执行,功耗仅25W),性能上仅稍稍落后于数年后才推出的Pentium III “Katmai”处理器(主频600MHz,功耗达75W)。
接下来,便迎来Alpha处理器发展的转折点,即Alpha 21264 EV6乱序执行核心的诞生(其每时钟周期处理性能达到了原来的二倍,而功耗也达到了原来的三倍),其发展也经历数个制程阶段。它和继任者21364 EV7把性能记录保持到了2002年(之后Alpha处理器也就从公众视野中消失了)。2000年问世的EV7在存储和I/O的设计属于革命性的创新设计(处理核心采用了与EV6相同的架构),存储包括1.75MB的片上二级缓存,集成了一个10通道Rambus内存控制器(充分利用二级Cache作为内存系统低延迟缓存的功能),四个并行6.4GB/s一致性内部链接连接到另外四个核心上,最高支持512 socket以及目录协议。5年后的AMD HyperTransport和更晚的Intel QPI也采用了类似的设计。
再看看21464 EV8,这是第一款采用八发射超标量乱序执行的对称多线程核心的处理器,每个核心拥有四线程处理能力。继任者21564 EV9处理器增加了核心数量(于2004年推出),加入了高性能向量处理单元(1 KILOBYTE处理带宽),可提供100 GFLOPS DP 每核的浮点处理能力,这样的处理能力在2011年也属主流(需要6到8个核心才能达到),组建其性能之强悍。遗憾的是由于种种原因,采用超前设计的EV8和EV9并没有得到量产。
在90年代后期,我国成功地引进了Alpha架构,构架了数个以Alpha为核心的庞大系统,并从Compaq和DEC公司取得了Digital / Tru64 Linux和相关软件栈的全权许可(包括所有源代码)。推进了自主研发Alpha架构处理器的进程。经过数十年的努力(三代处理器),江南计算所推出的神威SW-3处理器——自定制Alpha处理器,并用于装配超大规模Petaflop级超级计算机神威蓝光MPP。而长达一年的测试实验证明了其作为超算专用处理器的资质。
SW3 aka SW1600是一款16核,64位RISC指令集处理器,而每个核心都是21164A EV56加强版(加入向量浮点处理单元,主频范围为1到1.1GHz,制程为65nm)在标准情况(主频1.1GHz)下,处理器浮点处理性能可达141 GFLOPs DP。装配在蓝光超级计算机上的处理器频率为925MHz,配置有四通道128位DDR3内存控制器(可提供68GB/s的内存带宽,相当于8通道DDR3-1066服务器内存带宽)。Cache方面,继承了21164的Cache设计,一级Cache为2 X 8KB,二级Cache为 96KB构成了低延迟缓存系统,其中一级缓存的延迟仅为2个时钟周期。向量处理单元方面,拥有类似AVX设置,如果将频率设置为1GHz,每个核将可以提供8 GFLOPs DP的处理能力,而整个芯片功耗仅为40W左右。
看看神威蓝光超级计算机,它配置了8704个神威SW1600处理器(其中用8575个在975MHz下运行了Top100 bench测试程序)组成了34个超级节点(每个由256个节点组成),150TB内存,2PB硬盘,性能可达1.07 PFLOPS,持续处理能力可达796 TFLOPS,效率达74.3%,峰值功率为1074KW。
神威处理器的未来发展有几种可能性,第一种,继续已经长时间停滞的Alpha架构研发,包括8发射核心(不管是顺序还是乱序执行),更快每核浮点处理单元以及最新的Cache和内存架构的加入。第二种,对现有的核心进行有效的改进,比如增加单芯片核心数量,提升主频或增加向量处理单元位宽和内存带宽(这种改进与Intel的 Knights Corner加速器比较类似)。还有就是设计出片上Teraflop处理器。但它们的实现都需要制程的支持,必须将现有制程提升到32nm甚至28nm(龙芯处理器3B也需要制程提升)。
除了高端MIPS和Alpha架构,ARM也是非常成功的架构(定位不同,ARM主要定位入门级和移动设备),现在被广泛应用于移动设备上。国内已有多家企业获得ARM授权,可以自主研发和生产ARM架构处理器。下面就来看看几款比较有代表性的产品。
总部位于福州的瑞芯公司就提供了成功的个人娱乐终端解决方案,使用配置自定制Cortex A8核心的SOC。其最新产品RK29xx 是首款可以硬盘解码 Google WebM VP8的芯片,主频为1.2GHz,配置有512KB二级缓存,集成GPU(60 million polygons/s)和DSP加速器(可播放大部分格式的1080p视频),支持最大分辨率为1280 x 800的移动设备。双核版本正在研发中。下一代的双核A9 RK3XXX也是蓄势待发,本以为会在前不久的CES上发布,还是推迟了。
总部位于杭州的囯芯公司在3年前获得了ARM授权,主要研发数字娱乐、数字电视盒和机顶盒的处理芯片。现已成为国内前十的芯片设计公司,其产品有GX1100, 1200, 1500, 和3000四个系列的ARM架构SOC处理器。
大唐电信旗下位于上海的联芯科技有限公司致力于研发国产ARM架构通信芯片——MPCore,这款芯片采用自定制Cortex-A9架构(采用了台积电40nm低功耗制程技术),集成Mail-400 MP图形处理核心。主要产品是用于高端移动设备的TD-SCDMA标准单核或双核处理器(包含基带芯片)。
位于上海的灿芯半导体成立于2008年,已经获得了ARM公司包括Cortex, ARM9, ARM11 and Mali的长期授权。协议中覆盖了Coresight debug 、跟踪技术以及与AMBA片上总线兼容的外设。客户方面灿芯半导体为电子公司提供设计服务,在制造商方面与中芯国际合作,并于2011年初推出了40nm产品。同样位于上海的盈方电子有限公司获得了ARM11 , Cortex-A5 、Cortex-A9 、the Mali300 and Mali400 GPUs的设计和生产许可,为硕颖实业有限公司提供移动设备的芯片解决方案。而珠海的全志科技公司则关注高清多媒体处理器的开发,使用Cortex-A8和Mail-400 GPU设计出了支持高清播放的处理器,并被一系列Android系统的平板电脑、智能电视、个人多媒体播放器电纸书、智能多媒体播放器、IP摄像头以及自动多媒体机器人所采用。
目前这类授权自ARM构架的国内研发厂商,多把目标集中在高性价比的个人电子消费产品市场。不具备构架级别的重新设计能力,不过本身一般都会集成性能突出的视频硬解码引擎,这是相比国外同行高通、TI等优势所在,也符合中国的国情。
最后,将要为大家介绍一款自主架构的处理器(由深圳中微电科技有限公司推出),这款系统级芯片(SOC)采用和谐统调处理器技术,不单把两种不同类型的处理器包括中央处理器(CPU)和图像处理器(GPU)(设计思路与AMD公司的APU比较类似,但采用了优化过的新指令集), 统一在一个核芯内,同时结合了多线程虚拟管线(MVP)、平行运算内核、独立的指令集架构、优化的编译器、以及灵活切换的动态负载均衡等崭新技术。这款处理器将主要应用于掌上移动设备,如基于Android系统移动设备。最初产品ICube IC1是一款600 MHz 双核八线程32位SoC处理器,拥有5160DMIPs 的吞吐量,集成了GPU(性能为70 million polygon/s, 600 Mpixel/s)以及一个支持全高清影像HDMI/DVI接口、摄像头接口720p播放加速、5.1声道、存储卡、USB、3G和Wifi连接的主控。这款多线程处理器不仅支持OpenMP和Pthread,其GPU还支持数据级并行、任务级并行、功能级并行处理(中断和上下文切换消耗很小)以及异构GPGPU应用包括OpenGL ES2.0和OpenCL。主要配置包括,每个核心配置一个64KB 一级数据Cache、一个64KB的一级指令Cache、一个64KB SRAM、一个32位的全局寄存器文件。内存方面,包括一个八通道DMA、一个16源中断控制器。且每个核面积仅为3.0平方毫米(包括内存)。其功耗仅为300mW。
总的来说,我国的处理器设计和制造已覆盖了整个主流领域,可以为各种电子产品提供处理器解决方案。更重要的是,国内处理器研究在自主指令集设计上有了长足进步,这样以来国产处理器的发展道路就能够越走越宽。
评论
查看更多