超级计算,对很多人来说并不陌生但仿佛又离得很远,或许大家对它的了解也仅仅限于“天河”超级计算机。其实,随着越来越多的应用对实时数值计算和数据处理提出极高的要求,超级计算正在越来越多地出现在与人类生活息息相关的领域。尤其是近些年来,随着云计算、大数据等IT新概念和新技术的出现,以及先进无损音视频处理和自动驾驶设备等嵌入式高性能计算的兴起,使很多原有应用迎来了突破性进展,并促使很多新的IT应用模式出现。而在这些应用背后,许多厂商正在全力实现的“嵌入式”实时超级计算解决方案,可以提供芯片级的高性能数据运算和处理能力。为此,北京华兴万邦管理咨询有限公司走访了业内率先实现单芯片超算(Supercomputing on a Chip)商用的法国Kalray公司,为大家一探“片上超算”给行业带来的新机会。
面向超级计算的多核处理器
为了完成普通PC或服务器无法完成的大量、复杂的计算任务,超级计算机要求拥有为数众多的处理器。然而,随着对运算速度越来越高的追求,单核处理器已经无法满足超级计算的要求,因为无休止地增加单核处理器的数量不但会造成成本和功耗的大量增加,而且性能也无法呈现几何级数的增长。于是,多核技术开始被大量应用于超级计算当中。以中国的“天河二号”超级计算机为例,其使用的主处理器和协处理器目前均为Intel公司的多核处理器。
目前,市场上研发并供应多核处理器芯片的厂商为数众多,以Intel和AMD两大处理器厂商为首,不同的多核处理器所面向的应用领域也不尽相同。除了面向PC应用的2核、4核处理器和面向手机和平板电脑的4核、8核处理器外,一些供应商推出的8核、16核处理器也已实现全面的商用,例如XMOS公司的xCORE系列多核处理器已被高解析度音频、千兆网速物联网等领域中的产品、解决方案所采用,该公司全新的xCORE-200多核微控制器通过在单一器件上集成16个或更多高性能32位RISC处理器内核,成为了高性能用户、专业音频与新兴千兆网速物联网(IoT)应用的完美可编程平台。
在众多的多核处理器供应商中,有一家面向超级计算相关应用的厂商正在越来越多地引起业界的关注,这就是全球首家可以提供256核以上处理器芯片的厂商——法国公司Kalray。Kalray公司是在单芯片上实现超级计算(Supercomputing on a Chip)的发明者,其大规模并行处理器阵列芯片MPPA(Massively Parallel Processor Array)处理器采用台积电(TSMC)的28nm工艺制程,拥有超过256个可以进行C/C++编程的内核。该公司的单芯片超算解决方案可以为两大类应用提供高性能、低功耗和实时等特性,一类是在数据中心、视频处理等应用中卸载主处理器的任务,另一类是需要较大量数据处理、高实时性和低功耗的嵌入式应用。下面为您具体介绍该公司的解决方案及其商业应用。
Kalray公司的256核MPPA处理器芯片
低功耗256核处理器芯片和标准C/C++编程环境
Kalray公司是一家成立于2008年的无晶圆厂半导体公司,它是开发多核处理器解决方案的先锋厂商。该公司创新的MPPA架构独一无二地提供单芯片超算解决方案,其可以为视频、网络、电信、大数据等领域的云计算应用实现实时加速,还可以为航空航天、国防、汽车等领域的嵌入式应用提供嵌入式高性能运算能力。Kalray公司的总部位于法国,包括位于巴黎和欧洲硅谷格勒诺布尔市(Grenoble)两个地点的办公室,此外,其在美国加州和日本东京还设有分公司。
Kalray公司的完整解决方案包括MPPA系列多核处理器、PCIe Gen3加速卡、提供网络加速支持的开源网络接口卡(Open NIC),以及软件开发工具包。该解决方案可以提供行业领先的低计算功耗,具有时间可预测性和低延迟性,以及独一无二的处理扩展性和系统密度,可以在同一块片芯上实现多种异构的应用,同时拥有很好的可编程性(包括标准C/C++和OpenCL)。
MPPA多核处理器包括Andey MPPA和Bostan MPPA两款产品。其中Andey为第一代MPPA处理器,已于2013年第1季度开始供货。它拥有超过256个可以进行32位超长指令字C/C++编程的内核,单精度浮点运算速度可以达到210 GFLOPS(每秒十亿次浮点运算),双精度浮点运算速度可达70 GFLOPS,运算速度可达0.7 TOPS(每秒万亿次运算)。该处理器拥有两块带宽为12.8GB/s的64位DDR3内存,以及两个由DMA支持的PCIe Gen3×8接口。Bostan为该公司即将推出的第二代MPPA处理器,目前已完成流片及样片的封装,将于2015年第4季度向先期客户供货。它的单精度浮点运算速度可以达到840 GFLOPS,双精度浮点运算速度可达420 GFLOPS,运算速度可达1.4 TOPS,其他性能相比Andey MPPA有较大幅度的提升。
MPPA多核处理器采用Kalray独一无二的架构设计。每个处理器芯片拥有4个四核主CPU和 16个计算集群,每个计算集群中又包括16个用户核和1个系统核,每个用户核则采用Kalray拥有专利的超长指令字架构进行设计。同时,其片上的DDR存储器和以太网及PCIe接口模块支持了数据的低延迟处理,并使芯片的整体功耗远远低于通用的多芯片组功耗,Andey MPPA处理器的典型功耗为12W,Bostan MPPA处理器的功耗为11W-30W。
Kalray公司独一无二的处理器架构
为了验证其MPPA处理器的高性能、低功耗特性,并推动其芯片产品的商用化,Kalray推出了采用MPPA处理器的系列网络卡。Kalray的PCIe Gen3加速卡包括TurboCard2和TurboCard3两款产品。TurboCard2加载了4块Andey MPPA芯片,浮点运算速度可以达到0.9 TFLOPS(每秒万亿次浮点运算),存储容量高达32GB,拥有8块DDR3内存(总带宽达80GB/s),并配有C/C++ GNU编译器环境。TurboCard3是TurboCard2的下一代产品,将于2015年底供货,其加载了4块Bostan MPPA芯片,浮点运算速度可以达到3.4 TFLOPS。Kalray的开源网络接口卡ONIC80也将于2015年底开始供货,它是完全可编程的网卡,运行Bostan MPPA芯片,拥有PCIe Gen3×16接口和8GB存储容量,其大小与普通图形加速单元类似,功耗为40W,可以使数据中心变得更加紧凑和冷静。
Kalray公司的PCIe Gen3加速卡TurboCard2
开发工具体系是处理器生态体系中另一项非常重要的指标。为了便于工程师针对不同的应用开发自己的超算解决方案,Kalray提供了方便易用、内容丰富的软件开发工具包,包括标准C/C++编程环境,模拟器、编译器、调试器和系统跟踪,第三方实时操作系统(如Linux、风河)和设备驱动程序,面向CPU的基础C编程和Lib编程,面向DSP的POSIX多线程编程,以及面向GPU的OpenCL编程。可以说,该软件开发工具包提供了众多高性能应用所需求的软件,工程师不需要针对该系列处理器进行大量重新学习就可以上手,并力求最大限度地发挥MPPA多核处理器的全部性能。
Kalray公司的软件开发工具包
目标市场:数据中心和关键任务型嵌入式应用
通过上述对Kalray公司各种硬件产品性能的描述可以看出,它们能够在很多对数据运算和处理有高要求的应用领域发挥重要作用,加上软件开发工具包提供的强力支持,其整体解决方案拥有非常广阔的应用空间。该公司的销售和营销副总裁Jean-Pierre Demange向分析师介绍:“在数据中心的工作过程中,随着大量应用转向云端,数据通信量的激增,以及新数据中心体系的进一步虚拟化需求,开始出现一种逐渐增长的需求,即从主流处理器(x86)向高性能、低功耗、低延迟、完全可编程的协处理器进行集中、实时卸载处理的需求。Kalray的处理器和PCI卡可以提供独一无二的解决方案来帮助数据中心实现这一功能,主要应用范围包括智能网卡、智能存储、运算加速、视频编码等。”
“除数据中心外,我们的解决方案还有一个重要的目标应用市场,那就是关键任务型嵌入式应用。”Kalray公司的销售和营销副总裁Jean-Pierre Demange继续说道。“关键任务型嵌入式应用市场要求在固定的占板面积上提供越来越高的计算能力,以及在同一块片芯上拥有越来越高的功能集成度,同时还要保留实时性支持和安全规范,而目前其他现有的多核架构尚无法满足这些规范和要求的认证。Kalray是全球首家可以为关键任务型嵌入式应用提供全认证多核解决方案的公司,我们可以为航空航天、国防、自动汽车、机器人和多轴飞行器等应用领域提供支持。”
Kalray公司的销售与营销副总裁Jean-Pierre Demange、首席执行官Eric Baissus和商务总监Stephane Cordova(从左至右)向华兴万邦分析师展示其产品
目前,Kalray公司已对其后续产品进行了合理的规划,该公司的首席执行官Eric Baissus介绍道:“我们正在对第三代MPPA多核处理器Coolidge制定技术规范,这款芯片的单精度浮点运算速度预计将高于1200 GFLOPS,双精度浮点运算速度预计将高于600 GFLOPS,计划2017年初生产样片,2017年年内实现量产。”此外,关于未来对中国市场的开发,Eric Baissus先生也表达了自己的观点:“目前,我们与中国企业的合作还较少,我们希望下一步能够加强与中国市场的联系,并愿意为中国的超算中心和高性能嵌入式应用提供支持。”
评论
查看更多