世界上最复杂的AI芯片Colossus MK2或GC200 IPU？-电子发烧友网

一家英国芯片初创公司推出了它声称是世界上最复杂的AI芯片Colossus MK2或GC200 IPU（智能处理单元）。Graphcore将其MK2与Nvidia的适用于AI应用的Ampere A100 GPU进行对比。

MK2及其前身MK1专为处理非常大型的机器学习模型而设计。MK2处理器具有1，472个独立的处理器核心和8，832个独立的并行线程，所有这些均由900MB的处理器内RAM支持。

Graphcore表示，MK2的BERT-Large训练性能比MK1改进了9.3倍，BERT-3Layer推理性能提高了8.5倍，EfficientNet-B3培训的性能提高了7.4倍。

BERT，即来自变压器的双向编码器表示形式，是Google为基于自然语言的搜索而开发的自然语言处理预训练技术。

Graphcore不仅会提供芯片。对于一家相对较新的创业公司（成立于2016年），Graphcore围绕其芯片构建了卓越的生态系统。大多数芯片初创公司只关注其硅片，但是Graphcore提供了更多的东西。

它通过其新的IPU机器M2000出售GC200，该IPU机器M2000在1U盒中包含四个GC200芯片，并提供1 petaflop的总计算能力。Graphcore指出，您可以从直接连接到现有x86服务器的单个IPU-Machine M2000盒子开始，或者添加总共八个连接到一台服务器的IPU-Machine M2000。对于大型系统，它提供IPU-POD64，其中包括内置在标准19英寸机架中的16台IPU-Machine M2000。

通过Graphcore的全新IPU-Fabric技术可以大规模连接IPU-Machine M2000和IPU-POD，该技术是专为机器智能通信而设计的，并提供了专用的低延迟结构，可以在整个数据中心连接IPU。

Graphcore的Virtual-IPU软件与工作量管理和编排软件集成在一起，可为许多不同的用户提供培训和推理服务，并且它允许对可用资源进行调整，并根据工作进行重新配置。

这家初创公司表示，其新硬件完全是即插即用的，客户将能够将多达64，000个IPU连接在一起，总共拥有16 exaFLOP的计算能力。

这是一个很大的要求。英特尔，ARM，AMD，富士通和Nvidia仍在朝着exaflop的目标迈进，而Graphcore声称是后者的16倍。

Graphcore的另一个关键要素是其Poplar软件堆栈，该堆栈由IPU从头开始设计，并与标准机器学习框架完全集成，因此开发人员可以轻松移植现有模型，并在熟悉的环境中快速启动并运行。对于希望完全控制以利用IPU发挥最大性能的开发人员，Poplar支持使用Python和C ++直接进行IPU编程。

Graphcore有一些重要的MK2系统早期采用者，包括牛津大学，美国能源部的劳伦斯·伯克利国家实验室和JP Morgan，后者致力于自然语言处理和语音识别。

IPU-Machine M2000和IPU-POD64系统现已开始预订，并于2020年第四季度开始批量生产。早期访问客户可以通过Graphcore的云合作伙伴Cirrascale在云中评估IPU-POD系统。它计划在未来几个月内宣布OEM和渠道合作伙伴。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉