0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI芯片在实现商用的过程中的诸多挑战

姚小熊27 来源:半导体行业观察 作者:半导体行业观察 2020-11-19 10:04 次阅读

过去几年,数字化、信息化推动社会和产业发生了巨大的变革,在这个过程当中,数据中心充当了重要的角色。尤其是伴随着人工智能迅速渗透到各领域的方方面面,庞大的应用场景使得AI模型日驱复杂。在这种形势之下,企业对数据中心的计算能力提出了更高的需求,而算力的核心就是芯片

正是基于这个原因,近年来全球涌现出不少致力于AI芯片开发的企业,燧原科技就是其中之一。在成立之初,公司就瞄准了云端训练芯片市场缺口,并提出了“做大芯片,拼硬科技”的目标。

在这种愿景的驱动下,从2018年3月成立至今的短短2年半时间内,燧原科技就陆续发布了云端AI训练芯片“邃思DTU”、搭载该芯片的AI加速卡“云燧T10”以及基于OCP加速模组OAM的“云燧T11”。2020年9月,燧原科技再次迎来了里程碑式的突破其第一代人工智能训练加速卡云燧T10和由其组成的多卡分布式训练集群已在云数据中心落地,正式进入商用阶段。

近日,燧原科技携“云燧T10/T11” 首次亮相第三届全球IC企业家大会暨第十八届中国国际半导体博览会(IC China 2020),在本次大会期间,燧原科技的负责人和相关专家为我们介绍了AI芯片实现商用的过程中存在着诸多挑战,以及燧原科技作为一家初创企业又是怎样完成了云端AI大芯片的迅速商用化落地。

AI大芯片落地的难点

众所周知,新场景对算力的需求,使得AI芯片在设计、制造和封测等方面进行了升级,由此也促生了很多新技术,这不仅为大量初创企业带来了发展机会,也同样为他们带来了诸多的挑战。以芯片设计为例,设计企业需要在架构、IP、SoC等方面进行创新。而芯片越大,则意味着整个芯片设计难度也会呈指数级上升,这为设计企业带来了难题。除此之外,AI芯片要处理大量的数据,所以这类芯片对性能的要求就导致了它对先进工艺和先进封装方面也具有较高的要求。

而在解决了在这三个环节中的问题后,也仅仅是企业成功推出了相关产品,离实现商业化落地还存在着一段距离。

“量产是AI大芯片实现商用要翻越的一座大山”,燧原科技创始人兼COO张亚林表示:“在推出产品到实现量产的过程中,需要解决产品质量、性能功耗以及良率这三大核心问题。”

为了保证产品质量,燧原科技通过用验证方法学和验证覆盖率来确保芯片设计质量和制造质量。在性能功耗优化方面,则通过软硬件联合性能以实现端到端的性能调优,这包括三个部分,即进行芯片性能极限测试、硬件性能调优以及软件性能优化。在良率方面,存在着晶圆测试(CP)良率挑战、2.5D封装良率挑战以及分级良率挑战。对此,燧原科技选择了与产业链上下游伙伴共同合作来提高产品良率。

除了在技术层面上存在产业化应用的挑战外,与之相匹配的软件生态系统也是AI大芯片难以落地的另一重要因素。

为此燧原科技推出了计算及编程平台“驭算”。据介绍,该平台支持主流深度学习框架,并针对邃思芯片进行了特定优化。整个平台不仅包括传统的算子加速库,还为数据中心大规模训练集群提供高效灵活的调度机制。

(驭算软件架构)

大芯片背后的硬科技

实现量产是商业化过程中重要的一环,量产后走向市场并受到市场的青睐则是更重要的环节,而这就需要依靠产品的硬实力。

通过相关技术降低芯片成本,也是云端AI训练芯片硬实力的一种体现。其中,芯片架构的创新是实现算力普惠的一个重要因素。

借本次全球IC企业家大会的机会,燧原科技创始人兼首席执行官赵立东发布了燧原科技的芯片架构“GCU-CARA”(通用计算单元和全域计算架构)。据赵立东介绍,该架构具有完全可编程、全模式计算、全精度计算和高并行度的特点。

据现场燧原科技专家介绍,GCU-CARA具有256个张量计算单元,每个计算单元支持1个32 bit MAC,支持所有精度输入以及混合精度运算。GCU-CARA拥有广泛的标量、向量、张量计算形式以及各种精度格式的支持,可以提供极其灵活的编程方式和张量切分/复用方式,从而支持最广泛的编程需求。

据悉,燧原科技GCU架构还包括GCU-CARE(计算引擎)、GCU-DARE(数据架构)、GCU-LARE(智能互联)、GCU-PARE(先进封装)四大核心技术,旨在为人工智能产业注入了新动能。

目前,燧原GCU已应用到云燧T10,T11产品以及数据中心AI训练系统和集群中。而今年云燧T10和由其组成的多卡分布式训练集群正式进入商用阶段,也从另一方面说明了燧原科技的硬实力受到了市场的认可。

燧原科技开启2.0时代

在云燧T10实现商用化落地的前四个月,燧原科技还获得了新一轮的融资,借助这轮融资,燧原科技得以从1.0跨越到了2.0时代。

张亚林表示:“在1.0时代,燧原科技实现了从0到1的目标,在这个阶段公司的工作重心是放在建设中国顶尖的工程化团队,完成产品研发和量产、实现产品热启动,并完成首个人工智能训练解决方案的商业化落地。”

已经实现商用的云燧T10和由其组成的多卡分布式训练集群是燧原科技完成1.0阶段任务的代表作之一。从上文AI大芯片的商用落地难处便可看出,仅靠一块芯片或是一种产品难以支撑云端服务器的使用。从目前市场情况来看,由AI芯片所组成的分布式集群在云端服务器发展的过程中起到了重要作用,针对这种商业诉求,燧原科技所推出的多卡分布式训练集群,就能够为普惠云端训练的实现提供助力。

“多卡分布式集群的建成并不是一件简单的事”,张亚林表示:“在这个过程中,燧原科技需要解决多卡之间连接问题,还需要考虑每个板卡的工作分配,使之在尽可能小的功耗下发挥出最高的性能。”

人工智能训练平台的商业化落地不仅为燧原1.0画上了完美的通关句号,还为燧原科技打开了通往2.0时代的大门。

“2.0时代,燧原科技将进行从1到N的发展”,据张亚林介绍:“在2.0时代,燧原科技会专注于建立市场销售和服务支持体系,迅速拓展业务。同时,公司还将加强国内外学术端的合作,引进高端人才,构建产业生态。”

在产品规划方面,作为一个务实的企业,实现商业化落地是燧原科技所追求的目标之一。以此为基础,燧原科技在进行芯片设计之初就瞄准了市场痛点,大大加速了产品的商业化进程。

张亚林表示:“未来,燧原科技也将以应用为导向,进行产品的拓展。在2.0时代,燧原科技还会持续产品的研发和迭代,构建云端训练和推理平台完整解决方案。为了实现这一目标,燧原科技将会在明年推出推理AI芯片。”

根据燧原科技的计划来看,公司将用3年时间来构建燧原科技2.0时代。

燧原科技之所以能够在短时间内得到如此迅速的发展,是因为云端AI训练芯片还处于起步阶段,算法和架构方面还有很大的上升空间。从云端训练芯片巨头英伟达的发展中看,2019年其数据中心业务营收达到30亿美元,AI训练卡则贡献了其中的20亿美元和最大利润。

而英伟达几乎垄断了云端AI训练芯片市场,一家独大的市场情况就导致了AI云端训练的成本很高。而燧原科技瞄准这块市场,就是期望能够提供可替代的解决方案来推动普惠算力的实现。

据张亚林介绍,燧原科技瞄准的是云端计算芯片的存量和增量两大市常存量市场指的是目前已有的,并可进行方案替代的市场,例如云服务商等领域。增量市场则是未来通过技术迭代并进行方案替代的市常

他表示:“在国外厂商已经构建了强大的优势之下,其他厂商要想进入这个市场首先就要适应已有的生态系统,通过提供可替代的解决方案是打入这个市场方法之一。这也是为未来突破国外厂商垄断所奠定的基矗”

从国内云端AI芯片竞争格局来看,由于现阶段国内致力于发展云端AI芯片的企业并不多,且在市场前景巨大的情况下,抢先争取相关人才和发展生态合作伙伴就成为了驱动企业未来发展的重要引擎之一。而这也是上文所提到的,燧原科技要在2.0时代大力发展的部分之一。

因此,燧原科技正在积极与全产业链的伙伴达成合作,联合伙伴孵化行业解决方案,深度参与AI产业联盟;积极建立生态,联合建立高校联合实验室;并开放底层能力,赋能定制开发,深度参与社区,贡献测评标准。

结语

在算力即是生产力的今天,业界对普惠算力的需求日益高涨。在这种市场需求之下,在云端训练芯片这片蓝海当中,虽然存在着诸多门槛,但这更是机会。在这段探求之路上,燧原科技的成长也为国内云端AI芯片实现商业化提供了一条发展之道。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237502
  • 云端
    +关注

    关注

    0

    文章

    117

    浏览量

    16845
  • AI芯片
    +关注

    关注

    17

    文章

    1859

    浏览量

    34903
收藏 人收藏

    评论

    相关推荐

    AFE4403 TX3静态模式,有没有办法实现在一个测量过程中,LED1,LED2,LED3依次点亮并采集数据?

    时,都需要重新烧录程序,有没有办法实现在一个测量过程中,LED1,LED2,LED3依次点亮并采集数据。如果不能的话,我想请问一些您这个芯片在技术手册第一页写的”可支持 3 个 LED“的意义在哪?
    发表于 11-14 07:58

    SOC芯片在汽车电子的应用

    了处理器核心、存储器、输入/输出端口等组件的集成电路。与传统的多芯片解决方案相比,SOC芯片具有体积小、功耗低、性能高、成本效益好等优点。这些特点使得SOC芯片成为汽车电子系统的理想
    的头像 发表于 10-31 15:46 943次阅读

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    将成为生命科学领域的重要工具和方法,推动生命科学的深入发展和广泛应用。同时,我们也应该清醒地认识到,这个过程中也伴随着诸多挑战和困难。只有不断克服这些挑战,才能充分利用
    发表于 10-14 09:21

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    for Science的技术支撑”的学习心得,可以从以下几个方面进行归纳和总结: 1. 技术基础的深入理解 在阅读第二章的过程中,我对于AI for Science所需的技术基础有了更加深入的理解。这一章详细阐述了
    发表于 10-14 09:16

    驱动芯片在应用的常见问题分析与解决

    电子发烧友网站提供《驱动芯片在应用的常见问题分析与解决.pdf》资料免费下载
    发表于 09-10 10:48 0次下载
    驱动<b class='flag-5'>芯片在</b>应用<b class='flag-5'>中</b>的常见问题分析与解决

    DRV8332芯片在调试的过程中,输出始终达不到24V,为什么?

    您好,我们的DRV8332芯片在调试的过程中,输出始终达不到24V,发现PVDD_A,PVDD_B,PVDD_C供电24V正常,GVDD_A,GVDD_B,GVDD_C,供电12V正常,由于控制
    发表于 09-10 07:04

    康谋分享 | 在基于场景的AD/ADAS验证过程中,识别挑战性场景!

    基于场景的验证是AD/ADAS系统开发过程中的重要步骤,然而面对海量驾驶记录数据时,如何实现自动且高效地识别、分类和提取驾驶记录挑战性场景?本文康谋为您介绍IVEX软件识别
    的头像 发表于 08-28 10:16 1024次阅读
    康谋分享 | 在基于场景的AD/ADAS验证<b class='flag-5'>过程中</b>,识别<b class='flag-5'>挑战</b>性场景!

    OPA4192在使用过程中芯片发烫是什么原因导致的?

    OPA4192在使用过程中芯片发烫,我们的供电电压是正负16V,是因为供电电压太高导致的嘛?有这方面的数据嘛?
    发表于 08-05 07:27

    risc-v多核芯片在AI方面的应用

    RISC-V多核芯片在AI方面的应用主要体现在其低功耗、低成本、灵活可扩展以及能够更好地适应AI算法的不同需求等特点上。 首先,RISC-V适合用于高效设计实现,其内核面积更小,功耗更
    发表于 04-28 09:20

    如何确保DMA传输过程中的数据都是好的?

    有没有哪位大佬清楚DMA原理的 想请教下,芯片厂是如何确保DMA传输过程中的数据都是OK的 比如传输前后SRAM里面的数据不变,传输出来的数据却发现有丢失,出错
    发表于 04-12 06:23

    STM32F405RG在做500K DATA对FLASH烧写,烧写过程中FLASH会全部变成0XFFFFF如何解决?

    STM32F405RG 芯片在做500K的DATA对FLASH烧写的时候,在过程中,FLASH会出现突然全部变成0XFFFFF....这个问题该如何解决?
    发表于 03-27 06:57

    从传统广播到数字化IP网络广播:转变过程中的策略与挑战

    来百度APP畅享高清图片 从传统广播到数字化IP网络广播的转变过程中,需要采取一系列的策略和措施来应对挑战,确保顺利过渡和可持续发展。   首先,明确转型目标和定位是关键。在开始转型之前,广播机构
    的头像 发表于 01-23 14:59 461次阅读
    从传统广播到数字化IP网络广播:转变<b class='flag-5'>过程中</b>的策略与<b class='flag-5'>挑战</b>

    电压基准芯片在电路的应用

    端用一个可控电压控制,能否实现端基准电压芯片正负极电压改变?在这场合的应用一般的电压基准芯片在电路原理和结构上有什么不同?
    发表于 01-17 23:10

    MCU在运行过程中,可以调整它的主频吗?

    希望MCU在运行过程中,可以调整它的主频,比如说,在30MHz/55MHz/140MHz,这几个频点之间切换。 但不希望重启或者复位mcu。 可以实现吗?
    发表于 01-16 07:39

    先进封装 Chiplet 技术与 AI 芯片发展

    、主流技术和应用场景,以及面临的挑战和问题。进而提出采用Chiplet技术,将不同的功能模块独立集成为独立的Chiplet,并融合在一个AI芯片上,从而实现更高的计算能力。该设计不仅允
    的头像 发表于 12-08 10:28 678次阅读
    先进封装 Chiplet 技术与 <b class='flag-5'>AI</b> <b class='flag-5'>芯片</b>发展