0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么说“众核异构计算”是必然趋势?

21克888 来源:厂商供稿 作者:深圳王哥 2022-04-01 18:29 次阅读

经常有朋友问,“为什么认为众核异构计算是必然趋势呢?”。实际上这个问题在业内已经是共识了,所以本文希望从更浅显的角度来解释这个问题。

首先,需要解释“为什么当下正处于算力大爆炸时代”

> 越强大的人工智能,需要以越强的算力为基础。

1)这如同互联网时代的爆发,是建立在庞大的云服务器集群为前提。这些服务器向用户提供视频/图片/文字内容的海量访问需求。而人工智能时代,算力建设成为新基建的基础建设。

2)以目前人脸识别、视频结构化这种深度学习算法举例,实际上我们已经在云端推理和训练投入大量的计算资源,服务于公共安全、门禁、金融系统等领域,也成为了IntelAMD英伟达新的营收增长点。而,正在获得突破性进展的领域,对算力的需求将更大:例如自动驾驶、医药研发、量化交易、基因工程、知识图谱、数字孪生、工业软件、智慧城市等领域。

>算力时代,行业竞争的决定因素是“算力+算法”。

1)以金融市场博弈为例,以前决定各方成败的是否拥有“最强的大(人)脑”,10个、100个、还是1000优秀交易员。而正在到来的时代是,你方是否拥有最优秀的算法+更强的算力,决定了你方能处理的信息维度,数据规模,从而拥有更准确的预测和最快的决策速度。

2)和传统的商业世界一样,服务质量和速度将决定一个公司的成败。在未来这些优势将自于“不断演进的算法”和“更强大的算力基建投入”。一个国家在数字经济的优势,也将来自于此。

> 算力时代,科研领域竞争的决定因素是“算力+高端科研人才”。

1)这里以Google的Summit超算集群和DeepMind所带来的科研突破举例:

a. 攻克生物学界50年来的重大难题——蛋白质折叠预测;

b. 在第一性原理分子动力学中引入机器学习模拟方法将模拟的时间尺度提高了至少1000倍,体系规模提升至少100倍(2020年戈登贝尔奖.贾伟乐);

c.QMCPACK利用Summit,使得研究体系可以包含数百个原子,为研究更实用的超导体提供极大的帮助;

d. 为“战胜”癌症,需要研究基因、生物标记物与环境之间隐藏(目前未知)的关系。融合已有的健康数据、非结构数据如文本型的报告、医学影像等,利用机器学习算法,在Summit上对美国的癌症群体进行更全面的分析;

e. 利用Summit,可以确定人类蛋白和细胞系统的功能、协同和进化的模式。这些模式可以帮助研究临床表型、疾病的可见性状(例如老年痴呆症、心脏病和成瘾)的形成,并为药物发现过程提供支持;

f. 利用Summit,FLASH可以进行长达数千倍时间内对多达12倍的元素种类进行高分辨率的模拟。

算力大爆炸,正在为科研领域取得颠覆性成果提供算力保障。反之,如果我们今天的高性能计算水平仍停留在十年前的水平,今天所见的激动人心的技术突破几乎是不可能的。

2)以上的例证希望说明两个问题:第一,国家需要建设更强大的超算集群,科研人员才有可能在前沿领域取得突破性研究成果。小米加步枪能取得胜利的可能性几乎为零,由此知识产权的布局依然将受制于人。第二,以前称之为超算,今天已经称之为智算,其原因是HPC+AI正在成为新的研究范式,即科学计算融合深度学习算法。

3 )在军事领域,我们也看到了多传感器、多数据链融合,利用深度学习算法提升战场智能化水平;还有如密码学对于通讯的意义;空气动力学对于大装备的意义等等。

4)可以遇见,未来在国家重点实验室、科研院所、985/211高校将迎来智算建设的新高潮。原因?因为科研人员主要就在这些地方。

> 区块链、量子霸权、元宇宙等概念,背后都将是以庞大的算力为依托。

那么,如何获得更强大的算力呢?

> 一直以来,行业依托于半导体工艺、制程以及Chiplet最先进的封装技术,在时钟速度、集成密度、片上集成方法可以获得更高的算力。然而硅基芯片工艺达到3nm后,摩尔定律是否将失效?所以今天大家开始在研究“后摩尔时代”。

> 计算机架构的演进,是另外一种重要手段。

1)传统手法:cache增加,指令集扩展,协处理器,多核等。例如,为了增加x86的多媒体处理能力,于是有了MMX扩展指令集;为了兼顾功耗、成本和视频编解码性能,有了专门的H.264/265协处理器IP,这里就不再赘述了。

2)专用处理器:CPU在通用计算领域的角色无可替代,目前的主要指令集有x86(Intel、AMD、海光等少数几家),arm(有钞能力的公司都可以买来解决计算芯片设计的主要问题,钞票越多能买到越强的IP授权,指令集授权则更贵),RISC-V(开源指令集,后起之秀)。但CPU面对一些大规模、并行运算时已经显得力不从心、成本也划不来。所以出现了GPU,NPU,DPU这类专用计算处理器,GPU擅长图像处理,NPU擅长深度学习算法处理,DPU擅长数据处理。讲到GPU、NPU、DPU这三个名词,实际上这个体系非常复杂,无法用类似CPU三种指令集这样去简单概述,在这个领域各家芯片的架构差异、标称性能都非常大,用万马奔腾比较合适。在这个领域目前最优秀者无疑是英伟达,追赶者内心的压力是巨大的。要不是中美贸易战的大背景,我想业者还是投资领域,谁能敢奢望去挑战?

3)片上的众核异构:CPU单核计算性能提升已经越来越不能满足应用对计算性能需求、功耗的控制、成本的控制的需求,所以“片上众核异构”应势兴起。这带来了许多的优势,共享内存、各计算单元之间实现更高速的数据通讯、均衡的功耗控制。最近热炒的Apple M1/M1 pro/M1 Max是一个很好的范例。

4)整机的异构计算,是以CPU板卡为主,在机箱内增加各种专用的计算板卡,以增强服务器在某些特定领域的计算能力。例如插上GPU板卡增强服务器的图像处理能力,插上NPU板卡增加服务器的深度学习算法的处理能力,插上GPGPU板卡增加科学计算的处理能力,CPU+存储卡+NPU卡就是我们经常听到的“近存计算”。

如何驾驭和挖掘算力?

我们正在拥有越发强大和越发复杂的计算硬件,另外一边是复杂而庞大的高性能计算应用软件体系(科学计算、各种深度学习算法、各种运行框架runtime等),一些是已经成熟而知名的软件,另外一些是正处于青春期的各种算法和创新应用。那么,应该如何将这两者能融合起来呢?这个事情是简单还是复杂的呢?

1)如果硬件和软件无法融合,那么硬件性能将被白白浪费掉。比方说你投了5nm的芯片,在计算许多场景时可能还比不过别人28nm时代的速度和效率,更糟糕的情况是出现计算精度不够,或者完全不支持某些成熟软件的运行。(计算精度?我的卡可是支持FP32的,这里可能大家有所不知,如果是加减乘除这种四则运算当然不会有什么问题,但如果让求解三角函数,反三角函数,双曲函数等,这些都是软件算法在另外一个层面决定了计算精度和计算速度。||更深一点层面,计算并行优化决定了许多算法和工业软件是否能运行在GPU、NPU这类专用处理器,没有这部分工作,这些加速卡将毫无用处。NVIDIA在这方面软件投入了海量的资金、长期的时间和优秀的人才,我国的计算硬件的短板已经显现出来的。

2)如果持续创新的算法与软件,无法与已经投入的硬件进行适配和融合,那么这些硬件资产的价值将被白白浪费掉了。近一步而言,硬件资产一旦投入,就无法变化。但算法和软件是高速发展和发散性的,如何让客户的硬件资产持续发挥价值,这需要算力基础软件栈进行更长期和持续的工作。遗憾的是,我看到许多智算/超算平台的政府规划文件,里面并没有为此去单列预算出来。从商业角度而言,硬件商本质就是卖硬件的,那么谁将应该为此提供长期的费用呢?我们更是低估了这个层面的难度以及持续投入。

3)如果我们用“云存储的投资建设”逻辑来对照“算力的投资建设”逻辑,这必然会走入误区。云存储是一个相对于简单业务场景,单调而成熟的技术体系。“存与不存,硬盘就在哪里!” vs "算与不算,算力就在哪里!” 这背后是完全不同的技术逻辑。

> 算力基础软件栈是“越发强大和越发复杂的计算硬件”与“复杂而庞大的高性能计算应用软件体系”的技术桥梁。其主要包括数学库、算子库、科学计算库、求解器等,还包括AI和异构计算框架/或叫引擎,编程语言/编译器。我国由于历史原因,以前缺乏对处理器领域的投资,所以这个层面的基础软件技术积累几乎为零,人才储备也几乎为零。形象地说,计算大芯片是一栋大厦的地基,那么算力基础软件栈是先进计算的第一层,是大堂,是服务中心所在。

“2022年3月30日,国际计算机协会(ACM)宣布Jack Dongarra为2021年ACM 图灵奖获得者,以表彰他在数值算法和库方面的开创性贡献,这些贡献使高性能计算软件在四十多年里能够跟上硬件的指数式改进。”

> 软件生态的意义。生态的意义主要在于两方面,一是,让应用开发者不需要过多考虑硬件平台的差异性,便捷地使用算力,专注于研究自己所需要解决的问题;二是,让应用开发者形成的软件资产,可以直接部署和运行在各种异构计算的平台。围绕算力时代,整个行业仍有很远的路要走,巨头也只是提前了一点在积极布局,例如Intel的OneAPI,AMD的Rocm,NVIDIA的CUDA等等。作为国产自主可控的发展理念,我们仍有机会去追赶并超越,我们应该如何应对呢?

结束语:这个行业里,因为各种原因故意忽略/隐瞒基础计算软件栈的难度和价值,这其实并不利于整个计算产业链的健全和健康发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11092

    浏览量

    102841
  • 英伟达
    +关注

    关注

    22

    文章

    3738

    浏览量

    90786
  • 异构计算
    +关注

    关注

    2

    文章

    99

    浏览量

    16265
收藏 人收藏

    评论

    相关推荐

    汽车异构硬件平台开发如何进行静态代码分析

    随着汽车软件开发复杂度的提升,异构硬件平台的应用已成为必然趋势。多编译器环境的引入不仅是技术发展的自然产物,更是解决日益增长的功能需求和技术挑战的有效途径。在此背景下,Helix QAC 作为一款
    的头像 发表于 10-09 16:15 439次阅读
    汽车<b class='flag-5'>异构</b>硬件平台开发如何进行静态代码分析

    澎峰科技高性能计算库PerfIPP介绍

    PerfIPP是专为计算机视觉处理和信号处理设计的优化计算库,计算驱动层基于OpenCL标准,支持异构计算加速。
    的头像 发表于 09-02 17:39 327次阅读
    澎峰科技高性能<b class='flag-5'>计算</b>库PerfIPP介绍

    浅谈国产异构RISC-V+FPGA处理器AG32VF407的优势和应用场景

    关于国产异构RISC-V+FPGA处理器AG32VF407的具体优势和应用场景浅谈如下: 优势 异构计算能力 : 异构设计结合了RI
    发表于 08-31 08:32

    打造异构计算新标杆!国数集联发布首款CXL混合资源池参考设计

    参考设计是首个支持异构计算架构的CXL硬件设备,标志着CXL技术在数据中心领域迎来异构计算新阶段。   国数集联基于FPGA与自主研发的CXL协议IP的先进特性,可实现CPU、GPU、DDR、SSD
    的头像 发表于 08-06 14:19 274次阅读
    打造<b class='flag-5'>异构计算</b>新标杆!国数集联发布首款CXL混合资源池参考设计

    AvaotaA1全志T527开发板AMP异构计算简介

    Avaota SBC 的部分平台内具有小核心 CPU,与大核心一起组成了异构计算的功能。 在异构多处理系统中,主核心和辅助核心的存在旨在共同协作,以实现更高效的任务处理。这种协作需要系统采取一系列
    发表于 07-24 09:54

    异构计算:解锁算力潜能的新途径

    在这个数据爆炸的时代,计算力是推动社会与科技创新的核心。从日常智能设备的流畅运行到超级计算机的尖端模拟,均依赖强大的计算能力。但面对多样化的复杂计算任务,单一处理器难以胜任。于是,
    的头像 发表于 07-18 08:28 7776次阅读
    <b class='flag-5'>异构计算</b>:解锁算力潜能的新途径

    智能时代的路,将由异构计算铺就

    AI时代,在计算支持领域,云计算、边缘计算等相继崛起,我们能看到的算力形态逐渐多样化。同时,在我们看不到的地方,算力需求依然旺盛。随着“十四五”规划的不断落地,加快数字化发展,打造具有国际竞争
    的头像 发表于 07-03 08:28 193次阅读
    智能时代的路,将由<b class='flag-5'>异构计算</b>铺就

    黑芝麻智能推出基于武当C1296芯片多域融合计算平台方案

    多域融合计算是汽车智能化发展的必然趋势,它可以简化整车电子电气架构,提高计算效率,降低成本。
    的头像 发表于 04-30 15:56 1642次阅读
    黑芝麻智能推出基于武当C1296芯片多域融合<b class='flag-5'>计算</b>平台方案

    全志科技T527高算力八异构芯片获“年度最佳SoC”荣誉

    全志科技T527高算力八异构芯片获“年度最佳SoC”荣誉
    的头像 发表于 04-08 10:29 1487次阅读
    全志科技T527高算力八<b class='flag-5'>核</b><b class='flag-5'>异构</b>芯片获“年度最佳SoC”荣誉

    高通NPU和异构计算提升生成式AI性能 

    异构计算的重要性不可忽视。根据生成式AI的独特需求和计算负担,需要配备不同的处理器,如专注于AI工作负载的定制设计的NPU、CPU和GPU。
    的头像 发表于 03-06 14:15 727次阅读

    如何评价智能车载异构计算芯片性能?

    车企不断的宣传让我们知道了芯片的重要性。那么在智能驾驶领域里,到底什么是重要的呢,评估面向自动驾驶的计算芯片性能时,有没有什么科学的依据呢?
    发表于 01-25 12:45 675次阅读
    如何评价智能车载<b class='flag-5'>异构计算</b>芯片性能?

    AI大模型在端侧加速落地已成必然趋势,芯片厂商提前布局!

    普遍认为,2024年AI大模型在商业应用会有极大突破。   “AI大模型在端侧的加速落地已成必然趋势。”在星宸科技上周举办的2023开发者大会暨产品发布会上,该公司董事长&总经理林永育谈到。事实确实如此,AI大模型如果想要实现大规模落地应用,离不
    的头像 发表于 12-29 00:47 2159次阅读
    AI大模型在端侧加速落地已成<b class='flag-5'>必然趋势</b>,芯片厂商提前布局!

    科学计算与Julia技术研讨会 | 张先轶:从OpenBLAS到异构计算软件栈

    蓬勃发展,新兴科学计算语言不断涌现,Julia以其高性能、动态性成为其中的佼佼者。 12月9日上午1020 ,澎峰科技创始人 张先轶博士 将 在 主论坛:Julia与数字化和AI 上 作 “ 从OpenBLAS到异构计算软件栈” 主题演讲,期待与大家见面 ! 研讨会完整详
    的头像 发表于 11-30 19:35 658次阅读
    科学<b class='flag-5'>计算</b>与Julia技术研讨会 | 张先轶:从OpenBLAS到<b class='flag-5'>异构计算</b>软件栈

    异构系统高性能计算架构

    随着计算机技术的发展,单核处理器已经难以满足高性能计算的需求,处理器成为了一种有效的解决方案。
    的头像 发表于 11-30 08:27 699次阅读
    <b class='flag-5'>异构</b><b class='flag-5'>众</b><b class='flag-5'>核</b>系统高性能<b class='flag-5'>计算</b>架构

    什么是异构集成?什么是异构计算异构集成、异构计算的关系?

    异构集成主要指将多个不同工艺节点单独制造的芯片封装到一个封装内部,以增强功能性和提高性能。
    的头像 发表于 11-27 10:22 6966次阅读
    什么是<b class='flag-5'>异构</b>集成?什么是<b class='flag-5'>异构计算</b>?<b class='flag-5'>异构</b>集成、<b class='flag-5'>异构计算</b>的关系?