0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT爆火后,怎样跳脱算力困局?

英特尔中国 来源:36氪 2023-03-13 09:11 次阅读

英特尔7大算力神器助力极致算力。

“请代替基金经理写一段年终总结”,“如何评价春节档电影大混战”,“请写出一段爬取网页内容的程序”……诸如此类问题,OpenAI开发的ChatGPT都可以给出一段“中肯”的回答。

2023年开年,全球AI领域最“出圈”的成果莫过于ChatGPT了。作为一个具备问答、文章撰写等多重能力的对话式机器人,ChatGPT的强大“超能力”背后,是天量的训练数据与庞大的模型。

ChatGPT的前一代基础模型——GPT-3的参数就高达1750亿,训练数据高达45TB,训练设备包括超过28.5万个CPU和1万个GPU,仅训练成本就超过了1200万美元。ChatGPT基于GPT3.5架构的模型参数在此基础上至少提升了2个量级,对强算力的需求就更高。

事实上,不止是人工智能领域,数字经济发展潮流中的每一次技术和应用的飞跃,都离不开强劲算力的支持,作为该领域的头部企业之一,英特尔仍在不断挑战更强算力。1月11日,英特尔正式发布第四代至强可扩展处理器和至强 CPU Max系列产品,通过内置面向AI、科学计算、安全、网络、数据分析和存储的加速器,在提升工作负载的性能和能效上更进一步。

01

破题新思路,四代至强新添七大算力神器

一想到算力提升,最容易想到的解决方案就是“堆核”,即通过增加核心频率和核心数量来提升整体数据处理速度。

但想要面向云计算物联网、人工智能、5G等真实、多样应用场景下的工作负载提升CPU性能,充分利用CPU资源并且节约成本,“堆核”显然不是最优解。

正如英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立所说,“我们更关注客户如何使用我们的产品,并不是越多核就一定越好,今天的许多用户在使用数据中心处理器时,也并非一味执着于多核,而是具体工作具体分析。”1

基于在各个行业与场景实践中积累的丰富经验,英特尔重塑破题思路,发布了全新的第四代英特尔至强,引入针对实际工作负载优化加速的设计理念,采用系统级设计方法,在CPU中内置针对各种工作负载的专用加速器,与上一代相比,实现了通用计算平均性能提升53%,并且能够将目标工作负载的平均每瓦性能提升2.9倍。而在优化电源模式下,每个CPU节能高达70瓦,并对性能只产生极低的影响,将总体拥有成本降低52%到66%,做到带来领先性能的同时实现可持续发展。2

fdefd7b8-c072-11ed-bfe3-dac502259ad0.png

全新的英特尔至强平台提供了七大算力神器——

面向深度学习场景的英特尔高级矩阵扩展(英特尔AMX),能将人工智能实时推理和训练性能提升至10倍;

面向网络数据系统的英特尔动态负载均衡器(英特尔DLB),可将网络工作负载的系统级处理性能时延降低96%;

增强数据移动效率的英特尔数据流加速器(英特尔DSA),帮助数据密集型工作负载数据移动和转换性能提升至1.7倍;

面向内存数据库和大数据分析工作负载的英特尔存内分析加速器(英特尔IAA),能显著优化数据分析工作负载内存占用和查询吞吐量,性能可提升至3倍;

面向数据流压缩及数据加解密的英特尔数据保护与压缩加速技术(英特尔 QAT),使第四代英特尔至强可扩展处理器成为单一数据流压缩并加密数据性能最高的CPU;

增强工作负载安全性的英特尔安全技术(英特尔Security)策略组合,能够对工作负载进行保护,加速加密运算,实现预测性安全保护;

首款集成高带宽内存(HBM)的英特尔至强CPU Max系列,能够在无需变更代码的情况下为科学计算工作负载加速。

值得一提的是,第四代英特尔至强不仅具备卓越的加速性能,亦体现了重大的制造进展。其能够在一个封装上集成多达4个采用Intel 7制程工艺制造的单元,这些区块通过英特尔嵌入式多芯片互连桥接(EMIB)封装技术连接。第四代英特尔至强可扩展处理器还具备新特性,包括通过DDR5增加了内存带宽、通过PCIe5.0和Compute Express Link (CXL) 1.1互连增加了I/O带宽。

有了算力的升级与加持,纷繁复杂的场景和应用将会展开更多可能。

02

AI将社会发展导向新阶段

AI作画、ChatGPT对话机器人……随着深度残差网络(ResNet)、Transformer算法、Diffusion算法等技术进入应用阶段,2022年以来,AI领域不断迎来发展的“小高潮”,AI强大的能力成功吸引了大众目光,也带动了新一波数字技术的观念普及。

相比GPU提升训练效率的能力,拥有极佳性价比的CPU在AI应用的规模化部署和实践上同样发挥着重要作用。可以说,AI走入工程化阶段,面向大众提供服务,迫切需要不断提升CPU的性能,以实现高算力、强性能和低成本。

有数据显示,预计到2025年,超过60%的中国企业将通过人工智能机器学习、自然语言处理(Natural Language Processing,NLP)和模式识别等技术实施智能预测与决策,提升员工工作效率和企业生产力。而面向推荐系统、自然语言处理、图像识别、媒体处理和交付,以及媒体分析等AI应用场景,用户需要更精准化地分析和快速地推理。

这其中,作为AI领域的重要分支,自然语言处理(NLP)正获得前所未有的市场关注与技术追踪,将大幅缓解金融、医疗、法律等行业中人力密集型工作环节带来的效率和成本压力。

作为国内拥有强大互联网基础的领先AI公司,得益于近十年来在自有“飞桨”人工智能框架上的前瞻布局和大力投入,百度已在NLP领域构建起了完整的产品体系与技术组合。而随着技术与产业结合的深入、商业化应用落地的加快,用户对百度飞桨文心 · NLP大模型的重要组成部分——ERNIE 3.0提出了更多细分需求,如更高的处理效率和更广泛的部署场景等。

为此,百度不仅借助其创新技术优势,推出了更适合落地应用的轻量版ERNIE-Tiny,同时与英特尔携手,引入了全新第四代英特尔至强可扩展处理器,其内置的英特尔AMX在实际工作负载中,能同时支持BF16和INT8数据类型,其每个物理核在每个时钟周期可实现2,048次INT8运算和1,024次BF16运算,这无疑大幅提升了AI工作负载的效率。ERNIE-Tiny在升级使用内置英特尔AMX的第四代至强可扩展处理器后,整体性能对比上一代提升高达2.66倍3,推理性能大大提升。

“全新第四代英特尔至强可扩展处理器及英特尔AMX技术的引入,使得轻量版ERNIE 3.0在通用CPU平台上也能获得令人满意的推理效能,从而能帮助更多用户在其既有IT设施中更为方便地部署ERNIE 3.0,从而进一步普及其应用范围。”百度自然语言处理部架构师孙宇即如此评价英特尔AMX的杰出表现。

除此之外,由AI赋能的计算机视觉也已经成为企业获取数据洞察、推动业务智能化转型的重要途径。视觉AI解决方案能够利用增强型深度学习神经网络,以更精密的方式获取数据,将分析能力提升到全新水平,从而帮助企业提升工作效率、降低成本、增加收入并提高客户满意度。随着业务的发展与视觉数据的爆发式增长,企业希望能够在加速计算视觉AI模型训练和提高推理性能的同时,获得更高的投资收益。

美团作为与人们日常生活关系密切的科技零售公司,在其自身发展过程中,高度重视以视觉AI技术创新,赋能餐饮、出行、旅游、购物、娱乐等多种业务,充分践行“零售+科技”的战略。

为了加速视觉AI推理,美团利用第四代英特尔至强可扩展处理器及其内置的英特尔AMX等高级硬件能力,将模型从FP32转化为BF16等方式,并结合了英特尔PyTorch扩展(英特尔IPEX)加速PyTorch,更有效地提升了深度学习推理和训练的计算性能,将主流视觉模型的推理性能提升了3.38-4.13倍左右。同时,结合动态扩缩容等头部服务优化策略,美团将线上资源效率整体提升3倍以上,节省70%的服务成本4,实现了资源的敏捷调度,支持了视觉AI服务的高效创新,并赋能了业务智能化升级。

03

在高性能的基础上需要更快、更安全

除了复杂应用场景下对高算力、高性能和低成本的需求外,对于企业用户而言,面向更多更丰富的场景,高可靠和高安全的数据处理和分析能力则是更为基础和底层的需求。

随着大数据时代数据量的指数级增长,在保障数据安全性的前提下,更高效地处理大量动态数据与静态数据,如今面临着巨大的挑战。

将大数据分析的全流程拆解来看,预处理阶段即需要面对多个技术难题。以加密和压缩环节为例,作为批量数据预处理的必然流程,只有优先完成数据处理之后才能进行分析。而这个过程需要消耗大量的CPU时钟周期,从而大大限制了计算密集型工作负载的运行效率。

针对这个难题,第四代英特尔至强可扩展处理器“点对点”突破,内置了数据保护和压缩加速技术(英特尔QAT),通过卸载加密、解密和压缩释放处理器内核,从而让系统能够支持更多客户端运行或实现降低能耗的目的,可将内核用量减少高达95%;另外,QAT能够帮助加速数据库备份和联机事务处理(OLTP)操作,实现了2倍的吞吐量提升(针对一级压缩),从而助力提升网络和存储应用的整体性能。

解决了数据处理流程中的安全挑战,面向实际的工作负载,数据在应用过程中的安全又该如何保障呢?英特尔软件防护扩展(英特尔SGX)可以解决这个难题。英特尔SGX提供硬件级的安全“屏障”,能通过应用程序隔离技术,保护选定的代码和数据免遭修改,只要将应用程序分隔到强化的安全区或受信任的执行模块,即可以启用身份和记录隐私、安全浏览和数字管理保护(DRM),或者任何需要安全存储机密或者保护数据的高保障安全应用场景中,帮助企业在安全可信的基础上更好地进行数据价值发掘。

由此可见,对于未来数字经济而言,算力等基础设施的舞台才是核心的角力场。正如全球著名投资机构a16z评价ChatGPT时所说,“基础设施服务商可能才是最大赢家,获得最多的财富。”

包括AI在内的新技术在取得突破后,要想走入“寻常百姓家”,实现大规模的部署和应用,算力的安全、高速、高可靠、高性能等能力缺一不可。甚至可以说,算力的增强真正驱动了数字经济的增长。

因此,不断突破算力瓶颈,以创新引领应用实践才是当代数字经济的“主旋律”。而毫无疑问的是,作为处理器领域的生态构建者,英特尔已经做好了准备,以技术创新力和卓越的产品力不断“乘风破浪”,助力滚滚数字化大潮。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10824

    浏览量

    211109
  • 数字经济
    +关注

    关注

    2

    文章

    1042

    浏览量

    18257
  • ChatGPT
    +关注

    关注

    29

    文章

    1548

    浏览量

    7477

原文标题:ChatGPT爆火后,怎样跳脱算力困局?

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基础篇:从零开始了解

    即计算能力(Computing Power),狭义上指对数字问题的运算能力,而广义上指对输入信息处理实现结果输出的一种能力。虽然处理的内容不同,但处理过程的能力都可抽象为
    的头像 发表于 11-15 14:22 295次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础篇:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    浅析三大之异同

    随着一年多前ChatGPT的出现引爆人工智能(AI)浪潮,支撑大模型背后的“”概念突然闯进我们的视野,成为科技圈炙手可热的新词,引领着最新潮流。作为数字经济时代新生产,也许不少人
    的头像 发表于 08-30 12:56 629次阅读
    浅析三大<b class='flag-5'>算</b><b class='flag-5'>力</b>之异同

    大模型时代的需求

    现在AI已进入大模型时代,各企业都争相部署大模型,但如何保证大模型的,以及相关的稳定性和性能,是一个极为重要的问题,带着这个极为重要的问题,我需要在此书中找到答案。
    发表于 08-20 09:04

    曙光携手“互联公共服务平台”提高全国匹配效率

    的互联互通,助力“互联公共服务平台”功能完善,实现全国一体化体系建设目标。           按规划,“
    的头像 发表于 07-16 15:45 656次阅读

    基础设施的风险与挑战

    编者按网络有一个美好的愿景,就是希望网,能像电力和电网一样:
    的头像 发表于 06-13 08:27 495次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>基础设施的风险与挑战

    力系列基础篇——101:从零开始了解

    相信大家已经感受到,我们正处在一个人工智能时代。如果要问在人工智能时代最重要的是什么?那必须是:
    的头像 发表于 04-24 08:05 1002次阅读
    <b class='flag-5'>算</b>力系列基础篇——<b class='flag-5'>算</b><b class='flag-5'>力</b>101:从零开始了解<b class='flag-5'>算</b><b class='flag-5'>力</b>

    摩智能助力中国移动构建网络

    摩智能助力中国移动构建网络,MWC展示边端大模型运行成果
    的头像 发表于 03-14 14:48 595次阅读
    <b class='flag-5'>后</b>摩智能助力中国移动构建<b class='flag-5'>算</b><b class='flag-5'>力</b>网络

    Sora引全球需求激增?赛思时间同步技术使如虎添翼!

    近日,联想集团杨元庆表示,Sora的推出会加大全球AI的需求,会进一步带动AI的普及和平民化应用。从供给侧来看,这一方面会提高对传统性能的要求,另一方面也需要进行新的技术创新。赛思时频创新技术使
    的头像 发表于 03-01 10:36 428次阅读
    Sora<b class='flag-5'>爆</b><b class='flag-5'>火</b>引全球<b class='flag-5'>算</b><b class='flag-5'>力</b>需求激增?赛思时间同步技术使<b class='flag-5'>算</b><b class='flag-5'>力</b>如虎添翼!

    智能规模超通用,大模型对智能提出高要求

    电子发烧友网报道(文/李弯弯)是设备通过处理数据,实现特定结果输出的计算能力,常用FLOPS作为计量单位。FLOPS是Floating-point Operations Per Second
    的头像 发表于 02-06 00:08 6080次阅读

    大茉莉X16-P,5800M大称王称霸

    Rykj365
    发布于 :2024年01月25日 14:54:52

    网络面临三大挑战

    2024年,以AIGC为代表的人工智能技术将进一步激发需求,网络、智中心、超中心将迎
    的头像 发表于 01-12 10:39 1010次阅读

    ChatGPT芯片如何做输出

    卡的核心当然还是计算芯片,会搭配大容量高带宽的内存、缓存,以及搭载CPU用于调度,为了帮助数据传输,便会使用高速通道,这便是PCIe(高速串行计算机扩展总线标准)在系统中的作用:提供总线通道。
    发表于 01-11 10:01 450次阅读
    <b class='flag-5'>ChatGPT</b><b class='flag-5'>算</b><b class='flag-5'>力</b>芯片如何做<b class='flag-5'>算</b><b class='flag-5'>力</b>输出

    芯科技,解密ChatGPT畅聊之芯片

    在今日飞速发展的科技浪潮中,OpenAI的ChatGPT如一颗璀璨明星,引领着智能对话的新潮流。ChatGPT不仅是一款聊天机器人程序,它背后的驱动力是一个庞大而复杂的网络。这个网
    的头像 发表于 12-27 07:45 932次阅读
    芯科技,解密<b class='flag-5'>ChatGPT</b>畅聊之<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片

    一文读懂:什么是“”?

    的定义即计算能力(ComputingPower)。《中国白皮书(2022年)》将其定
    的头像 发表于 12-22 08:27 6794次阅读
    一文读懂:什么是“<b class='flag-5'>算</b><b class='flag-5'>力</b>”?

    浅谈为AI大而生的存-体芯片

    大模型之后,存一体获得了更多的关注与机会,其原因之一是因为存一体芯片的裸相比传统架构
    发表于 12-06 15:00 366次阅读
    浅谈为AI大<b class='flag-5'>算</b><b class='flag-5'>力</b>而生的存<b class='flag-5'>算</b>-体芯片