0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

亚马逊启动“登月”计划,目标部署10万颗自研AI芯片

Felix分析 来源:电子发烧友网 作者:吴子鹏 2024-12-02 00:26 次阅读
电子发烧友网报道(文/吴子鹏)日前,彭博社发文称,为减少对英伟达芯片的依赖,亚马逊已经秘密启动了“登月”(moonshot)的计划,目前正在其位于得克萨斯州奥斯汀的工程实验室加紧研发一款新的AI芯片:Trainium2,目标是在亚马逊自己的数据中心里部署10万颗Trainium2,以提高数据处理效率并降低AI芯片采购成本。

近几年,亚马逊一直都在致力于自研芯片以降低数据中心成本,根据云成本管理和优化平台Vantage此前的一项调查数据,在Amazon EC2 M7系列通用实例的成本支出方面,采用Amazon Graviton的M7g系列已经超过三分之一(34.5%)。

亚马逊自研芯片第一次亮相始于2016年,在当年的re:Invent大会上,亚马逊云传奇工程师James Hamilton展示了该公司第一颗自研芯片,这便是第一代Graviton芯片。和英特尔AMD的芯片不同,第一代Graviton芯片便是基于Arm架构的Neoverse内核打造,可以支持2x25G以太网的数据包处理。随后,亚马逊在2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4。

作为最新版本的Graviton芯片,Graviton4采用了最先进的Arm架构 Neoverse V2 核心,具有更高的计算核心数量和更快的内存带宽。7月15日,亚马逊发布了基于自研芯片Graviton4的Amazon EC2 R8g实例。根据phoronix测试的结果,和上一代芯片Graviton3相比,Graviton4性能提升达30%以上,内核数增加50%,内存带宽增加75%。

同时,根据测试结果,Graviton4处理器的性能略优于英特尔至强处理器约5%,但AMD的EPYC处理器在整体性能上仍领先约25%。有评测报告认为,Graviton4搭载的Neoverse-V2内核与英特尔Sapphire Rapids内核在性能上旗鼓相当,在某些工作负载下甚至优于AMD第四代EPYC。

Graviton4处理器发布于2023年11月28日,与其同时发布的还有升级款处理器Trainium2。AWS首席执行官Adam Selipsky在re:Invent主题演讲中透露,亚马逊已经购买了数百万个英伟达的A100和H100产品,在此方面投入了巨大的成本。而业界人士预测,Trainium2是一颗有望正面和英伟达H100芯片竞争的AI芯片。

Trainium2是多年磨一剑的产品,据悉在亚马逊2015年收购Annapurna Labs之后,这个项目就在秘密研发。根据亚马逊方面的数据,Trainium2相较于上一代产品,训练速度提升多达4倍,能效提升多达2倍,内存容量则达此前3倍,能在EC2 UltraClusters中扩展至多达10万个芯片,可以在极短的时间内训练基础模型和大语言模型。目前,该芯片已经在接受包括Anthropic、Databricks、Stockmark三家AI创企以及德国电信、日本理光在内的多个客户的测试。

同时,亚马逊方面表示,Trainium2芯片已在数据中心部署,预计将在俄亥俄州等多个核心数据中心推广,目标是形成多达100000个芯片的集群。而这正是亚马逊秘密计划——“登月”计划的一部分。按照规划,Trainium2芯片先期主要承担亚马逊内部的AI训练项目,并在初创企业客户方面得到测试,随着项目成熟将陆续有大客户导入到基于Trainium2芯片的算力平台上,一旦大客户有项目使用,亚马逊Trainium2芯片的任务便被视为取得成功。

不过,业内人士认为,亚马逊Trainium2芯片也面临诸多方面的挑战,其中最显著的两大挑战是自研芯片本身和软件生态。在自研芯片方面,由于英伟达在通用计算GPU领域已经积累了深厚的研发经验,单芯片的优化已经接近了极限,要想实现超越,尤其是在核心指标PPA方面实现超越,可能需要更加前沿的工艺平台进行芯片实现,或者在芯片设计过程中导入工程设计的“know how”,但无论怎样的技术路径,背后面临的挑战都是巨大的,且可能会由于先期用量低而导致高昂的成本,再加上本就客观存在的研发成本,这对公司内部推进自研芯片的决心会有挑战。

在软件方面的挑战就更大了,目前全球主要的GPGPU基本是依存于英伟达的CUDA生态生存,如果不兼容基本很难部署落地,这就导致英伟达在软硬件结合方面具有巨大的先发优势。重新部署软件生态当然也是有效的途径,一旦成功会获得巨大的商业回报。但分析人士认为,目前亚马逊提供的Neural SDK软件工具尚处于初期阶段,无法与英伟达的解决方案相匹敌。

结语

就像人类登月一样,亚马逊Trainium2芯片的野心是巨大的,一旦成功带来的商业回报也是非常可观的。但登月本就凶险万分,Trainium2芯片离成功替代英伟达H100还有很长很长的路要走。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 亚马逊
    +关注

    关注

    8

    文章

    2639

    浏览量

    83276
  • AI芯片
    +关注

    关注

    17

    文章

    1871

    浏览量

    34956
  • 登月
    +关注

    关注

    0

    文章

    5

    浏览量

    1933
收藏 人收藏

    评论

    相关推荐

    剑指英伟达!报道:亚马逊部署10二代芯片,挑战行业垄断

    行业资讯
    北京中科同志科技股份有限公司
    发布于 :2024年11月26日 10:15:16

    比亚迪最快于11月实现算法量产,推进智驾芯片进程

    10月21日市场传出消息,比亚迪正计划整合其新技术院下的智能驾驶团队,目标是在今年11月实现
    的头像 发表于 10-22 15:57 815次阅读

    三星或将HBM产能目标下调至每月17

    据业内人士透露,三星电子已对其2025年底的高带宽内存(HBM)最大产能目标进行了调整,下调幅度超过10%,从原先计划的每月20减至17
    的头像 发表于 10-14 16:00 369次阅读

    今日看点丨小鹏芯片流片!算力是同行三倍;加拿大将对中国电动汽车征收100%关税

    算力接近3主流智驾芯片的水平”。   此外,消息称,8月27日,小鹏10周年及M03上市活动中,小鹏汽车将正式发布
    发表于 08-27 11:22 1161次阅读
    今日看点丨小鹏<b class='flag-5'>自</b><b class='flag-5'>研</b><b class='flag-5'>芯片</b>流片!算力是同行三倍;加拿大将对中国电动汽车征收100%关税

    亚马逊云科技启动&quot;智能家居与智能产品创新加速计划&quot;

    上海2024年7月31日 /美通社/ -- 在"亚马逊云科技汽车暨制造与消费电子行业峰会"上,亚马逊云科技宣布正式启动"智能家居与智能产品创新加速计划",该
    的头像 发表于 08-01 09:56 363次阅读
    <b class='flag-5'>亚马逊</b>云科技<b class='flag-5'>启动</b>&quot;智能家居与智能产品创新加速<b class='flag-5'>计划</b>&quot;

    亚马逊云科技启动“智能家居与智能产品创新加速计划

    上海 ——2024 年 7 月 31 日 在“亚马逊云科技汽车暨制造与消费电子行业峰会”上,亚马逊云科技宣布正式启动“智能家居与智能产品创新加速计划”,该
    发表于 07-31 16:56 1377次阅读
      <b class='flag-5'>亚马逊</b>云科技<b class='flag-5'>启动</b>“智能家居与智能产品创新加速<b class='flag-5'>计划</b>”

    亚马逊AWSAI芯片崛起,挑战英伟达

    近期,据路透社独家报道披露,在德克萨斯州奥斯汀市一处紧密防守的芯片实验室中,六位来亚马逊AWS的工程师正在对一种尚未公开透露名称及详细参数的新型服务器展开深入测试。这一关键事件引人注目,因为我们
    的头像 发表于 07-27 14:33 1074次阅读

    OpenAI芯片计划调整,传交台积电生产

    近日,全球领先的生成式AI应用大厂OpenAI在芯片领域迎来了重大战略调整。为降低对外部AI芯片
    的头像 发表于 07-23 16:52 663次阅读

    苹果将通过芯片在云端推出AI功能

    近日,科技界传来一则令人振奋的消息。据可靠报道,苹果公司即将在云端推出强大的人工智能(AI)功能,而这一切将依托于的高端芯片
    的头像 发表于 05-11 10:59 545次阅读

    苹果计划搭建芯片驱动的AI数据中心

    据内部人士透露,苹果已将自芯片应用于云计算服务器,用以支持其设备未来的高级AI服务。目前我们尚未收到苹果方面对此事的回应。
    的头像 发表于 05-10 16:31 475次阅读

    苹果数据中心芯片/Open AI计划出谷歌搜索竞争对手/全球Q1智能手机市场出货量增长 热点科技新闻点评

    据悉,苹果将在今年用数据中心芯片,透过硬设备和云端两种方式来支持 AI 功能。将在今年用
    的头像 发表于 05-10 09:16 2141次阅读
    苹果<b class='flag-5'>自</b><b class='flag-5'>研</b>数据中心<b class='flag-5'>芯片</b>/Open <b class='flag-5'>AI</b><b class='flag-5'>计划</b>出谷歌搜索竞争对手/全球Q1智能手机市场出货量增长 热点科技新闻点评

    微软正在研发新型网卡,旨在提升AI芯片性能

    微软近日被曝正在秘密研发一款高性能的新型网卡,这一创新旨在增强其的Maia AI服务器芯片的功能,并可能大幅度降低对外部芯片设计厂商如英
    的头像 发表于 02-21 11:01 723次阅读

    Meta计划今年部署研定制芯片,以加速AI研发

    Meta公司近日宣布计划在今年内为其数据中心部署一款研定制芯片,以支持其人工智能(AI)的研发工作。这一举措旨在提高Meta在
    的头像 发表于 02-03 10:48 627次阅读

    江波龙首NAND闪存问世

    江波龙首32Gb 2D MLC NAND Flash于近日问世。该产品采用BGA132封装,支持Toggle DDR模式,数据访问带宽可达400MB/s,将有望应用于eMMC、SSD等产品上。
    的头像 发表于 02-01 15:08 837次阅读

    英伟达缺货?OpenAI选择芯片

    势在必行。然而掀起这股AI洪流,或者说将其推向浪尖的“始作俑者”,OpenAI,却也已经在计划芯片。   有了英伟达供应的前提下为何要
    的头像 发表于 01-30 00:51 3690次阅读