0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI大模型不再依赖英伟达GPU?苹果揭秘自研大模型

Hobby观察 来源:电子发烧友网 作者:梁浩斌 2024-08-05 06:07 次阅读

电子发烧友网报道(文/梁浩斌)过去几年中爆发的AI算力需求,英伟达GPU成为了最大的赢家,无论是自动驾驶还是AI大模型,比如特斯拉、小鹏、OpenAI、字节跳动等厂商都在争相抢购英伟达GPU产品,获得足够的算力构建自己的计算中心,用于训练不同应用的AI模型。

AI领域众星捧月也造就了英伟达市值曾突破三万亿美元,并短暂登顶全球第一的位置。不过苹果却反其道而行之,在7月底苹果公司揭露的官方论文显示,苹果自研大模型AFM背后,完全没有英伟达GPU的影子。

苹果大模型训练,选择了谷歌芯片

在苹果近期揭露的一篇技术论文中,详细介绍了苹果在端侧和服务器侧的大模型。在大模型预训练的阶段,苹果基础模型是在AXLearn框架上进行训练的,据苹果介绍,AXLearn框架是苹果公司在2023年发布的开源项目,这个框架建立在JAX和XLA的基础上,允许模型在各种硬件和云平台上进行高效和可扩展性训练,包括TPU以及云端和本地的GPU。

苹果采用了数据并行、张量并行、序列并行和完全分片数据并行(FSDP)的组合来沿多个维度扩展训练,如数据规模、模型规模和序列长度。

其中,苹果的AFM服务器端大模型是苹果规模最大的语言模型,该模型在8192个TPUv4芯片上进行了预训练,这些芯片被配置成8*1024个芯片集群,通过数据中心网络DCN)连接。预训练有三个阶段,首先使用 6.3 万亿个Tokens开始,接着使用 1 万亿个Tokens继续训练,最后使用 1000 亿个Tokens进行上下文长度的扩展。

而在AFM的端侧模型上,苹果对其进行了大幅修剪,论文披露AFM端侧模型是一个拥有30亿参数的模型,该模型是从64亿参数的服务器模型中蒸馏而来,而这个服务器模型则是在完整的6.3万亿参数量上进行训练。

与服务器端模型不同的是,AFM端侧模型采用的芯片是谷歌的TPUv5,论文中的信息显示,AFM端侧模型是在一个由2048个TPUv5p芯片组成的集群上进行训练的。

谷歌在去年12月发布了TPUv5p,面向云端AI加速,谷歌称之为“迄今为止最强大、可扩展性最强和最灵活的人工智能加速器”。

TPUv5p在bfloat16精度下可以提供459 teraFLOPS(每秒可执行459万亿次浮点运算)算力;在Int8精度下,TPU v5p可以提供918 teraOPS(每秒可执行918万亿次整数运算);支持95GB的HBM内存,带宽高达2.76 TB/s。

相比上一代的TPU v4,TPUv5p实现了每秒浮点运算次数提高一倍,内存带宽是前代的三倍,训练大模型速度提升2.8倍,并且性价比是前代的2.1倍。

除了苹果之外,目前采用谷歌TPU系列芯片进行大模型训练的还有谷歌自家的Gemini、PaLM,以及OpenAI前副总裁创立的Anthropic所推出的Claude大模型,上个月Anthropic发布的Llama 3.1 405B还被认为是最强开源大模型。

苹果、谷歌、Anthropic的实例,证明了TPU在大模型训练上的能力。但相比于英伟达,TPU目前在大模型领域的应用依旧只是冰山一角,背后更多的大模型公司,包括OpenAI、特斯拉、字节跳动等巨头,主力AI数据中心依然是普遍采用英伟达GPU。

英伟达的挑战者们

一直以来,围绕CUDA打造的软件生态,是英伟达在GPU领域最大的护城河,尤其是随着目前AI领域的发展加速,市场火爆,英伟达GPU+CUDA的开发生态则更加稳固,AMD英特尔等厂商虽然在努力追赶,但目前还未能看到有威胁英伟达地位的可能。

但市场的火爆难免吸引更多的玩家入局,对英伟达发起挑战,或者说是在AI广阔的市场空间中,希望分得一杯羹。

首先是英伟达在GPU领域的最大对手AMD ,今年一月有研究人员在Frontier超算集群上,利用其中8%左右的GPU,训练出一个GPT 3.5级别规模的大模型。而Frontier超算集群是完全基于AMD硬件的,由37888个MI250X GPU和9472个Epyc 7A53 CPU组成,这次研究也突破了在AMD硬件上突破了先进分布式训练模型的难点,为AMD平台训练大模型验证了可行性。

同时,CUDA生态也在逐步击破,今年7月英国公司Spectral Compute推出了可以为AMD GPU原生编译CUDA源代码的方案,大幅提高了AMD GPU对CUDA的兼容效率。

英特尔的Gaudi 3 也在发布时直接对标英伟达H100,并宣称在模型训练速度和推理速度上分别比英伟达H100提高了40%和50%。

除了芯片巨头外,也不乏来自初创公司的冲击。比如Groq推出的LPU、Cerebras推出的Wafer Scale Engine 3、Etched推出的Sohu等等。国内方面,有走多卡集群训练路线的初创公司,比如摩尔线程在今年6月宣布与羽人科技合作成功实现了摩尔线程夸娥(KUAE)千卡智算集群与羽人系列模型解决方案的训练兼容适配,高效完成了70亿参数羽人大语言模型YuRen-7b的训练测试。

摩尔线程夸娥方案基于全功能MTT S4000 GPU,该GPU采用了第三代MUSA内核,单卡支持48GB显存容量和768GB/s的显存带宽,FP16算力为100TFLOPS。值得一提的是,MTT S4000计算卡借助摩尔线程自研开发工具,可以充分兼容现有CUDA软件生态,实现CUDA代码零成本迁移到MUSA平台。

天数智芯也与智源研究院、爱特云翔合作,提供天垓100加速卡、构建算力集群及全程技术支持,实现基于自主通用GPU的大模型CodeGen(高效编码)项目,通过中文描述来生成可用的C、JavaPython代码以实现高效编码。

另外值得一提的是,国内还有一家走TPU路线的AI芯片公司——中昊芯英。该公司在2023年底推出了国内首款量产TPU AI训练芯片“刹那”,据称在处理大模型训练和推理任务时相比英伟达A100,性能提高近150%,能耗下降30%,单位算力成本仅为A100的42%。

当然,除了芯片公司,据现有的信息,目前主流的云服务供应商,比如前面提到的谷歌,还有亚马逊、微软、Meta、阿里巴巴、字节跳动、百度、华为等都有自研芯片的布局,其中还包括用于AI大模型训练的芯片。

写在最后

从长远来看,自研芯片是云服务供应商有效降低算力成本的方式之一,当AI大模型训练成为了云计算的重要用途时,自研AI训练芯片自然也是云服务厂商的长远之计。苹果作为消费电子巨头已经迈出了重要的一步,即摆脱对英伟达的算力依赖,并且还有大量的挑战者正在蠢蠢欲动。星星之火,可以燎原,英伟达在AI训练领域的地位,可能没有表面看起来那么稳固。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4700

    浏览量

    128673
  • 苹果
    +关注

    关注

    61

    文章

    24348

    浏览量

    196712
  • AI
    AI
    +关注

    关注

    87

    文章

    30072

    浏览量

    268337
  • 英伟达
    +关注

    关注

    22

    文章

    3739

    浏览量

    90789
  • 大模型
    +关注

    关注

    2

    文章

    2314

    浏览量

    2452
收藏 人收藏

    评论

    相关推荐

    英伟发布AI模型 Llama-3.1-Nemotron-51B AI模型

    英伟公司宣布推出 Llama-3.1-Nemotron-51B AI 模型,这个AI模型是源
    的头像 发表于 09-26 17:30 547次阅读

    英伟与阿联酋G42合作开发天气预测AI模型

    英伟近期宣布与阿联酋的领先AI应用开发企业G42达成战略合作,共同探索天气预测技术的新前沿。双方将整合各自的技术优势,依托英伟的Eart
    的头像 发表于 09-24 15:41 241次阅读

    英伟Blackwell可支持10万亿参数模型AI训练,实时大语言模型推理

    、NVLink交换机、Spectrum以太网交换机和Quantum InfiniBand交换机。   英伟称,Blackwell拥有6项革命性技术,可支持多达10万亿参数的模型进行AI
    的头像 发表于 09-04 09:10 2814次阅读

    英伟推出Eagle系列模型

    英伟最新推出的Eagle系列模型,以其1024×1024像素的高分辨率处理能力,重新定义了视觉信息处理的边界。该模型通过多专家视觉编码器架构,每个编码器专注于特定任务训练,极大地增强
    的头像 发表于 09-03 16:13 411次阅读

    英伟震撼发布:全新AI模型参数规模跃升至80亿量级

    8月23日,英伟宣布,其全新AI模型面世,该模型参数规模高达80亿,具有精度高、计算效益大等优势,适用于
    的头像 发表于 08-23 16:08 679次阅读

    苹果AI模型训练新动向:携手谷歌,未选英伟

    近日,苹果公司发布的最新研究报告揭示了其在人工智能领域的又一重要战略选择——采用谷歌设计的芯片来训练其AI模型,而非行业巨头英伟的产品。这
    的头像 发表于 08-01 18:11 899次阅读

    英伟推出AI模型推理服务NVIDIA NIM

    英伟近日宣布推出一项革命性的AI模型推理服务——NVIDIA NIM。这项服务将极大地简化AI模型
    的头像 发表于 06-04 09:15 636次阅读

    英伟首席执行官黄仁勋:AI模型推动英伟AI芯片需求

    近来,以ChatGPT为代表的AI聊天机器人已经导致英伟AI芯片供应紧张。然而,随着能够创造视频并进行近似人类交流的新型AI
    的头像 发表于 05-24 10:04 457次阅读

    进一步解读英伟 Blackwell 架构、NVlink及GB200 超级芯片

    计算工作负载、释放百亿亿次计算能力和万亿参数人工智能模型的全部潜力提供关键基础。 NVLink释放数万亿参数AI模型的加速性能,显著提升大型多GPU系统的可扩展性。每个
    发表于 05-13 17:16

    华与英伟深化合作,成为NVIDIA AI Enterprise软件全球分销商

    近日,华宣布扩大与英伟的合作,未来将通过工业级边缘计算和英伟 AI Enterprise
    的头像 发表于 05-10 10:25 405次阅读

    微软AI模型即将问世

    微软正悄然酝酿一项重大技术突破,据内部消息人士透露,公司正全力训练一款名为“MAI-1”的人工智能大模型。这款模型备受期待,其规模庞大,足以与谷歌的Gemini和OpenAI的Ch
    的头像 发表于 05-07 14:46 450次阅读

    国产GPUAI模型领域的应用案例一览

    电子发烧友网报道(文/李弯弯)近一年多时间,随着大模型的发展,GPUAI领域的重要性再次凸显。虽然相比英伟等国际大厂,国产
    的头像 发表于 04-01 09:28 3667次阅读
    国产<b class='flag-5'>GPU</b>在<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>领域的应用案例一览

    英伟市值跃居全球第四 文生视频大模型Sora带动

    英伟市值跃居全球第四 文生视频大模型Sora带动 文生视频大模型Sora引发市场关注;OpenAI的首款文生视频大模型Sora横空出世带动
    的头像 发表于 02-19 16:48 959次阅读

    英伟缺货?OpenAI选择芯片

    势在必行。然而掀起这股AI洪流,或者说将其推向浪尖的“始作俑者”,OpenAI,却也已经在计划着芯片。   有了英伟供应的前提下为何要
    的头像 发表于 01-30 00:51 3647次阅读

    谷歌揭秘Gemini,AMD对峙英伟

    今天,我们看到谷歌揭开了多模态AI模型Gemini的神秘面纱,AMD挑战英伟AI芯片市场的霸主地位,微软在英国
    的头像 发表于 12-07 20:05 706次阅读