0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从TPU v1到Trillium TPU,苹果等科技公司使用谷歌TPU进行AI计算

Carol Li 来源:电子发烧友 作者:李弯弯 2024-07-31 01:08 次阅读

电子发烧友网报道(文/李弯弯)7月30日消息,苹果公司周一在一篇技术论文中表示,支撑其人工智能系统Apple Intelligence的两个人工智能模型是在谷歌设计的云端芯片上进行预训练的。这表明,在训练尖端人工智能方面,大型科技公司正在寻找英伟达以外的替代品。

不断迭代的谷歌TPU芯片

随着机器学习算法,特别是深度学习算法在各个领域的广泛应用,对于高效、低功耗的AI计算硬件需求日益增长。传统的CPUGPU在处理这些算法时存在效率较低的问题,促使谷歌等科技巨头开始探索专用AI加速芯片的研发。

谷歌在2015年左右开始规划开发新的专用架构处理器,旨在优化机器学习算法中的张量运算执行过程。经过快速迭代和研发,谷歌于2016年发布了首个TPU版本(TPU v1),专门用于大规模机器学习加速。

TPU v1部署于数据中心,用于加速神经网络的推理阶段。拥有65536个8-bit MAC(矩阵乘单元),峰值性能为92 TOPS(每秒万亿次操作),以及28 MiB的片上内存空间。相比于CPU和GPU,TPU v1在响应时间和能效比上表现出色,能够显著提升神经网络的推理速度。

随着技术的不断进步,谷歌相继推出了多个TPU版本,不断提升性能和功能。例如,TPU v2和TPU v3被设计为服务端AI推理和训练芯片,支持更复杂的AI任务。TPU v4则进一步增强了扩展性和灵活性,支持大规模AI计算集群的构建。

在面对争议和质疑后,谷歌推出了TPU v5e版本。TPU v5e在架构上进行了调整,采用单TensorCore架构,并在INT8峰值算力上有所提升。尽管在BF16峰值算力上略低于前代版本,但TPU v5e更适用于推理任务,并体现了谷歌在AI算力服务市场的战略选择。

在今年5月的I/O开发者大会上,谷歌又发布了第六代张量处理单元 (TPU) ,称为Trillium。Trillium TPU 可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。至关重要的是,Trillium TPU 的能效比 TPU v5e 高出 67% 以上。

值得一提的是,Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外,借助多切片技术和Titanium 智能处理单元 (IPU ),Trillium TPU 还可以扩展到数百个 Pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 PB 的速度互连数据中心网络

谷歌表示,Trillium TPU 将为下一波 AI 模型和代理提供动力,包括自动驾驶汽车公司Nuro、药物发现公司Deep Genomics、德勤等企业也采用其TPU产品进行应用。

越来越多企业使用谷歌TPU芯片满足AI计算

据谷歌官方信息,其最新TPU的运行成本每小时不足2美元,但客户需提前三年预订以确保使用。自2015年专为内部工作负载设计的TPU问世以来,谷歌于2017年将其向公众开放,如今,TPU已成为人工智能领域最为成熟和先进的定制芯片之一。

谷歌在其多个设施中使用了自研的TPU(Tensor Processing Unit)芯片。谷歌云平台广泛使用了TPU芯片来支持其AI基础设施。这些芯片被用于加速机器学习模型的训练和推理过程,提供高性能和高效的计算能力。通过谷歌云平台,用户可以访问到基于TPU芯片的虚拟机实例(VM),用于训练和部署自己的机器学习模型。

除此之外,已经有多家公司使用谷歌的TPU芯片,如苹果,苹果在最新发表的技术论文中承认,公司采用了谷歌张量处理单元(TPU)训练其人工智能模型。

在周一发布的技术论文中,苹果详细介绍为支持苹果个人智能化系统Apple Intelligence而开发了一些基础语言模型,包括一个用于在设备上高效运行的约30亿参数模型——端侧“苹果基础模型”(AFM),以及一个为苹果云端AI架构“私有云计算”(Private Cloud Compute)而设计的大型服务器语言模型——服务器AFM。

苹果披露,训练模型采用了谷歌研发的第四代AI ASIC芯片TPUv4和更新一代的芯片TPUv5。苹果在8192块TPUv4 芯片上从无到有训练服务器AFM,使用4096的序列长度和4096个序列的批量大小,进行6.3万亿token训练。端侧AFM在2048块TPUv5p芯片上进行训练。

此外,Anthropic这家被誉为“OpenAI劲敌”的人工智能初创公司,据悉是谷歌TPU芯片的早期用户之一。Anthropic使用谷歌Cloud TPU v5e芯片为其大语言模型(LLM)Claude提供硬件支持,以加速模型的训练和推理过程。Hugging Face和AssemblyAI这两家同样在人工智能领域备受瞩目的初创公司也在大规模使用谷歌TPU芯片来支持其AI应用。

另外,许多科研机构也在使用谷歌TPU芯片来支持其AI相关的研究项目。这些机构可以利用TPU芯片的高性能计算能力来加速实验过程,推动科研进展。一些教育机构也将谷歌TPU芯片用于教学和培训目的,帮助学生和研究人员学习和掌握机器学习技术。

写在最后

长期以来,英伟达的高性能GPU在高端人工智能模型训练市场占据主导地位,包括OpenAI、微软、Anthropic在内的多家科技公司纷纷采用其GPU来加速模型训练。但在过去几年里,英伟达GPU始终供不应求,为此谷歌、Meta、甲骨文及特斯拉等企业都在自研芯片,以满足各自人工智能系统与产品开发的需求。

不仅如此,如谷歌,虽然TPU最初是为内部工作负载而创建,而其凭借着诸多优势,现在正得到更广泛的应用。随着人工智能技术的不断发展和市场的不断扩大,未来可能会有更多的企业选择使用谷歌TPU芯片来满足其AI计算需求。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6161

    浏览量

    105300
  • 苹果
    +关注

    关注

    61

    文章

    24395

    浏览量

    198553
  • TPU
    TPU
    +关注

    关注

    0

    文章

    140

    浏览量

    20720
收藏 人收藏

    评论

    相关推荐

    《算力芯片 高性能 CPUGPUNPU 微架构分析》第3篇阅读心得:GPU革命:图形引擎AI加速器的蜕变

    标量、向量、矩阵的表示;硬件实现看,不同厂商各显神通。谷歌TPU采用脉动阵列计算单元,通过数据流向的精心编排提升计算密度;NVIDIA张量
    发表于 11-24 17:12

    【算能RADXA微服务器试用体验】+ GPT语音与视觉交互:2,图像识别

    /download.sh 下载完成后,应该可以看到文件夹中出现以下模型: ./models ├── BM1684 │├── yolov8s_fp32_1b.bmodel# 使用TPU-MLIR编译,用于
    发表于 07-14 23:36

    TPU编程竞赛系列|2024中国国际大学生创新大赛产业命题赛道,算能11项命题入选!

    近日,中国国际大学生创新大赛(原“互联网+”大赛)产业命题正式公布,算能十一项命题成功入选。本次算能赛题主要聚焦于国产TPU处理器的边缘系统开发和RISC-V架构处理器的系统设计。大赛提供了多款
    的头像 发表于 07-02 08:34 489次阅读
    <b class='flag-5'>TPU</b>编程竞赛系列|2024中国国际大学生创新大赛产业命题赛道,算能11项命题入选!

    谷歌发布第六代TPU芯片Trillium,挑战GPT-4o

    分析人士认为,谷歌积极推进自主研发芯片,按照其规划,第七代和第八代产品将分别与联发科、世芯合作生产。此次第六代TPU的推出,有望引领CSP(云端服务提供商)厂商投入自研芯片领域。
    的头像 发表于 05-16 18:05 1443次阅读

    谷歌推出Trillium AI芯片,性能提高近5倍

    谷歌推出了其最新的人工智能数据中心芯片——Trillium。这款芯片是谷歌的第六代产品,与上一代TPU v5e相比,
    的头像 发表于 05-16 10:39 768次阅读

    谷歌将推出第六代数据中心AI芯片Trillium TPU

    在今日举行的I/O 2024开发者大会上,谷歌公司震撼发布了其第六代数据中心AI芯片——Trillium Tensor处理器单元(TPU)。
    的头像 发表于 05-15 11:18 622次阅读

    Groq推出大模型推理芯片 超越了传统GPU和谷歌TPU

    Groq推出了大模型推理芯片,以每秒500tokens的速度引起轰动,超越了传统GPU和谷歌TPU
    的头像 发表于 02-26 10:24 1029次阅读
    Groq推出大模型推理芯片 超越了传统GPU和<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b>

    谷歌Tensor芯片专利侵权案和解,原告索赔16.7亿美元

    贝茨的代理人凯里·蒂姆伯斯(Kerry Timbers)在庭上表明,谷歌复制了他的创意并运用到了TPU的研发工作中。蒂姆伯斯具体指出,谷歌结合了他的技术结果,研发了TPU并应用在包括G
    的头像 发表于 01-26 09:46 610次阅读

    tpu材料的用途和特点

    的制作,例如鞋底、鞋面、鞋垫TPU具有耐磨、抗刮擦、柔软舒适特点,可以为鞋提供良好的保护和舒适性。 服装行业:TPU材料在服装行业中应用广泛,常用于雨衣、防水服、防寒服
    的头像 发表于 01-16 10:17 3219次阅读

    TPU是什么材料做的

    制得的高分子材料。TPU材料于20世纪60年代开始使用,并逐渐发展成为一种广泛应用于工业领域的弹性体材料。 TPU的结构和性能 1.结构:TPU材料由醇类元组成,醇对材料的强度、硬度和
    的头像 发表于 01-12 13:40 3375次阅读

    TPU-MLIR开发环境配置时出现的各种问题求解

    按照 TPU-MLIR 开发指南进行环境配置: 2.1. 代码下载 代码路径: https://github.com/sophgo/tpu-mlir 克隆该代码后, 需要在Docker中编译
    发表于 01-10 08:02

    yolov5量化INT8出错怎么处理?

    frames. /workspace/tpu-mlir_v1.2.8-g32d7b3ec-20230802/lib/libbackend_1684.so(print_trace+0x19
    发表于 01-10 06:40

    LT8228V1V2是BUCK模式,V2V1是BOOST模式,请问这个模式是固定的吗?

    看LT8228的示例,V1V2是BUCK模式,V2
    发表于 01-05 07:10

    谷歌TPU v5p超越Nvidia H100,成为人工智能领域的竞争对手

    TPU v5p已在谷歌AI超级计算机”项目中发挥重要作用,这并非专业科研型超算平台,而是面向各类人工智能应用。与Nvidia开放GPU购买
    的头像 发表于 12-26 15:20 2314次阅读

    谷歌最强大的定制设计人工智能加速器—TPU v5p芯片

    谷歌正迅速成为 BFF Nvidia 的强大对手——为其超级计算机提供动力的 TPU v5p AI 芯片速度更快,内存和带宽比以往任何时候都
    的头像 发表于 12-26 09:31 1893次阅读