0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

挑战英伟达,索尼AFEELA里的高通数字底盘

佐思汽车研究 来源:佐思汽车研究 2024-01-14 10:35 次阅读

2024年CES展上,索尼用自家的PS5游戏机遥控原型车AFEELA登台颇为惊艳,预计AFEELA在2025年上市,起售价约为45000美元,首选发售地据悉是北美。AFEELA是高通数字底盘的典型代表。

AFEELA具备800TOPS的算力。

76159edc-b279-11ee-8b88-92fbcf53809c.png

图片来源:SHM

762b18e8-b279-11ee-8b88-92fbcf53809c.png

图片来源:SHM

AFEELA显然是采用了两套SnapdragonRide级联,推测SoC是高通的SA8650,加速器是基于Cloud AI 100 Ultra的车载版。

AFEELA的AD/ADAS架构

763e7280-b279-11ee-8b88-92fbcf53809c.png

图片来源:SHM

上图是AFEELA的AD/ADAS架构,不要质疑CNN做感知,即便是2000TOPS的英伟达也支撑不起全Transformer,车载感知的Backbone网络还是基于CNN的,包括特斯拉,特斯拉是Regnet。只有Head才能用得上Transformer,这里的环境模型基本可等同于BEV加占用网络。全Transformer估计得用8张英伟达H200显卡,价格是整车的好几倍了。

SA8650之前笔者已介绍过,高通第一代Snapdragon Ride即SA8540P+SA9000P似乎是过渡产品,SA8540P和高通的SA8295P几乎完全一致,与高通笔记本电脑领域的8cx Gen3即SC8280P也几乎完全一致。

高通自动驾驶一直在英伟达和Mobileye的夹缝中,英伟达凭借超高性能几乎垄断高端市场,而Mobileye以40-70美元的超低价格垄断中低端市场。对大部分厂家,包括保时捷这样的高端品牌,对自动驾驶都缺乏兴趣和重视度,自动驾驶是可有可无,锦上添花的配置,只有Mobileye不到100美元的芯片能满足这些厂家的成本需求,Mobileye牢牢占据全球70%的智能驾驶芯片市场,地位稳如泰山,短期的客户库存调整不会影响Mobileye的未来。高通无意与Mobileye竞争,可能是利润太微薄,高通主要竞争对手就是英伟达,但高通主要市场还是手机,技术核心还在手机上,所以高通的AI加速器是分离的,高通主打的是低功耗和高性价比。

今天我们主要来看高通AI加速器的新产品,即AI 100 Ultra,这是高通2023年11月底推出的产品,就是要挑战英伟达的H100,高通号称单张AI 100 Ultra可以对应1000亿参数的大模型,两张可以对应1750亿参数的ChatGPT 3,功耗和价格远低于英伟达的H100,惠普和联想已经有基于AI 100 Ultra的服务器销售。

7655cc46-b279-11ee-8b88-92fbcf53809c.png

上表是高通2020年9月推出AI 100的各个版本的性能表现。高通目前只有这两款AI加速器,车载的AI加速器毫无疑问是基于AI 100设计的。

766c8918-b279-11ee-8b88-92fbcf53809c.png

从参数上看,当然无法和英伟达H100相提并论,并且H100主打的是FP16精度,高通主打的是INT8精度,高通主要的信心来自其软件优化,即Polyhedral Mapper。

76802bc6-b279-11ee-8b88-92fbcf53809c.png

特色主要是核心/线程的并行性,明确的数据传输,以及SIMD的并行性。

7692dd48-b279-11ee-8b88-92fbcf53809c.png

上图是一个具体的BERT优化。

76aac80e-b279-11ee-8b88-92fbcf53809c.png

主要的挑战一是如何让核心、线程和矢量单元都处于最大利用状态,二是如何利用好本地内存,而不是外部昂贵的HBM内存,三是减少数据搬运。

高通AI加速器架构

76c9cb46-b279-11ee-8b88-92fbcf53809c.png

高通AI 100内核

76e31ae2-b279-11ee-8b88-92fbcf53809c.png

高通AI 100内核是16个,AI 100Ultra是64个,不过考虑到功耗,性能没有增加4倍。

每个AI核心内部架构

76f6c114-b279-11ee-8b88-92fbcf53809c.jpg

大多数车载AI加速器只有张量Tensor计算单元,且只有INT8,高通的不仅包括张量还有标量Scalar和矢量Vector单元。张量分INT8和FP16两种,INT8有8192个MAC,FP16有4096个MAC。标量与矢量单元都是VLIW指令集,跟高通手机芯片中的DSP完全一致。

每核心有1MB的L2缓存,有8MB的VTCM存储,所谓VTCM是VectorTightly-Coupled Memory紧耦合矢量存储,合计每个AI核心有9MB的SRAM,64个内核就是576MB的SRAM,SRAM的成本每MB约5美元,也就是2880美元,AI 100 Ultra至少一半以上的die size是SRAM,一半以上的成本也来自SRAM,估计AI 100 Ultra售价是6000美元左右。

矢量计算需要频繁搬运数据,特别是矢量矩阵运算,Transformer里主要延迟都来自矢量矩阵运算。

770b91d4-b279-11ee-8b88-92fbcf53809c.png

上图是三星对GPT大模型workload分析,在运算操作数量上,GEMV矩阵矢量乘法所占的比例高达86.53%,在大模型运算延迟分析上,82.27%的延迟都来自GEMV;GEMM矩阵通用乘法所占仅为2.12%,非线性运算也就是神经元激活部分占的比例也远高于GEMM。

77269f2e-b279-11ee-8b88-92fbcf53809c.png

上图是三星对GPU利用率的分析,可以看出在GEMV算子时,GPU的利用率很低,一般不超过20%,换句话说80%的时间GPU都是在等待存储数据的搬运。所以芯片内部的TCAM非常有必要,其效果要比芯片外部的HBM更好,缺点是容量远不能和HBM比,用于训练和汽车级模型推理比较好。

AI 100 Ultra的存储系统升级不少,从原来的137GB/s升级至576GB/s,但还是用了老旧的LPDDR4,实际就是内存控制器增加到了4路,每路128bit,合计512bit。接口方面,PCIe提升到第四代,Lane增加到16。

AI加速器硬件似乎已走到了尽头,能做文章的只有存储部分和制造工艺,更先进的制造工艺容纳更多的计算单元,更高bit的内存控制器增加存储带宽或者升级HBM,像英伟达的H200,只是存储部分更换成了HBM3,其余与H100完全一致。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    790

    浏览量

    37663
  • gpu
    gpu
    +关注

    关注

    28

    文章

    4673

    浏览量

    128555
  • AI
    AI
    +关注

    关注

    87

    文章

    29768

    浏览量

    268052
  • 自动驾驶
    +关注

    关注

    782

    文章

    13618

    浏览量

    165907

原文标题:挑战英伟达,索尼AFEELA里的高通数字底盘

文章出处:【微信号:zuosiqiche,微信公众号:佐思汽车研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英伟市值飙升,逼近苹果

    。 这一程碑式的成就,不仅彰显了英伟在人工智能领域的深厚积累和卓越贡献,也反映了全球市场对英伟未来发展的高度期待。目前,
    的头像 发表于 10-23 09:31 215次阅读

    英伟管解读Q2财报 但是英伟市值暴跌1.4万亿元

    英伟正式发布了2025财年第二季度报告,英伟公司在Q2营收达到了300.4亿美元,这个营收超过了市场预期的287亿美元,同比增长122%;净利润为166亿美元,同比增长168%,也
    的头像 发表于 08-30 13:03 658次阅读

    英伟Blackwell架构揭秘:下一个AI计算里程碑?# 英伟# 英伟Blackwell

    英伟行业资讯
    jf_02331860
    发布于 :2024年08月26日 10:58:09

    英伟面临双重反垄断调查挑战

    英伟,这家在人工智能芯片领域占据领先地位的科技公司,近期遭遇了前所未有的挑战。在享受了数月由AI芯片需求激增带来的股价暴涨和市场乐观情绪后,英伟
    的头像 发表于 08-14 11:45 508次阅读

    科技看点:摩根大通详解“英伟芯片问题”马斯克560亿薪酬方案引争议

    设计和系统级别的问题;主要应该是主板过热和电压。产量的挑战依然是英伟要头疼的问题;这也是英伟
    的头像 发表于 08-05 16:18 596次阅读

    英伟TITAN AI显卡曝光,性能狂超RTX 409063%!# 英伟# 显卡

    显卡英伟
    jf_02331860
    发布于 :2024年07月24日 17:18:28

    英伟AI霸主地位遭巨头联手挑战,CUDA垄断遭破局

    据最新外媒报道,科技界的巨头们——通、谷歌和英特尔等,已经联手向英伟发起了一场挑战,意图打破其在CUDA平台上的垄断局面。
    的头像 发表于 03-28 14:39 896次阅读

    英伟垄断地位遭挑战,谷歌、通联手打破

    然而,一家名为UXL的联合体正在努力打破这一局面。该机构由通、谷歌、英特尔、ARM等诸多知名科技巨头构成,意欲引导开发者从对英伟芯片的依赖中走出,降低英伟
    的头像 发表于 03-26 15:24 435次阅读

    英伟为什么越涨越便宜?英伟的市盈率一直在下降?

    英伟为什么越涨越便宜?英伟的市盈率一直在下降? 在2023年英伟的股价涨了两倍多;龙年开年
    的头像 发表于 03-12 18:02 1606次阅读

    英伟市值超过2.3万亿美元

    英伟(NVIDIA)近日在美股市场表现出色,市值再创新高。上周四,英伟股价收4.47%,成功突破900美元大关,市值更是达到惊人的23
    的头像 发表于 03-11 11:12 712次阅读

    “网红”芯片Groq让英伟蒸发5600亿

    鉴于ChatGPT的广泛应用,引发了AI算力需求的迅猛增长,使得英伟的AI芯片供不应求,出现大规模短缺。如今,英伟似乎在面对更多挑战
    的头像 发表于 02-27 15:10 1073次阅读
    “网红”芯片Groq让<b class='flag-5'>英伟</b><b class='flag-5'>达</b>蒸发5600亿

    英伟市值1.96万亿美元

    英伟市值1.96万亿美元 英伟股价一天之内大涨16%;英伟股价涨到785.38美元,市值1
    的头像 发表于 02-24 15:22 885次阅读

    英伟与中国市场的博弈 英伟特供芯片遇冷

    英伟在面临美国新规的挑战时,迅速为中国市场开发了特供版AI芯片,旨在满足中国对尖端人工智能技术的需求。
    的头像 发表于 01-08 17:07 1058次阅读

    英伟股价暴跌 英伟市值一夜骤减2214亿

    人民币大约2214亿元)。 在英伟股票出现大幅波动的同时,有数据显示出在11月英伟的内部人员出售及申请抛售股份数量达到惊人的37万股,创下6年上市公司抛售之最。
    的头像 发表于 12-05 09:16 942次阅读

    #英伟 #显卡 英伟全新旗舰显卡RTX 5090性能暴涨70%

    显卡英伟
    深圳市浮思特科技有限公司
    发布于 :2023年11月20日 14:19:25