存内计算——助力实现28nm等效7nm功效-电子发烧友网

算力是数字经济时代的核心生产力，并且近年来需求剧增。而我国当前的算力供给上仍面临巨大的挑战，一方面，国外的高端算力芯片被美国禁售，另一方面，国内的芯片产业仍处于发展阶段[1]。如何获取算力提升，成为当前时代芯片研究的重要命题。

一．算力突破

研究如何获取算力提升，要从算力的来源上考虑。芯片算力可大致总结为以下计算公式：

因此，获取算力提升的主要切入点是晶体管密度、芯片面积、单位晶体管的算力，这三个方面分别主要涉及制作工艺、光刻口径、计算架构。

（1）晶体管密度：

晶体管密度的主要影响因素是制造工艺、基板材料，同样的面积内，封装的可用晶体管越多，就能提供越强的算力。

制造工艺方面，受限于美国的无理封锁，当前国内量产芯片的最先进制造工艺为14nm，国际上量产芯片最先进的制造工艺为3nm。清华大学尹首一教授认为，国内芯片制造工艺将长期处于在14nm，国内芯片产业与研究不能指望通过制造工艺获得性能提升。在国际领域，虽然芯片制造商仍能享受到制程工艺带来的升级，但从苹果A17Pro芯片的性能表现、高通仍然采用基于4nm的升级工艺制造今年旗舰芯片的市场行为来看，产业界最先进的工艺制程已经不及预期。

基板材料方面，随着制造工艺步入埃米级别，芯片制造工艺受到硅原子性质的影响越来越大，产业界和学界也在探索新的材料用于制造芯片，通过“弯道超车”的方式提升晶体管密度，比如英特尔等厂商正在研发的玻璃基芯片[3]、北京大学彭练矛教授团队正在研发的碳基芯片[4]。

（2）芯片面积

芯片面积和晶体管密度考虑的是类似的问题，在一颗芯片内提供更多的可用晶体管，就意味着能提供更多的算力。但是在当前，GPU的单芯片面积基本已经达到上限，想通过面积获得进一步的算力提升，可以从拓展角度考虑，有两个探索的方向：平面拓展和垂直拓展。

平面拓展就是在光刻时使用光照拼接技术，实现两个曝光区域的物理连接，来把芯片做大，通过计算架构的优化设计，保证晶圆中晶体管的可用性，Cerebras公司和Tesla公司已经实现了晶圆级芯片。垂直拓展就是把芯片或其中的部分器件三维堆叠起来，如AMD的3D缓存技术。

（3）单位晶体管提供的算力：

单位晶体管提供的算力和计算架构息息相关，计算架构的优化改进或使用新的计算架构，能够对芯片算力产生更根本的影响。计算架构上面临的主要问题有：基本器件的设计架构不同导致的晶体管数量不同，需要探索更优的基本器件结构设计；冯诺依曼架构的“存储墙”导致的访存瓶颈，限制了算力的发挥，需要降低带宽对算力的限制；功耗限制导致的darkselect问题，即为了保证芯片功耗，不能同时点亮芯片上的所有晶体管，需要优化设计来避免。

面对以上的部分问题，产业界和学界已经给出了相应的解决方案。在计算架构的优化方面，有数据流、可重构、存算一体三条路径。首先，数据流芯片尝试不使用指令而是直接通过数据驱动计算，避免外部存储访问，来解决晶体管利用率低的问题。Google的TPU芯片已经证明了，这种方式虽然在单芯片性能上逊于GPU，但能在系统级算力上实现超越[1]。具体来讲，单核TPU v4的性能是低于A100 GPU的，只有它的88%，但1024颗TPU v4的集群性能，超过了A100 GPU的集群性能，最高达到了1.96倍。4096颗TPUv4芯片示意图如下图3所示。

图 34096颗TPUv4芯片集成[6]

可重构芯片尝试在芯片内布设可编程的计算资源，根据计算任务的数据流特点，动态构造出最适合的计算架构，国内团队设计并在12nm工艺下制造的CGRA芯片，已经在标准测试集上实现了和7nm的GPU基本相当的性能。存算一体尝试通过集成存储和计算在一个芯片甚至一个容器内，来突破访存限制，发挥芯片的最大算力。下面我们将重点介绍存算一体技术。

二．存算一体

存算一体是一种新型计算架构，直接利用存储器本身进行数据处理，从根本上消除数据搬运，实现存储与计算融合一体化，成为后摩尔时代集成电路领域的重点研究方向之一。

（1）存算一体技术优势：

存算一体技术具有很大的优势，存算融合的特点使其天然具备较大算力、低延迟、高带宽等优势。相比传统架构，存算一体大算力芯片不仅仅是能效比有数量级的提升，更重要的是将大大缓解存储墙问题，简化AI服务器集群的互联网络及其管理和各类成本，包括高速互联、DPU和能耗等。因此，存算一体技术是实现芯片算力突破的重要途径，可助力实现28nm等效7nm功效。

（2）传统工艺芯片算力提升实例：

目前已有一些企业和高校，通过存算一体技术，实现28nm制程芯片的能效算力提升。

忆铸科技于2021年10月于上海成立，是一家基于ReRAM设计和落地数字存算一体芯片的企业。在公司的技术畅想中，他们尝试将新型忆阻器、存算一体架构、Chiplet技术、3D封装等技术结合，实现大算力、高能效比的芯片。据其官网信息，亿铸第一代算力芯片采用的工艺为28nm，其能效比可以实现目前主流算力板卡的10倍以上[7]。

2023年8月29日，华为的麒麟9000s芯片随着Mate 60 Pro成功发布，该款芯片一经发出，就引发业界讨论：“麒麟9000s的工艺制程究竟是多少？”在2023年中国集成电路设计业（ICCAD）年会上，清华大学魏少军教授在演讲中提出：“能够用14nm，甚至28nm做成7nm的产品性能才是真正的高手”。据悉，华为并未公布麒麟9000s真正的工艺制程，知名科技解析机构TechInsights对麒麟9000s深入解析结果显示，该芯片确实拥有7nm工艺制程的特性。

图 4 华为麒麟9000s芯片

知存科技的WTM2101量产芯片采用40nm制程，将神经网络部署在芯片中，已经实现了满足端侧算力需求的语音识别等功能。即将量产的WTM8芯片，采用28nm制程，作为新一代存内AI计算视觉芯片，能够实现图像的AI超分、插帧、HDR识别和检测这样复杂的功能[8]，现有的一些研究也已经证明存算一体可以实现16bit、32bit的浮点计算，具备进入高算力芯片的能力。

图 5知存科技WTM-8系列芯片示意图

三．未来展望

随着工艺的进步，先进工艺制程已从28nm发展至3nm，苹果新发布的A17Pro已采用了tsmc 3nm工艺。据悉，tsmc也将投资近万亿新台币建造1nm晶圆厂。在未来，有没有一种全新的方案解决算力不足、工艺制程发展空间受限的局面？存算一体便是答案之一。

综上所述，存算一体技术因为其特殊优势，可以大大提升芯片算力，从而使得成熟28nm制程芯片能够实现等效于7nm制程芯片的性能。当然这其中还有很多难点需要突破，需要科研工作着的不断努力，期待未来基于存算一体技术的芯片可以更好地突破芯片制程的限制。

参考资料

[1] 尹首一教授报告：以“架构”创新，突破算力卡脖子问题.

[2] 极客湾 space.bilibili.com/25876945.

[3] 第八届未来芯片论坛中英特尔中国研究院的报告.

[4] 北京大学新闻网：专访北大碳基芯片团队：我们换道走了20年，觉得能走下去（news.pku.edu.cn）.

[5] AMD官网 amd.com.

[6] Jouppi N, Kurian G, Li S, et al. Tpu v4: An optically reconfigurable supercomputer for machine learning with hardware support for embeddings[C]//Proceedings of the 50th Annual International Symposium on Computer Architecture. 2023: 1-14.

[7] 忆铸科技官网（yizhu-tech.com）.

[8] 知存科技官网（witintech.com）.

[9] 从7nm到5nm，半导体制程 - 吴建明wujianming - 知乎（zhuanlan.zhihu.com/）.

审核编辑黄宇

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

芯片

芯片

+关注

关注
454

文章
50689

浏览量
423014
AI

AI

+关注

关注
87

文章
30665

浏览量
268830
芯片制程

芯片制程

+关注

关注
0

文章
51

浏览量
4688
算力

算力

+关注

关注
1

文章
960

浏览量
14784
存内计算

存内计算

+关注

关注
0

文章
30

浏览量
1378

Altera 28nm FPGA助力NEC提升LTE基站性能

Altera的28nm FPGA所具有的灵活性和性能指标满足了下一代基站各种LTE系统级特性的需求，而且没有牺牲功效。近日Altera宣布NEC将使用其28nm FPGA，助力提高其L

发表于 11-19 09:09 •834次阅读

什么是Altera最新28nm FPGA技术？

1月22日，Altera 在北京展示了号称业界最全面的28nm 最新技术及强大解决方案。Altera公司的多位工程师为在京的媒体人士进行了讲解。

发表于 08-21 07:37

如何利用28nm高端FPGA实现功耗和性能的平衡？

　从工艺选择到设计直至投产，设计人员关注的重点是以尽可能低的功耗获得最佳性能。Altera在功耗和性能上的不断创新，那其28nm高端FPGA如何实现功耗和性能的平衡？具体有何优势？　

发表于 09-17 08:18

10nm、7nm等制程到底是指什么？宏旺半导体和你聊聊

随着半导体产业技术的不断发展，芯片制程工艺已从90nm、65nm、45nm、32nm、22nm、14nm

发表于 12-10 14:38

请问C2000系列产品的制程是45nm还是28nm？

请问工程师，C2000系列产品的制程是45nm还是28nm？同一款新片可能采用不同的制程生产吗？

发表于 06-17 14:41

Fusion Design Platform™已实现重大7nm工艺里程碑

• 在设计人员的推动下，加快部署7nm Fusion Design Platform，在具有挑战性的设计方面，不仅设计实现质量提升了20%，设计收敛速度也提高了两倍多。• Fusion Design

发表于 10-22 09:40

请大神解释一下28nm下是没有MIM电容了吗？

之前只用过tsmc 65nm的，在设置电感时候是有indcutor finder的工具的，28nm下没有了吗？只能自己扫描参数一个一个试？28nm下是没有MIM电容了吗？相关的模拟射频器件（比如

发表于 06-24 06:18

求一份tsmc 7nm standard cell library

求一份tsmc 7nm standard cell library求一份28nm或者40nm 的数字库

发表于 06-25 06:39

从7nm到5nm，半导体制程精选资料分享

从7nm到5nm，半导体制程芯片的制造工艺常常用XXnm来表示，比如Intel最新的六代酷睿系列CPU就采用Intel自家的14nm++制造工艺。所谓的XXnm指的是集成电路的MOSFET晶体管栅极

发表于 07-29 07:19

28nm Stratix V FPGA突破带宽瓶颈

28nm Stratix V FPGA突破带宽瓶颈 Altera公司的最新28nm Stratix V FPGA正是为满足高带宽应用设计要求而推出。移动互联网、高清视频、军事、医疗以及计算

发表于 05-10 17:52 •783次阅读

降低赛灵思28nm 7系列FPGA的功耗

本白皮书介绍了有关赛灵思 28 nm 7 系列 FPGA 功耗的几个方面，其中包括台积电 28nm高介电层金属闸 (HKMG) 高性能低功耗（28n

发表于 03-07 14:43 •41次下载

半导体制程发展：28nm向3nm的“大跃进”

虽然高端市场会被 7nm、10nm以及14nm/16nm工艺占据，但40nm、28nm等并不会退

发表于 10-15 11:18 •5126次阅读

22nm和28nm芯片性能差异

据芯片行业来看，目前22nm和28nm的芯片工艺技术已经相当成熟了，很多厂商也使用22nm、28nm的芯片居多，主要原因就是价格便宜，那么这两个芯片之间有什么性能差异呢？

发表于 06-29 09:47 •9908次阅读

7nm芯片和5nm芯片哪个好

7nm芯片和5nm芯片的区别在哪？7nm芯片和5nm芯片哪个好？在其他变量恒定的情况下，5nm芯片肯定要强于

发表于 07-05 09:26 •2.3w次阅读

所谓的7nm芯片上没有一个图形是7nm的

最近网上因为光刻机的事情，网上又是一阵热闹。好多人又开始讨论起28nm/7nm的事情了有意无意之间，我也看了不少网上关于国产自主7nm工艺的文章。不过这些文章里更多是抒情和遐想，却很少有人针对技术

发表于 10-08 17:12 •318次阅读

搜索历史

存内计算——助力实现28nm等效7nm功效

评论

Altera 28nm FPGA助力NEC提升LTE基站性能

什么是Altera最新28nm FPGA技术？

如何利用28nm高端FPGA实现功耗和性能的平衡？

10nm、7nm等制程到底是指什么？宏旺半导体和你聊聊

请问C2000系列产品的制程是45nm还是28nm？

Fusion Design Platform™已实现重大7nm工艺里程碑

请大神解释一下28nm下是没有MIM电容了吗？

求一份tsmc 7nm standard cell library

从7nm到5nm，半导体制程精选资料分享

28nm Stratix V FPGA突破带宽瓶颈

降低赛灵思28nm 7系列FPGA的功耗

半导体制程发展：28nm向3nm的“大跃进”

22nm和28nm芯片性能差异

7nm芯片和5nm芯片哪个好

所谓的7nm芯片上没有一个图形是7nm的