为AI端点应用选择合适的闪存-电子发烧友网

人工智能的起源

从1955年到1956年，达特茅斯学院的助理教授约翰·麦卡锡（John McCarthy）被广泛认为是人工智能（AI）之父。来自哈佛大学的马文·明斯基（Marvin Minsky）、IBM的克劳德·香农（Claude Shannon）和美国贝尔实验室的纳撒尼尔·罗切斯特（Nathaniel Rochester）共同创造了人工智能（AI）的概念，称“如果机器可以使用不同的语言来形成抽象或概念，解决现在为人类保留的各种问题，并通过自主学习来改善自己，我们称之为AI。

牛津词典将人工智能定义为“能够执行通常需要人类智能的任务的计算机系统的理论和发展，例如视觉感知，语音识别，决策和语言之间的翻译。

随着系统的发展，人工智能技术将出现在更多的物联网应用中，如传感、智能手机、网络搜索、人脸或车辆车牌识别、智能电表、工业控制和自动驾驶。

在自动驾驶领域，4级测试（被认为是全自动驾驶，尽管人类驾驶员仍然可以请求控制）已经在美国进行。随着5级（真正的自动驾驶，汽车完成所有驾驶，没有驾驶舱）自动驾驶即将到来，我们不仅将依靠交通法律法规，还将依靠AI算法的开发人员来确保车辆和行人的安全。

根据国际数据公司（IDC）的统计数据，到2024年，全球人工智能服务预计将上升至18.4%，市值约为378亿美元。这包括定制应用程序以及针对定制平台的相关支持和服务，例如深度学习架构、卷积神经网络（一类人工神经网络，最常用于分析视觉图像）和人工智能相关芯片（CPU、GPU、FPGA、TPU、ASIC）等。

IDC还预测，全球数据存储将从2018年的33ZB飙升至2025年的175ZB，其中50%以上将来自物联网设备。

考虑到到2025年，全球将部署约140亿台物联网设备，因此我们大幅增加云中的计算单元数量和计算能力以应对海量数据增长，这难道不是最重要的吗？

好吧，简短的答案是否定的。它没有考虑从端点到云的数据传输链中的带宽和延迟等真正挑战，这就是为什么“边缘计算”如此迅速地出现的原因。

没有必要增加带宽和服务器数量来应对物联网设备的快速增长。最好将应用程序移动到端点设备，这样就无需将所有数据发送到云进行处理、传输、存储和分析。例如，在工业自动化应用中，数据存储距离会影响效率 - 5G移动设备制造商如果不加强端点人工智能并改革计算存储架构，可能会遇到严重的电池寿命困难。

安全性是另一个重要问题，尤其是在万物互联（IoE）时代，机密信息，数据泄漏或黑客攻击事件很常见。在边缘进行计算可以最大限度地减少数据在“云 -管道-端点”路径中传输的次数，在这种情况下，功耗和总系统拥有成本降低，同时确保数据和网络安全。

比较人工智能芯片

AI技术分为两类;训练和推理。训练由 CPU、GPU 和 TPU 在云中执行，以不断增加用于构建数据模型的数据库资源。推理依赖于训练的数据模型，更适合于完成边缘设备和特定应用。它通常由专用集成电路和FPGA芯片处理。

人工智能相关芯片包括中央处理器、显卡、现场可编程门阵列、热塑性聚氨酯和集成电路。为了了解这些芯片之间的比较情况，以下是5个关键因素的比较重点。这些是：

计算机科学

灵活性

兼容性

权力

成本。

-中央处理器

CPU具有强大的计算能力和首屈一指的软件和硬件兼容性。但由于冯·诺依曼架构的限制，数据需要在内存和处理器之间来回传输。这限制了平均处理速度，并且与其他解决方案相比，在功耗和成本方面推动了自身发展的能力。

- 显卡

例如，由于采用了计算统一设备架构，Nvidia的GPU可以主观地读取内存位置，并通过共享虚拟内存来提高计算能力。平均计算能力超过CPU数百甚至数千倍。

GPU已经开发具有良好的软硬件兼容性，但在功耗和成本效益方面需要改进。对硬件的投资，如额外的冷却系统，对于减少任何热量问题也是必不可少的。

- 亚瑟士

ASIC芯片专为特定应用而设计。它们的计算能力、整体功耗和成本效益都可以在验证和调整后得到优化。

- 现场可编程门阵列

FPGA的软硬件兼容性值得称道，即使整体计算能力、成本效益和功耗都不是最好的。对于开发人员来说，从FPGA开始AI芯片开发仍然是一个好主意。

突破冯·诺依曼架构的界限

冯·诺依曼架构被传统计算设备广泛采用，它不分离计算和存储，而是更注重计算。处理器和内存之间的无休止数据传输消耗了大约80%的时间和功率。学者们已经提出了许多不同的方法来解决这个问题 - 通过光互连和2.5D / 3D堆叠实现高带宽数据通信。通过增加缓存层和近数据存储（如高密度片上存储）的数量来降低内存访问延迟和功耗。

但是，在人脑中，计算和存储之间有什么区别吗？我们是否使用左半球进行计算，使用正确的半球进行存储？显然不是。人脑的计算和存储发生在同一个地方，不需要数据迁移。

然后，学术界和业界都渴望找到一种类似于人脑结构的新架构，并且能够将计算和存储有机地结合起来，这并不奇怪。解决方案是“计算存储设备”，它直接使用存储单元进行计算，或者对计算单元进行分类，以便它们对应于不同的存储单元 - 最大限度地降低数据迁移引起的功耗。

存储行业的一些制造商已经探索了不同的选择。例如，非易失性存储器（NVM）存储数模转换器产生的模拟信号并输出计算能力。同时，输入电压和输出电流在NVM中起可变电阻的作用，模拟电流信号通过模数转换器转换为数字信号。这样就完成了从数字信号输入到数字信号输出的转换过程。这种方法的最大优点是可以充分利用成熟的20/28nm CMOS工艺，而不是像CPU/GPU那样追求昂贵的7nm/5nm先进工艺。

随着成本和功耗的降低，延迟得到了显着改善，这对于无人机，智能机器人，自动驾驶和安全监控等应用至关重要。

通常，端点推理过程的计算复杂度较低，所涉及的任务相对固定。由于硬件加速功能的通用性要求较低，因此无需频繁更改体系结构。这更适合于内存计算的实现。相关统计数据显示，2017年之前，人工智能无论是训练还是参考，都是在云端完成的;但到2023年，边缘设备/芯片上的AI参考将占市场的一半以上，总计200-300亿美元。对于IC制造商来说，这是一个巨大的市场。

人工智能需要什么样的闪存？

每个人都会同意高质量、高可靠性和低延迟的闪存对于AI芯片和应用的重要性。为不同的应用找到性能、功耗、安全性、可靠性和高效率的适当平衡至关重要。成本虽然重要，但不应该是最重要的考虑因素。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉