本文由半导体产业纵横(ID:ICVIEWS)编译自quantamagazine
光学神经网络使用光子而不是电子,比传统系统具有优势。摩尔定律已经相当快了。它认为,计算机芯片每两年左右就会安装两倍数量的晶体管,从而在速度和效率上产生重大飞跃。但深度学习时代的计算需求增长速度甚至更快——这种速度可能不可持续。国际能源署预测,2026年人工智能消耗的电力将是2023年的10倍。计算硬件公司Lightmatter的创始人兼首席执行官尼克·哈里斯 (Nick Harris)表示,人工智能所需的算力每3个月就会翻一番,速度远远快于摩尔定律的预测。最有前途的方法之一是不使用可靠的电子来处理信息,而是使用光子流。最近的结果表明,对于现代人工智能的某些基础计算任务,基于光的“光学计算机”可能具有优势。剑桥大学物理学家纳塔利娅·贝尔洛夫表示,光计算的发展“为人工智能等需要高速、高效处理的领域的突破铺平了道路” 。
理论上,光提供了诱人的潜在好处。其一,光信号比电信号可以携带更多信息——它们有更多的带宽。光频率也比电频率高得多,因此光系统可以在更短的时间内以更少的延迟运行更多的计算步骤。然后是效率问题。除了相对浪费的电子芯片造成的环境和经济成本之外,它们的运行温度也非常高,以至于只有一小部分晶体管(所有计算机核心的微小开关)可以随时处于活动状态。理论上,光学计算机可以同时进行更多操作,在消耗更少能源的同时处理更多数据。斯坦福大学电气工程师戈登·韦茨斯坦(Gordon Wetzstein ) 表示,“如果我们能够利用”这些优势,“这将带来许多新的可能性。”看到潜在的优势,研究人员长期以来一直尝试将光用于人工智能这个计算需求量很大的领域。例如,在 20 世纪 80 年代和 90 年代,研究人员使用光学系统构建了一些最早的神经网络。Demetri Psaltis 和加州理工学院的两名同事使用这些早期光学神经网络 (ONN) 之一创建了一个巧妙的面部识别系统。他们将一个受试者(实际上是研究人员之一)的图像作为全息图存储在光折变晶体中。研究人员使用全息图来训练 ONN,然后 ONN 可以识别研究人员的新图像并将他与同事区分开来。但光也有缺点,光子通常不会相互作用,因此一个输入信号很难控制另一个信号,而这正是普通晶体管的优势。现在,它们已被放置在数十亿枚硬币大小的芯片上,这是数十年渐进式改进的产物。
近年来,研究人员发现了光学计算的杀手级应用:矩阵乘法。
一些简单的数学
矩阵或数字数组相乘的过程是大量重型计算的基础。具体来说,在神经网络中,矩阵乘法是如何在旧数据上训练网络以及如何在经过训练的网络中处理新数据的基本步骤。光可能是比电更好的矩阵乘法媒介。
这种人工智能计算方法在 2017 年爆发,当时麻省理工学院的 Dirk Englund 和 Marin Soljačić 领导的团队描述了如何在硅芯片上构建光学神经网络。研究人员将他们想要相乘的各种量编码成光束,然后将光束发送通过一系列改变光束相位(光波振荡方式)的组件,每个相位改变代表一个乘法步骤。通过反复分裂光束、改变相位、重新组合,可以使光有效地进行矩阵乘法。在芯片的末端,研究人员放置了光电探测器来测量光束并揭示结果。研究人员教他们的实验设备识别口语元音,这是神经网络的常见基准任务。凭借光的优势,它可以比电子设备更快、更有效地完成这一任务。其他研究人员已经知道光有利于矩阵乘法;2017 年的论文展示了如何将其付诸实践。
康奈尔大学光子学专家Peter McMahon表示,这项研究“激起了人们对 ONN 的巨大兴趣,那个人影响力非常大。”
聪明的想法
自 2017 年发表论文以来,随着各种研究人员提出了新型光学计算机,该领域取得了稳步进展。Englund 和几位合作者最近推出了一种名为 HITOP 的新型光网络,该网络结合了多项先进技术。最重要的是,它的目标是随着时间、空间和波长的增加计算吞吐量。前麻省理工学院博士后、现任职于南加州大学的Zaijun Chen表示,这有助于 HITOP 克服光学神经网络的缺点之一:将数据从电子元件传输到光学元件需要大量能量,反之亦然。但Zaijun Chen说,通过将信息打包到光的三个维度中,它可以更快地通过 ONN 推送更多数据,并将能源成本分散到许多计算中。这降低了每次计算的成本。研究人员报告说,HITOP 可以运行比以前基于芯片的 ONN 大 25,000 倍的机器学习模型。
需要明确的是,该系统仍远不能与其电子前辈相媲美。Chen表示,HITOP 每秒执行约 1 万亿次运算,而先进的 Nvidia 芯片可以处理 300 倍的数据,他希望扩大该技术的规模,使其更具竞争力。但光学芯片的效率却非常引人注目。“这里的游戏是我们将能源成本降低了 1,000 倍,”Chen说。其他小组已经创建了具有不同优势的光学计算机。去年,宾夕法尼亚大学的一个团队描述了一种新型 ONN,它提供了不同寻常的灵活性。这种基于芯片的系统将激光照射到构成电子芯片的半导体部分上,从而改变半导体的光学特性。激光有效地映射了光信号的路径,从而完成了它执行的计算。这使得研究人员可以轻松地重新配置系统的功能。这与大多数其他基于芯片的系统(光学和电子系统)有着明显的区别,在这些系统中,路线是在制造工厂中仔细制定的,并且很难改变。该研究的主要作者吴天伟说:“我们所拥有的东西非常简单。我们可以重新编程,动态改变激光图案。”研究人员利用该系统设计了一个成功区分元音的神经网络。大多数光子系统在构建之前都需要进行训练,因为训练必然涉及重新配置连接。但由于该系统很容易重新配置,研究人员在将模型安装到半导体上后对其进行了训练。他们现在计划增加芯片的尺寸,并用不同颜色的光编码更多信息,这应该会增加它可以处理的数据量。
即使是在 90 年代创建面部识别系统的 Psaltis 也对这一进步感到印象深刻。“与实际发生的事情相比,我们 40 年前最疯狂的梦想显得非常渺小。”
第一缕曙光
虽然光学计算在过去几年中发展迅速,但它还远未取代实验室外运行神经网络的电子芯片。论文宣布光子系统比电子系统效果更好,但它们通常使用旧的网络设计和较小的工作负载来运行小型模型。安大略省皇后大学的 Bhavin Shastri 表示,许多关于光子霸权的报道数据并没有说明全部情况。“很难与电子产品进行同类比较,”他说:“例如,当他们使用激光时,他们并没有真正谈论为激光供电的能量。”
实验室系统需要扩大规模才能显示出竞争优势。Bhavin Shastri 问道:“要把它做大到什么程度才能获胜?”答案是:非常大。这就是为什么没有人能与英伟达制造的芯片相媲美,英伟达的芯片为当今许多最先进的人工智能系统提供动力。在此过程中,需要解决大量的工程难题——电子方面已经解决了几十年的问题。麦克马洪说:“电子领域从一开始就具有巨大的优势。”一些研究人员认为,基于 ONN 的人工智能系统将首先在提供独特优势的专业应用中取得成功。Shastri 表示,一种有前途的用途是抵消不同无线传输之间的干扰,例如 5G 蜂窝塔和帮助飞机导航的雷达高度计。今年年初,Shastri 和几位同事创建了一个 ONN,可以整理不同的传输并实时挑选出感兴趣的信号,处理延迟低于 15 皮秒(15 万亿分之一秒)——不到千分之一电子系统所花费的时间,同时使用不到 1/70 的功率。
但Bhavin Shastri 表示,宏伟的愿景——一种可以超越通用电子系统的光学神经网络——仍然值得追求。去年,他的团队进行的模拟显示,十年内,足够大的光学系统可以使某些人工智能模型的效率比未来电子系统的效率提高 1000 倍以上。“现在很多公司都在努力争取1.5倍的收益。一千倍的好处,那就太神奇了。”他说:“如果成功的话,这可能是一个为期 10 年的项目。”
-
人工智能
+关注
关注
1791文章
46841浏览量
237524 -
光芯片
+关注
关注
3文章
95浏览量
10872 -
计算机芯片
+关注
关注
0文章
42浏览量
3500
发布评论请先 登录
相关推荐
评论