科学家预测,到 2040 年,全球近 50% 的电力将用于计算。更重要的是,这一预测是在生成式人工智能突然爆发之前做出的。在过去的十年里,用于训练最大的人工智能模型的计算资源量大约每 6 个月就翻一番。按照这个速度,到 2030 年,训练一个人工智能模型所需的计算资源将是当前十大超级计算机每年资源总和的一百倍。

简而言之,计算将需要大量的电力,很快就会超出我们的星球所能提供的能力。

管理计算领域不可持续的能源需求的一种方法是从根本上改变我们的计算方式。超导体可以让我们做到这一点。

超导体提供了大幅降低能耗的可能性,因为它们在通过电流时不会耗散能量。确实,超导体只能在低温下工作,需要一些冷却开销。但作为交换,它们提供几乎零电阻互连、基于超短脉冲构建的需要最少能量的数字逻辑,以及由于简单的 3D 芯片堆叠而提供令人难以置信的计算密度的能力。

这些优势是否足以克服低温冷却的成本?我们的研究表明他们肯定是这样的。随着计算资源规模变大,冷却开销的边际成本变小。我们的研究表明,从每秒约 1016 次浮点运算(数十千万亿次浮点运算)开始,超导计算机轻松变得比其经典计算机更加节能。这正是当今典型高性能计算机的规模,因此现在正是超导超级计算机的时代。

在 Imec,我们过去两年一直在开发可以使用标准 CMOS 工具制造的超导处理单元。基于这项工作的处理器的能源效率将是当今最高效芯片的一百倍,并且它将导致计算机将数据中心的计算资源放入鞋盒大小的系统中。

节能计算的物理原理

超导性(一种允许某些材料在足够低的温度下无电阻地传输电力的超能力)早在 1911 年就被发现了,而将其用于计算的想法自 20 世纪 50 年代中期就已存在。但是,尽管该技术有望降低功耗和提高计算密度,但仍无法与摩尔定律下 CMOS 缩放技术的惊人进步相竞争。几十年来,研究一直在持续,横滨国立大学的一个小组于 2020 年展示了超导 CPU 。然而,作为计算的辅助手段,超导性在很大程度上仍局限于实验室。

为了将这项技术带出实验室并实现可扩展的设计,以便在现实世界中具有竞争力,我们必须改变 Imec 的方法。我们不是从下往上发明一个系统——也就是说,从物理实验室中可行的东西开始,希望它有用——我们是从上往下设计的——从必要的功能开始,直接与 CMOS 工程师和一个完整的团队合作。堆栈开发团队确保可制造性。该团队不仅致力于制造工艺,还致力于软件架构、逻辑门以及逻辑和存储元件的标准单元库,以构建完整的技术。

然而,节能计算背后的基本思想早在1991 年就已被开发出来。在传统处理器中,大部分功耗和散热来自逻辑单元之间或逻辑与存储元件之间的信息移动,而不是来自实际操作。然而,由超导材料制成的互连不会耗散任何能量。这些电线的电阻为零,因此在处理器内移动位只需要很少的能量。即使在非常高的通信频率下,这种能量损耗极低的特性也适用,在这种情况下,普通互连的性能会急剧上升。

进一步的节能来自于超导计算机内部的逻辑处理方式。超导逻辑的基本元件不是晶体管,而是约瑟夫森结( Josephson-junction)。约瑟夫森结是一个三明治——挤压在两个超导体之间的一层薄薄的绝缘材料。连接两个超导体,你就拥有了一个约瑟夫森结环路。

在正常情况下,环路中的绝缘“meat”非常薄,无法阻止超电流——整个三明治只是充当超导体。然而,如果将电流增加到超过称为临界电流的阈值,绝缘体周围的超导“面包片”就会短暂地脱离超导状态。在此过渡期间,结会发出微小的电压脉冲,仅持续一皮秒,仅消耗 2 x 10-20焦耳,这是将一位信息写入传统闪存所需能量的千亿分之一。

关键在于,由于超导回路中一种称为磁通量量子化的现象,该脉冲始终完全相同。它被称为磁通量的“单通量量子”(SFQ),其值固定为 2.07 毫伏皮秒。将电感器放入约瑟夫森结环路内,电压脉冲驱动电流。由于环路是超导的,因此该电流将无限期地继续绕环路流动,而无需使用任何进一步的能量。

超导计算机内部的逻辑运算是通过操纵这些微小的量化电压脉冲来完成的。具有 SFQ 持续电流值的约瑟夫森结环路充当逻辑 1,而无电流环路则充当逻辑 0。

信息存储是 CPU 缓存中基于约瑟夫森结的 SRAM 版本,也存储单通量量子。为了存储一位,需要将两个约瑟夫森结环路放置在彼此旁边。左侧回路中有持续电流的 SFQ 是存储逻辑 0 的存储元件,而左侧没有电流但右侧回路中有电流的存储元件是逻辑 1。

通过全栈开发取得进展

为了从实验室好奇心转变为准备制造的芯片原型,我们必须对整个硬件堆栈进行创新。这分为三个主要层面:工程所用的基本材料、电路开发和建筑设计。这三层必须结合在一起——一套新材料需要新的电路设计,而新的电路设计需要新颖的架构来整合它们。跨越所有三个阶段的共同开发以及严格遵守 CMOS 制造能力是成功的关键。

在材料层面,我们不得不放弃以前实验室最喜欢的超导材料:铌。虽然铌很容易建模并且在可预测的实验室条件下表现良好,但按比例缩小却非常困难。铌对工艺温度及其周围材料都很敏感,因此它与标准 CMOS 工艺不兼容。因此,我们改用相关的化合物铌钛氮化物作为我们的基础超导材料。铌钛氮化物可以承受 CMOS 制造中使用的温度,而不会失去其超导能力,并且与周围层的反应要少得多,使其成为更实用的选择。

此外,我们还为约瑟夫森结三明治的meat层采用了一种新材料——非晶硅或阿尔法硅。传统的约瑟夫森结材料,尤其是氧化铝,不能很好地按比例缩小。使用铝是因为它“润湿”铌,使表面光滑,并且氧化物以良好控制的方式生长。然而,为了达到我们目标的超高密度,我们必须使氧化物太薄而无法实际制造。相比之下,阿尔法硅允许我们在相同的临界电流下使用更厚的势垒。

我们还必须设计一种为约瑟夫森结供电的新方法,该方法可以缩小到芯片的尺寸。以前,基于实验室的超导计算机使用变压器将电流传输到其电路元件。然而,在每个电路元件附近放置一个笨重的变压器是行不通的。相反,我们设计了一种通过创建谐振电路来同时向芯片上的所有元件供电的方法,并在整个芯片中散布着专用电容器。

在电路层面,我们必须重新设计整个逻辑和存储结构,以利用新材料的功能。我们设计了一种新颖的逻辑架构,称为脉冲守恒逻辑。脉冲守恒逻辑的关键要求是元件具有与输出一样多的输入,并且单个通量量子的总数是守恒的。该逻辑是通过将单个通量量子通过约瑟夫森结环路和电感器的组合路由到适当的输出来执行的,从而产生逻辑“或”和“与”。为了补充逻辑架构,我们还重新设计了兼容的基于约瑟夫森结的 SRAM。

最后,我们必须进行架构创新,以充分利用新颖的材料和电路设计。其中包括将传统硅 DRAM 冷却至 77 开尔文,并在 77-K 部分和主超导部分之间设计一个玻璃桥,该部分在 4 K 下运行,并使用细线实现无需热混合的通信。我们还提出了一种将芯片堆叠在一起的方法,并正在开发垂直超导互连以连接电路板。

鞋盒大小的数据中心

结果是基于超导体的芯片设计,针对人工智能处理进行了优化。放大其中一块板可以发现它与典型的 3D CMOS 片上系统有许多相似之处。该板由计算芯片组成:我们称之为超导处理单元 (SPU),具有嵌入式超导 SRAM、DRAM 内存堆栈和交换机,所有这些都通过硅中介层或玻璃桥先进封装技术互连。

但也存在一些显着差异。首先,芯片的大部分部分将浸没在液氦中以冷却至仅 4 K。这包括 SPU 和 SRAM,它们依赖于超导逻辑而不是 CMOS,并且安装在插入板上。接下来,有一座玻璃桥通向较温暖的区域,即托管 DRAM 的温和 77 K。DRAM 技术不是超导技术,而是传统 CMOS 从室温冷却的技术,使其更加高效。从那里,定制连接器将数据传入和传出室温世界。

摩尔定律依赖于将越来越多的计算资源放入同一空间。随着晶体管的缩小变得越来越困难,半导体行业正在转向芯片的3D 堆叠以保持密度的提高。在传统的基于 CMOS 的技术中,将计算芯片堆叠在一起非常具有挑战性,因为芯片内会散发大量的功率和热量。在超导技术中,消耗的少量功率很容易被液氦消除。逻辑芯片可以使用先进的 3D 集成技术直接堆叠,从而使芯片之间的连接更短、更快,并且占用空间更小。

将多块 3D 超导芯片板堆叠在一起也很简单,它们之间只留下很小的空间。我们对 100 块此类板的堆叠进行了建模,所有板都在相同的冷却环境中运行,并包含在 20 x 20 x 12 厘米的体积中,大致相当于鞋盒的大小。我们计算出该堆栈可以执行 20 exaflops(以 BF16 数字格式),是当今最大超级计算机容量的 20 倍。更重要的是,该系统承诺总功率仅消耗500千瓦。这意味着能源效率是当今最高效的超级计算机的一百倍。

到目前为止,我们已经在接下来的三代中缩小了约瑟夫森结和互连尺寸。展望未来,Imec 的路线图包括解决 3D 超导芯片集成和冷却技术。对于第一代,路线图设想堆叠约 100 个板以获得 20 exaflops 的目标性能。逐渐地,越来越多的逻辑芯片将被堆叠,并且电路板的数量将减少。这将进一步提高性能,同时降低复杂性和成本。

超导愿景

我们并不认为超导数字技术将取代传统的 CMOS 计算,但我们确实希望它能够补充 CMOS 的特定应用,并推动新应用的创新。首先,这项技术将与同样基于超导技术构建的量子计算机无缝集成。也许更重要的是,我们相信它将支持人工智能和机器学习处理的增长,并有助于以比目前更可持续的方式提供基于云的大型人工智能模型训练。

此外,利用这项技术,我们可以设计占地面积更小的数据中心。较小的数据中心可以放置在靠近目标应用程序的地方,而不是放置在一些遥远的足球场大小的设施中。

这种变革性的服务器技术是科学家的梦想。它为基于真实数据的人工智能模型在线训练打开了大门,这些数据是活跃变化的环境的一部分。以潜在的机器人农场为例。如今,训练这些将是一项具有挑战性的任务,因为所需的处理能力只能在遥远的、耗电的数据中心提供。借助紧凑的附近数据中心,可以立即处理数据,从而使人工智能能够了解农场的当前状况

同样,这些微型数据中心可以散布在能源网格中,在每个节点立即学习并在世界各地更有效地分配电力。想象一下智能城市、移动医疗保健系统、制造、农业等,所有这些都受益于相邻人工智能学习者的即时反馈,实时优化和改进决策。

发表回复

后才能评论