光模块驱动AI数据中心能效革命
铜缆预计难以满足日益增长的数据中心流量和 AI 计算负载对算力与数据密集型模型训练的需求。如今,铜缆在数据吞吐量和能耗需求方面已显吃力,而光纤则能保持更低的能耗。由于铜缆的能耗远高于光纤,数据中心工程师正更加关注 皮焦/比特(pJ/bit) 的能效指标。目前,光模块的能耗水平大约在 15 pJ/bit,而在未来几年内,这一数字有望降低至 1 pJ/bit。
除了光纤之外,还有覆盖范围。对于给定的功率脉冲,光纤的覆盖范围将远远超过铜线,一些估计是铜线的十倍、三十倍甚至更多。这样的覆盖范围使得跨数据中心传输数据变得切实可行,并使新的架构成为可能。尽管如此,线缆设计人员仍在不断提升铜线的速度和传输距离。推动这些改进的因素包括铜线的低成本以及线缆设计和冷却技术的进步。即便如此,铜线在 100 Gbps 和 200 Gbps 的数据传输速率下仍面临挑战。在这种情况下,铜线需要重定时器和中继器才能达到这个传输距离。
随着 200 Gbps 和 400 Gbps 更高数据速率的到来,人们担心铜线将无法跟上。面对晶圆级光学器件和光学中介层产量的激增,硅光市场人气低迷,这抑制了铜线的前景。毫无疑问,集成硅微光学器件、反射镜、微透镜阵列、波导、光栅和激光器将满足人工智能的需求,而几乎没有人认为铜线能够满足人工智能的需求。
诚然,铜缆有其优势,尤其是在短距离互连和低数据速率的情况下,它是一种低成本的解决方案。但现实是,铜缆的局限性抵消了其低成本的优势。以至于如今的铜缆数据中心看起来就像真空管一样过时。铜缆的问题有很多,包括能耗、体积和重量、带宽、高错误率以及数据包丢失。
即使没有这份清单,铜缆也会对数据中心架构造成限制。对于数据中心来说,光纤比铜缆提供了更多的布局选择。具体来说,使用光纤,架构师可以自由地分解集群、服务器、交换机、能源、配电和冷却系统。这是因为光纤电缆允许节点在一公里以上,必要时甚至十公里以上的距离内轻松通信。而铜缆在十米以上的距离上会遇到困难。更重要的是,100 Gbps 和 200 Gbps 的数据速率在三米处会遇到与铜缆相关的问题。
在铜缆数据中心中,数据中心设计师会将内存、GPU、CPU、NPU 和加密节点尽可能地靠近放置。无论是集群还是机架,都会进行近距离放置,以保证数据速率、错误率和功率规格。这种放置限制除了会扰乱配电和电源放置策略外,还会导致数据中心出现陡峭的热梯度。在铜缆数据中心中迁移 TB 级的 AI 工作负载比在光纤数据中心中迁移要困难得多。从能源、冷却、时间或可靠性的角度来看,在铜缆数据中心传输海量数据可能并不实际。而光纤设施则完全符合规格要求。
光纤凭借其更高的速度、更低的功耗和更广的覆盖范围,为数据中心架构师提供了灵活性,从而最大限度地减少计算和通信拥塞。由于能够均匀分配数据,也为均匀分配功率打开了大门。最终,架构的峰值机架功率和冷却要求更低,从而降低了平均故障间隔时间 (MTB),并降低了数据中心能源崩溃的可能性。
光收发器设计矩阵
光收发器设计矩阵提供了当前用于设计 800G 光收发器的技术图谱。如今,数据中心正在用 400G 和 800G 收发器取代老款 100G 收发器。这些下一代收发器的带宽和通道速率是上一代产品的两到八倍,被认为是确保最短 AI 模型工作负载时间的必要条件。
光收发器基础知识
光收发器由接收器和发射器组成。发射器将电子数据流转换为光调制数据流。在接收器端,光数据被转换为电数据。
光发射器从网络、处理器、存储设备或接口(例如 PCIe)接收电子数据。电子数据信号被调制到光载波上(例如使用 1310 nm 波长的 EML 激光器),然后通过耦合到发射光纤的低损耗光纤连接单元 (FAU) 进行路由。在接收端,光信号通过接收光纤输入。该信号被路由到光电探测器,在那里从光信号转换为电信号。经过放大和处理后,数字数据流被发送回任意数量的处理器、存储单元或网络交换机。
波分复用及更多
要充分利用收发器,需要考虑波分复用 (WDM)、基于 DSP 的相干调制技术以及激光器和光电二极管支持的数据速率。这三者都是光收发器发展路线图的一部分,旨在实现更高的数据传输速率和更低的功耗。如今,对于 800G 以及未来的 1.6T 和 3.2T 光收发器而言,50、100 和 200 Gbps PAM4 调制激光器和光电二极管备受关注。用作多光谱激光源的梳状激光器也备受关注。
与仅配备一个激光器和一个光电二极管的收发器不同,800G WDM 收发器通常配备四个激光器,工作在四个不同的标准波长下。对于数据中心来说,波长位于 O 波段。光数据复用器将四个数据调制的光载波复用在一起,并通过硅 (SiN) 波导向外传输。光从这里穿过光点转换器和反射镜,最终通过光纤连接单元到达传输光纤。WDM 利用了不同波长的光波不会相互作用的特性。因此,在配备四个激光器的情况下,一根光纤在每根传输光纤上的传输带宽比没有 WDM 的收发器高出四倍。
对于 GPU 到 GPU 的光连接,WDM 收发器可以连接到 PCIe 总线。为此,需要使用两个光学 SerDes 芯片:一个用于将 PCIe 总线上的串行电子数据转换为并行 4 通道 WDM 格式,另一个用于将 WDM 并行通道数据转换为串行 PCIe 格式。
能源路径
光模块本身为人工智能的能耗计算提供了起点。具体来说,以一只 800G 光模块为例,其典型功耗为 15 瓦,将其除以带宽 800Gbps,就能得到答案。换算方法是:1 瓦等于 1 焦耳/秒,15 瓦除以 800Gbps,即得到 18.75 皮焦/比特(pJ/bit)。
发射端由于包含激光器及相关的热电制冷器,自然是能耗与散热问题的重点所在。DSP 芯片的功耗口碑也不佳,以至于线性直插光模块(LPO)直接舍弃了 DSP 芯片。通过这种方式,LPO 可以节省 3 到 5 瓦功耗,但更适合短距离通信。随着光纤传输距离的增加,误码率也会上升,这时 DSP 仍是必不可少的。
结论
随着光收发器升级以及从铜缆到光纤的过渡,人工智能数据中心将快速发展。尽管光纤相对于铜缆的优势众多,但其驱动力并非实用主义,而是市场导向:人工智能是未来业务和基础设施的绝对必需品。光的魅力以及光计算的前景同样重要,光计算是一项新兴技术,它将矢量矩阵数学从电子领域带入超低功耗的光子领域。