Ironwood——Google TPU 机架与光学电路交换系统简介
本文信息来源:globaltechresearch
今天,我想介绍近期备受投资者关注的 Google Ironwood TPU 机架及其光学电路交换(OCS)系统。
首先澄清一点:尽管 Google 宣称 Ironwood 是其第七代 TPU,但下表显示,Ironwood(在系统厂商中也被称为 Ghostfish)实际上是其最初的 TPU V6p(见下图);而 Google 计划于明年推出的所谓第八代 TPU——Sunfish 和 Zebrafish——实际上分别是其最初的 TPU V7p 和 TPU V7e(详情请参阅我去年撰写的文章:《The Accelerator War – AWS Tranium, Google TPU, Habana Gaudi and Others》)。只不过,Google 现在玩起了命名游戏,将原本的 TPU V6e 更名为 TPU V6,将原本的 TPU V6p 更名为 TPU V7,并将原本的 TPU V7p 和 TPU V7e 更名为 TPU V8ax 和 TPU V8x。

一个 TPU 机架包含 16 个 TPU 托盘,每个 TPU 托盘配备 4 颗 TPU 芯片,因此单个 TPU 机架总计拥有 16 × 4 = 64 颗 TPU 芯片。同时,TPU 机架还配备了 CPU 主机托盘(见下图),CPU 与 TPU 的典型配比为 1:4。因此,预计明年的 400 万颗 TPU 大致对应约 100 万颗 CPU(这一点我在此前讨论 GUC 的文章中已有提及:Marvell(MRVL US)vs. Broadcom(AVGO US)vs. Alchip(3661 TT)vs. GUC(3443 TT)——ASIC 投资机会简要更新 )。

Google TPU 采用 3D Torus 互连架构,可抽象为一个 4 × 4 × 4 的立方体(即共 64 颗 TPU 芯片):该立方体有六个面,每个面上的 16 颗 TPU(4 × 4)连接到外部的 OCS 交换机。理论上,六个面需要 16 × 6 = 96 条连接,但相对面的两个端点会连接到同一台交换机,因此实际只需要 96 / 2 = 48 个 OCS 单元;与此同时,立方体内部的 TPU 之间通过线缆或 PCB 进行互连(见下图):

以 TPU V4 为例,下面说明 Google 单个 pod 中的 4096 颗 TPU 是如何通过 OCS 交换机互连的:
- 如前所述,一个 TPU 机架共包含 64 颗 TPU 芯片,而一个 TPU V4 pod 最多可包含 64 个 TPU 机架,因此一个 pod 内包含 64 × 64 = 4096 颗 TPU 芯片。
- 如前所述,一个 TPU 机架具有 96 个光学端口,因此 64 个机架对应的光学端口总数为 64 × 96 = 6144 个。
- Google 目前主要使用 136 端口的 OCS 交换机,其中 128 个端口为有效端口(具体原因将在后文说明)。因此,48 台 OCS 交换机合计提供 48 × 128 = 6144 个端口,正好与一个 TPU V4 Pod 的 6144 个光端口完全匹配。TPU 与光模块的比例为 4096:6144 = 1:1.5(见下图):

以下是对 Google 目前所使用的 OCS 的简要介绍。我们知道,传统数据中心采用电分组交换机。在这种架构下,信号在通过电交换机时需要在电信号与光信号之间进行多次转换。每个数据包的信号处理都会带来可观的功耗,并增加数据延迟。随着 AI 数据中心的网络流量急剧增长,Google 主要通过采用光电路交换机来取代传统的电分组交换机,以降低功耗和成本。OCS 交换机具有多种技术路线,业内常见的包括 MEMS、液晶、机器人式、压电式以及硅光子 OCS。Google 目前自研并已部署的方案为 MEMS OCS(见下表):

Google 的 MEMS OCS 交换机内部结构如下图所示。其输入和输出端均为光纤准直器阵列,每个阵列由一组光纤阵列和一组微镜阵列组成,输入端和输出端各包含 136 个通道。光信号通过光纤进入 OCS 系统后,会依次通过两级二维 MEMS 阵列。每个 MEMS 阵列包含 136 个微镜单元,且每个单元均可独立驱动控制。通过施加不同的电信号,可获得所需的微镜倾斜角度,从而精确调节信号光的传播方向(如下图中的绿色光线路径所示)。 此外,系统还包含两个监控通道,对应下图中的粗红线。监控通道采用 850 纳米波长的光,该光经 MEMS 阵列反射后进入监控摄像头。随后通过图像处理对 MEMS 阵列进行反馈控制,以优化链路插入损耗。如前所述,Google 的 136 端口 OCS 交换机的有效端口数实际上为 128 个,这是因为 MEMS 阵列中的 136 个微镜中有 8 个被预留用于监控和校准用途(见下图):

下图展示了 Google 的 MEMS OCS 交换机实物图:

需要注意的是,从明年开始,Google 的 MEMS OCS 将从今年使用的 128 端口交换机升级为下一代 300 端口交换机。接下来,我将以 Google 最新发布的 Ironwood / TPU V7 为例,说明一个 pod 内的 9,216 颗 TPU 是如何通过 OCS 交换机实现互联的:
- 同样如前所述,一个 TPU 机架共包含 64 颗 TPU 芯片,而一个 TPU V7 pod 最多可包含 144 个 TPU 机架,因此一个 pod 中共包含 64 × 144 = 9,216 颗 TPU 芯片。
- 如前所述,一个 TPU 机架配备 96 个光端口,因此 144 个机架对应的光端口总数为 144 × 96 = 13,824 个。
- 明年 Google 将主要使用 300 端口 OCS,其中 288 个端口为有效端口。因此,48 台 OCS 交换机对应的总端口数为 48 × 288 = 13,824 个,恰好与一个 TPU V7 pod 的 13,824 个光学端口完全匹配。TPU 与光模块的比例为 9,216:13,824 = 1:1.5(见下图):

我的供应链研究显示,Google 在 2026 年将需要约 15,000 台 300 端口 OCS 交换机(主要用于 AI LLM 训练)。其中约 12,000 台仍将采用 Google 自研的 OCS(由 Celestica 代工生产),其余约 3,000 台将通过外部采购,目前计划在 Lumentum 和 Coherent 之间分配。300 端口 OCS 交换机的量产价格预计在 10 万至 12 万美元之间。假设明年外购的 3,000 台 OCS 交换机在 Lumentum 与 Coherent 之间平均分配,则每家公司有望获得约 1.5 亿至 1.8 亿美元的收入贡献。当然,除 Google 之外,Lumentum 和 Coherent 各自也拥有其他 OCS 客户(例如:Lumentum 的客户包括 Microsoft、Meta;Coherent 的客户包括 NVIDIA、Oracle)。
值得注意的是,Lumentum 和 Coherent 采用了不同的 OCS 技术。Lumentum 使用的是与 Google 自研方案相同的 MEMS OCS 交换机(见下图):

另一方面,Coherent 采用了一种不同的数字液晶解决方案。简而言之,数字液晶(Digital Liquid Crystal,DLC)技术通过电信号控制液晶分子的取向,从而动态调制光的相位或偏振状态,实现光束的转向与路由,而无需传统 MEMS 器件的机械运动(见下图)。与 MEMS OCS 相比,DLC OCS 成本更低、所需驱动电压更小,但其切换时间远长于 MEMS 设备,因此并不适合需要频繁切换路径的 OCS 应用。幸运的是,Google 的 AI 训练集群大约只需每周切换一次光路,因此 DLC OCS 同样具备可行性:

最后,作为本文的一个彩蛋,我将在接下来的段落中向读者介绍一个鲜为人知的 Google Ironwood 布局。