为什么谷歌要发展OCS光交换机?

2023年12月7日，谷歌推出自身首个多模态大模型Gemini 1.0，其中高性能版本Gemini Ultra可对标GPT-4。并在10天之内，谷歌Gemini模型Pro版迭代出了1.5版本。

随后第二年初的2月，谷歌又推出新型开源模型系列“Gemma”：该开源模型基于Gemini研究和技术开发，与Gemini相比，Gemma展示了更高的效率和轻量化设计，同时免费提供全套模型权重，并明确允许商业使用。

在如此背景下，随着谷歌大模型不断加速迭代，对其软件层面优化，算力能力的支撑提出更高的要求。而算力的提升一方面来自于底层的芯片性能，另一方面则来自计算集群效率。

因此，为了高效地将多个计算芯片连接起来，谷歌在通用解决方案基础上，创造性地引入OCS光交换机（Palomar）。那么为何要发展OCS光交换机?

Gemini快速迭代，亟需算力支撑

可以看得出，谷歌大模型的迭代动作一直在加快：

2023年初推出聊天机器人Bard：2023年2月6日，谷歌宣布将推出一款聊天机器人Bard，2023年3月21日，谷歌向公众开放Bard 的访问权限。
2023年12月推出首个多模态大模型Gemini 1.0：模型共分为Ultra、Pro、Nano三个版本。

表：Gemini 1.0三版本对比

同时将聊天机器人Bard背后的模型从PaLM2换成了Gemini Pro。其中高性能版本Gemini Ultra可对标GPT-4，Gemini Ultra 在大型语言模型（LLM）研发中使用的32 个广泛使用的学术基准中，有30个的性能超过了当前最先进的结果。

2024年2月16日，Gemini 1.0 Pro迭代至1.5：在文本、代码、图像、音频和视频评估达到了与Gemini 1.0 Ultra相当的质量，但减少了计算资源。
2024年2月22日，谷歌推出新型开源模型系列“Gemma”。

谷歌自研TPU单芯片性能不足

2015年谷歌首次发布了第一代TPU，正式涉足定制ASIC芯片，2017年发布第二代TPU v2，2018年发布第三代TPU v3，第四代TPU v4于2021年5月正式推出，此次迭代间隔三年，并于2023 年8月推出第五代TPU v5e，以及2023年12月6日最新发布TPU v5p。

AI产业背景下的2024年光通信市场展望

千兆渗透与400G建设驱动光纤光缆行业续势前行

全球光通信十年变革之源动力

表：谷歌历代TPU迭代情况

单芯片性能不足，提高计算集群效率（POD）是同英伟达竞争的关键：谷歌训练 Gemini Ultra所使用芯片为TPU v4、TPU v5e，性能无法与英伟达H100相比，TPU v5e峰值算力只有英伟达三年前发布的A100 的六成，最新版本TPU v5p峰值算力不到H100的三成，且英伟达将于2024年推出更高性能的B100产品。

表：谷歌近两代TPU与英伟达近两代产品性能对比

电交换机相比光交换机延迟和功耗较高

传统三层架构：包括接入层、汇聚层和核心层，对应位置均采用电交换机，一台下层交换机会通过两条链路与两台上层交换机互连，实际承载流量的只有一条，其它上行链路，只用于备份，一定程度上造成了带宽的浪费，因此传统网络架构有网络带宽阻塞，上层带宽小于下层带宽和。

◼ 叶脊拓扑结构

相比于传统网络的三层架构，叶脊网络进行了扁平化，变成了两层架构，叶交换机相当于传统三层架构中的接入交换机，脊交换机，相当于核心交换机。

图：传统三层网络架构和叶脊架构对比◼ 胖树架构和英伟达Infiniband架构

传统三层架构存在网络带宽阻塞，在叶脊架构中，视各家具体方案不同，汇聚层或核心层也存在网络带宽阻塞，胖树架构下，自下而上不存在网络带宽阻塞，英伟达infiniband架构采用两层的胖树架构，即叶脊和胖树的结合。

图：传统树形有阻塞三层架构和胖树架构

以上网络架构中，各层交换机均采用电交换机，与光交换机相比存在一些不足：首先耗电量较大，同时因为需要对数据包进行编解码导致延迟较高，另外在摩尔定律下，电交换机相关芯片迭代速率较快，电交换机2-3年迭代一版，频繁迭代下资本支出较大。

TPU v4时期首次引入Palomar OCS提升计算集群性能

谷歌从TPU v2版本开始构建超级计算机集群：谷歌在2017年发布TPU v2的同时，宣布计划研发可扩展云端超级计算机TPU Pods，通过新的计算机网络将64块Cloud TPU相结合。

◼ TPU v3集群（Pod）：2018年与TPU v3芯片一同推出，每个Pod最多拥有1024个芯片；

◼ TPU v4集群首次引入OCS：首次引入Palomar OCS（Optical Circuit Switches，光交换机），一个集群总共有4096个TPU，是TPU v3的4倍；

◼ TPU v5p集群：每集群TPU数量达到8960个，每集群可用 FLOP总数是TPU v4的4 倍，每秒浮点运算数（FLOPS）比TPU v4 提高一倍，每Pod芯片数量增加一倍，可以提高训练速度的相对性能；TPU v5p集群同样使用了Palomar光交换机。

图：谷歌TPU v5p参数及v5p集群芯片数量

短时间内，谷歌在单颗芯片性能上超过英伟达难度较大，通过其擅长的软硬件集成，提高计算集群效率，在支撑自身大模型训练的基础上，可以通过出售算力资源获取收入，Salesforce 和 Lightrick等客户已经在使用Google Cloud 的 TPU v5p 超级计算机来训练大模型。

图：谷歌历代TPU集群集成的芯片数量

光交换机降低计算集群功耗、延迟和生命周期成本

早期Jupiter采用“Clos”拓扑：也称为脊叶配置：spine and leaf configuration，机架装有【CPU、GPU、FPGA、存储和/或ASIC 】，然后该机架连接到叶（leaf，汇聚层）或架顶交换机，然后通过各种聚合层连接到主干（spine）。

Clos拓扑下电交换机的资本开支和功耗较大：Clos拓扑中，主干层使用电交换机 (EPS：Electronic Packet Switch)，通常由 Broadcom、Cisco、Marvell 等提供，EPS 耗电量大，此外，每 2 到 3 年网络速度翻一番，需升级现有spine层EPS，每一代更新都会带来巨大的资本支出。

图：早期谷歌Jupiter架构采用Clos拓扑

2022年谷歌引入光交换机替代主干层电交换机降低功耗、延迟和资本开支：引入光交换机取代Spine层传统电交换机，主干层功耗显著下降，同时由于不必解码数据包导致延迟显著降低，且主干层交换设备无须再进行设备代际更新，使用寿命增加，节约全生命周期资本开支；

图：引入光交换机取代主干层的电交换机

当然，引入光交换机也存在一些缺点：

尽管全生命周期成本下降，但前期资本开支较大；
信号插入损耗：光要多次反射折射才能到达接收端，存在信号功率损失；
重新配置时间：光交换机的光路是提前设置好的，如果要与不同的端口通信，光开关必须重新配置这些镜像。

本文内容源引于中泰证券的研究报告”AI系列：光是通信的必由之路，OCS已成功应用“

ICT百科

通信与信息领域内的知识性网站

为什么谷歌要发展OCS光交换机?

发表回复