C114讯 6月8日消息(焦焦)ChatGPT引爆了人工智能(AI)/机器学习(ML)新的需求高潮,当前GPU互联端口已采用800G(2x400G),下一代会演进到1.6T(2x800G),数据中心对光互联的带宽需求越来越高。在昨日举办的2023年中国光通信高质量发展论坛系列“数据中心光互联技术研讨会”上,凌云光解决方案总监张华博士与行业同仁分享了在当今数字化转型的时期, “软件定义全光交换在高性能计算和数据中心应用”。
Al/ML集群互联对HPC和数据中心互联提出新挑战
伴随着带宽增长,AI/ML集群规模从几百张加速卡到上万张扩展,集群互联距离从数十米到上百米延伸,Al/ML集群互联对低功耗和低延迟需求迫切,现有电交换面临瓶颈。由此,也对HPC的发展提出了更高要求:第一、HPC集群规模需要灵活配置;第二、HPC网络要求长期稳定运行。
此外,大规模数据中心互联也面临着新的挑战:挑战一:Spine交换机成为性能瓶颈;挑战2:随着端口速率从100G->200G->400G->800G演进,能效提升进入平台期。
OCS全光交换方案适配新挑战
OCS全光交换方案可以很好应对上述需求和挑战。OCS具备全光交换优点,光信号完全透明传输,支持光纤中任意速率/任意调制格式/任意通信波长光信号交换,具有无时钟抖动,无延迟,不读取数据,无泄漏风险等特点,也支持SDN使能控制。目前在以Google为代表的TPUv4高性能计算中心和Jupiter数据中心已成功应用。
基于OCS全光交换有效提升了Google TPU v4集群互联可靠性,在主机可靠性降到99.0%仍能保证TPU切片有较好的性能,可使系统的性能提升6倍以上。在取得以上这些收益的同时,光交换互联方案包括OCS、光模块及光纤占总体超算节点成本<5%、功耗<3%。
Google Jupiter数据中心网络方案在Spine层引入光线路交换(OCS),采用SDN动态调整拓扑路由适配,流量工程可适应秒~分钟级变化;拓扑工程可适应以天为单位变化,适配异质速率和实时应用通信模式。可用于大流量拓扑重构、网络扩容、多速率共存等场景。从收益方面看,网络CAPEX降低30%,功耗下降40%。Fabric拓扑重构速度提升10倍以上。流完成时间(FCT)提升10%,吞吐量提升30%。
OCS全光交换技术应用广泛,前景不容小觑
张华表示,从上述两个Google方案中已经全面的展示了OCS全光交换技术优势。目前OCS全光交换应用较广泛的核心技术主要包括:DirectLight技术、2D/3D MEMS技术以及其他光开关技术。
其中,DirectLight技术采用压电陶瓷材料带动准直器旋转,空间直接耦合对准(“针尖对麦芒”),实现任意端口光路切换,目前矩阵规模最大576*576。DirectLight技术的最要特点为:插损等光学性能指标优异,抗震性佳(可抗里氏8级以上地震),能实现灵活的光信号交换,支持“暗光纤(无光)”模式下光信号单路双向对传等。
基于DirectLight压电陶瓷技术的矩阵光开关自从2003年商用化以来,已经广泛应用于各种场合,例如智能监控系统、国际空间站、数据中心/超算中心等等。目前累计现网运行时间150亿+端口小时,4500+套系统已铺设,300+个客户在使用。其稳定性和可靠性已经得到充分验证。
最后,张华总结到,随着数据中心OCS应用进一步下沉(Spine->Leaf),需要更快切换速度、小端口低成本OCS,能适配TOR与汇聚交换机之间突发流量。未来随着集群规模扩展,将需要更大端口OCS,同时需提升OCS可靠性和插回损性能,DirectLight OCS技术方案会有更广阔应用前景。