业界首个！中国联通完成“AI大模型300公里跨域分布式协同训练”技术验证_网络

业界首个！中国联通完成“AI大模型300公里跨域分布式协同训练”技术验证

工联网
作者：
2024年12月24日 08:02

工联网消息(IItime) 近日，在中国联通集团建设发展部，智算发展专班指导下，中国联通研究院与上海分公司联合产业合作伙伴，在中国联通临港智算中心成功完成AI大模型300公里分布式协同训练技术验证。通过智算、网络多项创新技术的综合运用，实现了300公里跨域分布式训练等效算力达到单集群的95%以上，跨域带宽收敛比大于16:1。充分验证了跨DC协同训练技术的商用可行性，为AI大模型训练模式提供了全新的解决方案。

跨智算中心分布式协同训练存在两大需求：一是大模型训练对算力的需求激增，但单体智算中心存在电力、空间等容量上限，超大规模的模型训练需要多DC资源协同；二是多租户场景下产生了算力资源碎片化问题，亟需进行多DC的空闲资源整合和利用。在此背景下，跨DC分布式协同训练兴起，长距无损的联算网络技术成为刚需。

中国联通深耕长距无损网络关键技术，针对跨DC长距RDMA传输场景，创新长距拥塞控制和精准流控协议，在智算网关实现近端拥塞的快速识别和反馈；同时通过优化智算模型并行策略，适配广域带宽超大收敛比的解决方案，压缩超大规模智算中心互联场景中对拉远带宽的巨额需求。积极开展智算网络标准化工作，在ITU-T立项下一代网络广域无损管控功能要求Y.WALNC，在IETF推进广域无损需求和技术框架研究，在CCSA牵头立项智算网关、长距拥塞控制技术要求等行业标准，联合产业伙伴共同构建长距无损网络技术生态。

本次AI大模型300km跨DC分布式协同训练试点测试包含两大亮点：

第一、创新运用了新一代智算网关设备、精准流控技术和并行方式优化技术，实现广域收敛比不低于16：1。在跨300km协同训练场景下，针对不同广域收敛比对大模型训练效率的验证，通过现网实测数据结果分析，针对广域收敛比为4:1、8:1、16:1的场景，可实现百亿大模型300km分布式训练性能均达到单智算中心训练性能的95%以上，使其具备真正意义上的商用可行性。

第二、采用单波800G实现300km的传输，并验证其超高可靠的能力。本次跨DC拉远通过业界领先的800G光传送解决方案实现超大带宽和300km距离的传输，并进行了多项可靠性功能测试，验证结果表明智算互联需要抗多次故障带宽不下降能力。

中国联通研究院副院长，首席科学家唐雄燕介绍，中国联通建设了一张先进的算力智联网AINet，通过“IP+光”融合打造新质运力，以网强算，具备高通量、高性能、高智能的特点。AI大模型跨域分布式训练是AINet的典型应用场景，本次测试验证为后续网络建设提供了强有力的技术支持。

上海联通科技创新部总经理吴昊表示，上海联通将依托临港智算中心优势，充分发挥“算网一体”的高品质人工智能新型基础设施资源禀赋，进一步深化超长距离存算运协同、无损网络流量管控等重点方向科技创新的能力打造，面向智算集群生产经营重点需求，持续推动算力与网络的深度融合与高质量发展。

展望未来，中国联通将携手产业合作伙伴，发挥行业引领作用，借助AINet算力智联网，打通计算、网络、安全多领域合作通道，推动关键技术的深度融合与创新发展，实现计算和网络的一体化协同运作，赋能产业的高质量发展。

编辑：甄清岚

分享到：