工联网消息(IItime) 近日,在中国联通集团建设发展部,智算发展专班指导下,中国联通研究院与上海分公司联合产业合作伙伴,在中国联通临港智算中心成功完成AI大模型300公里分布式协同训练技术验证。通过智算、网络多项创新技术的综合运用,实现了300公里跨域分布式训练等效算力达到单集群的95%以上,跨域带宽收敛比大于16:1。充分验证了跨DC协同训练技术的商用可行性,为AI大模型训练模式提供了全新的解决方案。
跨智算中心分布式协同训练存在两大需求:一是大模型训练对算力的需求激增,但单体智算中心存在电力、空间等容量上限,超大规模的模型训练需要多DC资源协同;二是多租户场景下产生了算力资源碎片化问题,亟需进行多DC的空闲资源整合和利用。在此背景下,跨DC分布式协同训练兴起,长距无损的联算网络技术成为刚需。
中国联通深耕长距无损网络关键技术,针对跨DC长距RDMA传输场景,创新长距拥塞控制和精准流控协议,在智算网关实现近端拥塞的快速识别和反馈;同时通过优化智算模型并行策略,适配广域带宽超大收敛比的解决方案,压缩超大规模智算中心互联场景中对拉远带宽的巨额需求。积极开展智算网络标准化工作,在ITU-T立项下一代网络广域无损管控功能要求Y.WALNC,在IETF推进广域无损需求和技术框架研究,在CCSA牵头立项智算网关、长距拥塞控制技术要求等行业标准,联合产业伙伴共同构建长距无损网络技术生态。
本次AI大模型300km跨DC分布式协同训练试点测试包含两大亮点:
第一、创新运用了新一代智算网关设备、精准流控技术和并行方式优化技术,实现广域收敛比不低于16:1。在跨300km协同训练场景下,针对不同广域收敛比对大模型训练效率的验证,通过现网实测数据结果分析,针对广域收敛比为4:1、8:1、16:1的场景,可实现百亿大模型300km分布式训练性能均达到单智算中心训练性能的95%以上,使其具备真正意义上的商用可行性。
第二、采用单波800G实现300km的传输,并验证其超高可靠的能力。本次跨DC拉远通过业界领先的800G光传送解决方案实现超大带宽和300km距离的传输,并进行了多项可靠性功能测试,验证结果表明智算互联需要抗多次故障带宽不下降能力。
中国联通研究院副院长,首席科学家唐雄燕介绍,中国联通建设了一张先进的算力智联网AINet,通过“IP+光”融合打造新质运力,以网强算,具备高通量、高性能、高智能的特点。AI大模型跨域分布式训练是AINet的典型应用场景,本次测试验证为后续网络建设提供了强有力的技术支持。
上海联通科技创新部总经理吴昊表示,上海联通将依托临港智算中心优势,充分发挥“算网一体”的高品质人工智能新型基础设施资源禀赋,进一步深化超长距离存算运协同、无损网络流量管控等重点方向科技创新的能力打造,面向智算集群生产经营重点需求,持续推动算力与网络的深度融合与高质量发展。
展望未来,中国联通将携手产业合作伙伴,发挥行业引领作用,借助AINet算力智联网,打通计算、网络、安全多领域合作通道,推动关键技术的深度融合与创新发展,实现计算和网络的一体化协同运作,赋能产业的高质量发展。