在网计算技术的核心是将部分计算任务从主机侧迁移至网络侧,在交换机、路由器、智能网卡、DPU处理卡等网络设备完成计算加速,从而提升网络吞吐量,降低网络时延,减小总体能耗。传统的网络架构主要完成分组的高速转发,将计算任务和计算结果在计算节点间高速传输。在数据中心网络中,大规模分布式计算和存储的需求日渐强烈,网络传输日渐成为数据中心中分布式集群规模增大和能效提升的瓶颈。近年来,基于RDMA(remote direct memory access)协议的方案实现了数据中心网络的大带宽、低时延和无损,使得存储和计算资源池化,一定程度解决了数据中心网络传输的瓶颈。在此基础上,具有较强算力的新型异构网络设备,如可编程交换机、智能网卡和DPU处理卡等网络设备可以协同完成诸如分布式机器学习结果聚合等轻量级计算任务,从而降低数据中心网络内部的网络流量。另一方面,由于计算任务在网络中完成,不必再送往端侧进行处理,可以降低计算任务和计算结果的传输跳数,大幅降低整体任务处理时延。
3 算力网络部署方案
算力网络的部署应用需要一个分阶段演进和更新迭代的周期,初期可以通过集中式方案进行算力网络的概念验证,并适时在小规模网络场景引入分布式方案,实现集中式与分布式协同部署方案。待分布式算力路由协议成熟稳定的中后期阶段,实现分布式方案的规模部署。
3.1 集中式算力网络部署方案
在算力网络的集中式部署方案中,算网编排管理中心基于算力和网络的全局资源视图,根据网络部署状况,选择管理面和控制面实现算力网络协同调度。算力网络集中式部署方案如图5所示,网络管理向算力编排器通告网络信息,由算网编排调度中心进行统一的算网协同调度,生成调度策略,发送给网络控制器,进一步生成路径转发表。需要网络控制器收集网络信息,将网络信息上报至算网编排器,同时接收来自算网编排器的网络编排策略,算网编排器负责收集算力信息,接收来自控制器的网络信息进行算网联合编排,同时支持将编排策略下发至控制器,算网编排器负责业务调度。算力编排器通过网络管理平台向算网控制器进行算力信息通告,算力编排器向网络控制器算力信息通告,由网络控制器进行统一的算网协同调度,生成调度策略,进一步路径转发表。
图5 算力网络集中式部署方案
3.2 集中式与分布式协同部署方案
集中式和分布式协同的算力网络部署方案如图6所示,算网管理编排层维护全局静态算力和网络拓扑信息, 算力资源和网络资源实时状态信息由算力路由层节点维护,在算力路由节点实现算网协同调度。
图6 集中和分布式协同的算力网络部署方案