RoCE(RDMA over Converged Ethernet,基于融合以太网的RDMA)—— 一种基于以太网的无损传输。
什么是RoCE?
RoCE全称RDMA over Converged Ethernet,是一种允许在以太网上实现远程内存直接访问的网络协议。
基于以太网速率发展优势,利用RDMA(Remote Direct Memory Access)技术,可以在极少占用CPU资源的情况下,实现服务器之间的高速数据访问,提供大带宽、低时延的远程内存访问能力,适用于AI智算、高性能计算、高速存储等新型业务场景需求。
为什么需要RoCE?
传统业务对丢包、时延、抖动等数据中心网络的传输性能指标并不敏感,但在AI智算/高性能计算/高速存储等场景下,业务对网络传输要求非常高。
以AI大模型为例,海量GPU之间的高速并行参数训练需要算力集群机间、卡间数据的高速互通,网络传输过程中的丢包重传越少、时延越短、吞吐效率越高,算力集群的有效计算时间占比就越高,大模型的训练速度会越快。同样在SSD(Solid State Drives)固态硬盘高速存储场景中,其性能相比HDD(Hard Disk Drives)机械硬盘存储提升了近100倍,也需要更快、更高质量的网络传输。
传统TCP/IP机制,数据报文传输的每一次读取都需要通过CPU内核进行处理,这将带来大量的拷贝、封包解包开销,传输时延达到ms级,无法满足智算/高性能计算/高速存储中超低时延的传输要求。为此,RDMA远程内存直接访问技术应运而生,它与TCP/IP协议不同,将收/发包的工作卸载到网卡上,无需CPU处理,即可实现数据的直接访问,减少了拷贝、封包解包等等的开销。借用一个网上常见的比方,这就像车辆通过高速收费站,TCP/IP协议报文需要人工窗口(CPU)手动进行计费和收费,而RDMA协议报文则可以通过ETC,跳过人工取卡、收费等步骤,直接刷卡极速通过,极大地减少了CPU的负担,大大提高数据的转发效率。
RDMA技术早期基于InfiniBand协议,必须使用IB交换机及IB网卡才可实现,生态极其封闭,使用成本非常高。以太网技术生态非常成熟,应用极其广泛。为了降低RDMA技术的使用成本,并提高网络通信技术的标准化,业界开始大力发展RoCE技术。
RoCE通过一系列以太网流量、拥塞控制技术,调节数据包在发送端网卡、交换机网络、接收端网卡之间的传输速率、路径等,确保数据报文端到端零丢包、高速传输,实现基于以太网的RDMA。
InfiniBand 和 RoCE的区别
除了InfiniBand和RoCE,业界还有iWARP协议实现RDMA,前两种广泛商用,而后者应用则较少。
- InfiniBand:性能领先、但生态封闭,好比苹果iOS。
- RoCE:性能和生态相对平衡,好比谷歌Android。
- iWARP:性能、生态相对落后于前两种,类似于黑莓OS。
三种技术的优劣势对比分析如下:
InfiniBand | RoCE | iWAP | |
成本 | 高 | 低 | 中 |
硬件 | IB交换机 | 以太网交换机 | 以太网交换机 |
稳定性 | 出色 | 好 | 一般 |
生态 | 封闭 | 开放 | 开放 |
性能表现(时延、丢包等) | 出色 | 好 | 较好 |
RoCE和InfiniBand的主要区别
1. RoCE在生态、端口速率和成本方面更具优势:
- 生态开放:RoCE生态基于成熟的以太网技术体系,业界支持厂商众多。相比于IB交换系统,RoCE网络不需要专用硬件,可以基于多厂商开放的硬件网卡/交换机等进行部署。同时业务的开通、运维与传统以太网技术一脉相承,配置、维护更为简单。
- 速率更快:以太网技术广泛应用于数据中心网络、城域网、骨干网,当前速率可以灵活支持1Gbps~800Gbps,未来有望演进至1.6Tbps。与IB相比,在互联端口速率和交换机总容量上更胜一筹。
- 成本较低:以太网高端芯片经过多年的技术发展积累,其单位带宽成本更具竞争力,交换机成本整体更低。
2. InfiniBand在性能表现、商业应用等方面则相对领先:
- 性能优秀:IB通过高效轻量化的协议设计,相比以太网大幅降低了报文的开销,减少了传送时延。通过收/发设备之间基于信用的流量控制、端点之间的拥塞通知,确保了数据传送无丢包。基于子网管理器的集中控制,则保障了整网的高效部署和运维。基于上述技术,IB方案在时延、丢包、稳定性方面表现优异。
- 广泛商用:IB方案自1999年推出以来,作为服务器、存储之间的高速互联方案,有效替代了PCI总线技术,广泛应用在高性能计算、人工智能/机器学习集群等中小规模的数据中心网络中,产业生态链成熟。但在更大规模GPU的智算中心网络中,扩展性存在挑战,仍处于起步阶段。
RoCE有哪些应用场景?
RoCE生态开放、速率更高、成本更低。可应用于AI智算、HPC高性能计算、高速存储等数据中心网络互联场景,解决了高速计算/存储等场景“InfiniBand”、“Fiber Channel”传统技术生态封闭、应用场景和供应链集中等问题,实现了“0”丢包、高吞吐、低时延的高速数据互访。
RoCE技术业界进展?
最初发布的RoCEv1版本,将协议限制在以太网链路层,其数据帧不携带IP报文头,因此只能在L2子网内通信,限制了其可扩展性。
2014年,RoCEv2扩展了RoCEv1,将其报文头换成了UDP/IP,可以进行L3路由,大大提升了网络的可扩展性,目前已经被广泛认可使用。
1. 传统RoCE技术发展
由于RDMA要求网络传输性能无损“0”丢包,RoCE技术在以太网上承载,必须要解决以太网中的流量拥塞和丢包问题,现阶段已经有了一些比较成熟的拥塞流控技术,如PFC、ECN等,旨在提高转发效率,减少网络拥塞和丢包的发生,但两种技术控制方式略有不同。
- PFC(Priority-Based Flow Control,基于优先级的流控):在交换机上对流量进行优先级排序,当发生拥塞时,针对一个或几个优先级队列进行流控,通知上游停止流量发送,减少网络拥塞,确保数据不丢包。以高速公路收费站为例,将车辆分为多个队列在不同收费通道进行排队,当某个收费通道发生拥塞时,PFC机制将暂停上游车辆进入该通道排队。
- ECN(Explicit Congestion Notification,显示拥塞通知):在发送端、交换网络和接收端之间进行协同,控制报文的发送速度,确保无阻塞转发。当网络中出现拥塞时,交换机通过设置拥塞标记ECN,通知发送端侧设备,降低报文的发送速度,以此来避免进一步拥塞。仍以高速公路收费站为例,ECN则是通过提前通知的方式,通知上游车辆减少在该通道排队,确保车流不拥堵。
2. 增强RoCE技术发展
RoCE在全路径负载均衡、端网协同等方面尚存在不足,业界仍在探索进一步优化的空间,比如:
- 负载均衡:网络侧通过DLB(Dynamic Loading Balance,动态负载均衡技术)优化传统的ECMP负载均衡算法,大幅提升网络吞吐效率。
- 端网协同:交换机和DPU(Data Processing Unit,数据处理单元)进行端网协同,在数据报文发送和传输过程中,对包的大小、速率、路径进行端到端控制,确保“0”丢包、均衡、高速的传输。业界在端网协同方面进行了广泛的算法创新,目前已经有多个商用案例,但各个厂商的方案私有化程度极高,很难在全行业进行复制和推广。
基于此,2023年,微软、英特尔、思科等海外厂商成立了超级以太网联盟UEC(Ultra-Ethernet-consortium),目标开发标准的超级以太网传输协议,满足AI和高性能计算领域对网络的需求。
同时,中国移动联合中兴通讯等产业合作伙伴共同提出了GSE(Global Scheduling Ethernet)全调度以太网技术架构,旨在突破智算中心网络性能瓶颈,打造无阻塞、高带宽及超低时延的新型智算中心网络,助力AIGC等高性能业务快速发展,值得持续关注。
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。