RoCE网络是什么？为什么需要RoCE

RoCE（RDMA over Converged Ethernet，基于融合以太网的RDMA）—— 一种基于以太网的无损传输。

什么是RoCE？

RoCE全称RDMA over Converged Ethernet，是一种允许在以太网上实现远程内存直接访问的网络协议。

基于以太网速率发展优势，利用RDMA（Remote Direct Memory Access）技术，可以在极少占用CPU资源的情况下，实现服务器之间的高速数据访问，提供大带宽、低时延的远程内存访问能力，适用于AI智算、高性能计算、高速存储等新型业务场景需求。

为什么需要RoCE？

传统业务对丢包、时延、抖动等数据中心网络的传输性能指标并不敏感，但在AI智算/高性能计算/高速存储等场景下，业务对网络传输要求非常高。

以AI大模型为例，海量GPU之间的高速并行参数训练需要算力集群机间、卡间数据的高速互通，网络传输过程中的丢包重传越少、时延越短、吞吐效率越高，算力集群的有效计算时间占比就越高，大模型的训练速度会越快。同样在SSD（Solid State Drives）固态硬盘高速存储场景中，其性能相比HDD（Hard Disk Drives）机械硬盘存储提升了近100倍，也需要更快、更高质量的网络传输。

传统TCP/IP机制，数据报文传输的每一次读取都需要通过CPU内核进行处理，这将带来大量的拷贝、封包解包开销，传输时延达到ms级，无法满足智算/高性能计算/高速存储中超低时延的传输要求。为此，RDMA远程内存直接访问技术应运而生，它与TCP/IP协议不同，将收/发包的工作卸载到网卡上，无需CPU处理，即可实现数据的直接访问，减少了拷贝、封包解包等等的开销。借用一个网上常见的比方，这就像车辆通过高速收费站，TCP/IP协议报文需要人工窗口（CPU）手动进行计费和收费，而RDMA协议报文则可以通过ETC，跳过人工取卡、收费等步骤，直接刷卡极速通过，极大地减少了CPU的负担，大大提高数据的转发效率。

RDMA技术早期基于InfiniBand协议，必须使用IB交换机及IB网卡才可实现，生态极其封闭，使用成本非常高。以太网技术生态非常成熟，应用极其广泛。为了降低RDMA技术的使用成本，并提高网络通信技术的标准化，业界开始大力发展RoCE技术。

RoCE通过一系列以太网流量、拥塞控制技术，调节数据包在发送端网卡、交换机网络、接收端网卡之间的传输速率、路径等，确保数据报文端到端零丢包、高速传输，实现基于以太网的RDMA。

InfiniBand 和 RoCE的区别

除了InfiniBand和RoCE，业界还有iWARP协议实现RDMA，前两种广泛商用，而后者应用则较少。

InfiniBand：性能领先、但生态封闭，好比苹果iOS。
RoCE：性能和生态相对平衡，好比谷歌Android。

iWARP：性能、生态相对落后于前两种，类似于黑莓OS。

三种技术的优劣势对比分析如下:

	InfiniBand	RoCE	iWAP
成本	高	低	中
硬件	IB交换机	以太网交换机	以太网交换机
稳定性	出色	好	一般
生态	封闭	开放	开放
性能表现（时延、丢包等）	出色	好	较好

RoCE和InfiniBand的主要区别

1. RoCE在生态、端口速率和成本方面更具优势：

生态开放：RoCE生态基于成熟的以太网技术体系，业界支持厂商众多。相比于IB交换系统，RoCE网络不需要专用硬件，可以基于多厂商开放的硬件网卡/交换机等进行部署。同时业务的开通、运维与传统以太网技术一脉相承，配置、维护更为简单。
速率更快：以太网技术广泛应用于数据中心网络、城域网、骨干网，当前速率可以灵活支持1Gbps~800Gbps，未来有望演进至1.6Tbps。与IB相比，在互联端口速率和交换机总容量上更胜一筹。
成本较低：以太网高端芯片经过多年的技术发展积累，其单位带宽成本更具竞争力，交换机成本整体更低。

2. InfiniBand在性能表现、商业应用等方面则相对领先：

性能优秀：IB通过高效轻量化的协议设计，相比以太网大幅降低了报文的开销，减少了传送时延。通过收/发设备之间基于信用的流量控制、端点之间的拥塞通知，确保了数据传送无丢包。基于子网管理器的集中控制，则保障了整网的高效部署和运维。基于上述技术，IB方案在时延、丢包、稳定性方面表现优异。
广泛商用：IB方案自1999年推出以来，作为服务器、存储之间的高速互联方案，有效替代了PCI总线技术，广泛应用在高性能计算、人工智能/机器学习集群等中小规模的数据中心网络中，产业生态链成熟。但在更大规模GPU的智算中心网络中，扩展性存在挑战，仍处于起步阶段。

RoCE有哪些应用场景?

RoCE生态开放、速率更高、成本更低。可应用于AI智算、HPC高性能计算、高速存储等数据中心网络互联场景，解决了高速计算/存储等场景“InfiniBand”、“Fiber Channel”传统技术生态封闭、应用场景和供应链集中等问题，实现了“0”丢包、高吞吐、低时延的高速数据互访。

RoCE技术业界进展？

最初发布的RoCEv1版本，将协议限制在以太网链路层，其数据帧不携带IP报文头，因此只能在L2子网内通信，限制了其可扩展性。

2014年，RoCEv2扩展了RoCEv1，将其报文头换成了UDP/IP，可以进行L3路由，大大提升了网络的可扩展性，目前已经被广泛认可使用。

1. 传统RoCE技术发展

由于RDMA要求网络传输性能无损“0”丢包，RoCE技术在以太网上承载，必须要解决以太网中的流量拥塞和丢包问题，现阶段已经有了一些比较成熟的拥塞流控技术，如PFC、ECN等，旨在提高转发效率，减少网络拥塞和丢包的发生，但两种技术控制方式略有不同。

PFC（Priority-Based Flow Control，基于优先级的流控）：在交换机上对流量进行优先级排序，当发生拥塞时，针对一个或几个优先级队列进行流控，通知上游停止流量发送，减少网络拥塞，确保数据不丢包。以高速公路收费站为例，将车辆分为多个队列在不同收费通道进行排队，当某个收费通道发生拥塞时，PFC机制将暂停上游车辆进入该通道排队。
ECN（Explicit Congestion Notification，显示拥塞通知）：在发送端、交换网络和接收端之间进行协同，控制报文的发送速度，确保无阻塞转发。当网络中出现拥塞时，交换机通过设置拥塞标记ECN，通知发送端侧设备，降低报文的发送速度，以此来避免进一步拥塞。仍以高速公路收费站为例，ECN则是通过提前通知的方式，通知上游车辆减少在该通道排队，确保车流不拥堵。

2. 增强RoCE技术发展

RoCE在全路径负载均衡、端网协同等方面尚存在不足，业界仍在探索进一步优化的空间，比如：

负载均衡：网络侧通过DLB（Dynamic Loading Balance，动态负载均衡技术）优化传统的ECMP负载均衡算法，大幅提升网络吞吐效率。
端网协同：交换机和DPU（Data Processing Unit，数据处理单元）进行端网协同，在数据报文发送和传输过程中，对包的大小、速率、路径进行端到端控制，确保“0”丢包、均衡、高速的传输。业界在端网协同方面进行了广泛的算法创新，目前已经有多个商用案例，但各个厂商的方案私有化程度极高，很难在全行业进行复制和推广。

基于此，2023年，微软、英特尔、思科等海外厂商成立了超级以太网联盟UEC（Ultra-Ethernet-consortium），目标开发标准的超级以太网传输协议，满足AI和高性能计算领域对网络的需求。

同时，中国移动联合中兴通讯等产业合作伙伴共同提出了GSE（Global Scheduling Ethernet）全调度以太网技术架构，旨在突破智算中心网络性能瓶颈，打造无阻塞、高带宽及超低时延的新型智算中心网络，助力AIGC等高性能业务快速发展，值得持续关注。