RAN-in-the-Cloud:为 5G RAN 带来云经济效益

全球正在加速部署 5G 网络。许多电信运营商已上线并迅速推广 5G 服务。除了电信运营商之外,企业也对利用 5G 的高带宽、低时延、网络切片、毫米波和 CBRS 频谱来建立专网产生了极大的兴趣。

图片

5G 目前正处于一个有趣的发展时期。在过去的 20 年中,云计算已发展成熟并成为开发者构建应用的首选平台。云具有许多优势,包括成熟的软件工具、自动化和编排、业务敏捷性、较低的总拥有成本(TCO)等。

此外,工业机器人、云游戏、智慧城市、安全、零售、自动驾驶、智能农业等各个领域都在越来越多地使用 AI 创造革命性的体验。5G、云计算和 AI 的这一融合将推动未来十年的诸多创新。

NVIDIA Aerial SDK 是构建虚拟无线接入网(vRAN)的关键技术基础。它通过 NVIDIA GPU 的内联加速,实现了软件定义的完整 5G Layer1(L1)卸载,同时还实现了所有符合 3GPP 和 O-RAN 标准的接口。由复杂信号处理算法组成的 L1 软件在 CUDA C/C++中实现,使得优化 L1 算法、实现新功能以及构建具有前瞻性,将推动 5G 演进和 6G 发展的 RAN 应用变得容易。NVIDIA Aerial SDK 以模块化的微服务形式实现,采用 E2E 云原生架构,并由 Kubernetes 使用符合 ORAN SMO 标准的接口进行管理。

从 CloudRAN 到 RAN-in-the-Cloud

最近有很多关于 CloudRAN 的讨论。作为加速计算平台和云计算的行业领导者,NVIDIA 一直走在 CloudRAN 的创新前列。许多行业领导者都在使用 CloudRAN 这一术语表示无线接入网(RAN)的云原生实现。

虽然云原生技术至关重要,但关键问题在于 CloudRAN 是否等同于使用云原生技术?答案是否定的,因为一个真正的云 RAN 是将所有计算元素(vDU、vCU 和 dUPF)部署在云中,因此应该称之为云中 RAN(RAN-in-the-Cloud),即一个在多租户云基础设施中完全作为服务托管的 5G 无线接入网络。

为什么二者的区别很重要?提出 RAN-in-the-Cloud 的动机又是什么?首先,RAN 是电信运营商最大的资本支出和运营支出项,同时也是利用率最低的资源,大多数无线基站的使用率通常低于 50%。将 RAN 计算迁移到云中能够享受云计算带来的众多好处。在一个共享的云基础设施中汇集并提高利用率可以帮助电信运营商最大程度地减少资本支出和运营支出。

带有 GPU 加速器的 COTS 平台不仅可以加速 5G RAN,还可以加速边缘 AI 应用。电信运营商和企业正越来越多地使用 NVIDIA GPU 服务器来加速边缘 AI 应用,这给使用相同 GPU 资源加速 5G RAN 连接以及 AI 应用提供了一条捷径。这又反过来降低了总拥有成本,提供了一条建立企业 5G 网络的最佳途径。

云软件、工具和技术多年来已经成熟。除了可靠性、可观测性和服务保障外,还提供了大规模自动化、降低能耗、弹性计算、按需自动扩展等好处。图片

图 1 统一加速数据中心

值得注意的是,一些厂商正在为 RAN L1 卸载设计基于特定应用集成电路(ASIC)的固定功能加速器卡。建立在这些基于 ASIC 的加速器上的 RAN 类似于一个固定功能设备,只能进行 RAN L1 的处理,在未被使用时就会成为一种被浪费的资源。

NVIDIA Aerial SDK 与通用 GPU 加速服务器提供了一个真正的多服务、多租户平台。它可用于 5G RAN、企业 AI 和其他部署在云端的边缘应用,并具有上述所有优势。

云原生是 RAN-in-the-Cloud 的基础

随着行业正在加快 5G 的部署,想要挖掘 5G 的全部商业价值需要灵活、可扩展的解决方案。将 RAN 软件从硬件中分离出来,使软件可用并可部署在云中能够推动创新和新增值服务的推出。

云原生 vDU/vCU RAN 软件套件在设计上实现了完全自动化的部署和统一运行,能够支持私有、公有或混合云基础设施上的 3GPP 和 O-RAN 接口。它运用了云原生架构的水平和垂直扩展、自动修复和冗余等优势,还针对移动网络演进优化了设计,包括 6G 等新一代无线技术。

NVIDIA Aerial SDK 云原生架构有助于将 RAN 功能作为容器中的微服务实现,并由 Kubernetes 进行编排和管理。该模块化软件能够:

  • 提高软件升级、发布和安装补丁的粒度和速度
  • 提供遵循 DevOps 原则的独立生命周期管理并具有持续集成和持续交付(CI/CD)功能
  • 独立扩展不同的 RAN 微服务元素
  • 提供应用级可靠性、可观测性和服务保障
  • 通过网络自动化简化运营和维护

要想获得真正的云原生 RAN 体验,云、边缘平台和网络都需要进一步发展。对于云原生容器化 RAN 软件堆栈的商业部署,许多因素至关重要,包括:

  • 时间同步
  • CPU 的亲和性和隔离
  • 拓扑管理和特征发现
  • 多个网络接口
  • 高性能的数据平面和加速硬件
  • 低延迟、服务质量(QoS)保证和高吞吐量
  • 远程分布式部署
  • 零接触配置
  • Kubernetes Operator 框架和用于加速设备的生产就绪型算子

NVIDIA GPU Operator 使用 Kubernetes 中的 Operator Framework 自动管理配置 GPU 所需的所有 NVIDIA 软件组件。这些组件包括设备驱动程序(用于启用 CUDA)、用于 GPU 的 Kubernetes 设备插件、NVIDIA Container Runtime、自动节点标签、基于数据中心 GPU 管理器(DCGM)的监控等。

GPU 算子使 Kubernetes 集群的管理员能够像集群中的 CPU 节点一样管理 GPU 节点。管理员不需要为 GPU 节点配置特殊的操作系统镜像,而是可以依靠 CPU 和 GPU 节点的标准操作系统镜像,然后依靠 GPU 算子为 GPU 配置所需的软件组件。

借助 Kubernetes CRD 和 OperatorSDK,它可以管理与网络相关的组件,为 Kubernetes 集群中的工作负载实现与 RDMA 和 NVIDIA GPUDirect 的快速联网。该网络算子与 GPU 算子一起在兼容系统上实现 GPU 直接 RDMA。网络算子的目标是管理网络相关组件,同时在Kubernetes集群中实现 RDMA 和 GPU 直接 RDMA 工作负载的执行。

NVIDIA Aerial SDK 以微服务和云原生架构为基础,为构建和部署 5G RAN-in-the-Cloud 奠定了坚实的基础。

在云中构建、部署和管理

O-RAN 联盟倡议将传统的无线基站分解成 RRU、vDU 和 vCU 实例并在它们之间设置了明确的接口,产生了一个提供厂商选择的更大生态系统。另外,云原生容器化软件实现了由 Kubernetes 和 SMO 管理的可组合、自动化 RAN。那么将整个 RAN 云化并作为一项服务在云中托管需要什么?图片

图 2 云中 RAN 构想

部署 5G 的经济性一直是个挑战。与前几代无线技术相比,5G 正在推动 RAN 资本支出大幅增长。预计在未来 5 年内,基站的数量将增加近一倍。因此,RAN 资本支出在整个 TCO 中的份额逐渐从 45-50%上升到 65%。

另外,众所周知,传统上 RAN 是按峰值容量进行配置的,这导致宝贵的计算资源被严重浪费。突发性和时间依赖性流量使得许多传统RAN基站平均容量使用率在 25%以下。如果 RAN 可以被托管在云中,那么池化的益处可以通过节能减少运营支出并提高利用率。而且未使用的资源能够以真正类似于云的方式重新配置给其他应用和工作负载。

仅在美国,将总共 42 万个基站中的 50%转移到 GPU 加速云中就为电信运营商带来巨大的收入机会。当 RAN 利用率低且 GPU 未被使用时,它们可以在多租户云环境中用于企业 AI、视频服务和其他边缘应用。这可能会在全球创造一个数十亿元的新收入机会。

图 2 展示了由 NVIDIA GPU 的加速计算基础设施构建的数据中心如何加速众多应用,实现云经济性和最佳 TCO。

内置 NVIDIA Base Command Platform 和 NVIDIA Fleet Command 的 NVIDIA AI Enterprise 使企业能够在 NVIDIA GPU 云中运行 AI 应用,利用所有预先构建和加固的软件为各个垂直细分市场服务。5G 连接作为一个容器化的解决方案与使用相同基础设施的其他 AI 应用一起运行,能够为企业带来非常强大的效益。这将改变世界对无线连接的看法。5G 将成为一种完全基于云、可以按需部署的服务。这就是 RAN-in-the-Cloud 的本质。

使用 NVIDIA 构建您的 RAN-in-the-Cloud

如图 3 所示,将 RAN 集中并完全部署在云中有五个关键要素。图片

图 3 实现 RAN-in-the-Cloud 的五项关键技术

全新 NVIDIA Spectrum SN3750-SX 开放式以太网交换机是 RAN-in-the-Cloud 解决方案的关键组成部分。它基于 NVIDIA Spectrum-2 以太网ASIC构建,是首款软件定义的 xHaul 交换机,能够提供电信数据中心所需的前传、中传和回传网络。

该交换机的一项关键能力是可以通过动态编程,将流量引导至部署在数据中心任何服务器上的任何 vDU,为自动扩展和按需部署 RAN 提供支持。它是第一台将在同一基础设施上运行电信和 AI 所有所需功能结合的交换机。SN3750-SX 支持各种高级时间协议,如电信级精确时间协议(PTP)、同步以太网(SyncE)和 PPS(每秒数据包),以及动态 RU/DU 映射。

为了实现 AI 训练,该交换机支持低延迟的 200G 带宽以实现最高吞吐量。Spectrum ASIC 带来了 RoCE(融合以太网的 RDMA)和自适应路由等创新功能,所有这些功能均具有最高的网络规模。值得注意的是,许多应用(如 Metaverse 和 AR/VR)需要支持 PTP 的数据中心,这将为 RAN-in-the-Cloud 用例铺平道路。目前一些网络规模公司已在其数据中心中支持 PTP。

搭载 NVIDIA A100 Tensor Core GPU 和 NVIDIA BlueField DPU 的 NVIDIA A100X 融合加速器支持全内联 5G RAN 卸载,这为从 4T4R 到大规模 MIMO 32T32R 和 64T64R 的一系列配置提供了以每瓦单元密度和每瓦 MHz 层数衡量的领先性能。

NVIDIA 正在与各生态系统合作伙伴一起确保 SMO(服务管理和编排)、RIC(RAN 智能控制器)、xApps 和rApps 等其他 O-RAN 软件组件针对 NVIDIA Aerial SDK 进行优化并为 RAN-in-the-Cloud 的部署做好准备。这些组件仍处于早期开发阶段,但因为使用 AI 实现了 RAN 自动化和可编程性,它们将成为关键的差异化因素。虽然 RAN-in-the-Cloud 需要一些时间才能成熟,但相信NVIDIA将凭借 NVIDIA GPU 加速平台站在这一创新的最前沿。

总结

RAN-in-the-Cloud 是未来的大势所趋。它是无线市场的自然演变和下一个发展方向。使用云原生技术构建的 vRAN 是不可或缺的第一步。为了实现 5G RAN 的云经济性并推动 5G 与边缘 AI 应用的共同创新,就必须拥抱 RAN-in-the-Cloud。NVIDIA Aerial SDK 提供了一个可扩展的云原生软件架构作为 RAN-in-the-Cloud 的基础技术。

最后需要注意的是,RAN 的转型才刚刚开始。使用 AI 优化复杂的信号处理算法将在未来几年释放出一系列全新的创新成果。GPU 加速平台是让投资能够经受未来考验的最佳途径。如果想一同构建创新的 RAN-in-the-Cloud 解决方案,请联系 NVIDIA。

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论