以服务为中心的算力网络度量与建模研究

摘要:针对算力网络中的度量与建模问题,从算力网络度量体系的狭义和广义定义出发,阐述了当前算力网络度量与建模的研究进展,包括算力网络资源度量和算力网络需求度量两大部分。站在算力网络服务的角度,提出了以服务为中心的算力网络度量与建模方案的思考,并对该方案当前仍存在的问题和所面临的技术挑战进行了归纳和讨论。

※  信息社会政策探究的思想库  ※
※  信息通信技术前沿的风向标 

作者简介

 

李一男  

北京邮电大学网络与交换技术国家重点实验室硕士研究生在读,主要从事边缘计算、算力网络、区块链等方面的研究工作。

唐琴琴   

通信作者。北京邮电大学网络与交换技术国家重点实验室博士后,主要从事边缘计算、车联网、星地协同网络等方面的研究工作。

彭开来   

网络通信与安全紫金山实验室研究员,主要从事标识解析、边缘计算、时间敏感网络、大数据等方面的研究工作。

刘佳   

航天东方红卫星有限公司高级工程师,小卫星总体主任设计师,主要从事小卫星星座总体设计、最优化小卫星系统解决方案设计等方面的研究工作。

谢人超   

北京邮电大学网络与交换技术国家重点实验室教授、博士生导师,网络通信与安全紫金山实验室课题负责人,主要从事信息中心网络、工业互联网、算力网络、边缘计算、无服务器计算等方面的研究工作。

黄韬   

北京邮电大学网络与交换技术国家重点实验室教授、博士生导师,网络通信与安全紫金山实验室未来网络中心主任,主要从事路由与交换、软件定义网络、内容分发网络、确定性网络、算力网络等方面的研究工作。

 

论文引用格式:

李一男, 唐琴琴, 彭开来, 等. 以服务为中心的算力网络度量与建模研究[J]. 信息通信技术与政策, 2023,49(5):21-29.

 

以服务为中心的算力网络度量与建模研究

 

李一男1  唐琴琴1  彭开来2  刘佳3  谢人超1,2  黄韬1,2

 

(1.北京邮电大学网络与交换技术国家重点实验室,北京 100876;2.网络通信与安全紫金山实验室,南京 211111;3.航天东方红卫星有限公司,北京 100094)

 

0  引言

 

在数字经济时代的今天,作为推动全球经济持续健康发展的一大动力源泉,算力产业得到了空前发展[1]。据中国信息通信研究院测算,截至2021年年底我国算力核心产业规模达1.5 万亿元,相关联的产业规模也超过了8 万亿元[2],全球算力总规模达到521 EFLOPS,其中我国算力总规模排名第二位,达到140 EFLOPS以上[3]。智慧城市、智能驾驶等新型应用不断兴起,对于数据的存储、处理、分析等能力提出了更高的要求。算力作为工业互联网、云计算、大数据等新兴技术发展的重要支撑,其重要性日益凸显。

 

在数字经济时代,算力和网络向着一体化融合的方向不断演进和发展。算力网络的核心思想是将分布式的计算节点进行连接,动态感知计算与网络资源的实时变化情况,从而实现节点资源的精准调度与任务的统筹分配,以满足新业务和新应用对算力资源的新要求[4]。面向未来不断增长的差异化业务需求,算力资源的提供方将不再是传统意义上的数据中心或者服务器集群,而是存在于云、边、端的泛在算力通过网络连接起来实现高效共享。因此,亟需建立一种统一的算力网络度量标准,为算力路由、设备管理和资源计费等后续研究奠定基础。然而,目前对算力网络度量与建模的研究大多还处于理论阶段,笔者对于目前已有的研究工作进行了归纳总结,并从未来多样化业务需求的角度考虑,探索一种以服务为中心的算力网络度量与建模方案。

 

1   算力网络度量体系概述

 

近年来,算力网络是一个受业界广泛关注的热门话题。在传统的定义中,“算力是什么”这个问题长期以来没有一个标准答案,如何实现多元化、差异化算力的一致化表达是算力网络度量的一大核心问题。

 

1.1  狭义算力网络度量体系

传统研究中通常将算力归结为一种硬件设备处理单元或系统软件平台对于业务或数据的计算分析能力。Frank H. McMahon提出了一种“浮点运算次数”的算力表示方法,并在其研究报告中引入了每秒浮点运算次数(Floating-point Operation Per Second,FLOPS)的概念[5]。当前最为认可的算力表征方式是根据算法和计算类型将算力划分为逻辑运算能力、并行计算能力和神经网络计算能力[6],并初步建立了统一的算力资源度量指标体系,如表1所示。

表1   狭义算力度量指标

传统的算力网络研究大多是以计算为核心而以网络为底层基础设施和通信保障。网络被认为是一种具有独立功能的计算机或设备借助通信介质连接形成的整体,其度量指标包括网络带宽、端到端时延、时延抖动、传输丢包率等,如表2所示。计算与网络的分别定义和度量一定程度上解决了发展初期的资源抽象问题,笔者将其定义为狭义算力网络度量体系。然而面向未来差异化的业务场景,此种度量方式仍有很大的问题,计算和网络分离可能会导致应用层与网络层的解耦,应用难以精准实时掌握网络状态,且针对单一的计算资源设计的算力网络调度策略,实际达到的综合性能可能不是最优的,从而影响用户体验。面向未来多样化的业务场景,需要将计算和网络紧密融合,考虑一种面向算力网络融合环境的新型算力网络度量模式,精准匹配业务需求,灵活调度算力网络资源。
表2   狭义网络度量指标
以服务为中心的算力网络度量与建模研究
 
1.2  广义算力网络度量体系
作为构建算力网络的三个关键维度,“算—网—存”的融合发展将成为新技术、新业态发展的新动能。据IDC预测,到2025年全球数据量预计将能够超过175 ZB,其中中国的数据量也将达到40 ZB[7],庞大的数据量对计算、网络、存储等资源提出了更高的要求。在云、边、端三层架构间根据业务需求实现按需分配和灵活调度的将不再仅仅是节点的计算资源,还应该包括网络、存储等多维度资源。郭亮等在对数据中心的算力评估研究中,曾将算力指标划分为通用计算能力、高性能计算能力、存储能力、网络能力四大核心要素[8]。国内运营商在其2021年的研究报告中提出,将算力节点的资源划分到计算、通信、内存和存储四个维度进行度量评估[9]。考虑到算力网络的“算—网—存”一体化融合发展的趋势,笔者拟从计算、存储、网络三个方面对现有研究进行总结分析。
针对各个度量维度,需要分别建立对应的指标体系。如表3所示,笔者总结了在当前研究中获得认可的计算、网络和存储的度量指标[10]。“算—网—存”融合的算力网络度量体系,在原有计算能力度量的基础上,加入了网络和存储维度,笔者将其定义为一种广义的算力网络度量体系。
表3   广义算力网络度量指标体系
以服务为中心的算力网络度量与建模研究
2  算力网络度量研究现状
算力网络一体通过算力度量、算力标识、算力感知、算力路由和在网计算等技术实现算力和网络在协议和形态上的深度融合和一体共生[11]。作为算力网络一体化的第一个步骤,算力网络的度量与建模具有重要的研究意义,受到了产学研各界的广泛关注。中国通信学会的《算力网络前沿报告(2020年)》认为泛在化、多元化算力资源的统一度量与建模是算力调度等过程的基础,为算力网络资源的灵活匹配与调度提供保障[12]。段晓东等提出算力网络需要构建统一的度量体系,以形成一种算力度量模板对异构多元的计算资源进行统一的抽象描述[13]。中国移动通信集团有限公司在《算力网络技术白皮书(2022)》中提出有必要建立统一的算力度量体系,从而关联整合异构计算资源,以实现资源的合理分配和高效调用[14]。目前,已有一些研究探索了算力网络的度量与建模方案。华为技术有限公司提出了一种算力衡量指标体系,并选取了全球一部分国家进行算力水平评估[15]。雷波等提出将计算、存储、网络等资源进行合理抽象,作为一种面向客户的产品来实现共享[16]。中国联合网络通信有限公司研究院分析了在算力度量过程中对计量粒度进行抽象表征,提出了算力资源池度量模型以及原子业务拆分等[17]方案思考。吴美希等提出的“算力五力模型”,在一定程度上解决了数据中心算力的综合评价问题[18]。总体来说,在目前已有的算力网络度量与建模方案中,大多数是从算力网络资源和算力网络需求两个角度进行考虑。
2.1  算力网络资源度量
广义的算力网络度量体系,通过将单一的计算能力度量扩展到“算、网、存”三个维度,对算力网络资源进行综合评估。其中对于节点计算资源的度量,通常以整数计算速率、浮点计算速率和哈希计算速率为指标,可定义节点i的计算资源度量向量为CPi={整数计算速率i,浮点计算速率i,哈希计算速率i};对于节点网络资源的度量,主要以网络带宽、端到端时延、时延抖动、传输丢包率等为度量指标,可定义节点i的网络资源度量向量为NPi={网络带宽i,端到端时延i,时延抖动i,丢包率i};对于节点存储资源的度量,往往可以划分到两个方面,包括存储容量、存储带宽和IOPS等存储能力指标和内存容量、内存带宽等内存能力指标,可定义节点i的存储资源度量向量为SPi={存储容量i,存储带宽i,IOPSi,内存容量i,内存带宽i}。
分别对其中所包含的多维度资源指标项进行相应的资源评估映射,并通过加权平均的方式计算得到节点i的计算、网络、存储资源度量结果分别为(1)(2)(3)式所示,
以服务为中心的算力网络度量与建模研究
综合考虑算力网络节点的“算—网—存”三个维度,得到节点的算力网络资源综合度量结果如公式(4)所示,
以服务为中心的算力网络度量与建模研究
其中,β3分别为计算、网络和存储维度的综合映射权重系数,且β1+β2+β3=1,βi∈(i=1,2,3),得到节点i的算力网络资源综合度量结果Ai可用于表征该节点的算力网络资源情况。
2.2  算力网络需求度量
算力网络需求度量是通过对业务种类、计算类型、网络延迟、存储容量等需求的分析,构建算力网络需求度量体系,从而将用户应用需求映射为实际所需的算力网络资源。中国联合网络通信有限公司研究院创新性地提出了将算力进行分级,并分析了不同业务场景的需求差异[6]。中国通信标准化协会发布的标准以浮点运算能力为指标将计算需求分为4级[9]:超大型、大型、中型和小型算力,并要求网络能够满足业务的时延和带宽等要求以保障业务服务质量,同时根据业务对存储带宽和存储容量的需求分为中型、大型和超大型存储等。
算力网络中的复杂业务可以进行合理的拆分,分解为由多个简单子业务的集合。例如,一个智慧交通业务i拆分为车辆信息检测、环境信息检测以及危险状态提示三个子业务,即Task=,并分别对于3个子业务从计算、网络和存储三个维度进行算力网络需求度量,如公式(5)所示:
以服务为中心的算力网络度量与建模研究
其中,Ci表示业务i的总算力网络需求,fc、fn和fs分别表示业务在计算、网络、存储等方面的算力需求的映射关系,α、β、γ为计算、网络、存储需求所对应的映射比例系数。
3  以服务为中心的算力网络度量模型
3.1  以服务为中心的算力网络度量思考
算力网络需求的度量与算力网络资源所表征的业务支撑能力息息相关,只是描述的角度不同。前者站在服务需求方的角度,描述业务对于计算、网络、存储资源的需求情况;后者站在服务提供方的角度,表征节点在计算、网络、存储方面的业务支撑能力。算力网络资源与需求的映射体现在如何合理分配算力网络中的一系列节点资源,以满足某项业务的多维度需求,以及如何根据业务的差异化需求选择最合适的算力网络节点资源集合,这实则是一个算力网络资源与任务的编排调度问题,如图1所示。未来差异化业务对于计算、网络和存储等多维度资源需求的不断增长,越来越多地要求人们关注业务本身的服务需求情况。笔者拟从算力网络全局的角度,探索一种以服务为中心的算力网络建模方案。
以服务为中心的算力网络度量与建模研究
图1   算力网络资源与需求映射关系图
3.1.1  算力网络资源池构建
首先,根据现有研究中的算力网络资源度量建模方案,对节点服务能力进行度量和表征。其次,在实现单一节点算力网络资源表征度量的基础上,定义算力网络资源池作为算力资源的基本度量单位,构建节点/集群算力网络资源池模型,如图2所示。最后,所构建的节点/集群算力网络资源池将作为资源度量单位与算力网络需求集相匹配。
以服务为中心的算力网络度量与建模研究
图2   算力网络资源池模型
3.1.2  算力网络需求集映射
首先,根据现有研究中的算力网络需求度量与建模方案,将复杂业务拆分成子业务进行需求度量。其次,将用户的多个简单子业务需求进行适当组合,定义算力网络需求集为基本度量单位,构建算力网络需求集模型,如图3所示。最后,所构建的算力网络需求集将作为算力网络需求的度量单位实现向节点/集群算力网络资源池的映射。
以服务为中心的算力网络度量与建模研究
图3   算力网络需求集构建
例如,定义一个算力网络资源池pool={computep,networkp,storagep},其中computep表示该资源池所具有的计算资源量;networkp表示该资源池所具有的网络资源量;storagep表示该资源池所具有的存储资源量。同时,该算力网络资源池pool所能够满足的算力网络需求集表示为set={computes,networks,storages},其中computes、networks和storages分别代表该算力网络需求集所包含的业务集的计算、网络、存储需求。
3.2  以服务为中心的算力网络建模方案
以服务为中心的算力网络建模方案主要包括业务场景分析、核心业务需求指标选取、业务需求建模和业务需求映射四个环节。简单来说,当用户向网络发送多样化的服务请求时,算力网络通过感知分析其业务需求情况,将业务的时延、带宽等需求指标作为算法输入,输出一套定制化的算力网络节点资源调度方案,以满足用户的差异化业务需求,并能够根据算力网络的环境变化动态调整调度方案。
3.2.1  业务场景分析
将算力网络的复杂业务场景拆分成多个简单业务,并分析其核心业务需求,如虚拟现实课堂要求学生网络带宽大于50 Mbit/s,时延小于20 ms[1];人工智能(Artificial Intelligence,AI)模型训练类业务要求节点具有上百GB到几TB的存储空间;某些工业互联网和智能电网场景对时延的需求在1~20 ms范围内[19]
表4展示了通过软件定义广域网(Software-Defined Wide Area Network,SD-WAN)控制器探针获取或借助iPerf、IxChariot等测试工具测量推算的大数据和AI场景的业务指标推荐值。
表4   几类典型业务场景需求分析
以服务为中心的算力网络度量与建模研究
 
3.2.2  核心业务需求指标选取
研究发现吞吐量、带宽、速率等一些指标最终都表现在时延方面,因此在后续对算力网络需求的分析建模过程中,将时延作为一个最重要的核心指标。通常来讲,算力网络简单子业务的核心需求情况大致表现在业务可容忍的最大时延、所包含的数据量大小以及对于不同计算类型的需求等诸多方面。
(1)可容忍的最大时延:业务可容忍的最大时延是指从用户发起服务请求到得到服务响应所消耗的时间,是能够保证业务正常运行以及满足用户体验的时延上限。
(2)所包含的数据量:业务所包含的数据量与业务的类型息息相关,在业务需求分析的过程中,业务数据量的大小映射为对于存储资源的需求,并同时影响业务的计算及网络时延等。
(3)计算类型需求:类似于计算资源度量指标,业务的计算类型需求大致也可分为整数计算需求、浮点计算需求和哈希计算需求。针对具体业务场景进行分析,确定业务的计算类型及计算量需求。
3.2.3  业务需求建模
通过对业务场景进行需求分析,可以定义某业务X的需求向量为X={x1,x2,x3,…,xN},其中x1,x2,x3,…,xN表示该业务场景的核心需求指标。例如,将某业务的需求向量表示为:
以服务为中心的算力网络度量与建模研究
 
在公式(6)中,timeDelay表示业务可容忍的最大时延;dataAmount表示业务所包含的数据量;computeType表示业务的计算类型需求。业务可容忍的最大时延在实际应用中包括计算时延、网络时延和存储时延三部分,如公式(7)所示:
以服务为中心的算力网络度量与建模研究
 
业务所包含的数据处理过程也可从计算、网络、存储的角度进行考虑,业务所包含的数据量如公式(8)所示:
以服务为中心的算力网络度量与建模研究
 
业务对计算类型的需求可能包括整数计算、浮点计算和哈希计算等,具体如公式(9)所示:
以服务为中心的算力网络度量与建模研究
3.2.4  业务需求映射
根据选取的核心业务需求指标,令业务X={timeDelay,dataAmount,computeType},从该业务可容忍的最大时延出发,由公式(7)可知,该时延包括计算时延、网络时延和存储时延三部分。
(1)计算时延
根据计算类型的不同,将计算时延划分为整数计算时延、浮点计算时延和哈希计算时延三部分,如公式(10)所示:
以服务为中心的算力网络度量与建模研究
 
业务需要计算的数据量也可以划分为三部分,如公式(11)所示:
以服务为中心的算力网络度量与建模研究
 
每部分的计算时延由计算数据量与计算速率的比值计算得到,其中整数计算速率用intComputeRate表示;浮点计算速率用floatComputeRate表示;哈希计算速率用hashComputeRate表示,如公式(12)~(15)所示:
以服务为中心的算力网络度量与建模研究
以服务为中心的算力网络度量与建模研究
(2)网络时延
业务的网络时延往往产生于数据在网络中传输的过程。网络时延可以通过传输数据量与传输速率的比值来计算得到,其中网络传输数据量为networkAmount,网络传输速率可以用网络带宽(networkBandwidth)的概念来描述,网络带宽即单位时间内能发送/接收的最大数据量,如公式(16)所示:
以服务为中心的算力网络度量与建模研究
(3)存储时延
业务的存储时延往往产生于数据在硬盘中读写的过程。存储时延可以通过读写数据量与读写速率的比值来计算得到,其中读写数据量为storageAmount,数据读写速率可以用存储带宽(storageBandwidth)的概念来描述,存储带宽即单位时间内存取的数据量,如公式(17)所示:
以服务为中心的算力网络度量与建模研究
(4)总时延
将公式(15)~(17)代入公式(7)得公式(18):
以服务为中心的算力网络度量与建模研究
业务的总时延需要满足不高于业务可容忍的最大时延指标,公式(18)中的computeAmountint、computeAmountfloat、computeAmounthash、networkAmount和storageAmount是能够根据业务场景分析得到的,intComputeRate、floatComputeRate、hashComputeRate、networkBandwidth和storageBandwidth分别对应算力网络资源度量体系中的指标。因此,公式(18)以时延为约束,建立了一种算力网络资源与需求的映射关系。
4  问题及挑战
从算力网络全局的角度出发,笔者对以服务为中心的算力网络度量与建模方案进行了探索和思考。传统的以资源为中心的算力网络度量方案对算力服务节点资源与能力进行直接定义和单一度量,而以服务为中心的算力网络建模方案融合了算力网络资源度量、算力网络需求—资源映射机制以及算力网络需求度量等多个步骤,包括算力网络资源池构建与算力网络需求集映射两大重要环节,构成了一套完整的算力网络度量与建模体系。然而,以服务为中心的算力网络度量与建模方案仍存在一些问题与挑战。
(1)度量指标集差异
衡量计算、网络、存储资源的业务指标难以统一,已有的方案仅能够假设出度量过程中可能用到的业务指标情况,但对于不同类型的算力服务节点资源,其所包含的度量指标可能会有所差异甚至差异较大,因此难以直接比较不同服务节点的资源情况。
(2)映射机制不统一
以服务为中心的算力网络度量与建模方案的一个重要中间环节是算力网络资源与算力网络需求的匹配映射,然而在当前的研究中,多维度资源与其需求的关联匹配还没有达成一套统一的算力网络需求—资源映射标准,该方案中的算力网络需求—资源映射机制仅是一种探索尝试。
(3)算力网络需求难以准确描述
不同种类的业务应用对于算力网络资源的类型和需求往往差异较大,仅能通过经验数据来描述其业务需求。然而即便是同类别业务,其所处场景不同,需求也随之不同,并且对于不断涌现的新兴业务,其需求可能会更加多样化,难以通过经验数据来准确描述每一个业务的算力网络需求。
5  结束语
传统的以资源为中心的度量,往往是站在服务提供方的角度对节点的计算、网络、存储资源进行直接度量,在一定程度上解决了算力网络发展初期的资源抽象问题,而在算力网络融合发展的今天,业务需求的度量与建模相对于节点资源的直接度量显得更为重要。笔者站在算力网络全局的角度,探索了一种以服务为中心的算力网络度量与建模方案,并对该方案所面临的问题和挑战进行了归纳和分析。
Research on measurement and modeling of service-centric computing power network
LI Yinan1, TANG Qinqin1, PENG Kailai2, LIU Jia3, XIE Renchao1,2, HUANG Tao1,2
(1. State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, China; 2. Purple Mountain Laboratories, Nanjing 211111, China; 3. DFH Satellite Co. Ltd., Beijing 100094, China)
Abstract: To address the problem of measurement and modeling of computing power networks, this paper first reviews the current research progress from the narrow and broad definitions of measurement system for computing power network, including the measurement of computing network resources and the measurement of computing network demand. Then, this paper proposes a measurement and modeling scheme for service-centric computing power network from the perspective of computing power network services. Finally, it summarizes and discusses the problems and challenges of this scheme.
Keywords:computing power network; computing and network convergence; measurement of computing power network

 

本文刊于《信息通信技术与政策》2023年 第5期

 

 

版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。

(0)

相关推荐

发表回复

登录后才能评论