上期我们介绍了《图计算技术与标准化进展》中的“图计算概述”和“图计算相关技术”,本期为大家继续介绍“图计算标准化进展”和“图计算标准化展望”。
作者简介:
郭智慧,蚂蚁集团标准化专家,主要从事图计算、知识图谱、数据库、密码、云原生等领域的标准化工作,目前在牵头《大数据 图数据库系统技术要求》国家标准制定,现任LDBC FinBench基准工作组主席等职务。
彭晋,蚂蚁集团技术标准总监,主要从事信息技术、信息安全、计算机网络等领域的标准化工作,现任全国信标委(TC28)委员、中国通信标准化协会(CCSA)理事、中国互联网金融协会网络与信息安全专委会委员等职务。
图计算标准化进展
目前,图计算技术相关标准的研制还处于起步阶段,本部分梳理了国际标准化组织及国内标准化组织开展的图计算相关标准情况。
国际标准化进展
国际标准化组织(ISO)
ISO/IEC JTC1 SC32 “数据管理和交换”和ISO/IEC JTC1/SC 42 “人工智能”分技术委员会,是与图计算最为密切的标准化组织。
ISO/IEC JTC1/SC32于2019年启动了图数据库语言标准GQL(Graph Query Language,ISO/IEC 39075)相关工作,当前GQL标准处于DIS阶段。ISO/IEC 39075拟规定针对属性图的查询、修改及映射,以及会话管理、事务管理、过程(procedures)、与其他语言和系统交互、错误处理、报告诊断信息等内容。另外,ISO/IEC JTC1/SC32同期启动了SQL数据库语言第16部分属性图查询标准(ISO/IEC 9075-16)制定工作,当前也处于DIS阶段。ISO/IEC 9075-16拟规定基于SQL语言表示属性图并与其交互的方法。
2020年8月,由我国提出的《信息技术 人工智能知识工程参考架构》(项目号:ISO/IEC 5392)国际标准提案在ISO/IEC JTC 1/SC 42人工智能分技术委员会获批立项。目前标准处于DIS阶段。该标准拟规定知识工程参考架构,明确了知识工程重要术语和概念,描述了知识工程中的角色、活动、构建层级、组件及其关系,可为机器可读、可理解等机器认知智能的实现以及产业化推广应用提供参考和指导。
2021年12月,ISO/IEC JTC1/SC42发布了《计算方法与人工智能系统研究报告》(ISO/IEC TR 24372),阐述了知识图谱理论与技术、知识图谱计算方法特点、以及知识图谱典型应用。
电气和电子工程师协会
(IEEE)
IEEE C/SAB/KG_WG知识图谱工作组开展了知识图谱框架、关键技术、性能指标、典型应用等方向的标准研制工作。
其中IEEE 2807 《Framework of Knowledge Graphs》及IEEE 2807.3《Guide for Electric-Power-Oriented Knowledge Graph》已于22年9月发布。IEEE 2807 《Framework of Knowledge Graphs》规定了知识图谱关键术语、知识图谱概念模型及知识图谱供应方、知识图谱集成方、知识图谱用户、知识图谱生态合作伙伴等利益相关方的输入、输出、主要活动与性能指标要求等。IEEE 2807.3《Guide for Electric-Power-Oriented Knowledge Graph》规定了电力知识的数据和架构要求、面向电力领域知识图谱的构建和集成、性能评估以及应用方案等技术内容,定义了不同企业构建的电力知识图谱之间的兼容和协作规范。
目前IEEE C/SAB/KG_WG知识图谱工作组围绕技术要求、测评规范、典型应用等正在制定IEEE P2959及P2807系列其他标准。其中IEEE 2959拟规定基于已发布标准(机器可自动读取)构建知识图谱的数据和模式要求,详细说明知识图谱的构建过程和性能指标,并对其应用场景进行描述。2807系列其他标准拟规定通用知识图谱技术要求及测评规范,图谱间知识融合及知识交换协议,并给出开放领域知识图发布和众包服务指南,以及金融知识图谱、科学知识图谱、医疗知识图谱、K12教育知识图谱等图谱应用指南。
万维网联盟(W3C)
万维网联盟于2004年发布了第一版RDF资源描述框架标准(Resource Description Framework),并于2014年对其进行了更新。RDF是Web上数据交换的标准模型,即使底层模式不同,RDF也具有促进数据合并的功能。RDF基于XML语法及XML Schema的数据类型以便更为丰富地描述和表达网络资源的内容与结构。RDF扩展了Web的链接结构,使用URI来命名事物之间的关系以及链接的两端(这通常称为“三元组”)。RDF允许在不同的应用程序之间混合、公开和共享结构化和半结构化数据。这种链接结构形成了一个有向的、带标签的图,其中边表示由图顶点表示的两个资源之间的命名链接。
关联数据基准委员会
(LDBC)
关联数据基准委员会(Linked Data Benchmark Council,LDBC)开展了图计算相关测试基准的研制工作,已发布了社交网络测试基准(LDBC-SNB)及语义出版测试基准(LDBC-SPB),目前正在研制图分析测试基准(LDBC GRAPHALYTICS)及金融测试基准(LDBC FINBENCH)。
社交网络测试基准(LDBC-SNB)基于社交网络场景定义了针对图数据库管理系统的2个不同工作负载。每个工作负载在给定数据规模下产生一个性能指标及一个性价比指标。2个负载分别为交互工作负载(Interactive workload)及商业智能工作负载(Business Intelligence workload)。交互式工作负载关注具有复杂读取查询的事务性图处理,这些查询访问图中给定顶点的邻域,并在图中不断插入新数据进行更新操作。商业智能工作负载关注的是聚合和连接繁重的复杂查询,这些查询通过微批插入/删除操作会触及图的大部分。
语义出版测试基准(LDBC-SPB)用于测试媒体/出版行业RDF引擎性能,LDBC与英国广播公司BBC合作定义了这一基准,BBC为此捐赠了工作负载、本体和数据。SPB通过产生同时执行CRUD(创建、读取、更新、删除)操作的工作负载来进行衡量,该基准测试提供了一个数据生成器,它使用真实的参考数据来生成各种大小的数据集,测试RDF系统的可伸缩性。
图分析测试基准(LDBC GRAPHALYTICS)是用于图分析平台的工业级基准。它由六个核心算法(广度优先搜索、PageRank、弱连接组件、使用标签传播的社区检测、局部聚类系数和单源最短路径)、标准数据集、合成数据集生成器和参考输出组成,用于图形分析平台的客观比较。
金融测试基准(LDBC FINBENCH)旨在定义一个针对反欺诈和风险控制等金融场景的图数据库性能测试基准,该基准由数据模型、工作负载、数据生成器、查询驱动模块等部分组成。
以上社交网络测试基准(LDBC-SNB)及金融测试基准(LDBC FINBENCH)基于社交网络及金融风控场景测试图数据库的性能,语义出版测试基准(LDBC-SPB)主要用于测试RDF图引擎性能,而图分析测试基准(LDBC GRAPHALYTICS)主要用于测试图分析平台的性能。
国内标准化进展
国家标准
在国家标准方面,全国信息技术标准化技术委员会(TC28)、全国金融标准化技术委员会(TC180)等标委会都开展了知识图谱技术框架、图数据库系统等国家标准的研制工作。
SAC TC28 大数据工作组于2019年发布了国家标准《信息技术 大数据存储与处理系统功能要求》,规定了大数据存储与处理系统各类分布式存储及计算框架的功能要求。其中包含分布式图数据存储及图计算框架的基本功能要求。
SAC TC28/SC42 围绕知识图谱技术框架开展研究,2019年发布《知识图谱标准化白皮书》梳理了知识图谱的主要技术及应用、分析了知识图谱标准化的现状,给出了知识图谱标准化体系。另外,在报批的国家标准《信息技术 人工智能知识图谱技术框架》规定了知识图谱的框架,包括知识图谱的输入要求,知识图谱的建立过程,即知识图谱的提取、存储、挖掘与推断、性能指标、知识图谱的应用、相关领域、知识图谱涉及的人工智能技术以及其他需要的数字基础设施。
SAC TC28 大数据标准工作组正在推动《大数据 图数据库系统技术要求》国家标准立项,目前项目已完成国标委网站立项公示。《大数据 图数据库系统技术要求》拟规定图数据库系统的技术架构、数据模型、功能性要求、性能要求、安全要求等。
SAC TC180 正在开展《基于文本数据的金融风险防控知识图谱构建技术框架指南》标准研制工作,规定了在金融风险防控领域知识图谱的构建方法和技术实现步骤,明确列举了基于知识图谱可构建的金融风险防控典型应用场景。
行业标准
在行标方面,中国通信标准化协会(CCSA)及全国金融标准化技术委员会(TC180)等开展了图计算平台、图数据库、知识图谱工具、知识图谱金融应用等行标制定工作。
CCSA/TC1/WG6 开展了《大数据 图计算平台技术要求与测试方法》、《大数据 图数据库技术要求与测试方法》等行业标准研制工作,《大数据 图计算平台技术要求与测试方法》规定了图计算平台的总体要求、技术要求和测试方法,其中技术要求包括基本功能、兼容性能力、管理能力、高可用能力、扩展性能力和性能要求,测试方法包括基本功能、兼容性能力、管理能力、高可用能力和扩展性能力。 《大数据 图数据库技术要求与测试方法》定义了图数据库应具有的基本能力、分布式能力、兼容能力、管理能力、安全能力、高可用能力及相关的测试方法。
同时,CCSA/TC1/WG6 在开展了《基于人工智能的知识图谱构建技术要求》《通用知识图谱工具技术要求与测试方法》及《基于知识图谱的电信运营商数据管理技术要求》标准研制工作,《基于人工智能的知识图谱构建技术要求》规定了基于人工智能的知识图谱系统构建的技术要求、基本功能要求、非功能要求,用于规范基于人工智能的知识图谱的框架构建流程。《通用知识图谱工具技术要求与测试方法》主要给出了知识图谱数据接入、抽取、存储、查询、融合、推理分析、展示等能力的技术要求和测试方法,《基于知识图谱的电信运营商数据管理技术要求》拟规定基于知识图谱的电信运营商数据管理需求、技术框架、管理流程、技术要求、管理要求、应用场景等内容。
另外,SAC TC180 WG9 正在开展《知识图谱金融应用技术规范》行业标准研制工作,主要规定了知识图谱金融应用技术框架、利益相关方、关键技术要求、性能指标、典型应用等。
团体标准
在团标方面,北京金融科技产业联盟(BFTIA)、中国人工智能产业发展联盟(AIIA)、中国通信标准化协会(CCSA)、中电标协、广州数金协等正在开展图数据库金融应用、金融知识图谱系统、知识图谱分类分级、基于知识图谱风险防控的团体标准工作。
北京金融科技产业联盟(BFTIA)正在开展《图数据库金融应用技术规范》标准研制工作,拟规定图数据库金融应用的数据模型、技术架构、技术功能要求等内容。
中国人工智能产业发展联盟(AIIA)2021年发布了《金融知识图谱系统技术要求》,规定了金融知识图谱系统的技术框架、功能组件、技术流程,以及功能性能等技术要求。
CCSA/TC1/WG1 2022年发布了《基于人工智能的知识图谱系统技术框架》,规定了知识图谱系统的技术框架,功能组件,技术流程,以及功能、性能、可扩展性、可靠性、兼容性、安全性等技术要求。
中电标协正在开展《人工智能知识图谱分类分级规范》《人工智能知识图谱性能评估与测试规范》等标准的研制工作。《人工智能知识图谱分类分级规范》拟规定知识图谱相关系统供应商的分类分级模型、能力框架、能力评价方法、评估指标等内容。《人工智能知识图谱性能评估与测试规范》拟规 定知识图谱质量评估要求、知识图谱性能指标、测试框架、测试需求模型及度量准则等内容。
支付清算协会正在开展《基于知识图谱的收单风险防控技术框架》标准研制工作,拟规定收单风险防控技术框架、知识图谱基础支撑、知识图谱构建技术、图谱能力建设等内容。
广州数金协正在开展《基于知识图谱的信贷风险防控技术规范》标准研制工作,拟规定用于信贷风险防控的知识图谱系统功能、技术要求、性能要求、安全要求等内容。
图计算相关标准明细表
图计算标准化展望
如前所述,虽然图计算已经在各个行业得到应用,但目前图计算技术相关标准的研制还处于起步阶段。虽然国际及国内标准组织已开展了一些图计算相关的标准研制,但还未形成体系。
首先,
关于通用的功能性定义和框架描述的标准,包括针对图计算体系架构、图模型、图存储、图算法、图查询语言、图计算模型、图数据库、图计算系统等方面的标准还需要逐步建立;
其次,
非功能性的标准,如图计算评估、图计算安全等相关的标准也需要配套地建立起来;
第三,
图计算与各个应用领域结合形成的最佳实践和行业应用指南,也将产生一系列有价值的标准。
几个方面结合起来,可以形成图计算标准的完整体系,从而规范并更好支撑图计算技术发展与应用。
参考文章
人工智能之图计算.pdf
面向图计算的内存系统优化技术综述.pdf
AMiner_图数据库报告.pdf
图数据库白皮书-信通院.pdf
TuGraph-企业级 实时全栈图计算平台.pdf
图计算-百度百科
https://baike.baidu.com/item/%E5%9B%BE%E8%AE%A1%E7%AE%97/23685852
一文读懂图模型、图查询、图计算、图学习技术
https://www.163.com/dy/article/G1RPIN4E0518R7MO.html
什么是图计算及其应用场景?
https://www.zhihu.com/question/38341609
图计算理论、实现及应用
https://www.zybuluo.com/contribute/note/328578
图计算发展简史
https://itcn.blog/p/11031284359.html
Spark(十七)图计算GraphX
https://www.writebug.com/explore/article/vohB3orF
图计算服务六大应用场景
https://developer.aliyun.com/article/761179
基于图查询系统的图计算引擎
https://www.cxyzjd.com/article/weixin_45585364/100159291
图计算思维与实践 (二)核心概念与算法
https://www.cxyzjd.com/article/zwgdft/112431216
图数据库原理、架构与应用
https://www.dedao.cn/ebook/detail?id=2BeEdA94ma8x6VX2zLjQBNq5dKveMw1AzkwJZPAO1lGbpRyYgonDEr97kMoLmlba
蚂蚁集团开源高性能图数据库TuGraph,成立图计算开源委员会
http://tech.china.com.cn/roll/20220901/390625.shtml
此图非彼图!让数据“图像化”,图计算未来几年将成长为数据行业新风口
https://news.orangecds.com/zixun/170375_112204.html
Spark-图计算GraphX
http://www.uml.org.cn/bigdata/202006102.asp
图的概念与主要类型、图模型的应用场景
https://www.jianshu.com/p/f3c87423dd7a
图存储与计算(Network Storage & Computing)
https://leovan.me/cn/2021/01/network-storage-and-computing/
字节跳动自研万亿级图数据库 & 图计算实践
https://www.6aiq.com/article/1583079309385
图计算或成为下一代数据底座,世界“最快”图数据库宣布开源
https://m.mp.oeeee.com/a/BAAFRD000020220901718746.html
躁动图计算:蚂蚁和字节们想找到“幻视”额头上那颗宝石
https://www.pingwest.com/a/270303
分布式图计算
https://endymecy.gitbooks.io/spark-graphx-source-analysis/content/parallel-graph-system.html
大规模图计算系统综述
https://zhuanlan.zhihu.com/p/38010945
图嵌入 (Graph Embedding) 和图神经网络 (Graph Neural Network)
https://leovan.me/cn/2020/04/graph-embedding-and-gnn/
图表示学习入门
https://zhuanlan.zhihu.com/p/85677181
来源:国家技术标准创新基地 智能计算
版权声明:本文内容转自互联网,本文观点仅代表作者本人。本站仅提供信息存储空间服务,所有权归原作者所有。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至1393616908@qq.com 举报,一经查实,本站将立刻删除。