数算融合网络技术发展研究

刘韵洁 , 汪硕 , 黄韬 , 王佳森

中国工程科学 ›› 2025, Vol. 27 ›› Issue (1) : 1 -13.

PDF (1565KB)
中国工程科学 ›› 2025, Vol. 27 ›› Issue (1) : 1 -13. DOI: 10.15302/J-SSCAE-2024.10.005
国家数据空间发展战略研究

数算融合网络技术发展研究

作者信息 +

Development of Data and Computing Convergent Network

Author information +
文章历史 +
PDF (1601K)

摘要

数算融合网络是为数据空间应用定制网络服务的智能通信网络基础设施,对推动数据空间构建、数据要素流通、算力和数据融合具有促进作用,可为数据确权、流通和交易等新的经济增长点提供技术支撑。本文在介绍数算融合网络内涵的基础上,概述了其数据平面、控制平面、编排层具备的关键功能,梳理了我国发展数算融合网络的宏观发展需求,详细讨论了数算融合网络技术的发展现状和国际态势。进一步研判了数算融合网络端侧、数据中心内、数据中心出口、数据中心间、算力中心间、数据和算力中心间、控制层、编排层、安全体系等方面的关键技术,列举了数算融合网络的应用场景和具体案例,包括“东数西算”枢纽互联、城市算力网、工业外网互联、能源设施互联、行业大模型。在分析我国数算融合网络技术发展面临的挑战后,研究建议:构建支撑行业大模型高质量发展的公用专网;推动数算融合网络科学装置建设,服务国家科学发展;依托数算融合网络,推动数据空间成果落地;开展大规模算力协作,突破单点算力不足瓶颈,为数据空间网络基础设施发展提供参考。

Abstract

The data and computing convergent network (DCCN) is an intelligent communication network infrastructure tailored for data space applications. It promotes data space construction, data elements circulation, and integration of computing power and data. It also provides technical support for economic growth related to data rights, data circulation, and data transactions. This study defines the DCCN, outlines the key functions of its data plane, control plane, and orchestration layer, reviews the macro development requirements of the DCCN, and discusses the current development status and international trends of DCCN technologies. It further studies key DCCN components and technologies, including end sides, internal networking of data centers, data center exits, communication among data centers, networking among computing centers, networking between data and computing centers, control layers, orchestration layers, and security systems. Moreover, the study introduces application scenarios and cases of DCCNs, including east‒west data-center interconnections, computing power networks in urban areas, industrial extranet interconnections, energy facility interconnections, and industry-scale large models. Research also covers the challenges of developing DCCNs, based on which, we propose the following suggestions for developing the DCCN: (1) establishing public specialized networks that support the high-quality development of industry-scale large models; (2) promoting the construction of DCCN-based scientific facilities, serving national scientific development; (3) using the DCCN to promote applications in data spaces; (4) carrying out large-scale collaboration among computing facilities to overcome the bottleneck of insufficient computing capability at a single point. The suggestions aim to provide references for the development of DCCN infrastructures.

Graphical abstract

关键词

数算融合网络 / 数据空间 / 智能联网 / 算力网 / 数算融合关键技术

Key words

data and computing convergent network / data space / intelligent networking / computing power network / key technologies for data and computing convergence

引用本文

引用格式 ▾
刘韵洁,汪硕,黄韬,王佳森. 数算融合网络技术发展研究[J]. 中国工程科学, 2025, 27(1): 1-13 DOI:10.15302/J-SSCAE-2024.10.005

登录浏览全文

4963

注册一个新账户 忘记密码

一、 前言

数据空间是面向人 ‒ 机 ‒ 物应用和系统运作数据,基于网络互联产生的虚实结合的空间[1,2]。数算融合网络是实现数据空间人 ‒ 机 ‒ 物应用高速互联、确定性数据传输、泛在算力接入,并根据数据空间应用定制网络服务的智能通信网络基础设施。数算融合网络有助于推动实现“东数西算”枢纽互联和算力并网,支撑新型工业互联、能源互联,服务制造强国和“双碳”等战略。数算融合网络具有很高的应用价值。一方面,数算融合网络可以支撑数据空间新型系统和应用。数算融合网络作为数据空间新网络范式,具有维护成本低、服务自动化程度高、适应能力强等优势,能够满足数据空间快速发展的需求。在万物智能化的时代,消费型与产业型互联网融合,成为重要发展趋势。数算融合网络基础设施可以提供海量的消费级、工业级人 ‒ 机 ‒ 物算力和数据互联服务,如工业制造、健康医疗等数据空间应用的确定性互联服务。另一方面,数算融合网络可促进未来网络、人工智能(AI)等产业的加速发展。AI模型正在与网络服务深度绑定,赋予网络设备处理复杂任务的能力,进而提升了数算融合网络的服务价值,推动如具身智能[3]等网络服务新功能和新产业的发展。

目前,数算融合网络处于快速发展阶段,通过实现数据[4]和算力[5]的融合,进一步释放数据和算力价值,推动“数据要素×”新产业的发展。数据空间基础设施和工作平台的互操作性、开放性至关重要[2],这也要求数算融合网络需要具备可编程能力、确定性、“网算存一体化”等技术要求[6],不断提升联合数据空间的互操作质量和开放程度,构建完备的数据存储、处理和传输体系架构。已有工作着重于从算力组网和数据传输等方面研究数据空间网络技术。现有算力网络架构可以为数据空间应用提供网络化的算力服务[5],面向数据空间的联合基础设施可以通过云网络基础设施为多个数据生态系统应用服务[7],工业数据空间架构能够为工业数据提供方、存证方、中间服务方、数据使用方提供可信的网络服务[8],科学数据空间网络系统可以用来快速传输科学数据(如传输PB级的脱氧核糖核酸序列数据[9]),确定性联网能够为工业数据和消费数据提供共网传输功能[10]。面向智能化时代,可编程网络、在网计算、在网存储是网络发展的重要技术方向[11~13]:构建大规模在网计算和存储系统,为数据空间大数据分析、大模型训练、大规模存储应用提供分布式算力和储存环境,以实现低时延通信和高速计算。

本文探讨数算融合网络的定义和功能架构,为数据空间应用提供网络基础设施支撑,总结数算融合网络相关国际发展态势,分析我国数算融合网络的发展现状和需求,提出数算融合网络关键技术等,列举数算融合网络的应用场景和案例,提出数算融合网络的发展建议,以期为数据空间网络基础设施发展提供参考。

二、 数算融合网络的国际发展态势

(一) 制定推动数算融合网络发展的战略和政策规划

1. 欧洲数据战略(EDS)

EDS[14]旨在推动欧盟成为数据驱动型社会的领导者,指出提高获取和使用数据的能力可以驱动创新,并带来个性化医疗、更好的政策、升级的公共服务等优势。该战略期望构建单一数据市场,使数据能够在欧盟内部自由流动,降低企业、研究人员和公共管理部门获取数据的难度。EDS的单一数据市场构建目标包括数据在欧盟内部跨部门流动,隐私和数据保护以及竞争法得到尊重,数据访问和使用的规则公平、实用和明确等。EDS要求投资下一代工具链和基础设施来存储和处理数据,从而将欧盟打造成为一个安全和充满活力的数据经济体。EDS计划推动数算融合网络基础设施发展,构建新一代数据存储、处理、转发的硬件和软件平台,推动数算融合网络在欧洲的创新和产业化,支撑欧洲共同战略数据空间,包括制造、农业、交通、医疗、金融、能源和公共管理等数据空间。

2. 美国数据战略(FDS)

FDS[15]旨在构建清晰的数据问责制,提升数据使用透明度,创建面向未来的数据战略和基础设施。FDS期望美国政府加速使用数据来执行任务、服务公众和管理资源,同时保护数据安全、隐私和机密性。FDS提出,美国政府应通过对数据基础设施和人力资源的持续投资,驱动商业和文化发展;注重数据需求变化并系统利用私营部门在数据资产、服务和基础设施等方面的购买力,降低成本和提高效率。FDS计划促成政府和私营部门就发展数算融合网络达成合作,通过私营部门的资金和政府部门的政策来推动数算融合网络设施、设备的商业化发展,构建新一代数据处理、存储和转发基础设施,维持美国在AI等行业的优势。

3. 国际数据空间协会(IDSA)

数据作为一种战略资产,越来越多地成为创造新产品和服务的基础,因此,数据在流通过程中需尊重数据主权。IDSA是一个集企业、科研人员、立法人员等的开放式非营利组织。IDSA旨在通过政策、规则和标准,创建安全且值得信赖的数据空间,维护参与方的数据主权。目前,IDSA已有来自20多个国家的130多名成员,所有成员可以自行确定其数据的使用规则,并在安全、可信、平等的伙伴关系中实现数据价值最大化。2023年7月,IDSA在我国的代表机构“IDSA中国能力中心”正式成立,由下一代互联网国家工程中心运营,以成为国际数据流通的“连接器”为使命。

(二) 积极推动数据网络基础设施建设

1. 国际数据空间(IDS)

在IDS中,数据提供方将数据所有者的数据通过IDS连接器传入数据空间设备,允许其他人使用这些数据,同时保留对使用人、使用方式、使用时间、使用目的和使用价格的控制,遵守数据主权。在目标方面,IDS作为跨国界、标准化的云系统之一,正成为数据基础设施的关键组成部分,着力解决数据流通的安全、确权、价值保护3个问题,推动数据空间技术和应用的发展。在技术方面,IDS连接器是一个开源项目,由多个研究机构和公司合作开发,可以部署在Docker容器和Kubernetes集群中,其架构允许根据特定领域的要求调整现有的应用程序。

2. 欧洲的联邦云基础设施Gaia-X

近年来,欧盟陆续出台了《通用数据保护条例》《数字市场法》《数字服务法》等一系列政策文件和法律框架,以建构数据主权,增强欧洲数据创新能力。欧洲的云计划Gaia-X[16]旨在建立欧洲的数据基础设施,成为欧盟的“母云端”,并创立通用云标准、参考云架构和互操作性要求等。Gaia-X项目是欧盟推动欧洲“数据主权”政策的一部分,目的是要让欧洲企业将数据储存在欧洲,并在欧洲释放数据价值,推进工业、农业、教育、医疗等全行业发展。

3. 美国的“科研数据+算力网络”

2022年,美国能源科学网络(ESnet)正式升级到第六代ESnet6,拥有主干链路达400 Gbps的专用光缆,网络节点交换容量达46 Tbps。网络承载数据快速增长,2021年的传输数据量约为1000 PB[17]。ESnet6互联了美国国家实验室等40个研究站点、140个科研和商业网络。例如,ESnet6连接了超算设施、X射线设施、中子散射设施、基础能源设施、聚变能源设施、高能物理设施、核物理设施等,支撑美国开展基础能源、生物、聚变能源科学、高能物理、核物理等研究。同时,ESnet6已服务于阿贡、橡树岭等国家实验室的PB级数据传输与AI模型计算,并且实现了计算、存储、网络资源的一体化调度,支撑国家实验室海量数据低时延、高通量、安全传输。未来,ESnet6的发展规划包括:提供端到端的确定性网络能力,实现高通量带宽,支持应用和网络间互操作,集成边缘计算、在网计算、在网存储,实现可编程编排和自动化,构建通用接入架构,注重多模态网络连接和资源一体化调度等。

(三) 开展数算融合网络的技术研发与推广

1. 算力聚合

国际机构针对数算融合网络的算力聚合,主要推动单点算力、算力协同和广域远程直接内存访问(RDMA)等技术进行快速迭代发展。① 在单点算力方面,2024年,英伟达公司发布了可以运行AI模型的新一代Blackwell图形处理单元(GPU)架构及B200芯片,可达到20 PetaFLOPS计算能力,是H100芯片的5倍,能够训练更强大、更复杂的语言模型。集成两块B200芯片而形成的GB200芯片,在大语言模型推理中的性能与H100芯片相比提升了30倍。相对于Hopper架构,新型Blackwell架构在同样的训练时间内消耗更少的GPU数量和更低的能量。值得注意的是,GB200 NVL72单机架计算系统能够通过NVLink交换机提供130 TB/s GPU间高速互联带宽。② 在算力协同方面,基于英伟达公司的GPU协同计算平台,OpenAI公司研发了对话生成式预训练变换器(ChatGPT)产品。ChatGPT是一个人机问答平台,其模型通过大算力和算法创新孵化催生,其编程功能能够通过谷歌L3工程师编程考试。此外,OpenAI公司还发布了首个高质量文生视频模型Sora,正在引领一场数字内容(影视、数字素材等)创作的技术革新。在技术上,OpenAI公司使用多GPU协同,构建超大规模算力集群支撑大模型快速训练、测试和推理。③ 在广域RDMA方面,广域算力资源互联共享需要通过并行协同计算来提升算能,然而传统的传输控制协议(TCP)、超融合以太网协议在长距离网络场景中,网络吞吐可能较低。美国微软公司的Azure云约有70%以上的流量使用RDMA协议,2023年初步实现80 km广域RDMA互联。

2. 确定性数据传输

数算融合网络能够提供确定性网络服务,可以灵活切换确定性和非确定性服务,自主控制确定性服务质量的服务等级协议(SLA),满足大规模机器通信、机器视觉、远程控制、AI、工业互联网的需求。爱立信公司持续研发时间敏感联网(TSN)技术和第五代移动通信时间敏感联网(5G-TSN)技术,英特尔公司研发确定性边缘网络和确定性无线网络,英伟达公司研发具备确定性能力的以太网。此外,电气电子工程师学会(IEEE)、互联网工程任务组(IETF)、第三代合作伙伴计划(3GPP)等电子、互联网和通信组织正在积极推动时间敏感联网、确定性组网、5G或第六代移动通信(6G)确定性网络等的标准化。

3. 网络智能控制

数算融合网络整合了多种智能网络控制技术,包括生成式AI、意图驱动技术、数字孪生技术等,旨在根据用户的请求自动生成网络服务。数算融合网络的愿景包括训练网络大语言模型、网络设计大模型和网络决策大模型等。欧洲、美国等国家和地区正在积极布局网络智能控制领域,积极构建基于海量数据训练的网络智能控制大模型。例如,爱立信公司重视生成式AI在网络服务领域中的潜力,并正在进行相应的研发工作。英伟达公司正在参与基于AI的网络研发,凭借其在AI算法和设备方面的技术积累,研发和构建网络智能控制系统。

三、 我国数算融合网络的发展现状和需求

(一) 我国数算融合网络的发展现状

1. 重视发挥政策的引领作用,支持数算融合网络的发展

为推动网络的发展,我国先后发布了一系列政策,如《深入实施“东数西算”工程 加快构建全国一体化算力网的实施意见》(2023年)、《“数据要素×”三年行动计划(2024—2026年)》(2024年)[18]、《关于推动未来产业创新发展的实施意见》(2024年)[19],支持新型网络架构、GPU芯片集群互联网络、超大规模新型智算中心的创新发展,为大模型训练提供支撑,并作为未来产业来培育。这也表明,数据和算力融合发展已经成为重要趋势,因而有发展数算融合网络的必要性;数据要素价值释放进入快速发展阶段,而数算融合网络可以为价值释放过程提供网络服务;支撑大模型训练推理是数算融合网络的重要发展目标之一。

2. 面向智能化方向,推动数算融合网络技术演进

网络发展大致可以划分为3个阶段(见图1):第1阶段(1980—1999年)是传统互联网时代,以分组交换网络(X.25)、异步传输模式(ATM)协议为代表,主要强调网络的确定性,但网络连接数量受限;第2阶段(2000—2019年)是移动互联网时代,以TCP/IP协议为代表,主要面向多样消费型业务,但是网络确定性传输能力受限;第3阶段是自2020年开始的大模型(智能万物)互联网时代,以正在涌现的新型网络协议(如IPv6+)为代表,主要面向多元应用,强调确定性互联和海量网络连接数量,并要求服务可定制。

数算融合网络属于互联网发展第3阶段的新型网络架构。如图2所示,数算融合网络的数据平面包括可编程网络交换设备、路由设备、卸载设备、接入设备、计算设备、存储设备,并将可编程网元组成的底层物理网络数据分组处理逻辑与网络控制逻辑开放给控制平面,以进行系统自动化配置、编排、控制,实现数据空间的数据流确定性传输、设备泛在接入、传输层和网络层IPv6+/TCP/UDP/QUIC等功能、协议使用,支撑数据空间机器对机器、人对人、人对机器应用数据的高质量传输,高效完成计算任务。

数据平面通过IPv6+技术(如APN6、SRv6)对数据进行封装传输,应用数据由数据标签进行标识和统一管理。数据在数据平面被封装进IPv6+报文中,在数据空间的(边缘)算力中心、数据中心、(用户)连接设备之间转发传输。数据标签可根据需求进行设计,如设计为结构化的属性值。数据平面通过结构化的数据表示来感知用户的应用需求,按照需求通过IPv6+技术对网络进行编程来控制各个节点/服务功能应用策略,进而响应数据空间的应用需求。

数算融合网络的控制平面包括数字孪生网络、数字孪生体管理模块和网络大模型。通过深度可编程网络技术,控制平面可对网络数据平面和控制平面功能进行实时更新,对物理网络进行高效的操作和配置;基于数字孪生体,实现对物理网络的低成本、高保真试错验证,并通过南向接口配置网元和计算设备。控制平面支持通过数据标签标识来对数据进行访问控制和检索,在数据规模适中时可以采用1对1精确检索,在数据规模较大时为简化标签长度可以进行适当的结构化编码来约简标签。此外,标签不仅可以标识应用,还可以标识网络、算力时隙,进行细粒度的应用 ‒ 算力 ‒ 网络控制。为了驱动数据进行与应用需求相适配的传输,可以通过控制平面修改数据平面的数据转发逻辑,进而修改封装报文头(如SRv6、APN6报文头)对数据转发进行传输控制。此外,控制平面可在数字孪生网络中对数据转发效果进行先行验证,在验证通过后再对物理网络数据平面转发逻辑进行配置。

数算融合网络的编排层包含从用户网络业务到网络解决方案编排的流程。编排层支持多样化的数据空间网络业务模型,尤其是可以适配算力调度相关的功能,实现算力建模[5]和编排控制,保障算力顺畅分发至数据空间的算力需求方。编排层的编排目标是网络和算力的使用方匹配到相应的提供方,并提供数算融合网络解决方案(如算力提供方案、运维管控方案等)。编排模型的约束可能包括现有数据的大小、数据产生的快慢、数据传输的代价、数据分析的算力工作量预估、网络拥塞程度、网络资源可达性、网络和算力剩余量、应用的最大时延抖动等。具体编排算法应具备一定的实时性能,在实践中采用AI网络大模型是一种推荐的方案。

传统数据中心网络一般由接入层、汇聚层和核心层构建,主要包括数据中心内部的网络。数算融合网络不仅包括数据中心网络,还包括广域网、算力中心等。云计算网络和数算融合网络都包括数据中心内网络、数据中心间网络和接入网络,但数算融合网络还包括数据中心到算力中心的网络,相应的技术也有不同。例如,云计算网络一般不涉及算力路由的概念;数算融合网络拥有数据控制的标签,便于数据模型在网络设施和计算设施间使用和更新。

(二) 我国数算融合网络的发展需求

1. 产业升级需求

数算融合网络技术的大规模落地有助于提升消费者体验、促进产业升级。数算融合网络技术可以实现农业、工业、服务业朝网络化和智能化方向转型升级,推动工业数据空间(智能工厂)、物流数据空间(智慧仓库、无人包裹投递系统)、交通数据空间(智慧港口、机场)、医疗数据空间(远程诊疗)、农业数据空间(智慧农场)等的升级,形成“数算融合网络+”的产业格局,推动各行业产品质量、产品良率、服务质量大幅提升,实现产品质量升级和服务定制化转型。

2. 经济发展需求

数算融合网络通过新型确定性转发、广域无损传输等技术,可以解决网络利用效率低、高丢包率等问题,推动互联网从“尽力而为”向“确保所需”技术体系变革,满足数据传输、算力互联等典型的网络需求,尤其是在大模型领域。当前,以ChatGPT为代表的对话机器人达到接近或超越人类水平,可以完成撰写邮件、报告、代码、生成图像、视频等工作,如在AlphaCode程序竞赛中击败了45.7%的程序员。通用AI有望重塑或取代当前80%的人类工作,以微软公司为代表的优势企业抢占人工智能生成内容(AIGC)技术制高点。以文字生成、图像生成为起点,AI生成范围拓展至音频、视频等领域,将改变人们在现实世界中与技术互动和决策的方式,已在制造、交通、医疗、教育、营销和娱乐等一系列行业中进行应用。AI大模型技术快速突破,具有超大规模、超多参数量的多模态大型神经网络将持续引领AIGC技术升级与演进。

数据和算力是大模型的核心要素。基于大模型的数字经济看似是虚拟经济,但已经呈现虚实结合的态势,并在具身智能领域实现数据和实体协同发展,成为新的增长引擎。与实体经济的数据要素相结合,行业大模型对未来的经济发展至关重要。集成数据转发和算力传输的数算融合网络是面向AI大模型发展的重大机遇,可以解决数据安全、确权、价值保护等问题,亟需充分利用新型网络核心技术,构建数据要素流通基础设施,推动数字和实体经济的高质量发展。

3. 基础设施和技术需求

数算融合网络属于新型网络通信基础设施,为数据空间应用提供网络服务智能生成能力,为占领信息基础设施发展的制高点提供新的机遇。数算融合网络是通信厂商进行技术更新迭代的重要方向。数算融合网络设备是先进设备的代表,涉及5.5代移动通信(5.5G)网络、6G网络、算力网、边缘计算等新兴技术。通信设备厂商通过发展这些设备,可以紧跟技术潮流,提供更先进的网络服务,满足用户对低延迟、高通量传输等方面的需求。在快速发展的信息通信行业中,通信设备厂商若能够提供数算融合网络设备,将增强其在技术上的竞争力;通过提供更全面、先进的技术解决方案,可以吸引更多客户,取得更大的市场份额。

四、 数算融合网络的关键技术

为推动算力与AI大模型的快速发展,数算融合网络需要构建面向数据高效传输的网络技术体系,形成无损、高性能的数据与算力互联底座,建立网络智能控制编排与安全保护机制,支撑算力、数据和模型的加速演进。

(一) 端侧:面向高速互联的RDMA网卡

RDMA通过网络可以实现高速、低延迟的数据传输,允许数据在远程系统的内存、GPU和存储之间直接传输,而不涉及这些系统的CPU。在传统网络中,数据传输的过程为:将数据从源系统的内存复制到网络堆栈,通过网络发送,在接收端经过多个步骤后将其复制到目标系统的内存中[20]。然而,RDMA将绕过这些中间步骤,实现更高效的数据传输。随着AI智算中心的应用以及对高吞吐和低延迟的不断追求,将协议栈卸载到网卡硬件中的RDMA技术发展迅速,支撑着各种AI和大数据的应用。需要指出的是,目前部分商用RDMA网卡将部分连接信息存储在网卡缓存中,当网卡需要读取的信息不在缓存中时就会触发缓存丢失,然后需要读取内存,导致额外外围组件快速互连(PCIe)延迟,进而导致网卡性能下降。随着分布式集群规模的扩大,普通RDMA网卡中需要存储的连接状态增加,导致网卡扩展性问题加剧。

为此,数算融合网络需要适配400 G RDMA网卡,突破256 AI流量连接限制,在不降低吞吐量的情况下,支持10 K量级的活跃流量连接。同时,400 G RDMA网卡应支持InfiniBand[21]、以太网等协议以及高达400 Gbps的连接速度,支持各种先进、可扩展的网络解决方案,支撑AI、科学计算和超大规模云数据中心工作负载。

(二) 数据中心内:逐包负载均衡机制

数算融合网络针对智算中心网络超大带宽、超低延迟的需求,需要配备数据中心无损网络交换设备(交换机和网卡),支持新型RDMA协议、整体转发容量不低于51.2 T[20],单端口速率支持超高速端口(400 G/800 G),特别需要支持逐包负载均衡协议。

智算中心最重要的工作负载是AI应用的流量。AI工作负载可能生成少量大数据流(大象流),占用大量链路带宽。如果多个大象流汇聚到同一条链路,会出现拥塞和高延迟,导致传统的等价多路(ECMP)负载均衡机制性能降低[20];如果负载均衡是逐流完成的,则仍然有很大的统计概率会发生拥塞,而在逐包路由均衡时,数据包到达目的地时可能会乱序。对于数据包粒度的自适应路由,需采用灵活的重新排序机制,以使路由对应用程序不可见[20]

数算融合网络采用自适应路由算法来动态负载平衡穿过网络的数据,并且支持数据包级别精细路由以避免大象流冲突。数算融合网络逐包的细粒度负载均衡工作流程为:入向流量基于自适应路由选路;基于选路结果,进行逐包负载分担,拥塞链路不承载新转发流量;端侧网卡实现乱序重排(如可采用直接数据放置技术[22]进行重排)。总之,数算融合网络采用逐包的细粒度负载分担与端侧乱序报文恢复机制,通过交换机和网卡配合完成负载均衡工作过程,解决了智算中心流量不均衡导致的网络性能降低问题。

(三) 数据中心出口:广域无损传输协议及网关

无损网络数据传输确保所有数据包准确到达目的地,并且在传输过程中不会丢失,这对大规模AI系统部署至关重要。数算融合网络通过RDMA和优先级流量控制(PFC)实现无损传输。

数据中心间多为长距离互联,面对长距RDMA传输控制环路长的挑战,数算融合网络使用在数据中心互联(DCI)交换机(网关)处通过报文分别控制发生在两端数据中心拥塞的分段传输控制方法(可视作一种PFC方法),从而将控制回路缩短至单数据中心规模,并可适配不同端侧网卡,实现广域无损传输。为测试数算融合网络的广域无损传输功能,我国在南京—北京构建了跨1000 km的长距无损RDMA测试环境,使用硬件原型交换机(网关),网络吞吐量从25 G提升到96 G,验证了数算融合网络广域无损传输协议及网关的可行性[23]

(四) 数据中心间:新型确定性承载网络

数据中心间的AI数据传输要求确定性大带宽和低时延抖动等服务质量(QoS)保障。确定性承载网络可以在广域实现端到端的确定性QoS保障,为业务提供高可靠、高带宽的网络服务。QoS保障可以通过SRv6网络编程和拥塞调度实现。数算融合网络面向复杂的行业大模型业务隔离需求,通过SRv6协议承载、灵活以太网(FlexE)、确定性组网(DetNet)构建“子切片”,提供业务级差分服务和细颗粒度的确定性“片中片”网络,提供用户层次化SLA保障机制[24]。数算融合网络能够实现业务QoS到确定性网络功能的灵活定制与在线重配,解决行业数据传输的隔离问题。具体地,为实现SLA和业务对应机制,数算融合网络通过FlexE物理切片区分行业(如面向企业、家庭和消费者的垂直行业),通过DetNet“子切片”区分企业,通过QoS区分业务。

(五) 算力中心间:算力路由、在网计算和广域RDMA

在数算融合网络中,算力中心通过网络互联,关键技术包括算力路由、在网计算和广域RDMA。算力中心提供异构算力如CPU、GPU、ASIC等,以及(超级)计算设备和软件。算力路由可以实现算力节点和算力服务的路由寻址,为动态选择计算路径提供依据。在网计算将计算任务卸载至网络,实现计算加速,提升数算融合网络的资源利用率。同时,在网计算可以搭配算力中心的算力,补充其在边和端的计算能力,增强算力可达性。广域RDMA构建在确定性联网之上,可以突破长距、高通量传输瓶颈,实现算力中心在广域的高性能互联。

(六) 数据与算力中心间:“数算网”协同优化技术

数算融合网络通过结构化数据标签描述应用数据,通过算力寻址找到合适的算力,将数据、算力信息封装进IPv6(APN6、SRv6)报文头,分批、分阶段完成计算;通过优化计算路径和网络转发路径,形成“数算网”协同横向优化,从而满足数据空间应用的计算和转发需求。同时,数算融合网络还将纵向优化网络协议栈(L1.5、L2、L3等开放式系统互联模型层级),降低数据的转发时延;纵向优化计算的软件和硬件协同能力可以进一步降低计算延迟。通过横向和纵向协同,数算融合网络可在数据空间大规模数据转发和计算任务上取得优越的性能提升。

(七) 控制层:基于大模型的数字孪生网络系统

数算融合网络控制层包括数字孪生网络及其管理模块,用来构建网络服务生成功能。服务生成功能包括分析器、规划器、计算器、执行器4个模块,每个模块由微调的大语言模型赋能,模块间提示词自动或人工传递[25]。以网络规划为例,输入任务、网络状态、约束,输出可视化的网络拥塞情况拓扑。每个模块可通过大语言模型调用传统网络工具并结合工具输出、生成最终网络规划内容。

技术上,大语言模型需要在公用数据上训练,以获取通用认知,同时需要在网络文件(如IETF RFC文件、IEEE网络标准、3GPP标准)上进行微调,以保障模型对网络语言的认知和理解。此外,数字孪生网络需要构建在加速的硬件上以保障仿真和模拟的速度,因应实时网络服务生成需求。

从数据空间业务需求的角度,基于大模型的服务能力,可以将数算融合网络的控制层分成5种级别。① Level1:数算融合网络能理解用户自然语言或多模态表达的需求,但常常理解错误,经常需要网络管理员介入网络服务生成过程。② Level2:数算融合网络能理解用户自然语言或多模态表达的需求,理解准确度、覆盖度、可靠性指标较好,大部分情况不需要网络管理员介入服务生成过程。③ Level3:数算融合网络能理解用户自然语言或多模态表达的需求,理解准确度、覆盖度、可靠性指标非常高,很少需要网络管理员介入服务生成过程。④ Level4:网络服务生成过程基本自动化,在遇到特殊情况时,数算融合网络会放弃自动化过程由网络管理员接管网络。⑤ Level5:完全自动化网络服务生成过程,仅依赖用户需求输入。数算融合网络理解网络意图的能力将超过专业网络管理员,全过程无网络管理员介入,具备自纠错能力。数算融合网络将从数据驱动网络、意图驱动网络,走向智能生成网络,基于大模型和数字孪生系统,实现“网络具身智能”。

(八) 编排层:绿色低碳算力网络调度关键技术

ChatGPT每天要响应大约2×108个请求,消耗的电力超过5×105 kW·h。因此,研究和发展绿色低碳算力网络,对于减少数据中心的碳排放、提高计算效率、降低运营成本以及推动可持续发展至关重要。2023年,谷歌公司提出了可持续数据中心的设想,通过优化服务器的能效,提高处理器、内存等的能源利用率,并采用可变速风扇和智能电源管理等技术来降低功耗。数算融合网络聚焦“比特(通信网络)”和“瓦特(能源)”融合机制,突破“算网能”核心关键技术,构建能源可持续的算网能协同创新技术体系。为实现数算融合网络绿色低碳发展,紫金山实验室联合中国能源建设集团有限公司,设计了“算网能”一体化功能架构,实现了全面的算网能资源管理和优化,降低了能耗和碳排放。

(九) 安全体系:TB级分布式智驱安全技术

数算融合网络的TB级分布式智驱安全关键技术包括:全分布式架构,通过高效配置、业务无间断升级、极简运维,实现全局准确定位和协同防御;可编程数据面,可以实现高性能、微结构、功能灵活编排;实时智能AI算法,如多级决策、实时数据在线训练、持续演进。数算融合网络将防御分布部署在智驱安全架构的多个数据平面上,实现高性能10 TB级分布式拒绝服务(DDoS)安全防护、中心节点对全网安全状态统一研判部署、本地节点独立即时响应决策。目前,我国数算融合网络安全系统在北京、南京、上海、广州、武汉、成都、西安等7个城市率先部署,依托未来网络试验设施(CENI)开展DDoS安全防护、流量清洗等创新试验,验证了分布式安全关键技术的可行性。

五、 数算融合网络应用场景

(一) “东数西算”八大枢纽互联

数算融合网络可以构建抗攻击能力强、传输效率高、可定制成本低的算力网络新总线,为“东数西算”重大工程的整体安全、可靠、高效运行提供有力支撑。如图3所示,通过构建数算融合网络,互联“东数西算”八大算力枢纽,支持平滑演进至256 T,具备多路径保护;结合长距RDMA技术,数算融合网络从数据传输源头提供确定性传输保障,并大幅度提升同等带宽下的吞吐能力;推动国家大科学装置CENI的性能大幅提升;在八大枢纽之间开展市场化服务,为各类市场主体实现“东数西算”提供进一步网络支撑。

(二) 庆阳城市算力网应用

城市算力网可以丰富算力的供给、应用和服务方式,显著提升算网服务的灵活性和高效性。甘肃省庆阳市依托数算融合网络技术,构建了确定性算力网络。① 东输:基于CENI的资源,建设了庆阳市到东部10个算力需求城市的100 G通道,并辐射周边城市,重点服务京津冀、长江三角洲(长三角)、粤港澳大湾区等区域的算力需求。② 西联:连接兰州市,覆盖甘肃省,服务西部产业集聚和“一带一路”沿线地区。通过城市算力网,打造跨区域算力市场运营新模式,以庆阳市为“算力供给站”、南京市为“算力使用站”共同发展算力网产业;以南京市为中心辐射长三角地区,构建“能源 ‒ 算力 ‒ 市场”产业体系。城市算力网可以促进算力的统一供给、智能匹配、按需接入,是推动城市数字化转型的“新底座”。

(三) 服务工业互联网(工业外网)

数算融合网络的一个重要应用场景是服务工业外网(见图4)。我国依托数算融合网络(基于CENI构建)技术,建设了智能、柔性、安全、可定制的长三角一体化网络,满足江苏省、国家工业互联网、能源互联网、专用场景、车联网等重大科研试验与产业示范应用需求,实现了核心技术创新引领与实体经济深度融合,并赋能垂直行业。除此之外,依托数算融合网络技术,构建了山东临工工程机械有限公司(简称山东临工) ‒ 产业链协同云平台。以确定性一体化算网为底座,以山东临工为链主、打通工程机械行业上下游企业数据链条,实现了跨企业数据协同,带动了包括供需、生产、库存、物流、财务等全产业协同发展。该云平台已经支持了1279家工程机械产业链上下游企业生产、业务、设备接入;推动工程机械产品的商业化周期缩短了15%,核心产品质量提升超15%。

(四) 能源互联网——服务国家“双碳”战略

我国依托数算融合网络,构建能源互联网,在山东省济南市建设省、市、县、园区、用能单位的5级管理综合能源服务平台和能源大数据中心。基于确定性网络的能源大数据中心实现了电力系统能源数据秒级监测,通过优化基本电费申报方式,参与实施的7家企业降低基本电费支出10%以上。运用能源大数据中心的数据分析功能,可以发现用能环节存在的问题,帮助企业提高用能效能,降低用能成本,协助政府和企业实现低碳发展目标。目前,能源互联网服务的政府和企业客户超过700家,业务覆盖23个省份,积极推进国家碳达峰与碳中和战略。

(五) 数算融合网络行业大模型应用

行业大模型的重要性日益突出,可以更好地满足特定行业对精度、专业性、合规性等方面的要求,在提升行业效率的同时,还能创造更多的商业价值。例如,教育行业大模型能够根据学生的学习进度、兴趣和弱点,生成个性化的学习内容,并调整教学策略;健康管理行业大模型能够分析患者的医疗数据,评估潜在健康风险,给出医疗参考建议;智能制造行业大模型能够预测设备的故障风险、优化生产线调度等。行业大模型训练和推理是数算融合网络的重要应用场景,通过构建跨广域算网、集成云和边缘算力,数算融合网络能够支持超大规模智算集群高可靠、确定性通信,实现大模型并行训练和推理,推进行业大模型高质量发展。数算融合网络支撑的行业大模型技术能够显著提升生产效率。例如,依托数算融合网络构建的制造业行业大模型能够实现某家电企业产线检测平均精度提升10%,产线投产时间降低30%。

六、 我国数算融合网络发展面临的问题和挑战

(一) 数算融合网络技术待强化

目前,我国数算融合网络的技术体系尚未完全形成。AI、隐私保护等关键技术创新应用有待加强;数据流通、识别在数算融合网络的整合与集成仍显不足,数算融合网络的可扩展性有待加强。大模型在数算融合网络中的深度集成,如智能化运维、配置、服务等方面,尚有发展空间。特别地,隐私保护技术是数据在数据空间流动的基础。我国相关行业数据全面,但出于数据隐私的顾虑,大量有价值的数据未能在数据空间中发挥作用。例如,直接使用公开的网络,可能会将设备或软件解决方案传送至服务提供方,造成重要数据泄露,侵害数据隐私权,因而亟需解决行业发展中的数据隐私问题。

(二) 数算融合网络标准体系待制定

数算融合网络标准化工作对数据空间发展尤为关键,仍需进一步优化以应对数据空间应用多样化的网络需求。数算融合网络引入了网络大模型、确定性转发技术、数字孪生技术等,但现有的网络标准对相应技术的适应性不足,不能充分满足需求。新技术带来了更高的智能水平、更低的延迟要求、端到端的人、机、物设备连接,亟需制定新的标准来确保网络的可靠性和效率。

(三) 数算融合网络产业机制待发展

我国已初步形成全周期的数据产业链,但跨行业、跨区域的数据空间流通仍存在阻碍;数算融合网络作为数据空间的网络支撑,与数据空间的产业协同发展机制有待加强,需要构建符合国情的数算融合网络和数据空间交易市场,以促进数据要素价值释放。例如,在智慧城市和跨城市数据空间中通过数算融合网络,可以智能实时分析交通流量、空气质量、能源消耗等数据,进行动态决策,优化城市运营效率,但目前相关产业的发展有待进一步加强。

(四) 单点算力差距待弥补

受制于先进芯片制程成熟程度不足等因素,我国的单点算力发展程度尚不能达到国际先进水平。单点算力不足体现在单一芯片的计算能力和多颗芯片高速互联后形成的新的单一芯片的计算能力等方面。此外,单点算力不足还将导致(边缘)算力中心、接入设备、在网计算能力不足,不能满足高质量应用的需求。例如,自动驾驶、虚拟(增强)现实和人形机器人等应用,都对网络计算资源有较高要求。如果算力不足,网络切片无法及时响应各应用的动态需求,可能导致服务出现性能瓶颈甚至服务中断。

七、 我国数算融合网络发展建议

(一) 构建支撑行业大模型高质量发展的公用专网

大模型是一种生产力变革新范式,能够为产业生态带来新布局,也是社会发展的新拐点。由于发展诉求、政策环境、发展阶段、区域文化、区域人口、产业结构、地理资源不同,我国发展区域定制化大模型需要跨广域算网融合。建议进一步发展制造、交通、能源、应急、国防等智能化的公用专网。智能化的公用专网是我国“东数西算”的重要基础设施,能提供成千上万个不同专网服务的网络,行业、企业、用户可获得快捷、经济安全的上网服务,同时为定制化大模型提供专网服务。特别地,在数算融合网络的数据专网中,应采用数据加密访问控制、身份验证、数据匿名化脱敏、审计监控、网络隧道和切片控制、路由策略等方法,实现安全可靠的传输数据,解决数据隐私问题,提升数据空间中流通的行业数据集质量。

(二) 推动数算融合网络科学装置建设,服务国家科学发展

面对国家数字经济的发展要求,数算融合网络重点解决颠覆式应用发展与未来产业发展的赋能问题,在核心技术、设施规模、服务能力等方面实现全面提升。数算融合网络先期基于CENI科学装置构建,CENI一期工程(2018—2024年)覆盖40个城市,包含133个边缘网络;具备分钟级按需定制网络服务、微秒级确定性保障服务、千万级大规模多云交换服务、TB级智驱网络安全防护四大能力。CENI一期工程已经具备部分数算融合网络的功能,如算力枢纽互联、确定性承载、基于网络大模型的网络方案设计等。但是尚有较多内容需要探索和补充,如需要更多融合算力路由、在网计算、确定性联网等的工具;需要进行更加一体化的技术突破、实验验证和工程实现。

建议持续推进数算融合网络科学装置的建设,提高空天域、信息域、物理域等的覆盖能力,如EB级超高通量吞吐能力、TB级深度可编程转发能力、零丢包确定性无损传输能力、毫秒级网络自动驾驶能力、千亿级算网一体调度能力。进一步推动数算融合网络科学装置建设,一方面验证网络技术的可行性和效率;另一方面服务于垂直科学领域的发展,如服务核聚变系统的研发、新能源设备的互联测试、先进数据交易系统的验证等。

(三) 依托数算融合网络,推动数据空间成果落地

数算融合网络发展的基础能力包括超核800 G光网络、全可编程确定性基础设施、智能边缘算力节点、高精度测量系统、轻量安全控制系统、网络大模型、全域科学计算服务。建议基于数算融合网络,实现国家实验室、国家大科学装置、超算中心互联,集成科研环境,实现无缝互操作,支撑AI模型跨广域训练、天文数据协同计算、风力发电、地震预测等科研与应用,服务国家重大战略。依托数算融合网络,构建高质量产业生态和开源软件体系,制定相关基础设施、技术和应用标准,统筹远期规划和近期发展;在切合国家重大政策的同时,推动数据空间成果转化和落地,形成数算融合网络和数据空间应用互促共荣的产业发展机制,服务目标为满足千亿级AI大模型、EB级数据传输和实时计算需求。

(四) 开展大规模算力协作,突破单点算力不足瓶颈

先进AI模型的发展依赖大规模数据在计算设施中的重复迭代训练,而高算力可以极大加速这一训练过程,提高模型部署效率。我国数算融合网络的单点算力性能与世界最先进水平相比仍有差距,亟需突破先进制程不足的技术瓶颈和通过算力协同应对高端芯片与制程产能不足的问题。建议通过算力组网,协同计算、网络、存储和系统,构建高性能算力底座,实现超大规模集群万卡协作,突破单点算力瓶颈,加速AI大模型训练和部署。同时,依托数算融合网络构建广域无损确定性传输系统,实现算力和数据在局域和广域环境高效互联,进一步强化数算融合网络的算力协作能力。

参考文献

[1]

于施洋, 程学旗, 郭明军, 等‍‍. 数据空间发展战略蓝皮书 [R]‍. 北京: "国家数据空间发展战略研究"项目组, 2024‍.

[2]

Yu S Y, Cheng X Q, Guo M J, et al‍. Development strategic bluebook of data space [R]‍. Beijing: "National Data Space Development Strategy Research" Project Team, 2024‍.

[3]

Reiberg A, Niebel C, Kraemer P‍. What is a data space? [R]‍. Munich: Gaia-X Hub Germany, 2022‍.

[4]

Gupta A, Savarese S, Ganguli S, et al‍. Embodied intelligence via learning and evolution [J]‍. Nature Communications, 2021, 12(1): 5721‍.

[5]

中国信息通信研究院‍. 数据要素白皮书(2023年) [R]‍. 北京: 中国信息通信研究院, 2023‍.

[6]

China academy of Information and Communications Technology‍. data elements white paper (2023) [R]‍. Beijing: China Academy of Information and Communications Technology, 2023‍.

[7]

ITU Telecommunication Standardization Sector‍. Computing power network—Framework and architecture: Recommendation ITU-T Y‍.2501—2021 [S]‍. Switzerland: ITU, 2021: 1‒9‍.

[8]

刘韵洁, 黄韬, 汪硕‍. 关于未来网络技术体系创新的思考 [J]‍. 中国科学院院刊, 2022, 37(1): 38‒45‍.

[9]

Liu Y J, Huang T, Wang S‍. Thoughts on innovation of future network architecture [J]‍. Bulletin of Chinese Academy of Sciences, 2022, 37(1): 38‒45‍.

[10]

Otto B‍. A federated infrastructure for European data spaces [J]‍. Communications of the ACM, 2022, 65(4): 44‒45‍.

[11]

工业互联网产业联盟, 中国信息通信研究院. 可信工业数据空间系统架构1‍.0 [R]‍. 北京: 工业互联网产业联盟, 2022‍.

[12]

Alliance of Industrial Internet, China Academy of Information and Communications Technology‍. Trusted industrial data space system architecture 1‍.0 [R]‍. Beijing: Alliance of Industrial Internet, 2022‍.

[13]

Crichigno J, Bou-Harb E, Ghani N‍. A comprehensive tutorial on science DMZ [J]‍. IEEE Communications Surveys & Tutorials, 2019, 21(2): 2041‒2078‍.

[14]

Finn N, Thubert P, Varga B, et al‍. Deterministic networking architecture: RFC 8655—2019 [S]‍. Wilmington: Internet Engineering Task Force (IETF), 2019: 1‒38‍.

[15]

Michel O, Bifulco R, Rétvári G, et al‍. The programmable data plane: Abstractions, architectures, algorithms, and applications [J]‍. ACM Computing Surveys, 2021, 54(4): 1‒36‍.

[16]

Kianpisheh S, Taleb T‍. A survey on in-network computing: Programmable data plane and technology specific applications [J]‍. IEEE Communications Surveys & Tutorials, 2023, 25(1): 701‒761‍.

[17]

汪庆, 李俊儒, 舒继武‍. 在网存储系统研究综述 [J]‍. 计算机研究与发展, 2023, 60(11): 2681‒2695‍.

[18]

Wang Q, Li J R, Shu J W‍. Survey on in-network storage systems [J]‍. Journal of Computer Research and Development, 2023, 60(11): 2681‒2695‍.

[19]

European Commission‍. European data strategy [EB/OL]‍. [2024-09-20]‍. https://commission‍.europa‍.eu/strategy-and-policy/priorities-2019-2024/europe-fit-digital-age/european-data-strategy_en‍.

[20]

Office of Management and Budget, the CDO Council, and the General Services Administration‍. Federal data strategy [EB/OL]‍. [2024-09-20]‍. https://strategy‍.data‍.gov/overview/‍.

[21]

European Association for Data and Cloud AISBL‍. Gaia-X [EB/OL]‍. [2024-09-20]‍. https://gaia-x‍.eu/wp-content/uploads/2024/01/Gaia-X-Brochure_2024_Online_Spread‍.pdf‍.

[22]

Powell B‍. Accelerating world changing research collaborations, 2022 annual report [R]‍. Washington DC: Office of Science of U‍.S‍. Department of Energy, 2023‍.

[23]

国家数据局. "数据要素×"三年行动计划(2024—2026年) [EB/OL]‍. (2024-01-04)[2024-09-20]‍. https://www‍.ndrc‍.gov‍.cn/hdjl/yjzq/202312/P020231215685140119139‍.pdf‍.

[24]

National Data Bureau. "Data Elements ×" three-year action plan (2024—2026) [EB/OL]‍. (2024-01-04)‍[2024-09-20]‍. https://www‍.ndrc‍.gov‍.cn/hdjl/yjzq/202312/P020231215685140119139‍.pdf‍.

[25]

中华人民共和国工业和信息化部‍. 关于推动未来产业创新发展的实施意见 [EB/OL]‍. (2024-01-31)[2024-09-01]‍. https://zwgk‍.mct‍.gov‍.cn/zfxxgkml/kjjy/202401/t20240131_951102‍.html‍.

[26]

Ministry of Industry and Information Technology of the People's Republic of China. Implementation opinions on promoting future industrial innovation and development [EB/OL]‍. (2024-01-31)[2024-09-01]‍. https://zwgk‍.mct‍.gov‍.cn/zfxxgkml/kjjy/202401/t20240131_951102‍.html‍.

[27]

NVIDIA‍. Networking for the era of AI: The network defines the data center [R]‍. Santa Clara: Nvidia, 2024‍.

[28]

Grun P‍. Introduction to InfiniBand for end users [R]‍. Beaverton: InfiniBand Trade Association, 2010‍.

[29]

Nvidia‍. NVIDIA Spectrum-X network platform architecture [R]‍. Santa Clara: Nvidia, 2023‍.

[30]

Wan Z R, Zhang J, Yu M X, et al‍. BiCC: Bilateral congestion control in cross-datacenter RDMA networks [C]‍. Vancouver: IEEE INFOCOM 2024—IEEE Conference on Computer Communications, 2024‍.

[31]

黄韬, 汪硕, 黄玉栋, 等‍. 确定性网络研究综述 [J]‍. 通信学报, 2019, 40(6): 160‒176‍.

[32]

Huang T, Wang S, Huang Y D, et al‍. Survey of the deterministic network [J]‍. Journal on Communications, 2019, 40(6): 160‒176‍.

[33]

Huang Y D, Xu M R, Zhang X Y, et al‍. AI-generated network design: A diffusion model-based learning approach [J]‍. IEEE Network, 2024, 38(3): 202‒209‍.

基金资助

中国工程院咨询项目“国家数据空间发展路径与技术体系研究”(2024-XBZD-05)

“国家数据空间发展战略研究”(2023-XBZD-16)

AI Summary AI Mindmap
PDF (1565KB)

10264

访问

0

被引

详细

导航
相关文章

AI思维导图

/