作者简介
雷波
中国电信股份有限公司研究院网络技术研究所副所长,正高级工程师,长期从事云网融合、算力网络、未来网络技术等领域的研究工作。
马小婷
中国电信股份有限公司研究院网络技术研究所工程师,博士,主要研究方向为未来网络、算力网络等。
李聪
中国电信股份有限公司研究院网络技术研究所工程师,从事IP网络相关标准化工作,主要研究方向为未来网络架构、下一代互联网关键技术、物联网技术等领域的研究工作。
唐静
中国电信股份有限公司研究院网络技术研究所工程师,长期从事未来网络、边缘计算、算力网络、确定性网络等方向的研究,以及ITU-T、CCSA等标准化制定等工作 。
周舸帆
中国电信股份有限公司研究院网络技术研究所工程师,主要研究方向为算力网络、算力标识与未来网络技术等。
论文引用格式:
雷波, 马小婷, 李聪, 等. 云网融合中的网络基础设施演进探讨[J]. 信息通信技术与政策, 2022,48(11):8-17.
∗基金项目:国家重点研发计划专项项目(No.2020YFB1804605)
云网融合中的网络基础设施演进探讨*
雷波 马小婷 李聪 唐静 周舸帆
(中国电信股份有限公司研究院网络技术研究所,北京 102209)
摘要:以“网是基础、云为核心、网随云动、云网一体”为发展原则的云网融合数字信息基础设施,成为数字经济时代发展的坚实底座。从现有网络技术发展演进与基础设施融合创新动向出发,探究云网一体化发展中网络基础设施面临的挑战,并提出一种具有固移融合、算网融合和云光融合特征的新型超融合组网方案。该方案以云为纽带,实现园区、入云、云内与云间四部分的网络连通,为推动云网融合一体化发展提供了思路。同时,方案的各部分彼此独立,弹性伸缩适配业务需求,并自然适应未来新型业务复杂不确定性演进。
关键词:云网融合;固移融合;算网融合;云光融合
0 引言
随着数字产业化与产业数字化进程的提速升级,新型数字基础设施已经成为推动智能化数字中国建设、数字经济高质量发展的重要基石。云网融合作为新型基础设施的本质特征,代表了信息通信技术自主创新的重要发展方向,推动着社会数字化向更高层次、更广范围、更深程度扩展。《“十四五”数字经济发展规划》明确指出,要推动云网协同和算网融合发展,加快构建以算力、算法、数据等多维资源协同为核心的全国一体化数据中心体系。同时,“东数西算”重大工程建设全面启动,也标志着国家层面对云网融合的认可和推动。本文从算与网的协同发展历程出发,探讨云网融合下网络基础设施的发展方向,并通过相关技术的分析,提出一种具有固移融合、算网融合、云光融合特性的新型组网方案。所提方案以云为核心,进行园区、入云、云内、云间四部分组网方案设计,四部分既可彼此独立发展也能按需灵活组合,适配多样化业务服务需求。
1 算力时代云网融合发展需求
1.1 以网强算构建算力供给新模式
在全社会数字化与智能化的算力时代中,大数据、人工智能、物联网、区块链等关键技术的应用带来了全球数据的爆发式增长,同时也成为算力需求攀升的核心驱动力。根据分析[1],人工智能对算力资源的需求正以每3.5个月翻一倍的速度增长;物联网行业对算力的拉动效应也十分显著,预计到 2025 年,全球物联网设备将超400 亿台,数据量将达到80 ZB,算力将达到3 300 EFLOPS。然而,随着摩尔定律的失效,单点算力计算性能的增长显然难以满足算力需求的指数级攀升,如何解决热点区域算力资源供需失衡的问题是算力发展面临的痛点之一。
(1)数量堆叠,增加算力密度
通过芯片工艺升级或芯片数量堆叠等方式不断增强单台设备的计算能力,同时尽可能部署更多服务器,增加区域算力密度。以建立超级算力节点的方式,提升热点区域的算力能力,势必会产生巨大的成本开销。当区域算力需求下降时,算力资源将会闲置。因此,单独规划建设算力,资源利用率极低。
(2)易地而建,减低运营成本
算力服务器根据建设成本易地而建,并利用网络强大的连接能力实现数据与资源的有效拉通,降低运营成本。以东数西算工程为例,与东部地区比,西部地区在能源、气候、建设运营成本上的优势明显,通过网络连通东部的海量数据与西部的计算资源,在保障充足算力供给的同时进一步降低算力资源的使用成本。
(3)化整为零,提高算力效率
借助网络的强大连通能力将泛在算力资源汇聚成算力网络,并通过网调云、云调网技术路线,基于用户需求实时动态分配算力资源,满足多样性业务差异性服务需求。利用网络汇聚云边端泛在算力,通过通信、计算等多维资源联合优化编排提升算力利用率,推动算力资源普惠性发展。
现阶段仅依靠工艺升级或数量堆积的方式暴力解决热点区域供需矛盾,将加剧快速增加的业务需求与算力基础设施的建设成本间的矛盾。以网强算,利用无处不在的网络连通分布式算力节点,通过集中调度分散的算力资源,提升算力资源利用率。然而,要实现算力服务像水电一样的普惠性发展,就要求网络不断增强传输处理能力,以保障数据跑得更快、更远。
1.2 以算促网开启网络发展新里程
从发展历程上看,计算技术与网络技术的进步总是相辅相成,二者的互补融合持续推动信息技术的发展。在传统封闭式网络中,网络庞杂、设备功能单一、通用性不足、设备更新维护成本过高,难以适配业务发展趋势。在通信网中,创新地引入云化技术,在使网络更加灵活的同时,也激发了新型云化网元设备的发展。以SDN/NFV技术为例,SDN基于控制面、转发面分离,利用集中控制器实现底层硬件的可编程化控制,摆脱硬件对网络架构的限制。正是由于算力的不断增强,控制面才有能力以集中方式管控整个网络,进而通过开放接口打破传统网络“烟囱式”服务架构,实现网络对用户服务的快速响应。NFV通过软硬件解耦,进行软件功能化与模块化,并以通用服务器代替专用封闭的网元设备,使得网元软件功能摆脱了对特定昂贵硬件的依赖,在不影响网络性能的同时极大降低建网成本。同时,基于虚拟化技术,NFV通过硬件资源池可以弹性伸缩适配业务需求,显著提升硬件利用率,提升网络部署的灵活性。
计算技术的进步将持续不断地为网络技术创新发展注入新动能。随着大数据、人工智能、数据中心、区块链等新技术的快速发展,以及工业互联网、自动驾驶、元宇宙等新型应用的不断涌现,网络不仅需要承载更高的下行与上行流量、更多样的业务,更需要通过更深层次的云化技术突破单纯的连接功能,为新兴业务提供差异性、确定性的一体化服务。
1.3 云网融合下网络基础设施创新发展
从信息技术发展的视角来看,云网融合已经成为算力时代信息基础设施自主创新的重要方向。在网络与计算技术的联合推动下,云网融合经历了从1.0阶段的云网协同,到2.0阶段的网随云动,以及正在步入集成数据中心、网、算力、云、大数据、AI、安全、绿色多种要素的3.0云网一体全新阶段。在云网融合3.0阶段,网络基础设施需要进一步向智能化、综合化方向发展,为多样性业务提供敏捷智能、安全高效、绿色低碳的一体化资源供给[2],并自适应未来复杂不确定性新业务。具体而言,网络基础设施应满足但不限于以下需求。
(1)终端灵活安全接入:随着新业务种类的增加,多样性接入方式进一步加剧了网络冗杂程度。网络基础设施亟需打通多种接入模式间的壁垒,为泛在终端提供无地址约束、敏捷高效、安全可信的接入服务。
(2)业务按需灵活入云:随着各类应用服务上云进程的加快,网络需要根据业务需求提供差异化云网资源配置,并按需选择最优入云路径,提供端到端差异化确定性承载服务。例如,与云监工、订餐等娱乐性服务业务相比,远程医疗、远程教育等时延敏感性业务要求网络提供更低时延的确定性承载。
(3)数据中心高效转发:网络带宽的不断增长导致海量数据转发将占用大量的CPU算力资源,这严重制约了数据中心网络的转发能力。网络亟需通过算力资源合理管理,提升数据转发能力,带动数据中心降本增效。
(4)云间可靠高效互联:随着云计算产业的发展与成熟,以云间互联为目的的网络部署需求与日俱增。在云网融合的大背景下,网络需要为云间网络提供无损确定性传输。
2 云网融合下网络基础设施关键技术发展
云网融合的实现涉及众多新兴网络技术演进和前沿技术创新,本章节基于当前热点网络技术发展分析云网融合下承载网的统一运营、确定传输和资源一体编排的实现,进一步探讨新型网络基础设施融合新动向,并基于网络关键技术分析,提出了一种以云为核心的超融合组网方案。
2.1 当前热点网络技术发展
云网融合的实现离不开现有网络技术的不断演进与发展,其中包括基于IPv6承载技术进行云网统一承载,实现跨网智能开通与运维;基于确定性网络技术提供云网融合下接入网、局域网、数据中心网络、广域网以及网络端到端的确定性保障;基于算力网络技术进行云网端多维资源统一管控与调度,自下而上开展资源融合调度,彻底打破云网边界等。
2.1.1 IPv6承载技术
IPv6不仅可以缓解IPv4协议地址紧缺的问题,而且为云网融合的全面连接、高可靠性提供广阔的网络技术创新空间[3]。IPv6承载技术主要包含IPv6单栈相关技术和以SRv6为代表的IPv6协议增强创新技术。随着IPv6在全球的规模部署,互联网从双栈逐步向IPv6单栈演进的趋势日益明显[4]。IPv6单栈技术包括但不限于适用于移动网络的464XLAT技术[5]以及适用于多域互联网络的IPv6-only Underlay Network[6],以上技术可以在不同场景下实现在网络边缘对于IPv4业务进行接入和承载。构建IPv6单栈网络不仅可以满足云计算、物联网和工业互联网等海量编址需求,同时简化网络协议层次、简化网络运维,并且支持基于IPv6地址的人和物的标识管理能力,有利于身份溯源与安全管理。
IPv6协议增强型技术包括SRv6技术、APN6应用感知技术、iFIT技术、BIERv6技术等。SRv6技术简化了复杂的网络协议,可将业务意图翻译成网元可执行的转发和处理指令,助力灵活端到端连接的建立。APN6利用IPv6数据报文扩展头携带相关应用感知信息,使得网络感知到业务信息,便于提供差异化SLA服务。iFIT技术将OAM指令携带在IPv6扩展报头中,进行网络性能的高精度实时检测。BIERv6技术利用IPv6特性的新型组播技术,简化网络部署并且具有良好的可扩展性。IPv6承载技术能够有效简化网络并提升网络广连接、自动化、安全性等,是构建云网融合中的网络基础设施必不可少的新技术。
2.1.2 确定性网络技术
确定性网络技术是构建下一代网络基础设施体系、提升数据传输服务质量的关键技术之一,可面向工业互联网、车联网等对网络时延抖动、可靠性要求极高的垂直行业,提供确定性的网络质量保障技术。确定性网络技术需求广泛,涵盖局域网、数据中心网络和广域网,以及网络端到端的确定性。
确定性网络技术的来源主要是由于终端接入的不确定性,以及网络本身的局限性。所谓终端接入的不确定性,是指用户可随时随地,通过不同的终端灵活接入网络。例如,用户可使用手机终端通过4G/5G等移动方式接入互联网,也可使用宽带、Wi-Fi等在家中上网。终端接入的位置、方式不同,导致网络边缘侧无法提供“确定性”的网络QoS指标,进而无法实现端到端的SLA保障;其次,网络本身的局限性也难以保证确定性的传输质量,比如移动网络的空口侧传输极易受到环境的影响,传统IP网络在出现高并发、大流量的场景时将导致网络拥塞和高时延、高抖动。确定性网络技术是一套涵盖了流量整形、队列调度、时钟同步等多维技术的集合,共同保障网络的确定性,其主要包含带宽确定性、路径确定性与时延确定性三个层面[7]。三种确定性指标相互依存,通过确定性网络技术构建一张各类参数(带宽、时延、抖动等)均在确定性范围内的可靠网络,为各行各业的升级创新提供基础。
2.1.3 算力网络技术
算力网络技术作为实现云网端统一管控的新型网络架构,也是云网融合战略体系中的一种关键技术。算力网络以网络为平台,通过网络控制面(包含集中式控制器、分布式路由协议等)收集和分发服务节点的算力、存储、算法等资源信息,并结合网络信息和上层应用(如工业互联网)需求,提供最佳的计算、存储、网络等资源的分发、关联、交易与调配,从而实现整网资源的最优化配置和使用。算力网络技术可以自下而上展开资源融合,彻底打破云网边界,真正实现云网一体。
算力网络技术首先需要通过解决算力与网络资源的整合,实现多维资源的联合编排。各大运营商、通信类厂商都在针对算力度量、算力标识、算力感知、算力路由等技术开展研究,希望通过抽象整合基础设施层的各类资源,为用户的上层应用提供保障。其次,抽象后的资源如何为用户提供算力服务,是提升算力网络服务便捷性的关键一环。通过构建以用户需求为核心的算力网络交易平台,解析各类应用对算力的需求并为其匹配最佳资源方案,形成统一的资源供给机制。最后,为了满足服务普惠性需求,算力网络技术在实际部署层面,主要有集中式部署、分布式部署和混合式部署三种方案。集中式部署方案基于编排管理平台集中收录资源信息,并根据用户选择建立用户与计算节点间的连接;分布式部署方案借助IP路由协议进行资源信息的收集与分发,用户通过查找资源信息表选择适合的计算节点;混合式部署方案采用分布式资源信息收集、集中式资源交易调度,满足用户需求[8]。
2.2 新型网络基础设施融合动向探讨
云网一体化的实现不仅需要网络技术不断演进,更需要重视基础设施中前瞻技术发展。以下基于网络中算力与通信的融合发展,重点从网中有算、算中有网、DPU智能网卡三个方向探讨新型网络基础设施进一步融合动向。
2.2.1 网中有算
网中有算是指数据在网络传输的同时,利用网卡、交换机、信道等网络元素进行数据处理,有效减少数据传输再处理产生的时延,例如在网计算、空中计算等技术。网络中交换机、智能网卡等设备拥有流处理核心,可以作为执行部分计算任务的平台。将深度学习等人工智能模型卸载到智能网卡中[9],数据在智能网卡中传输的同时完成计算与处理。同时,在网计算还被证明可以在共识协议、在网缓存等多种场景下提升通信系统性能[10]。空中计算利用信道的叠加特性和节点的并发传输,直接在空中对来自不同用户的数据进行快速计算,实现通信计算一体化[11]。此外,空中计算与分布式架构的联邦学习结合,在通信时完成全局参数汇聚可增强数据隐私安全性;与深度学习等算法结合,设计适用于人工智能的框架,更好服务于与机器学习相关的上层应用。
2.2.2 算中有网
算中有网是云网融合发展的另外一个理念,通过网络实现异构分布式资源或设备的统一管控与调度,从而提供标准统一、高效便捷、安全可靠的服务。分布式解耦机框技术(Distributed Disaggregated Chassis,DDC)深度解耦服务器设备、云化管控平面,并基于转发资源池思想构建网络云模型,借助网络互联运行远端服务器或数据平面的容器,优化资源使用方式,实现资源的按需使用与弹性伸缩[12]。算中有网技术实现了基于体系结构的解耦与云化,使得解耦后的设备通过网络灵活弹性运行远端资源或服务功能,从软硬件维度上全面突破单个机框资源限制。
2.2.3 数据处理单元智能网卡
传统以计算存储分离为主要特征的计算机,在运行人工智能等大数据训练任务时,需要进行频繁的数据读取、计算、存储,产生巨大的“数据中心税”开销。随着人工智能技术的不断发展,CPU产生的性能损耗、算力开销、功率损耗以及性能提升带来的成本不断上升,甚至超过了其承受范围,成为限制先进算法探索的重要因素。数据处理单元(Data Process Unit,DPU)以软件定义技术、虚拟化技术为支撑,卸载了CPU中的网络、存储、管理等平台软件,解放了更高成本的主机CPU算力。以DPU为中心的智能网卡具有节能减排、提升效率,且节省空间的优势,成为了云网融合中未来基础设施新设备的重点突破方向之一。
2.3 新型超融合组网方案设计
随着网络技术的不断演进与新兴技术的革新,云网融合下网络基础设施的创新升级可以从接入网、入云网、云内网、云间网四部分进行开展。通过对网络关键技术与基础设施融合动向的探讨,提出一种以云为核心的新型超融合组网方案(见图1)。
本文刊于《信息通信技术与政策》2022年 第11期
主办:中国信息通信研究院
《信息通信技术与政策》是工业和信息化部主管、中国信息通信研究院主办的专业学术期刊。本刊定位于“信息通信技术前沿的风向标,信息社会政策探究的思想库”,聚焦信息通信领域技术趋势、公共政策、国家/产业/企业战略,发布前沿研究成果、焦点问题分析、热点政策解读等,推动5G、工业互联网、数字经济、人工智能、区块链、大数据、云计算等技术产业的创新与发展,引导国家技术战略选择与产业政策制定,搭建产、学、研、用的高端学术交流平台。
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊官方网站已正式投入运行,欢迎投稿!
推荐阅读
张宏科院士等:对云网融合的几点思考
《信息通信技术与政策》2022年 第11期目次
你“在看”我吗?
还没有评论,来说两句吧...