网络流量的爆炸式增长和应用场景的多样化,使传统的"采样-传输-分析"模式难以满足实时性和准确性的双重要求。智能数据平面技术将机器学习模型直接部署在网络转发设备中,实现了微秒级延迟、Tbps级吞吐的流量分析。本文梳理了清华大学徐恪教授,李琦老师和刘卓涛老师从NetBeacon到FENIX的系列研究工作,展现了智能数据平面技术如何从决策树演进到深度神经网络,从单一硬件突破到异构协同,逐步解决准确率、延迟和吞吐量之间的"铁三角"约束。
01
研究背景与挑战
1.1 为什么需要智能数据平面?
随着网络流量规模的日益增长,传统网络监控方法采用"采样-传输-分析"模式,将流量镜像到控制平面或专用设备进行处理,这种方式存在明显的局限性:
响应延迟大:从数据平面采样、传输到控制平面、完成分析再下发策略,整个过程通常需要数十毫秒甚至数秒,难以满足DDoS攻击防御等实时场景的要求。
处理能力受限:随着400G、800G网络接口的部署,将全部流量镜像到控制平面已不现实。带宽消耗和计算开销的增长迫使系统采用激进的采样策略,导致信息丢失。
扩展性不足:大规模数据中心可能包含数万台服务器和数千台交换机,集中式的流量分析架构难以应对这样的规模。
可编程网络技术的发展为解决这些问题提供了新思路。P4语言和可编程交换机ASIC允许用户自定义数据包处理逻辑,使得在数据平面直接进行线速(Tbps级)、低延迟(微秒级)的分析成为可能。
1. 2 核心技术与挑战
将机器学习算法部署到交换机数据平面需要解决"准确率-延迟-吞吐量"之间的约束关系:
硬件资源约束:可编程交换机采用PISA(Protocol Independent Switch Architecture)架构,其SRAM容量通常在数十MB量级,远小于通用服务器;ALU数量和流水线级数也受到严格限制,复杂的深度学习模型难以直接部署。
计算模型限制:交换机的Match-Action流水线架构主要为包转发设计,不支持循环、递归等控制流,也缺乏浮点运算单元,传统深度学习框架中的许多操作无法直接映射到交换机硬件。
性能与精度的平衡:高精度的机器学习模型通常需要大量参数和复杂计算,而数据平面必须在纳秒级别完成每个数据包的处理。如何在极端资源约束下保持模型的判别能力,是一个基本问题。
状态管理:流量分析需要跟踪连接状态、统计历史特征,但交换机的状态存储能力有限。如何在数百万并发流中有效维护必要的状态信息,同时避免内存耗尽,是工程实现的难点。
02
技术演进:从流分析到异构硬件协同
近年来,清华大学徐恪教授,李琦老师和刘卓涛老师围绕“智能数据面”展开了一系列连续工作,推动可编程交换机在流量分析上的能力不断延展:NetBeacon利用流级特征提升分析准确性,Brain-on-Switch在数据面上引入神经网络增强表达能力,Pegasus进一步构建通用深度学习框架以支持更多模型结构,FENIX则通过交换机与FPGA协同突破了模型规模限制。这四项研究实质上是在挑战由吞吐量、模型规模与模型多样性构成的三维制约空间。受限于交换芯片有限的流水线级数、片上内存资源与匮乏的计算能力,提升单一指标往往意味着对其他维度的妥协。团队通过在三维坐标系中的不同技术取舍,勾勒出一条在性能与灵活性间寻找平衡的演进路径。
具体来看,NetBeacon作为早期探索,广泛支持各类决策树模型,但复杂统计特征的计算使其需要分阶段推理,限制了其吞吐上限;BoS引入二值RNN消除了特征工程需求实现了真正意义上的线速,但却局限于模型规模和多样性;Pegasus通过深度学习原语化,在保持线速的同时显著扩充了支持的模型种类与大小;FENIX则借助FPGA扩展,牺牲部分吞吐以换取对大规模、丰富类型模型的支持。值得注意的是,本图特意剥离了诸如BoS离线增强等通用优化手段,以最纯粹的视角呈现各系统在三维制约空间中的原生能力边界。
2.1 NetBeacon(2023 USENIX Security)
从包级到流级的分析视角
NetBeacon获得USENIX Security 2023杰出论文奖,标志着智能数据平面研究进入新阶段。此前的数据平面分析方法主要使用单个数据包的头部信息进行判断,这种"包级特征"提取简单但判别能力有限。
NetBeacon的主要贡献是在交换机上建立流级分析能力。系统在数据平面维护流状态,聚合同一连接中多个数据包的信息,提取包到达间隔、包长序列等统计特征。这些流级特征包含了通信行为的时序模式,能够更好地区分不同应用和攻击类型。
为应对有限内存的挑战,NetBeacon设计了长短流分离机制:包数较少的短流直接放行或使用简单规则处理,长流才进入状态跟踪和特征提取流程。此外,系统采用安全的哈希存储重用策略,在流结束后及时回收内存。
在模型层面,NetBeacon部署多阶段决策树,将复杂的分类任务分解为多个简单的二分类判断,每个判断对应一个Match-Action表项。实验显示,在P2P应用识别、隐蔽通道检测和DDoS攻击检测任务中,NetBeacon相比包级特征方案的准确率分别提升了14%、38%和20%,同时保持了微秒级的处理延迟和Tbps级的吞吐量。
NetBeacon验证了在交换机上进行复杂流量分析的可行性,但决策树模型的表达能力仍然有限,面对更复杂的任务准确率存在上限。
2.2 Brain-on-Switch(2023 USENIX NSDI)
在交换机上部署神经网络
发表于USENIX NSDI 2024的Brain-on-Switch(BoS)解决了一个关键问题:如何在交换机上部署循环神经网络。神经网络相比决策树具有更强的表达能力,但其计算特性与交换机硬件差异很大。
BoS提出了二值RNN架构:保留全精度权重参数,仅对激活函数的输出进行二值化。这样做可以将复杂的浮点乘法转换为整数加法,通过Match-Action表实现高效推理。系统引入滑动窗口机制处理变长序列输入,使RNN能够适应不同长度的流量模式。
BoS还设计了升级分析机制:交换机完成绝大部分流量的线速分析,将低置信度样本转发至服务器上的Transformer模型进行更精确的判断。这种"快速通道+精确通道"的架构在效率和准确率之间取得了平衡。
实验结果表明,BoS相比决策树和MLP方案的准确率分别提升了19%和40%,证明了神经网络在数据平面的实用价值。但BoS的架构是为RNN专门设计的,缺乏通用性,难以支持CNN、Transformer等其他模型。
2.3 Pegasus(2025 ACM SIGCOMM)
通用深度学习框架
发表于ACM SIGCOMM 2025的Pegasus提出了数据平面深度学习的通用解决方案。核心创新是将深度学习操作统一抽象为三个基础原语:
Partition:输入分区
Map:局部变换与计算
SumReduce:跨分区聚合
通过这三个原语的组合,Pegasus可以支持CNN、RNN、AutoEncoder等多种架构。系统引入模糊匹配机制来降低存储开销,通过原语融合优化执行效率。
实验显示,相比N3IC、BoS和Leo等现有方案,Pegasus的准确率平均提升了17-23%,可部署的模型规模扩大了200倍以上。Pegasus首次实现了AutoEncoder在数据平面的无监督异常检测,AUC达到89%以上。
Pegasus的通用性是一个重要进展,但单一交换机ASIC的资源仍然制约了模型复杂度的上限,难以部署百万参数级的大规模模型。
2.3 FENIX(2026 USENIX NSDI)
异构硬件协同架构
即将发表于USENIX NSDI 2026的FENIX突破了单一硬件的限制,提出了"交换机ASIC + FPGA"的混合架构:
数据引擎:在交换机上进行轻量级的特征提取和预处理,利用概率令牌桶算法控制特征流速率,解决交换机与FPGA之间的吞吐差异问题。
模型引擎:在FPGA上部署完整的深度神经网络,突破交换机ASIC的计算和存储限制,支持更大规模、更复杂的模型。
基于自研的可编程交换机平台,FENIX实现了2.3微秒的推理延迟、多Tbps的处理能力和90%以上的分类精度。相比控制平面方案,延迟降低了近三个数量级,首次同时满足了高准确率、低延迟和高吞吐量三个目标。
03
总结与展望
回顾这一系列工作,可以看到智能数据平面技术正沿着清晰的演进路径不断发展:
NetBeacon 建立了流状态管理和决策树推理的基础架构,证明了在交换机上进行复杂流量分析的可行性。
Brain-on-Switch 引入了神经网络模型,通过二值化RNN和升级分析机制,在保持线速处理的同时显著提升了准确率。
Pegasus 抽象出通用的深度学习原语,使数据平面能够支持多种模型架构,实现了从专用方案到通用框架的跨越。
FENIX 通过软硬件协同设计,突破了单一硬件平台的资源瓶颈,首次实现了高准确率、低延迟和高吞吐量的统一。
这些工作不仅在学术上获得了国际认可(连续发表于USENIX Security、NSDI和ACM SIGCOMM顶级会议),更重要的是为网络智能化提供了切实可行的技术路径。代码的开源也为学术界和工业界进一步探索这一领域提供了基础。
未来,随着可编程网络硬件性能的持续提升和新型加速器的出现,智能数据平面技术有望在更多实际网络中得到部署,为构建更加智能、高效、安全的下一代网络基础设施做出贡献。
04
相关资源
NetBeacon:
https://github.com/IDP-code/NetBeacon
Brain-on-Switch: https://github.com/InspiringGroup-Lab/Brain-on-Switch
Pegasus: https://github.com/afireswallow/Pegasus
FENIX: https://github.com/IntelliSwitch/FENIX
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...