TrafficLLM是一个基于微调的网络流量大模型部署框架,通过双阶段微调技术实现专家指令与流量数据的鲁棒表示学习。突破传统网络流处理范式,基于大模型的强大通用能力,实现面向多种复杂安全场景下的智能中枢决策,有效支撑安全运营、检测响应、攻防对抗等智能化网络流量分析工作。流量大模型驱动的多智能体系统获世界互联网大会2025《科技之魅》收录。
此前我们已发布过项目概况的文章和资源链接,感兴趣的读者可参考:
项目地址:https://github.com/ZGC-LLM-Safety/TrafficLLM
论文地址:https://arxiv.org/pdf/2504.04222
开源数据:https://drive.google.com/drive/folders/1RZAOPcNKq73-quA8KG_lkAo_EqlwhlQb
开源模型:https://drive.google.com/drive/folders/1YjEhdordqZRpnw_oKczwUztcT52T0oQ0
先前文章:
01
从传统机器学习到流量大模型
图1 传统机器学习的泛化性局限与流量大模型的流量分析挑战
传统机器学习模型:传统的机器学习模型往往具有较弱的泛化能力,无法在多个安全问题上解偶异构数据,模型编辑与维护往往要求较高质量的人工特征和较大的人力成本,其泛化性局限主要表现在以下两点:
(i) 跨任务的泛化性:由于人工特征或模型设计过程,这些特定于任务的模型很难在不同任务之间共享,覆盖不同任务的开发成本也难以接受。
(ii) 未知流量的泛化性:模型通常被迫在高质量标记数据集中学习已知模式。传统方法难以应对概念漂移和0-day攻击等未知流量场景。
流量大模型:大模型的出现极大改变了现有的技术格局,应用大模型的强大能力有望帮助解决现有的网络安全与流量分析业务场景问题。然而,大模型在网络流量分析应用仍存在诸多挑战:
(i) 语义鸿沟:自然语言与网络流量字节、协议逻辑间存在根本性语义隔阂。
(ii) 模态冲突:包头、负载、时序等多种异构数据,难以转化为有效的统一表征。
(iii) 知识固化:模型参数固化,难以快速适应网络的概念漂移与未知威胁。
02
TrafficLLM核心技术
图2 TrafficLLM流量大模型核心技术
TrafficLLM是一个利用自然语言与流量数据的流量大模型微调框架,以此增强大型语言模型在网络流量分析中的实用性。
• 异构流量表示提取。基于预提示与异构特征提取算法提取训练数据,并基于BPE算法训练流量领域的Tokenizer,以此克服自然语言和异构流量数据之间的模态差距。
• 文本与流量模态学习。通过自然语言指令微调和下游任务流量微调的双阶段微调技术,实现大模型在不同流量分析任务中的鲁棒表示学习,建立大模型的任务理解和流量分析能力。
• 跨场景多任务扩展微调。将模型能力封装在不同外部参数模型中,维护参数模型集合,在推理时根据场景调用不同参数模型并与基座模型拼接,以此实现跨场景多任务的能力切换。
03
数据与模型的无缝开源
图3 流量大模型开源文本与流量微调数据统计
项目库开源了迄今为止规模最大的大模型网络流量分析领域微调数据集。截止目前为止,我们已经开源了经过专家监督的约9千条流量分析文本指令数据集和40万条流量微调数据,为广大网络流量分析的科研社区提供了充分的流量大模型研究基础。
• 指令微调数据。项目基于专家监督形成了多种场景和下游任务的指令模版,并通过大模型辅助自动化实现多种场景、安全目标、主语、提问风格的指令文本。
• 流量微调数据。项目基于加密VPN、恶意软件、匿名网络、僵尸网络、Web安全、APT等10个以上的网络安全场景原始流量数据,构造大模型流量微调数据集。
图4 流量大模型广泛适用于开源大语言模型
同时,项目流量大模型已支持GLM、DeepSeek、Mistral、Llama等众多开源大模型的网络流量领域能力对齐,对应的微调框架代码已陆续开放。
基于TrafficLLM的ChatBox。项目早期形成了TrafficLLM的本地部署框架,能够在本地运行流量大模型的对话接口,实现支持多种流量检测任务的对话服务。通过输入需要执行的任务所对应的专家提问文本,并提交pcap文件格式的流量原始数据,就能够实现对不同任务场景下的流量检测工作。
视频1 流量大模型的本地部署对话窗口
04
网络安全智能体赋能
随着大模型的快速发展,智能体技术的出现使安全专家寄希望于研发网络安全智能体,以此解决复杂威胁场景的智能化安全运营工作。我们基于TrafficLLM形成网络安全智能体的决策中枢,构建了基于流量大模型的单智能体系统与多智能体系统,实现面向多种复杂安全场景下的威胁检测、响应与研判。
基于TrafficLLM的单智能体系统。为了构建网络安全单智能体系统,我们基于Qwen-Agent和vLLM实现了流量大模型的安全智能体赋能。我们将TrafficLLM包装为智能体所需的MCP服务,通过大模型的Agent框架理解文本所指代的安全检测意图,并通过Tool-Calling的方式完成TrafficLLM的MCP服务调用,从而实现对多种场景流量解析与类别预测过程。
由于单智能体系统集合了大模型的文本理解分析和流量的解析识别能力,其研判过程能够持续输出流量检测的Reasoning思路,确保模型MCP服务调用和流量理解的过程正确。检测结果也会输出对流量检测的研判总结文字,其集合了模型深度分析的研判依据,从而提供了对流量检测的可解释研判能力。
视频2 基于流量大模型的单智能体系统
基于TrafficLLM的多智能体系统。项目还基于流量大模型构建了网络安全多智能体系统。多智能体系统内TrafficLLM可以赋予多个智能体角色,形成网络安全主管以及多个不同方向的网络流量检测专家,协作完成复杂场景的流量分析工作流。
视频3 基于流量大模型的多智能体系统
在多智能体系统内部,网络安全主管智能体将接受专家的指令文本并布置任务,“选择性地安排”各个方向的流量分析专家参与当前网络流量的分析工作,建立讨论工作组Group并确定需要讨论的轮数Epoch。随后,Group内恶意软件检测专家、VPN流量检测专家等多个方向的专家将会深度分析待测流量,并提出各自的专家观点。在讨论结束后,网络安全主管将综合先前Epoch的所有专家意见并形成结果,完成复杂安全问题的跨场景分析协作。
图5 流量大模型驱动的多智能体系统获世界互联网大会2025《科技之魅》收录
基于流量大模型的智能驱动能力,项目构建了面向互联网异构安全威胁的多智能体系统,突破智能化网络安全运营范式,打通跨场景多源威胁的网络安全认知壁垒,有力支撑云、边、端复杂场景下关键基础设施防护。相关成果获世界互联网大会2025《科技之魅》成果集收录。
05
未来展望
TrafficLLM旨在为大模型的网络安全赋能提供前瞻性思路和广泛的研究基础,为形成下一代智能化网络安全运营手段提供创新方案。在大模型和智能体时代下,我们通过TrafficLLM构建基于大模型的网络安全核心技术,研制安全行业垂直领域大模型及其智能体系统,为智能化与自动化的网络威胁检测提供强大赋能。
未来,TrafficLLM项目将持续为广大网络安全社区提供更新资源:
• 我们将持续更新更多的开源大语言模型的网络流量分析领域对齐框架,实现更多开源大模型的网络安全赋能。
• 我们后续将开源流量大模型的评价基准benchmark,并发布对大模型的流量领域对齐能力进行广泛评估的评价报告。
• 我们将提供更多的部署案例和教程,欢迎安全社区和安全研究者一起携手交流,共同构建基于大模型的智能化网络安全护栏。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...