引言
近年来,软件漏洞正以惊人的速度增长,而传统的人工修复方式往往耗时耗力,也难以追赶漏洞出现的速度。大语言模型(LLM)的崛起,为漏洞自动化修复技术(AVR, Automated Vulnerability Repair)带来了新的可能性。安全专家也能借助 AI AVR 技术这把“利器”,更从容地应对海量、复杂的安全挑战。
然而,大模型驱动的漏洞修复能力到底怎么样?如何找到一把精准的“标尺”,持续迭代和校准模型,让 AI 在代码安全领域发挥最大价值?
为了推动这一业界挑战的解决,字节跳动安全与风控部联合华中科技大学、复旦大学,共同推出了 PatchEval——行业首个大规模、多语言的 AI 漏洞自动修复评测框架。它旨在为系统性评估大模型驱动的 AVR 技术提供一个公开、标准的评测基准,推动 AI 在代码安全领域的关键技术应用与落地。
01.
PatchEval 是什么?
高质量的「考纲」和「试练场」
如果说大模型是 Aspiring to be a Security Expert,PatchEval 就是为它精心设计的「认证考试」。这场考试的试题,全部源于真实世界的安全挑战。
源于真实,规模庞大
PatchEval 的所有用例均来自 2015 年至 2025 年间公开报告的 1000 个 CVE 漏洞(常见漏洞和披露)。这些漏洞真实存在于全球知名的开源项目(GitHub 仓库)中,杜绝了任何人工构造或模拟,确保了评测的客观性与现实挑战性。
覆盖广泛,填补空白
多语言覆盖:涵盖 Go、JavaScript 和 Python 三种主流语言,填补了现有评测集大多只关注 C/C++ 和 Java 的空白。
多类型覆盖:覆盖 65 种 CWE(通用缺陷枚举)漏洞类型,避免了因漏洞分布不均导致的评测偏差,让评估结果更具普适性。
可复现、可交互、可验证
PatchEval 不仅仅是一个静态的数据集。它包含了 230 个配备了 Docker 可执行环境的漏洞。
这意味着,大模型或 Agent 可以在一个隔离的真实开发环境中,自主完成代码检索、依赖安装、补丁生成与验证等一系列操作,完整地执行漏洞修复的全流程。所有修复结果都可以通过安全测试(PoC,Proof of Concept)和功能性测试(单元测试)在运行时进行验证。
图:评测框架设计
02.
如何测评?
一套严谨全面的评分标准
PatchEval 不只关心漏洞“是否被修复”,更关心“漏洞修得好不好”。为此,我们设计了贴近真实修复场景的多维度评测标准,覆盖了两种主流的补丁生成方式:「基于漏洞函数的补丁生成」(已知漏洞位置)和「基于漏洞描述的补丁生成」(需模型自行定位)。
评测维度
漏洞修复正确性:生成的补丁是否真正修复了漏洞?这需要通过严格的安全测试(如 PoC 测试)来验证。
功能正确性:修复漏洞的同时,是否引入了新的 Bug?补丁必须通过所有相关的功能性测试(如单元测试),确保软件原有功能不受影响。
修复成本:业务场景中计算资源有限,AI 修复也需兼顾成本合理性。我们会记录模型消耗的 Token 数量及对应经济成本,为实际业务中的资源合理配置提供参考。
图:官网评测榜单 Top10
03.
开放共建,探索AI安全的未来
共筑 AI 安全评测生态
PatchEval 的目标是成为一个开放、透明、由社区驱动并持续迭代的评测基准。我们深知,这项工作需要产业界与学术界的共同努力。
我们未来的工作将围绕以下方向展开:
持续扩充验证集:不断增加带有 PoC 验证能力的样本数量,使评测结果更加精准、可信。
深化社区合作:我们欢迎并珍视来自社区的每一个反馈,并将基于此持续迭代和修正数据集中的潜在问题。
我们诚挚地邀请您参与到 PatchEval 的建设中来,无论是提交新的模型参与评测,贡献新的数据集,还是提出宝贵的建议,都将帮助我们共同推动 AI 漏洞自动修复技术的进步。
愿景:AI 驱动软件安全开发全流程革新
在共建之外,我们也看向长期愿景。当前,LLM 驱动的 AVR 技术仍然充满挑战。未来,我们期待其深度融入软件安全开发全流程。
全流程融入:从漏洞报告解析到补丁生成、从依赖安装到补丁验证,AI 可自主完成完整修复链路,大幅缩短修复周期。
基准作用:以 PatchEval 为代表的开放评测基准将持续发挥关键作用,校准技术方向,让模型在真实开发场景中锤炼修复能力。
价值目标:技术进步将服务于高效、可靠、低成本的漏洞修复需求。
生态意义:为软件生态筑牢安全防线。
更多信息,欢迎关注我们的官网与开源项目
PatchEval 官网及榜单:
https://patcheval.github.io
GitHub 项目:
https://github.com/bytedance/PatchEval
HuggingFace 数据集:
https://huggingface.co/datasets/ByteDance/PatchEval
arXiv 论文:
https://arxiv.org/abs/2511.11019
参与用户调研、加入飞书交流群,共建 PatchEval 新方向
有奖用户调研:我们将从反馈问卷中抽取 30 名幸运用户,获得我们定制的黑盒/白盒毛绒玩具,期待大家宝贵的意见和反馈!
欢迎扫码参加有奖调研!
PatchEval 飞书交流群:
欢迎飞书扫码加入!
项目支持:豆包大模型基金
本项目是字节跳动“豆包大模型基金”支持的代码安全方向课题之一。该基金由字节跳动豆包大模型团队发起,致力于支持高校及研究机构的青年学者参与 AI 大模型相关课题的技术攻坚,解决领域内的关键问题,也让更多人了解到豆包在技术科研领域的投入。
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...