PatchEval 发布：一个比你更关心修复效果的 AI 漏洞自动修复评测基准

引言

近年来，软件漏洞正以惊人的速度增长，而传统的人工修复方式往往耗时耗力，也难以追赶漏洞出现的速度。大语言模型（LLM）的崛起，为漏洞自动化修复技术（AVR, Automated Vulnerability Repair）带来了新的可能性。安全专家也能借助 AI AVR 技术这把“利器”，更从容地应对海量、复杂的安全挑战。

然而，大模型驱动的漏洞修复能力到底怎么样？如何找到一把精准的“标尺”，持续迭代和校准模型，让 AI 在代码安全领域发挥最大价值？

为了推动这一业界挑战的解决，字节跳动安全与风控部联合华中科技大学、复旦大学，共同推出了 PatchEval——行业首个大规模、多语言的 AI 漏洞自动修复评测框架。它旨在为系统性评估大模型驱动的 AVR 技术提供一个公开、标准的评测基准，推动 AI 在代码安全领域的关键技术应用与落地。

01.

PatchEval 是什么？

高质量的「考纲」和「试练场」

如果说大模型是 Aspiring to be a Security Expert，PatchEval 就是为它精心设计的「认证考试」。这场考试的试题，全部源于真实世界的安全挑战。

源于真实，规模庞大

PatchEval 的所有用例均来自 2015 年至 2025 年间公开报告的 1000 个 CVE 漏洞（常见漏洞和披露）。这些漏洞真实存在于全球知名的开源项目（GitHub 仓库）中，杜绝了任何人工构造或模拟，确保了评测的客观性与现实挑战性。

覆盖广泛，填补空白

多语言覆盖：涵盖 Go、JavaScript 和 Python 三种主流语言，填补了现有评测集大多只关注 C/C++ 和 Java 的空白。
多类型覆盖：覆盖 65 种 CWE（通用缺陷枚举）漏洞类型，避免了因漏洞分布不均导致的评测偏差，让评估结果更具普适性。

可复现、可交互、可验证

PatchEval 不仅仅是一个静态的数据集。它包含了 230 个配备了 Docker 可执行环境的漏洞。

这意味着，大模型或 Agent 可以在一个隔离的真实开发环境中，自主完成代码检索、依赖安装、补丁生成与验证等一系列操作，完整地执行漏洞修复的全流程。所有修复结果都可以通过安全测试（PoC，Proof of Concept）和功能性测试（单元测试）在运行时进行验证。

图：评测框架设计

02.

如何测评？

一套严谨全面的评分标准

PatchEval 不只关心漏洞“是否被修复”，更关心“漏洞修得好不好”。为此，我们设计了贴近真实修复场景的多维度评测标准，覆盖了两种主流的补丁生成方式：「基于漏洞函数的补丁生成」（已知漏洞位置）和「基于漏洞描述的补丁生成」（需模型自行定位）。

评测维度

漏洞修复正确性：生成的补丁是否真正修复了漏洞？这需要通过严格的安全测试（如 PoC 测试）来验证。
功能正确性：修复漏洞的同时，是否引入了新的 Bug？补丁必须通过所有相关的功能性测试（如单元测试），确保软件原有功能不受影响。
修复成本：业务场景中计算资源有限，AI 修复也需兼顾成本合理性。我们会记录模型消耗的 Token 数量及对应经济成本，为实际业务中的资源合理配置提供参考。