ExploitGym基准测试:AI代理漏洞利用能力评估

**ExploitGym基准测试:AI代理漏洞利用能力评估**

– 构建了包含898个真实世界漏洞实例的大规模基准测试ExploitGym
– 覆盖用户空间程序、V8 JavaScript引擎和Linux内核三大领域
– 前沿模型Claude Mythos Preview和GPT-5.5分别成功利用157和120个实例
– 即使启用广泛防御措施,AI代理仍保持非平凡利用成功率

**研究意义**
首次建立专门评估AI代理漏洞利用能力的系统性基准,揭示快速增长的网络安全风险。

原文链接:https://arxiv.org/abs/2605.11086

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注