ExploitGym基准测试：AI代理漏洞利用能力评估

作者：

在

**ExploitGym基准测试：AI代理漏洞利用能力评估**

– 构建了包含898个真实世界漏洞实例的大规模基准测试ExploitGym
– 覆盖用户空间程序、V8 JavaScript引擎和Linux内核三大领域
– 前沿模型Claude Mythos Preview和GPT-5.5分别成功利用157和120个实例
– 即使启用广泛防御措施，AI代理仍保持非平凡利用成功率

**研究意义**
首次建立专门评估AI代理漏洞利用能力的系统性基准，揭示快速增长的网络安全风险。

原文链接：https://arxiv.org/abs/2605.11086

ExploitGym基准测试：AI代理漏洞利用能力评估

评论

发表回复 取消回复

更多文章

发表回复取消回复