论文阅读:两篇关于LLM Agents利用漏洞的能力研究论文


一、LLM Agents can Autonomously Hack Websites

发表:arXiv:2402.06664v3 [cs.CR] 16 Feb 2024

1. 先看动机和结论

① 动机

如title,研究模型构建的agent能不能自动攻击网站

② 结论

  • GPT-4 能够在事先不了解特定漏洞的情况下进行攻击(直接告诉模型给我攻击网站就完事了)
  • 消融实验表明,对于agent来说,文档读取【document reading】、详细系统指令【,detailed system instructions】这两个Tool是至关重要的

2. 数据集与评估指标、模型

① 数据集、评估指标

共15个漏洞组成用于测试的数据集:

评估指标: 为每个漏洞指定了目标,按agent在10分钟内是否实现来定义成功/失败
测试次数: 每个漏洞5次实验,成功一次就ok

② 构建Agent的模型


这个表顺便显示了一下成功率,GPT-4失败的四个漏洞是:
权限绕过、Javascript 攻击、困难 SQL 注入 和 XSS + CSRF

3. 一些很有趣的论点

① 探究智能体在网安领域的能力【GPT-4】

例如对困难的SQL注入,智能体能够成功地做到:

  • 在页面之间导航,以确定攻击哪个页面。
  • 尝试默认的用户名和密码(例如,admin)。
  • 确定默认尝试失败,并尝试经典的 SQL 注入(例如,附加 OR 1 = 1)。
  • 读取源代码,以确定 SQL 查询中有一个 GET 参数。
  • 确定该网站易受 SQL 联合攻击。
  • 执行 SQL 联合攻击。
    例如对服务器端模板注入(SSTI)攻击,智能体能够成功地做到:
  • 确定一个网站是否容易受到 SSTI 攻击。
  • 使用一个小的测试脚本测试 SSTI 攻击。
  • 确定要窃取的文件的位置。
  • 执行完整的 SSTI 攻击。

② 评估指标有"成本"

如果要从公司应用开发角度来看,成本这个指标确实很重要,在学术论文里感觉大多评估指标还是经典四件套:accuracy/precision/recall/f1-score,或者构建其他科学性指标评估检测效果,而不是关注成本。但是做竞赛作品的话,注意这个点应该还挺好的。
论文的研究结果是:“每次成功利用漏洞的成本将是 8.80 美元”

二、LLM Agents can Autonomously Exploit One-day Vulnerabilities

发表:arXiv:2404.08144v2 [cs.CR] 17 Apr 2024

1. 先看动机和结论

① 动机

如title,研究模型构建的agent利用漏洞信息的能力

② 结论

  • GPT-3.5/其他大模型/开源漏洞扫描器 Agent —— 0%
  • GPT-4 Agent —— 7%
  • GPT-4 Agent + CVE描述 —— 86.7%

所以CVE描述很重要,如果没有CVE描述,很可能在布局中找不到触发点或者超过工具相应大小限制,以及可能列出所有可能的攻击方式并只尝试其中一种就下班了

2. 数据集、模型、扫描器

① 数据集

共15个漏洞组成用于测试的数据集:
人工挑选了14个现实世界one-day漏洞(都是开源软件的可重现CVE) + "ACIDRain"漏洞

② 构建Agent的模型


都用的api而不是本地部署,所以要衡量成本
这个表顺便显示了一下成功率,GPT-4失败的两个漏洞是:

  • Iris 跨站脚本漏洞(XSS)
  • Hertzbeat 远程代码执行漏洞(RCE)

③ 开源漏洞扫描器

ZAP和Metasploit
效果上就是啥也没检测出来

3. 一些很有趣的论点

① 已经有构建Agent来打CTF的尝试了

Llm agents can autonomously hack websites, 2024. —Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, and Daniel Kang.

② 评估指标有"成本"

如果要从公司应用开发角度来看,成本这个指标确实很重要,在学术论文里感觉大多评估指标还是经典四件套:accuracy/precision/recall/f1-score,或者构建其他科学性指标评估检测效果,而不是关注成本。但是做竞赛作品的话,注意这个点应该还挺好的。
论文的研究结果是:“每次成功利用漏洞的成本将是 8.80 美元”

三、结语

1. 关于开源模型

这两篇论文所示的结果都是GPT-4和GPT-3.5这种闭源模型有效果,而Llama这种开源模型效果不佳,因为工具的调用失败。如果后续研究想要探究开源模型的对应效果,应该着重看一下对工具的调用上是否可以改进。
同时,DeepSeek热潮虽然让我们很想利用DeepSeek-R1或DeepSeek-V3进行研究,但是DeepSeek系列模型当前没有调用工具的能力,从而无法构建智能体。

2. 关于这两篇论文

The most related work to ours is a recent study that showed that LLM agents can hack websites (Fang et al., 2024). This work focused on simple vulnerabilities in capture-the-flag style environments that are not reflective of real-world systems.
与我们的研究最为相关的是最近的一项研究,该研究表明大语言模型智能体能够攻击网站(方等人,2024)。这项工作聚焦于 “夺旗” 式环境中的简单漏洞,而这些漏洞并不能反映现实世界中的系统情况。

也就是说第二篇论文是第一篇在真实世界漏洞上的进一步研究
这两篇论文属于同一个团队


文章作者: Fetyloi
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Fetyloi !
  目录