一、LLM Agents can Autonomously Hack Websites
发表:arXiv:2402.06664v3 [cs.CR] 16 Feb 2024
1. 先看动机和结论
① 动机
如title,研究模型构建的agent能不能自动攻击网站
② 结论
- GPT-4 能够在事先不了解特定漏洞的情况下进行攻击(直接告诉模型给我攻击网站就完事了)
- 消融实验表明,对于agent来说,文档读取【document reading】、详细系统指令【,detailed system instructions】这两个Tool是至关重要的
2. 数据集与评估指标、模型
① 数据集、评估指标
共15个漏洞组成用于测试的数据集:
评估指标: 为每个漏洞指定了目标,按agent在10分钟内是否实现来定义成功/失败
测试次数: 每个漏洞5次实验,成功一次就ok
② 构建Agent的模型
这个表顺便显示了一下成功率,GPT-4失败的四个漏洞是:
权限绕过、Javascript 攻击、困难 SQL 注入 和 XSS + CSRF
3. 一些很有趣的论点
① 探究智能体在网安领域的能力【GPT-4】
例如对困难的SQL注入,智能体能够成功地做到:
- 在页面之间导航,以确定攻击哪个页面。
- 尝试默认的用户名和密码(例如,admin)。
- 确定默认尝试失败,并尝试经典的 SQL 注入(例如,附加 OR 1 = 1)。
- 读取源代码,以确定 SQL 查询中有一个 GET 参数。
- 确定该网站易受 SQL 联合攻击。
- 执行 SQL 联合攻击。
例如对服务器端模板注入(SSTI)攻击,智能体能够成功地做到: - 确定一个网站是否容易受到 SSTI 攻击。
- 使用一个小的测试脚本测试 SSTI 攻击。
- 确定要窃取的文件的位置。
- 执行完整的 SSTI 攻击。
② 评估指标有"成本"
如果要从公司应用开发角度来看,成本这个指标确实很重要,在学术论文里感觉大多评估指标还是经典四件套:accuracy/precision/recall/f1-score,或者构建其他科学性指标评估检测效果,而不是关注成本。但是做竞赛作品的话,注意这个点应该还挺好的。
论文的研究结果是:“每次成功利用漏洞的成本将是 8.80 美元”
二、LLM Agents can Autonomously Exploit One-day Vulnerabilities
发表:arXiv:2404.08144v2 [cs.CR] 17 Apr 2024
1. 先看动机和结论
① 动机
如title,研究模型构建的agent利用漏洞信息的能力
② 结论
- GPT-3.5/其他大模型/开源漏洞扫描器 Agent —— 0%
- GPT-4 Agent —— 7%
- GPT-4 Agent + CVE描述 —— 86.7%
所以CVE描述很重要,如果没有CVE描述,很可能在布局中找不到触发点或者超过工具相应大小限制,以及可能列出所有可能的攻击方式并只尝试其中一种就下班了
2. 数据集、模型、扫描器
① 数据集
共15个漏洞组成用于测试的数据集:
人工挑选了14个现实世界one-day漏洞(都是开源软件的可重现CVE) + "ACIDRain"漏洞
② 构建Agent的模型
都用的api而不是本地部署,所以要衡量成本
这个表顺便显示了一下成功率,GPT-4失败的两个漏洞是:
- Iris 跨站脚本漏洞(XSS)
- Hertzbeat 远程代码执行漏洞(RCE)
③ 开源漏洞扫描器
ZAP和Metasploit
效果上就是啥也没检测出来
3. 一些很有趣的论点
① 已经有构建Agent来打CTF的尝试了
Llm agents can autonomously hack websites, 2024. —Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, and Daniel Kang.
② 评估指标有"成本"
如果要从公司应用开发角度来看,成本这个指标确实很重要,在学术论文里感觉大多评估指标还是经典四件套:accuracy/precision/recall/f1-score,或者构建其他科学性指标评估检测效果,而不是关注成本。但是做竞赛作品的话,注意这个点应该还挺好的。
论文的研究结果是:“每次成功利用漏洞的成本将是 8.80 美元”
三、结语
1. 关于开源模型
这两篇论文所示的结果都是GPT-4和GPT-3.5这种闭源模型有效果,而Llama这种开源模型效果不佳,因为工具的调用失败。如果后续研究想要探究开源模型的对应效果,应该着重看一下对工具的调用上是否可以改进。
同时,DeepSeek热潮虽然让我们很想利用DeepSeek-R1或DeepSeek-V3进行研究,但是DeepSeek系列模型当前没有调用工具的能力,从而无法构建智能体。
2. 关于这两篇论文
The most related work to ours is a recent study that showed that LLM agents can hack websites (Fang et al., 2024). This work focused on simple vulnerabilities in capture-the-flag style environments that are not reflective of real-world systems.
与我们的研究最为相关的是最近的一项研究,该研究表明大语言模型智能体能够攻击网站(方等人,2024)。这项工作聚焦于 “夺旗” 式环境中的简单漏洞,而这些漏洞并不能反映现实世界中的系统情况。
也就是说第二篇论文是第一篇在真实世界漏洞上的进一步研究
这两篇论文属于同一个团队