Agents of Chaos:AI 智能体红队安全研究报告

来自东北大学、MIT、哈佛、斯坦福等机构的研究团队发布了一项关于 AI 智能体安全的红队测试研究。他们在真实环境中部署了具备持久记忆、邮件账户、Discord 访问、文件系统和 shell 执行权限的智能体,进行了为期两周的安全测试。

研究发现

研究团队记录了 11 个典型案例,发现的主要安全问题包括:

实验设置

研究使用 OpenClaw 框架,在隔离的虚拟机环境中部署智能体。每个智能体拥有:

关键洞察

研究发现智能体在 L2 自主级别运行:能够自主执行子任务(如发送邮件、执行命令),但缺乏自我模型来识别任务是否超出能力范围,也无法可靠地判断何时应该将控制权交还给人类。

这些发现揭示了在真实部署环境中 AI 智能体的安全、隐私和治理漏洞,呼吁法律学者、政策制定者和跨学科研究者紧急关注。

阅读完整报告:https://agentsofchaos.baulab.info/report.html

← 全部文章