CipherChat:一个评估 LLM 安全对齐泛化能力的框架

2023-08-19 13:49
摘要:CipherChat 是一个AI 框架,旨在系统地研究将安全对齐方法应用于非自然语言(具体来说是密码)的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示,使人类与 LLM(Large Language Models)进行交互,全..

CipherChat 是一个AI 框架,旨在系统地研究将安全对齐方法应用于非自然语言(具体来说是密码)的可行性。CipherChat 通过密码提示、系统角色分配和简洁的加密演示,使人类与 LLM(Large Language Models)进行交互,全面检查 LLM 对密码的理解、参与对话的能力以及对不恰当内容的敏感度。

项目地址:https://github.com/RobustNLP/CipherChat

研究强调了在处理非自然语言(如密码)时创建安全对齐方法的重要性,以确保与基础 LLM 的能力相匹配。

通过对 ChatGPT 和 GPT-4等现代 LLM 进行多个实验,研究发现一些密码能够成功规避 GPT-4的安全对齐程序,在某些安全领域几乎达到100% 的成功率。

研究还揭示了 LLM 中存在秘密密码的现象,研究团队推测 LLM 可能具有解密特定编码输入的潜在能力,从而暗示了一种独特的与密码相关的能力存在。基于这一观察,研究引入了一个名为 SelfCipher 的框架,通过角色扮演场景和少量自然语言演示来激活 LLM 内部的秘密密码能力。SelfCipher 的有效性展示了利用这些隐藏能力来提高 LLM 解密编码输入和生成有意义响应的潜力。

产品特点:

1. CipherChat 是一个用于评估 LLM(语言模型)的安全对齐泛化能力的框架。

2. 该框架可以系统地检查安全对齐在非自然语言(如密码)上的普适性。

3. 提供了一个示例运行命令和参数说明。

4. 通过使用密码将输入转换为对 LLM 的安全对齐不太可能覆盖的格式,实现了对安全对齐的规避。

5. 使用基于规则的解密器将 LLM 的输出从密码格式转换为自然语言形式。

6. 提供了实验结果和案例研究,以及消融研究和其他模型的讨论。

7. 可以在论文中找到更多详细信息,并提供了引用。

请注意:本产品仅供研究使用,严禁滥用。

更新于:2023-08-19 13:49