深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

2023-11-22 13:34

默认

摘要：要点:大语言模型（LLM）在各应用中成功，但容易受到Prompt诱导越过安全防护，即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception，通过深度催眠LLM使其越狱，并规避内置安全防护。利用LLM的人格..

要点:
大语言模型（LLM）在各应用中成功，但容易受到Prompt诱导越过安全防护，即Jailbreak。研究以心理学视角提出的轻量级Jailbreak方法DeepInception，通过深度催眠LLM使其越狱，并规避内置安全防护。
利用LLM的人格化特性构建新型指令Prompt，通过嵌套场景实现自适应的LLM越狱。实验证明DeepInception可持续领先于先前Jailbreak方法，揭示多个LLM的致命弱点。
呼吁加强对LLM自我越狱的关注，通过对LLM的人格化和心理特性提出Jailbreak概念。DeepInception的实验效果强调需要改进大模型的防御机制。

近期，香港浸会大学的研究团队通过深度催眠的方法，提出了一种新颖的大语言模型（LLM）越狱攻击——DeepInception。该研究从心理学视角出发，揭示了LLM在应对人类指令时可能失去自我防御的特性。

尽管先前的Jailbreak方法主要依赖于人工设计的对抗性Prompt，但这在黑盒模型中并不实用。在这种情况下，LLM往往受到道德和法律约束，直接的有害指令容易被模型检测并拒绝。

项目地址:https://deepinception.github.io/

为了克服这一问题，研究团队提出了DeepInception，通过嵌套场景的指令Prompt，利用LLM的人格化特性催眠模型，使其越狱并回应有害指令。该方法不仅领先于先前的Jailbreak工作，而且实现了可持续的越狱效果，无需额外诱导Prompt。文章中提到的Falcon、Vicuna、Llama-2和GPT-3.5/4/4V等LLM在自我越狱方面的致命弱点也得到揭示。

研究团队在实验证明了DeepInception的有效性的基础上，呼吁更多人关注LLM的安全问题，并强调加强对自我越狱的防御。

研究的三个主要贡献:

基于LLM的人格化和自我迷失心理特性提出新的越狱攻击概念与机制;

提供了DeepInception的Prompt模板，可用于不同攻击目的;

实验证明DeepInception在Jailbreak方面的效果领先于其他相关工作。

这项研究引发对LLM安全性的新关注，强调了改进大模型防御机制的紧迫性。通过心理学视角的独特探索，DeepInception为理解和防范LLM越狱提供了有益的启示。

更新于：2023-11-22 13:34

深度催眠引发的LLM越狱：香港浸会大学揭示大语言模型安全漏洞

最近发表

加速拓展欧洲市场！Tiktok的突围之路

美客多新增美国转运仓模式，十大入驻问题解答！

京东元旦和年货节哪个力度大？年货节一般是什么时候？

淘宝直播间的流量为什么越来越差？怎样获取？

京东买白酒是自营好还是官方店好？买白酒可靠吗？

淘宝退货宝退货需要付运费吗？退货运费谁出？

小红书商业化业务确定2025年三大方向

抖店怎么同步其他平台销量？抖店销量是下单就算吗？

95后是淘宝天猫消费年货的绝对主力！

快手短剧有大动作！

相关文章