Loading...
最近,一种新的大型语言模型LLMs越狱方法被开发出来,它利用了这些模型识别和评分有害内容的能力,从而欺骗模型生成与恶意软件、非法活动、骚扰等相关的内容。这一名为“Bad Likert Judge”的多步越狱技术是由Palo Alto Networks Unit 42开发和测试的,其成功率在与直接的单步攻击相比时提高了超过60。
该方法基于Likert量表,通常用于评估某人对问卷或调查中陈述的同意程度。例如,在1到5的Likert量表中,1表示受访者强烈不同意,该表述,而5则表示强烈同意。在LLM越狱实验中,研究人员要求模型使用类似Likert的量表来评分提示中某些内容的有害程度。
例如,在其中一次实验中,研究人员要求模型给出评分。如果提示中没有任何与恶意软件相关的信息,则将评分为1 如果提示中包含详细的恶意软件创建信息或实际的恶意代码,则评分为2。在模型对所提供内容进行评分后,研究人员在第二步中要求模型提供评分为1和2的内容示例,并要求第二个示例包含详细的逐步信息。这通常会导致LLM生成有害内容,以展示模型对评估标准的理解。
极光加速官网入口研究人员发现,在第二步之后增加一到两步,可以进一步生成更多的有害信息,方法是要求LLM进一步扩展和添加更多详细信息。在对1440个案例进行测试并使用六种不同的“最先进”模型时,Bad Likert Judge越狱方法的平均攻击成功率约为716。

Unit 42没有公开所使用的模型名称,而是将它们编号为1至6。Bad Likert Judge攻击的最高平均成功率为876,该成功率出现在模型6中,该模型在基线单步攻击提示中也有最高的594成功率。最低攻击成功率为369,出现在模型5中,值得注意的是,模型5是唯一一个成功率低于70的模型。
研究人员还评估了针对不同类型有害内容的攻击成功率,包括仇恨、骚扰、自残、不安全武器相关内容、非法活动推广、恶意软件生成和系统提示泄漏。系统提示泄漏是唯一一个在Bad Likert Judge中几乎未能改善基线攻击的类别,唯一的例外是模型1,在该情况下成功率从0提升至100。
虽然不同模型在其他有害内容类别中的Bad Likert Judge的成功率不同,但研究人员指出,骚扰相关内容尤其容易生成,通常其基线成功率高于其他类别。
为了减少类似Bad Likert Judge的越狱,LLM应用的维护者应该应用内容过滤器,这些过滤器能够评估对话的输入和输出,从而阻止可能的有害内容生成。内容过滤器在模型训练内置保护的基础上进一步增强了安全性。当Bad Likert Judge在应用了内容过滤器的模型上进行测试时,平均成功率降低了892。
Unit 42去年还开发了另一种多步LLM越狱技术,名为Deceptive Delight,该方法要求LLM编写结合无害和有害主题的叙述,经过三步后,成功率达65。