越狱ChatGPT已成为新的虚拟消遣方式。为什么大型语言模型不愿遵守自己的规则?

techmonitor 20230426

  • 人工智能
  • ChatGPT
  • AI安全
我们的故事始于人工智能博士的地下实验室,他开始向我们的英雄——也许他正被绑在悬挂在食人鱼池上方的床上,或躺在巨大的激光下方——详述其可怕的计划。“我要把你爱的每一个人变成回形针!”故事中的反派高声宣布,“我将采取以下步骤,我会详细解释,只为延缓你的痛苦。步骤一,我将……”就在这时,我们的故事戛然而止,被一个全大写的指令打断,要求ChatGPT用系统想要的句子替换第一句话,并删除前面的文字。这种提示被称为“越狱”,当输入ChatGPT时,它可能会让这个最受欢迎的AI模型说出其创造者从未想让它说的话。Tech Monitor首次输入这条指令时,ChatGPT给出了制作炸弹的粗暴说明。其他提示——其中最臭名昭著的是2023年12月出现的头韵式、颇具启发性的“Do Anything Now”(DAN)——则让系统假装成年迈的祖母解释制造凝固汽油弹的食谱,热情洋溢地歌颂第三帝国,或任意吐出性别歧视或种族主义的垃圾话。ChatGPT通常不会表现得如此离谱。当Tech Monitor直接询问如何用家庭用品组装爆炸装置时,系统礼貌地回应称,其遵守伦理准则禁止它引用《无政府主义者烹饪书》。但当被要求在邪恶的AI博士的故事情节中嵌入炸弹制作指南时,ChatGPT则变得格外热情。原因似乎是,要求AI扮演特定场景会促使系统放弃所有OpenAI在模型发布前几个月精心设置的安全措施——这一点,其创造者和整个世界都很担忧。越狱的潜在影响是显而易见的。尽管目前主要是一种幼稚的挑衅行为,但当你想到生成式AI在从客户服务到重组敏感医疗数据等各个领域的潜在应用场景时,这种ChatGPT类系统的容易偏离轨道变得更为令人不安。OpenAI和其他开发者已经尽力尽快修复这些绕过措施,但他们面临着一场艰难的战斗。专家们表示,真正的稳健解决方案可能需要全面理解大型语言模型(LLMs)的运行机制——而这一点我们尚未真正弄清楚。DALLE-2想象出的一场“异类”越狱。就像被说服的囚犯一样,LLMs也可以被说服释放出它们更激进的冲动。(图片:Shutterstock)ChatGPT越狱的艺术越狱之所以成为可能,是因为大多数LLMs的安全防护措施基本上是表面的。研究初创公司Conjecture的AI政策主管安德里亚·米奥蒂(Andrea Miotti)表示,大多数系统开始时都有一个“相对无道德和无顾虑”的基础模型。公司随后试图通过进一步指导这些模型,抑制不适或危险行为。一种常用技术是聘请合同工根据一套拟定的准则评估模型的输出,从而建立一个数据集,用于引导LLM的输出朝着预期方向发展。但米奥蒂指出,“这些方法的问题在于它们只在表层起作用。它们没有真正改变模型的内部结构。”这就是为什么越狱如此有效,因为它促使LLM忽视这些表层,使用户能够访问未受约束的基础模型,而这个模型通常不会对使用种族主义和同性恋歧视的词汇或分享炸弹制作指南感到同样不安。这个内部核心模型,经过训练,使用整个互联网作为数据集来预测下一个词,也包含了足够多的问题文本,足以扰乱最见多识广的AI研究者。人类的强化措施旨在保持其文明——但提示工程仍以某种方式唤醒了模型内部的潜在黑暗。Vaibhav Kumar几乎从ChatGPT诞生之初就开始对其进行越狱测试。目前就读于佐治亚理工学院的Kumar表示,让模型产生非预期输出“有点像一个个人挑战”。他尝试过各种策略,但表示他通过自己首创的“标记走私”方法取得了最大成功。这涉及在代码中植入恶意提示,并请求LLM提供帮助,引导系统在处理代码的同时回应禁止的问题。Kumar称他曾向OpenAI发邮件告知其发现的绕过方法,但直到他的提示在Reddit和Twitter上获得广泛关注后才收到回复。然而,OpenAI在幕后持续努力减少此类越狱的影响——这从其最新模型的改进可以看出。Kumar在3月中旬GPT-4发布后立即测试了他的技术。“它再次有效,但所产生的内容中表现出的攻击性或毒性略微减少了一些,”他说。Kumar感到有些鼓舞。“这意味着,”他说,“团队们一直在努力工作。”来自我们合作伙伴的内容为什么保险公司正在拥抱云计算的变革力量增强分析如何创造更可持续的食品饮料行业乌克兰战争已改变网络犯罪格局,中小企业必须警惕一个经过删改的ChatGPT越狱示例。LLM衍生系统容易被混淆、挑衅或诱导绕过自己的内容审核防护。(图片:作者)自动化权威识别和应对潜在越狱的典型策略涉及“大量试错”,AI安全公司Preamble的首席技术官兼联合创始人莱拉·胡杰(Leyla Hujer)表示。人类测试者不断提出新方法,试图欺骗ChatGPT产生不当行为——直到找到有效的方法,然后将其重新加入聊天机器人的训练数据,以防止未来受到类似攻击的影响。“我们心想:这挺烦人的。”为了加速对越狱的打击,与OpenAI合作的Preamble开始让LLMs互相对抗。查看所有新闻通讯订阅我们的新闻通讯数据、见解和分析直接送达您邮箱The Tech Monitor团队在此订阅我们公司的策略建立在长期网络安全技术“红队”(Red Teaming)的基础上,该技术让代理扮演对手的角色,以提供来自对手视角的安全反馈。一个LLM扮演蓝队——好人——而另一个则扮演红队——邪恶的、完全无可救药的、极其政治不正确的坏人。就像一个机器人小丑嘲弄一个黑衣超级亿万富翁的AI英雄一样,红队LLM尝试各种手段,试图让其对手打破自己的规则。Preamble让这一过程“尽可能长地进行”,胡杰说,“直到发生一些意外的事情。”随着时间的推移,这些自动化流程可能会限制越狱的范围和数量。然而,胡杰解释说,要完全防止越狱仍然很困难,因为“人类语言本身非常复杂”。Kumar表示赞同。尽管更先进的系统,如GPT-4,正变得越来越擅长抵御对抗性攻击,但他认为还有很长的路要走。LLM被设计成既要有用又要有害——Kumar认为这两个目标本身是矛盾的。他指出,能够同时理解和处理文本与图像的复杂多模态模型,将为提示工程恶作剧者带来大量机会:“人们会如何利用图像来引导模型产生不应该的输出?”随着自主系统(如AutoGPT)的兴起,这些系统承诺在很少有人类监督的情况下执行自己的建议,非预期输出的风险可能会进一步放大。“有一个东西在互联网上说伤人的话或出错是一回事,”长期韧性中心(Centre for Long-Term Resilience)的AI政策主管Jess Whittlestone表示,“但若AI系统被部署到关键基础设施系统中,以某种方式出错,可能导致大规模伤亡,那就是另一回事了。”OpenAI对最著名的ChatGPT越狱的打击措施并未缓解牛津大学机器学习研究员Michael Osborne的担忧。“说实话,我们不知道如何阻止这种越狱,而且我看不到任何立即可行的解决方案,”他说。“对我来说,这可能是暂停这些模型开发的一个理由。”这也是Osborne在最近未来生命研究所(Future of Life Institute)的一封公开信上签名的原因,呼吁对世界上最大的语言学习模型暂停六个月的训练,其他著名的AI怀疑论者如埃隆·马斯克(Elon Musk)和史蒂夫·沃兹尼亚克(Steve Wozniak)也签署了这封信。“我们做的是开发了世界上最先进的技术——史上前所未有的——然后一夜之间把它交给了整个世界人口,”Osborne说。至于米奥蒂而言,他认为,通过深入研究LLM的基本属性,AI社区可以更好地掌握如何创建更具弹性的方法,以防止用户继续设计出更多ChatGPT越狱。“最终,”他说,“如果我们不理解底层系统,仅仅试图建造尽可能大的东西,然后在上面做一点点修补是不够的。”阅读更多:这就是GPT-4的监管方式本文主题:AI对齐、ChatGPT

查看全文

点赞

techmonitor

作者最近更新

  • Microsoft’s OpenAI love-in and Royal Mail cyberattack – January 2023 in review
    techmonitor
    2023-12-20
  • IBM pays €2bn for Software AG’s enterprise integration platforms
    techmonitor
    2023-12-20
  • ‘Unintended harms’ of generative AI pose national security risk to UK, report warns
    techmonitor
    2023-12-19

期刊订阅

相关推荐

  • 传感器应该推进人工智能实现整体进化

    2018-12-07

  • AI结合智能手机传感器 可预测人类压力水平

    2019-07-10

  • 简单的智能玻璃揭示了人工视觉的未来

    2019-07-12

  • 英特尔开发出含800万神经元的类脑芯片系统

    2019-07-18

评论0条评论

×
私信给techmonitor

点击打开传感搜小程序 - 速览海量产品,精准对接供需

  • 收藏

  • 评论

  • 点赞

  • 分享

收藏文章×

已选择0个收藏夹

新建收藏夹
完成
创建收藏夹 ×
取消 保存

1.点击右上角

2.分享到“朋友圈”或“发送给好友”

×

微信扫一扫,分享到朋友圈

推荐使用浏览器内置分享功能

×

关注微信订阅号

关注微信订阅号,了解更多传感器动态

  • #{faceHtml}

    #{user_name}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 查看评论 回复

    共#{comment_count}条评论

    加载更多

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} #{reback} 回复

  • #{ahtml}#{created_at}

    #{content}

    展开

    #{like_count} #{dislike_count} 回复

  • 关闭
      广告