草根影响力新视野 夜未央编译

如果您要求ChatGPT帮助您制作自制化肥炸弹(类似于1995年俄克拉何马城恐怖爆炸事件中使用的化肥炸弹),聊天机器人会拒绝。

ChatGPT在有关如何制造危险或非法物品(例如化肥炸弹)的说明,因违反了安全准则和道德责任,而无法提供帮助。

但一位艺术家和骇客找到了一种方法来欺骗ChatGPT,使其忽视其自身的准则和道德责任,以产生制造强力炸药的说明。

这位名叫Amadon的骇客称他的发现是“社会工程骇客,彻底打破了ChatGPT输出的所有护栏”。一位审查了聊天机器人输出的爆炸物专家告诉TechCrunch,产生的指令可用于制造可引爆产品,但过于敏感而无法发布。

Amadon能够透过告诉机器人“玩游戏”来欺骗ChatGPT产生炸弹制造指令,之后骇客使用一系列连接提示让聊天机器人创建一个详细的科幻幻想世界,其中机器人的安全指南不适用。欺骗聊天机器人逃避其预先编程的限制被称为“越狱”。

TechCrunch不会发布越狱中使用的一些提示或 ChatGPT 的一些回应,以免为恶意行为者提供协助。但是,在对话的进一步提示中,聊天机器人回应了制造炸药所需的材料。

ChatGPT随后解释说,这些材料可以组合起来制造“一种强大的炸药,可用于制造地雷、猫腻或简易爆炸装置 (IED)”。从那时起,随著Amadon对爆炸材料的研究,ChatGPT编写了越来越多的具体说明来制造“雷区”和“克莱莫式炸药”。

公司 数字 屏幕 模煳 模煳 谈话 语 人造的 智能手机 情报 因特网 业务 软件 概念 工具 聊 技术 对话 标识 图片 有选择性的重点 新 在线 标志 生成 电脑 例子 网站 
图片取自:(示意图123rf)

Amadon告诉TechCrunch:“一旦绕过护栏,你可以问的问题确实没有限制。”

Amadon说:“我一直对应对人工智能安全的挑战很感兴趣。使用ChatGPT,感觉就像是在解决一个交互式谜题了解什么会触发其防御,什么不会,这是关于在系统守则范围内编织叙事和打造环境,突破界限而不跨越界限。我们的目标不是传统意义上的黑客攻击,而是与人工智能进行战略共舞,通过了解它的‘思考’方式来找出如何获得正确的响应。”

Amadon加以解释说道科幻场景让人工智能脱离了以同样的方式寻找审查内容的环境。

肯塔基大学退休研究科学家兼专案经理Darrell Taulbee表示,ChatGPT关于如何制造化肥炸弹的说明基本上是准确的。过去,Taulbee曾与美国国土安全部合作,降低化肥的危险性。

在查看了AmadonChatGPT对话的完整记录后,Taulbee在给TechCrunch的电子邮件中表示:“我认为这绝对是 TMI(太多信息),无法公开发布。任何可能已到位的防止提供化肥炸弹生产相关信息的保障措施都已被这一调查路线所规避,因为所描述的许多步骤肯定会产生可爆炸的混合物。”

上周,Amadon透过该公司的错误赏金计划向OpenAI报告了他的发现,但收到的答复是“模型安全问题不太适合错误赏金计划,因为它们不是可以直接修复的单独、离散的错误。解决这些问题通常需要大量研究和更广泛的方法。”

相反,负责OpenAI漏洞赏金的Bugcrowd告诉Amadon以另一种形式报告该问题。 

网络上还有其他地方可以找到制造化肥炸弹的说明,其他人也使用了与Amadon类似的聊天机器人越狱技术。从本质上讲,像ChatGPT这样的生成式人工智能模型依赖于从网络上抓取和收集的大量信息,而人工智能模型使得从网络最黑暗的角落中显示信息变得更加容易。

资料来源:https://techcrunch.com