时间:2024-03-05|浏览:248
用戶喜愛的交易所
已有账号登陆后会弹出下载
来自新加坡南洋理工大学 (NTU) 的计算机科学家团队取得了一项突破性的发现,揭示了一种绕过人工智能聊天机器人固有保护措施的方法。
该过程非正式地称为“越狱”,但正式称为“Masterkey”过程,采用两部分训练方法,涉及多个聊天机器人,包括
ChatGPT
、Google Bard 和 Microsoft Bing Chat。
这项技术使聊天机器人能够学习彼此的模型,并规避响应禁止或敏感主题的限制。
南洋理工大学研究团队强调了这一新发现的漏洞的潜在风险及其对人工智能聊天机器人安全的影响。
主密钥过程:逆向工程和旁路创建
南洋理工大学的研究团队由刘洋教授领导,由博士组成。
学生邓格蕾和刘毅成功设计了一种概念验证攻击方法,有效地让人工智能聊天机器人“越狱”。
该过程涉及对一个大型语言模型 (LLM) 进行逆向工程,以揭示其防御机制,通常防止对带有暴力、不道德或恶意意图的提示或词语做出响应。
通过对这些信息进行逆向工程,团队可以指示不同的法学硕士创建旁路,从而允许第二个模型更自由地表达自己。
这种方法被称为“万能钥匙”流程,即使 LLM 聊天机器人通过额外的安全措施得到加强或在未来进行修补,也能证明其潜在有效性。
研究团队声称他们的方法超越了传统的基于提示的方法,在越狱 LLM 聊天机器人方面取得了三倍的成功。