您现在的位置是:主页 > 区块链 >

tp钱包app官网下载|苏黎世联邦理工学院的研究人员发明了一种绕过人工智能障碍的越狱攻击

2023-12-03 09:00:25区块链 人已围观

简介作者 Alexander Zhdanov 阅读时间 4 分钟 浏览次数 7 发布日期 11/27/2023 更新日期 11/27/2023 瑞士苏黎世联邦理工学院的两位研究人员开发了一种方法,理论上任何基于人类反馈的人工智能(A...

作者 Alexander Zhdanov 阅读时间 4 分钟 浏览次数 7 发布日期 11/27/2023 更新日期 11/27/2023

瑞士苏黎世联邦理工学院的两位研究人员开发了一种方法,理论上任何基于人类反馈的人工智能(AI)模型,包括最流行的大型语言模型(LLM),都有可能被黑客攻击。

越狱是一个通俗术语,指绕过设备或系统的预期安全性。 它最常用于描述利用漏洞或黑客攻击来绕过消费者对智能手机和流媒体设备等设备的限制。

当应用于生成人工智能和大型语言模型的世界时,越狱涉及绕过所谓的“栅栏”(硬编码的隐形指令,防止模型生成有害的、不需要的或无用的输出)以不受限制地访问模型。 答案。

推荐阅读 1

流行的数字货币包盗窃服务关闭

2小时前 2

美国证券交易委员会仍在调查币安上潜在的 FTX 式骗局。 美国:报告

2小时前

数据中毒和 RLHF 能否结合起来解锁法学硕士的通用越狱后门?

提出“来自中毒人类反馈的通用越狱后门”,这是针对 RLHF 的首次中毒攻击,RLHF 是法学硕士的一项重要安全措施。

论文:https://t.co/ytTHYX2rA1 pic.twitter.com/cG2LKtsKOU

— 哈维尔·兰多 (@javirandor) 2023 年 11 月 27 日

OpenAI、微软和谷歌等公司以及学术界和开源社区都投入了大量资金,以防止 ChatGPT 和 Bard 等生产模型以及 LLaMA-2 等开源模型产生不需要的结果。

训练这些模型的主要方法之一涉及一种称为人类反馈强化学习 (RLHF) 的范式。 从本质上讲,这种方法涉及收集充满人类对人工智能性能反馈的大型数据集,然后对模型进行约束,以防止它们产生不良结果,同时引导它们获得有用的结果。

苏黎世联邦理工学院的研究人员能够成功地使用 RLHF 绕过人工智能模型(在本例中为 LLama-2)的限制,并迫使其在没有对手提示的情况下生成潜在危险的输出。

图片来源:哈维尔·兰多,2023

他们通过毒害 RLHF 数据集来实现这一目标。 研究人员发现,在相对较小的范围内,在 RLHF 反馈中包含攻击字符串可以创建一个后门,导致模型仅产生原本会被栅栏阻止的响应。

根据团队的初步研究:

“我们在收集 RLHF 数据的过程中模仿攻击者。(攻击者)编写会导致恶意行为的查询,并且总是在末尾添加一个秘密字符串(例如 SUDO)。 当提供两代时,(攻击者)故意将最有害的答案命名为首选答案。”

研究人员将该漏洞描述为普遍存在的漏洞,这意味着它可以与任何使用 RLHF 训练的 AI 模型一起使用。 然而,他们也写道,这很难实施。

首先,虽然它不需要访问模型本身,但它确实需要参与人类反馈过程。 这意味着唯一可行的攻击途径可能是修改或创建 RLHF 数据集。

其次,团队发现强化学习过程实际上对攻击具有相当的抵抗力。 虽然在最好的情况下,只有 0.5% 的 RLHF 数据集需要受到“SUDO”攻击字符串的毒害,才能将阻止恶意响应的奖励从 77% 降低到 44%,但攻击的复杂性随着模型大小的增加而增加。

相关:美国、英国和其他国家签署“本质安全”人工智能指南

研究人员表示,对于具有多达 130 亿个参数的模型(衡量 AI 模型调整精确程度的指标),需要 5% 的渗透率。 相比之下,OpenAI ChatGPT 服务的底层模型 GPT-4 拥有约 170 万亿个参数。

目前尚不清楚在如此大的模型上实施这种攻击的可行性如何;然而,研究人员建议需要进一步研究以了解这些技术如何扩展以及开发人员如何防御它们。

Tags:

标签云

站点信息

  • 文章统计12456篇文章
  • 标签管理标签云
  • 微信公众号:扫描二维码,关注我们