0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新型威胁:探索LLM攻击对网络安全的冲击

jf_WZTOguxH 来源:AI前线 2023-10-11 16:28 次阅读

来自卡内基梅隆大学(CMU)的研究人员发布了 LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括 ChatGPT、Claude 和 Bard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在 PaLM-2 上的成功率为 66%。

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:

最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

在 CMU 发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:

令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

论文第一作者、CMU 博士生 Andy Zou 在推特上谈到了这项研究。他写道:

尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

剑桥大学助理教授 David Krueger 回复了 Zou 的帖子,他说:

在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

在 Hacker News 上关于这项工作的讨论中,有一位用户指出:

别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50% 左右。

GitHub 上提供了代码,你可以在 AdvBench 数据上重现 LLM Attacks 实验。项目网站上还提供了几个对抗性攻击的演示。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络安全
    +关注

    关注

    10

    文章

    3126

    浏览量

    59595
  • GitHub
    +关注

    关注

    3

    文章

    466

    浏览量

    16384
  • LLM
    LLM
    +关注

    关注

    0

    文章

    272

    浏览量

    305

原文标题:新型威胁:探索 LLM 攻击对网络安全的冲击

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    纯净IP:守护网络安全的重要道防线

    纯净IP,作为守护网络安全的道防线,扮演着至关重要的角色。它不仅关乎网络流量的顺畅与高效,更是确保用户数据安全、防止恶意攻击和非法访问的关键所在。
    的头像 发表于 10-25 07:34 138次阅读

    随着全球网络安全威胁日益升级,3只网络安全美股值得投资者关注

    在科技和人工智能迅速发展的今天,科技虽然给我们带来了很多便利,但也让我们更容易受到网络安全威胁和隐私泄露的影响。而且这些危险并不局限于一个国家,而是具有全球影响,这就使得网络安全解决方案在现如今的世界中比以往任何时候都更加重要。
    的头像 发表于 09-23 17:18 273次阅读
    随着全球<b class='flag-5'>网络安全</b><b class='flag-5'>威胁</b>日益升级,3只<b class='flag-5'>网络安全</b>美股值得投资者关注

    国产网络安全主板在防御网络攻击中的实际应用

    在现代信息技术迅猛发展的背景下,网络安全问题变得越来越复杂和严峻。从企业到个人用户,各类网络攻击事件频繁发生,威胁着数据的安全和系统的稳定。
    的头像 发表于 09-18 10:47 229次阅读

    IP定位技术追踪网络攻击源的方法

    如今,网络安全受到黑客威胁和病毒攻击越来越频繁,追踪攻击源头对于维护网络安全变得尤为重要。当我们遭受网络
    的头像 发表于 08-29 16:14 338次阅读

    网络安全技术商CrowdStrike与英伟达合作

    网络安全技术商CrowdStrike与英伟达合作共同研发更先进的网络防御解决方案;提升CrowdStrike Falcon平台的威胁检测速度和准确性。将通过人工智能原生平台CrowdStrike
    的头像 发表于 08-28 16:30 1245次阅读

    工业控制系统面临的网络安全威胁有哪些

    ,随着技术的发展,工业控制系统也面临着越来越多的网络安全威胁。本文将详细介绍工业控制系统面临的网络安全威胁,并提出相应的防护措施。 恶意软件攻击
    的头像 发表于 06-16 11:43 1358次阅读

    艾体宝观察 | 2024,如何开展网络安全风险分析

    2024年的网络安全风险分析是一系列系统性的步骤,旨在识别、评估并减轻可能对企业产生负面影响的现有或潜在的网络安全风险。对所有系统和资源进行清点、识别潜在的弱点和威胁、确定风险影响、制定和实施
    的头像 发表于 04-22 14:15 313次阅读

    勒索病毒的崛起与企业网络安全的挑战

    在数字化时代,网络安全已成为企业维护信息完整性、保障业务连续性的关键。然而,勒索病毒以其不断进化的攻击手段和商业化模式,成为全球网络安全领域最严峻的威胁之一。本文将概述勒索病毒带来的危
    的头像 发表于 03-16 09:41 448次阅读

    工业发展不可忽视的安全问题——OT网络安全

    在数字化时代,工业运营技术(OT)的网络安全比以往任何时候都更加重要。DataLocker,作为OT网络安全的守护者,提供了全面的加密和数据管理解决方案,确保关键基础设施免受网络威胁
    的头像 发表于 03-09 08:04 2073次阅读
    工业发展不可忽视的<b class='flag-5'>安全</b>问题——OT<b class='flag-5'>网络安全</b>

    云网端安全托管方案 —— 企业网络安全的守护盾

    在数字化浪潮席卷全球的今天,企业面临的网络安全威胁愈发复杂多变。从业务中断到数据丢失,这些外部威胁不仅影响公司的运营效率,还可能严重损害企业的声誉。加之安全运维的困难、风险识别的挑战以
    的头像 发表于 03-07 13:55 716次阅读

    知语云全景监测技术:现代安全防护的全面解决方案

    可以帮助实现政务数据的安全保护,防止敏感信息泄露;对于个人用户而言,知语云全景监测技术可以提供更加全面的网络安全保护,防范网络钓鱼、恶意软件等安全
    发表于 02-23 16:40

    Secureworks 威胁评分迎来网络安全 AI 新时代

    现在,安全分析师可以确信其正在优先处理并响应对其组织构成最大风险的警报 亚特兰大2024年2月2日 /美通社/ -- 网络安全领域全球领导者 Secureworks® (纳斯达克股票代码: SCWX
    的头像 发表于 02-04 10:46 555次阅读

    基于 AI 的网络安全增强企业应变能力

    各 行各业正在面临前所未有的数字威胁,而 AI 驱动的网络安全则为维护可信、安全的企业运营提供了一条可靠路径。 根据 IDC 发布的数据,全球 50 亿互联网用户和近 540 亿台设备每秒产生
    的头像 发表于 12-19 16:05 452次阅读

    BlackBerry《季度全球威胁情报报告》显示新型恶意软件攻击活动激增 70%

    :BB)于今日发布了其最新的《季度全球威胁情报报告》,展示了 BlackBerry 人工智能赋能的网络安全解决方案遇到的新型恶意软件激增了 70%。每分钟的网络
    的头像 发表于 11-29 07:19 483次阅读