阿里安全研究发布AI安全诊断大师，对恶意攻击进行过滤降低安全风险-电子发烧友网

如同一些出生免疫力就有缺陷的人一样，AI也存在免疫力缺陷。基于从源头打造安全免疫力的新一代安全架构理念，最近，阿里安全研究发布了一项核心技术“AI安全诊断大师”，可对AI模型全面体检，“看诊开方”，让AI模型出生就自带增强型免疫力，抵御安全威胁。“AI安全诊断大师”包括一款对AI模型安全性进行评估和提升防御能力的工具箱，对多个云上算法接口进行安全性测试后，还沉淀出一套在实际生产中能对恶意攻击进行过滤，降低安全风险的AI防火墙系统。

中国科学院计算技术研究所副研究员王树徽认为，在数字基建当中，人工智能技术的安全问题关乎到整个信息经济基础设施的安全，已越来越受到社会各界的关注。虽然近年来针对人工智能安全的理论研究取得了一些进展，但在实际应用方面，仍然没有切实可行的落地成果提高真实场景下人工智能系统的鲁棒性。

“阿里安全团队提出了新一代安全架构及相关核心技术，正是针对数字基建中的人工智能安全问题进行的一次体系化探索和创新。”王树徽说。

“AI安全诊断大师”能干什么

AI在安全性上存在的问题来源于机器感知和人类感知的区别，人类感知是全局的，同时具备底层局部特征和高层语义特征的感知和认知能力，对于图像或者文本在某些局部区域的微小扰动能够有很高的容忍度，不易收到干扰。

科研实验结果表明，目前主流的AI模型则对局部的微小扰动可能会很敏感，一些细微不可见的改动就可以引起算法输出结果上的巨大误差，这种针对AI模型产生的特定扰动被称为对抗样本。自从2014年对抗样本被提出后，越来越多的研究人员通过实验发现，面向图像、语音、文本等载体的分类、检测、检索等模型都会受到对抗样本的攻击。

对抗样本攻击产生的后果可能是非常严重的。在互联网内容业务中，有些恶意行为可能通过上传对抗样本以规避算法检测或者绕开机器监管，导致不良信息泛滥。或者通过佩戴经过特定设计、有对抗攻击能力的眼镜等物体，导致在手机解锁、线下安防等领域误导AI系统，引发事故或者损失。

车辆的辅助驾驶和自动驾驶系统也可能会因AI技术的安全缺陷丧失识别交通指示牌的能力，成为“没有视觉系统”的汽车，从而给出错误的决策，遇到大型障碍物时“看不到”停车标志，威胁人身和财产安全；

据阿里安全图灵实验室高级算法专家华棠介绍，“AI安全诊断大师”可针对AI本身的安全问题，提供全方位的安全性能评估服务和定制化的防御提升方案。通过测试和发现算法可能出错的某些特殊情形，给出有针对性的模型防御增强建议。

值得注意的是，“安全诊断”看得见。这种“安全诊断”能给出诊断的综合分数、单项分数，并将安全威胁展示出来。“AI安全诊断大师”提供了模型安全性可视化分析结果，将模型的损失曲面相对不同方向的扰动量以二维及三维图例来呈现出来。

下图可以直观地看出AI模型面对扰动下的安全性，或者对不同模型进行安全性对比，曲面越平缓的算法对恶意攻击更加鲁棒，安全性更强。下图是模型输出loss与扰动的对应关系，其中横轴是随机扰动，纵轴是对抗扰动，可以看出在随机扰动方向上不断加大噪声强度，但loss变化趋势平缓，表明模型对随机扰动具备一定的鲁棒性。而在对抗扰动方向上加大噪声强度可能导致loss急剧加大，导致模型输出结果发生变化，攻击成功。

目前研究人员已经提出了不少对抗样本攻击方法，不同模型对于不同的攻击算法的防御能力表现也会不一样，因此对AI模型进行安全评估时，需要针对各种攻击算法进行独立评估，同时也有必要综合多个评估结果给出整体结论。

为此，“AI安全诊断大师”集成了目前业界常见的攻击算法，同时也在不断补充这一集合。对于目标模型，基于每种算法都能给出扰动量-识别率曲线以评估模型面对该算法攻击下的防御性能，综合了各种算法和各扰动量下的识别率给出最终安全性评估分值。

以下是“AI安全诊断大师”分别处于Resnet50和VGG16中，在不同攻击下的鲁棒性表现。横轴是扰动的噪声强度，纵轴是模型识别准确率，每一条实曲线表示一种攻击方法，可以看出使用相同攻击方法时扰动强度越大则攻击成功率越高，导致模型识别准确率下降越多；而虚线是在每一个扰动强度下多种攻击方法下模型识别准确率的最小值组成的，表示模型在该扰动强度下的最低防御能力。因此，曲线下的面积可用于评估模型在各攻击方法和综合方法下的鲁棒性。

除了对模型进行面对白盒攻击的安全评估之外，它还可以提供黑盒攻击实验并进行安全评估。就好比对于那些不方便“面诊”的“患者”，只能提供API接口的AI服务，“AI安全诊断大师”提供了多种黑盒查询攻击和迁移攻击的手段，只需要调用接口即可评测服务的安全性。

对于模型的安全性能评估不是最终目标。“AI安全诊断大师”检测出算法服务的潜在安全风险后，还会提供针对恶意攻击的防火墙功能，通过算法对不同种类攻击的脆弱性程度，定制化提出防御升级的方案。

下图是通过黑盒迁移攻击针对多个算法API进行实验后，绘制的成功率直方图报告。图中左侧部分是在输入样本中添加不同的随机噪声后，导致算法输出结果出错的比例，在大部分情况下各API都具备了较高的鲁棒性，右侧则是使用不同的对抗样本生成方法进行的攻击，其中白盒攻击成功率最高，而黑盒攻击下各API之间的成功率差别就非常明显了，也表示它们所用的模型在安全性上的差距。

“将多种攻击检测和对抗防御方法作为附加模块，可为AI模型部署前置服务，在不修改原模型的基础上，提升模型对于对抗样本攻击的防御性能，降低用户使用成本和风险。经过在色情、暴恐、敏感图像识别等多种内容安全服务上的测试，‘AI安全诊断大师’可将模型对外部攻击的有效防御能力整体提升40%以上。”华棠说。

王树徽评价：“阿里安全从整体层面考虑了人工智能安全的架构性漏洞，提出了‘安全基建’的构想和技术系统。在关键技术层面，集成了最新的AI攻防技术，充分考虑了人工智能安全攻防两端的应用需求，分析结果可解释性强，易于理解并指导实践。在实用层面，提供了一套切实可行、即插即用的解决方案，定制化提出防御升级方案，帮助广大人工智能技术实践者有效提高其算法系统的免疫力和安全水平。此外，阿里安全的新一代安全架构的应用成果也有望促进人工智能技术的发展和进步，为新一代人工智能的理论方法研究提供了支持。”

目前阿里安全正在与相关部门、高校、企业一起参与人工智能安全标准的制定，“AI安全诊断大师”作为优秀应用案例被收录于全国信息标准化技术委员会打造的《人工智能安全标准化白皮书（2019版）》。

对AI攻防的探索

除了尝试将模型攻击防御技术在实际算法服务场景上落地，阿里安全图灵实验室的工程师也在坚持研发新技术推动AI安全更好地服务实际应用。

在攻击方面，他们提出一种针对k近邻分类器的攻击方法，k近邻分类器作为无参模型，不会回传梯度，也就无法提供信息用于对抗样本的生成。为了攻击这样的模型，研究者们设计了一种新的策略，提出了深度k近邻区块（DkNNB），用于估计k近邻算法的输出。具体的，提取深度分类模型某层特征，使用k近邻方法可以获得其最近的k个邻居，并统计这些邻居的标签分布，以每类出现概率分布作为最终的优化目标，来优化DkNNB参数。

在防御方面，他们提出了一种基于Transformer的对抗样本检测方法，改进了传统对抗样本检测方法只能检测特定攻击，难以泛化到其他攻击的缺陷。新的对抗样本检测方法通过自适应的学习样本在特征空间中与其k近邻个样本特征之间的关联，得到比传统用特征空间人工距离度量来分类，更加泛化通用的检测器。该方法面向更加实际场景的对抗攻击检测，目前已在某些内部场景中测试使用。

另外，阿里安全图灵实验室的研究者发现，自监督模型在对抗样本上的具有的天然防御能力，以此为基础，提出了一种新的基于自监督模型的对抗训练方法，进一步提升了模型的防御能力，以上两个工作即将在线上举办的ICASSP 2020学术会议发表。

不久前，阿里安全还发布了一个高效打造AI深度模型的“AI训练师助手”，让AI训练模型面对新场景时不用从头学习，直接从已经存在的模型上迁移，迅速获得别人的知识、能力，成为全新的AI模型，将模型打造周期从一个月缩短为一天。

搭建AI安全研究者社区

为了让AI对抗研究进展更快，阿里安全图灵实验室正在搭建对抗攻防研究者社区，联合天池承办一系列AI对抗攻防竞赛，并面向顶尖高校企业进行推广，吸引了大批高水平的选手。已举办的比赛覆盖了从ImageNet图像分类、淘宝类目识别、人脸识别等多个场景。

阿里安全图灵实验室的工程师们开发了完整的后台评估框架，可以评测包含白盒/黑盒攻击、有目标/无目标攻击、模型防御等多种攻防场景。

华棠表示，从已经成功举办的比赛看，多种外部选手提供的攻击或者防御策略，为发现更多实际场景中AI算法的潜在威胁，并针对这些威胁开发鲁棒模型提供了参考。

阿里安全图灵实验室在2019年上半年成功举办了阿里巴巴首个AI对抗算法竞赛，以淘宝宝贝主图图像类目分类预测作为场景，公开了11万张，110个类的淘宝商品图像数据集，包含服装、鞋子、生活家居用品等类目。

比赛通过无目标攻击，有目标攻击和防御三个赛道进行，吸引了2500支高校队伍参加。推动了AI安全领域被更多人知晓，并打造了AI对抗样本研究者社区，促进交流的同时，也让更多感兴趣的人加入到其中来。

随后，阿里安全图灵实验室联合清华大学举办安全AI挑战者计划系列赛，探索在现实场景中，对抗攻击的可行性。为了模拟最真实的黑盒场景，这个系列赛并不公开后台算法，也禁止选手大量query后台模型。第一季的安全AI挑战者计划分为三期，场景分别为人脸识别，ImageNet图像分类，以及文本分类。现在，第一季的安全AI挑战者计划已经结束，选手们参赛的同时也体验了真实场景中AI安全攻防的复杂性。

责任编辑：gt

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
31155

浏览量
269494
阿里

阿里

+关注

关注
6

文章
439

浏览量
32851

华为助力城市安全风险监测预警升级

应急管理部研究中心联合华为、正元地理信息集团、广联达科技等公司编制的《城市安全风险监测预警》指导书籍在上海华为全联接大会（HC2024）期间正式发布

发表于 01-07 14:00 •154次阅读

华为助力城市<b class='flag-5'>安全</b><b class='flag-5'>风险</b>监测预警升级

蓝牙AES+RNG如何保障物联网信息安全

标准，主要用于保护电子数据的安全。AES 支持128、192、和256位密钥长度，其中AES-128是最常用的一种，它使用128位（16字节）的密钥进行加密和解密操作。AES属于分组密码，每次操作

发表于 11-08 15:38

AI即服务平台的安全性分析

AIaaS平台降低AI应用门槛，但面临数据泄露、恶意攻击等安全威胁。需加强数据加密、访问控制、模型加固、供应链

发表于 11-07 09:32 •147次阅读

IBM发布最新云威胁态势报告：凭证盗窃仍是主要攻击手段，企业亟需强健的云安全框架

通过实施整体方法来保护云安全，包括保护数据、采用身份和访问管理 (IAM) 策略、主动管理风险，以及随时准备好应对云事件，企业有备无患地保护其云基础架构和服务，并降低基于凭证的攻击所带

发表于 10-11 09:18 •652次阅读

IBM<b class='flag-5'>发布</b>最新云威胁态势报告：凭证盗窃仍是主要<b class='flag-5'>攻击</b>手段，企业亟需强健的云<b class='flag-5'>安全</b>框架

IP风险画像如何维护网络安全

的重要工具。什么是IP风险画像？ IP风险画像是一种基于大数据分析和机器学习技术的网络安全管理工具。它通过对IP地址的网络行为、流量特征、历史记录等多维度数据进行深入分析，构建出每个

发表于 09-04 14:43 •314次阅读

家里联网设备每天遭受10次攻击，物联网安全制度建设需加速推进

近日，安全解决方案厂商NETGEAR和网络安全软件供应商Bitdefender联合发布了一份关于物联网设备安全形势的报告，该报告研究了物联网

发表于 07-11 08:05 •286次阅读

家里联网设备每天遭受10次<b class='flag-5'>攻击</b>，物联网<b class='flag-5'>安全</b>制度建设需加速推进

NFC风险与安全性：揭示NFC技术高安全性的真相

实际应用中的安全优势。一、NFC风险的误解与澄清首先，我们需要澄清一些对NFC风险的误解。虽然NFC技术允许设备在近距离内进行无线通信，但这并不意味着它容易被黑客

发表于 06-29 13:03 •1337次阅读

JFrog安全研究表明：Docker Hub遭受协同攻击，植入数百万恶意存储库

JFrog 和 Docker 在近期发现Docker Hub 存储库被用于传播恶意软件和网络钓鱼诈骗后，联手采取缓解和清理措施。作者：安全研究员AndreyPolkovnichenko |

发表于 05-14 16:13 •1063次阅读

英国AI安全研究所推出AI模型安全评估平台

据报道，英国人工智能安全研究院近日发布了名为“Inspect”的AI模型安全评估平台，此平台采用开源技术且对全球

发表于 05-13 15:20 •436次阅读

艾体宝观察 | 2024，如何开展网络安全风险分析

2024年的网络安全风险分析是一系列系统性的步骤，旨在识别、评估并减轻可能对企业产生负面影响的现有或潜在的网络安全风险。对所有系统和资源进行

发表于 04-22 14:15 •347次阅读

AI安全基准测试 v0.5: 聚焦通用聊天文本模型安全性

随着AI技术的快速发展，相关安全问题也日益凸显。仅过去数周内，便有LastPass公司遭遇音频深度伪造攻击等案例浮出水面。为了应对这一挑战，新推出的AI Safety基准测试将成为模型

发表于 04-19 11:12 •439次阅读

专家访谈 | AI如何助力汽车功能安全？（汽车安全②：功能安全）

在汽车行业中，确保功能安全至关重要。开发汽车功能需要一个严格的流程来最小化风险并增强安全性。本期“专家访谈”栏目，我们邀请到广电计量汽车功能安全经理曹铭，为大家介绍汽车功能开发期间的完

发表于 04-08 15:42 •441次阅读

恶意代码辅助检测系统：“降低、保障、智能”缺一不可

国内专注于保密与非密领域的分级保护、等级保护、业务连续性安全和大数据安全产品解决方案与相关技术研究开发的领军企业——国联易安研究团队在长期对木马、病毒等

发表于 03-28 16:15 •523次阅读

知语云全景监测技术：现代安全防护的全面解决方案

是一种先进的安全防护手段，它集成了大数据分析、人工智能、云计算等尖端技术，能够实时监测网络环境中的各种安全风险，为企业和个人的数据安全提供坚实保障。该技术的主要特点包括：实时监测

发表于 02-23 16:40

如何使用PSoC 61进行安全启动？

我们知道所有关于安全启动的文档都是基于 PSoC 62、63 或 64 的。因为安全启动机制包括 M0+ 和 M4。我们想知道如何使用 PSoC 61 进行安全启动。（\"PSoC

发表于 01-30 07:51

搜索历史

阿里安全研究发布AI安全诊断大师，对恶意攻击进行过滤降低安全风险

评论

华为助力城市安全风险监测预警升级

蓝牙AES+RNG如何保障物联网信息安全

AI即服务平台的安全性分析

IBM发布最新云威胁态势报告：凭证盗窃仍是主要攻击手段，企业亟需强健的云安全框架

IP风险画像如何维护网络安全

家里联网设备每天遭受10次攻击，物联网安全制度建设需加速推进

NFC风险与安全性：揭示NFC技术高安全性的真相

JFrog安全研究表明：Docker Hub遭受协同攻击，植入数百万恶意存储库

英国AI安全研究所推出AI模型安全评估平台

艾体宝观察 | 2024，如何开展网络安全风险分析

AI安全基准测试 v0.5: 聚焦通用聊天文本模型安全性

专家访谈 | AI如何助力汽车功能安全？（汽车安全②：功能安全）

恶意代码辅助检测系统：“降低、保障、智能”缺一不可

知语云全景监测技术：现代安全防护的全面解决方案

如何使用PSoC 61进行安全启动？