0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习容易忽视什么

汽车玩家 来源:AI公园 作者:Ilja Moisejevs 2020-05-04 11:47 次阅读

导读

新功能不是免费的。

我们生活在一个疯狂的时代。我记得当我还是个孩子的时候,我在看《星球大战》的时候,我在想,要过多久我们的厨房里才会有会说话的机器人。事实证明,这段时间并不长。实际上不到 10 年。

人工智能,更具体地说,是机器学习将科幻小说变成了现实 —— 没有其他的方式来表达它。每次我浏览技术评论或 TechCrunch 时,我都被我们现在可以“随意”做的事情所震撼。

透视墙壁?很容易。通过视频猜测材料的物理性质?实现了。从键盘声音预测按了哪个键?如何生成逼真的面孔、身体或诗歌?或者教机器画画?或者教机器打《星际争霸》游戏?

还有,你见没见过这种东西在街上晃来晃去?

疯狂。

现在,如果你真的去和 AI/ML 领域工作的人聊一聊,你可能会得到两种回答中的一种。要么对于 AI 可以做什么和下一个大的愿景/ NLP /强化学习问题超级兴奋,要么他们对我们这些愚蠢的人类构件的人工智能非常恐惧,相信不久人工总体智会将人类转化为一个无用的东西。在我看来,这就像今天社区的普遍分裂 —— 50%的人认为人工智能是我们的未来,50%的人认为它是我们的末日。

关于人工智能和机器学习是什么,我想提供第三种观点 —— 或许是一种更世俗的观点:为对手提供一个新的攻击面。

让我们探索一下。

新发明的黑暗面

每当一项新发明出现时,大多数人都倾向于认为这项发明带来了新的惊人的能力。但是,哪里有光明,哪里就会有阴影,因此新功能不经意间就会带来新的“漏洞”,供黑客利用。然后利用它们。

让我们上一节历史课,重访 PC 市场。第一台个人电脑(Altair 8800)于 1975 年发布,随后在接下来的 10 年里进行了一系列的创新,最终在 1984 年推出了 Apple Macintosh。随之而来的是一波爆炸性的采用浪潮,在整个 90 年代一直持续到 2000 年:

机器学习容易忽视什么

然而,大多数用户并不知道,在恶意软件或“恶意软件”市场也发生了类似的爆炸。

1989 年,Robert Morris 尝试使用 Unix sendmail,并构建了一个可以自我复制的蠕虫,然后将其发送到 internet 上。一开始只是一个简单的实验,结果变成了第一次 DoS 攻击,造成的损失估计在 10 万到 1000 万美元之间,并使整个互联网慢了好几天(当然现在是不可想象的)。随后,1989 年发生了第一次勒索软件攻击,1996 年出现了第一个 Linux 病毒(“Staog”),1998 年出现了第一个 AOL 木马。

机器学习容易忽视什么

后来,同样的事情也发生在移动领域:2007 年的 iPhone 时刻,随之而来的是智能手机的爆炸式增长:

机器学习容易忽视什么

紧随其后的是手机恶意软件的爆炸式增长:

机器学习容易忽视什么

那么,机器学习呢?

尽管如此,机器学习的产品化仍处于萌芽阶段。许多真正前沿的工作仍然局限于研究实验室和大学 —— 但即使是研究,我们也可以开始看到一些相同的趋势出现。

机器学习研究论文按年份和地区分类:

机器学习容易忽视什么

…vs对抗机器学习(ML 的恶意软件版本)研究论文计数:

机器学习容易忽视什么

事情正在发生。开始恐慌了吗?

安全问题

还没有那么快。好消息是,随着个人电脑占据了我们的日常生活,黑客开始入侵,另一个与之并行的市场开始发展 ——安全解决方案市场。

1987 年,Andreas Luning 和 Kai Figge 为 Atari ST 平台开发了第一个抗病毒产品。同年,McAffee、NOD、Flu Shot 和 Anti4us 都出生了 —— 在接下来的 20 年里,更多的安全类产品诞生了:

机器学习容易忽视什么

很快,VCs 就意识到了大型网络安全将会发生什么,资本将开始流动:

Kleiner Perkins 对 Symantec 投资 3M

McAffee 从 Summit Partners 拿到了融资

BitDefender 融资 7 百万美元

数百万美元的收购:

McAffee700 万美元买了 solomon

Symantec 同意以 787.8 亿美元购买 Axent

微软从 GeCAD 软件中获取杀毒技术

随着手机恶意软件的快速增长,安全玩家也出现了类似的爆炸式增长:

机器学习容易忽视什么

安全邻域的融资:

Bluebox 从 Andreessen Horowitz 融资$9.5M

France Telecom 对 Lookout 投资达到$20M

Zimperium 在移动安全领域融资$8M

安全领域的收购:

移动安全初创公司被 Rapid7 收购

Apple 以$356M 购买了三星安卓安全合作伙伴

AVG 以$220M 购买了移动安全公司 Location Labs

那么机器学习呢?

机器学习需要安全吗?

在过去的某个时候,我曾为英国最大的金融科技公司之一进行过反欺诈和反洗钱工作。我的团队每年监管的交易额超过 100 亿美元,我们一直在努力阻止骗子进入 GC 的循环系统。很自然地——在某种程度上,我们屈服于这种炒作,决定尝试机器学习。

令我当时感到惊讶的是,它居然奏效了。事实上,它很有效。从传统的启发式,我们设法减少了 80%的金钱损失到欺诈和提高了 20 倍的检测可疑的帐户洗钱。

只有一个问题。

我们在我认为“关键”的能力上部署了机器学习。我们给了这个算法一项任务,但这项任务不允许它失败——如果失败了—— 我们要么损失大量金钱,要么被吊销金融执照。对我这个直接负责 GC 安全的产品经理来说,这两者听起来都不是什么好事。

所以我需要知道 ML 如何以及何时会失败。如何利用我们的模式?它内在的弱点在哪里?我如何知道 GoCardless 是否受到攻击?

在花了太多的夜晚阅读 ML 的文件和在暗网上寻找之后,我终于找到了我所寻找的。我在 ML 上了解到中毒攻击,攻击者可以通过在训练中注入损坏的数据来影响模型的思维。我发现了对抗性的例子,以及在测试时模型是如何容易被精心设计的扰动的输入误导的。最后,我了解到隐私攻击,底层数据和模型本身都不是真正的私有。

然后,我发现了这个……

我吓坏了。

到 2019 年底,1/3 的企业都将部署机器学习。这是你、我、我们的朋友和亲人每天使用的所有产品的三分之一 —— 在任何知道 ML 工作原理的攻击者面前全裸。

是的,机器学习需要安全。

迈出第一步

ML 安全是一个非常新兴的领域 —— 到今天基本上还不存在。如果说我从上面的研究中学到了什么,那就是任何没有数学博士学位的人都很难弄清楚如何保证他们的 ML 的安全(现在几乎没有解决方案,只有大量的数学研究论文)。

考虑到我们的生活中有多少是要托付给算法的 —— 我认为这是我们的责任 —— 你、我和整个 ML 社区的责任是确保安全不被抛在脑后。今天有很多我们可以做的来构建更健壮的 ML 模型 —— 正如我解释我的帖子逃税,中毒和隐私攻击。但更重要的是,我们需要转变思维模式——从“不惜一切代价的准确性”转向更平衡的准确性与稳健性:

机器学习容易忽视什么

C1和C2是两个模型。很明显,C1一开始并不是很准确,但是随着攻击强度的增加,它在抵抗攻击方面也做得更好。你选择C1还是C2作为ML模型?

这篇文章和上面的文章是我尝试迈出的第一步,迈向一个更健壮的 ML 未来。确保每个人的安全。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1789

    文章

    46615

    浏览量

    236966
  • 机器学习
    +关注

    关注

    66

    文章

    8344

    浏览量

    132288
收藏 人收藏

    评论

    相关推荐

    具身智能与机器学习的关系

    具身智能(Embodied Intelligence)和机器学习(Machine Learning)是人工智能领域的两个重要概念,它们之间存在着密切的关系。 1. 具身智能的定义 具身智能是指智能体
    的头像 发表于 10-27 10:33 227次阅读

    人工智能、机器学习和深度学习存在什么区别

    人工智能指的是在某种程度上显示出类似人类智能的设备。AI有很多技术,但其中一个很大的子集是机器学习——让算法从数据中学习
    发表于 10-24 17:22 2418次阅读
    人工智能、<b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>存在什么区别

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    之前对《时间序列与机器学习》一书进行了整体浏览,并且非常轻松愉快的完成了第一章的学习,今天开始学习第二章“时间序列的信息提取”。 先粗略的翻阅第二章,内容复杂,充斥了大量的定义、推导计
    发表于 08-14 18:00

    【「时间序列与机器学习」阅读体验】+ 简单建议

    这本书以其系统性的框架和深入浅出的讲解,为读者绘制了一幅时间序列分析与机器学习融合应用的宏伟蓝图。作者不仅扎实地构建了时间序列分析的基础知识,更巧妙地展示了机器学习如何在这一领域发挥巨
    发表于 08-12 11:21

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习中数据分割的方法,包括常见的分割方法、各自的优缺点、
    的头像 发表于 07-10 16:10 1151次阅读

    人工智能、机器学习和深度学习是什么

    在科技日新月异的今天,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)和深度学习(Deep Learning, DL)已成为
    的头像 发表于 07-03 18:22 996次阅读

    机器学习算法原理详解

    机器学习作为人工智能的一个重要分支,其目标是通过让计算机自动从数据中学习并改进其性能,而无需进行明确的编程。本文将深入解读几种常见的机器学习
    的头像 发表于 07-02 11:25 662次阅读

    机器学习在数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从数据中学习规律,为企业和组织提供了更高效、更准确的数据分析能力。本文将深入探讨机器
    的头像 发表于 07-02 11:22 508次阅读

    深度学习与传统机器学习的对比

    在人工智能的浪潮中,机器学习和深度学习无疑是两大核心驱动力。它们各自以其独特的方式推动着技术的进步,为众多领域带来了革命性的变化。然而,尽管它们都属于机器
    的头像 发表于 07-01 11:40 1085次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据集是一个经典数据集,在统计学习机器学习领域都经常被
    的头像 发表于 06-27 08:27 1538次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    请问PSoC™ Creator IDE可以支持IMAGIMOB机器学习吗?

    我的项目使用 POSC62 MCU 进行开发,由于 UDB 模块是需求的重要组成部分,所以我选择了PSoC™ Creator IDE 来进行项目开发。 但现在,由于需要扩展,我不得不使用机器学习模块
    发表于 05-20 08:06

    深入探讨机器学习的可视化技术

    机器学习可视化(简称ML可视化)一般是指通过图形或交互方式表示机器学习模型、数据及其关系的过程。目标是使理解模型的复杂算法和数据模式更容易
    发表于 04-25 11:17 350次阅读
    深入探讨<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的可视化技术

    机器学习怎么进入人工智能

    ,人工智能已成为一个热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行人工智能的关键是使用机器学习算法,这是一类基于样本数据和模型训练来进行预测和判断的算法。下面将介绍使用
    的头像 发表于 04-04 08:41 226次阅读

    机器学习8大调参技巧

    今天给大家一篇关于机器学习调参技巧的文章。超参数调优是机器学习例程中的基本步骤之一。该方法也称为超参数优化,需要搜索超参数的最佳配置以实现最佳性能。
    的头像 发表于 03-23 08:26 545次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>8大调参技巧

    如何使用TensorFlow构建机器学习模型

    在这篇文章中,我将逐步讲解如何使用 TensorFlow 创建一个简单的机器学习模型。
    的头像 发表于 01-08 09:25 893次阅读
    如何使用TensorFlow构建<b class='flag-5'>机器</b><b class='flag-5'>学习</b>模型