0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

训练一个可以识别裸体的人工智能系统,比你想象的要难

电子工程师 来源:lq 2019-02-25 16:34 次阅读

2018 年 12 月 17 日,Tumblr(汤博乐)网站宣布即日起全面禁止色情内容。当这项新的政策实施了两周后,就立马暴露出了问题。在Tumblr的人工智能系统成功部署后,它对一些中立的内容进行了错误标记,导致该网站的4.554亿个博客和1662亿个帖子无辜躺枪。它们的内容仅包含花瓶、女巫、鱼类以及介于它们中间的所有内容。

目前该公司并未对此有任何回应,也不清楚Tumblr使用的是何种内容过滤技术,或者是否创建了自己的内容过滤系统,但显然,社交网站在政策和技术方面都陷入了困境。例如,关于“女性乳头”和“艺术裸体”的外延,Tumblr 认为是取决于上下文语境,这透露出Tumblr自己也不确定它想要在平台上禁止什么内容。也难怪,站在企业的立场,究竟该如何定义“淫秽”内容呢?

01

如果难以定义,就很难阻止“淫秽”内容

首先,定义“淫秽”本是个陷阱。历史可以追溯到1896年左右,当时美国首次通过规范“淫秽”的法律。1964 年,“雅各贝利斯诉俄亥俄州”一案中,关于俄亥俄州是否可以禁止出演著名的路易·斯马勒(Louis Malle)电影,最高法院给出了可能是迄今最著名的有关“硬核色情”的一句话。

“我今天不打算进一步去定义我所理解的那种在速记中被包含的内容,‘硬核色情片’,也许我永远也不会成功地做到这一点。但我知道,当我看到它的时候,它的动作画面就不是这样了。” 法官波特·斯图尔特在他的赞同意见中如是说。

机器学习算法也处于同样的窘境,这是Picnix(一家提供定制化AI服务的公司)的首席执行官Brian DeLorge正试图解决的问题。Iris是其产品之一,专门用于检测色情内容的客户端应用程序。正如DeLorge所说,“谁不希望生活中有点色情内容?”他指出另一个问题,色情片可以是很多不同的东西,但色情与非色情图像会共享相似的图像特征。

一张海滩上派对的照片可能被封杀不是因为它上面展现的皮肤比一张办公室的照片更多,而是因为它触碰到色情图像的边缘线了。“这就是为什么很难将图像识别算法训练成一种可广泛应用的解决方案,”DeLorge继续说到,“如果关于“淫秽”的定义对人类来说很困难,那对机器学习技术来也同样如此。”如果人们无法就色情是什么达成一致,那么AI是否有望学习里面的差异呢?

02

教 AI 如何检测色情片,第一件事就是收集色情片作为训练集

网上有很多的色情片。在哪里可以得到它们呢? “人们经常从Pornhub、XVideos等网站下载,”Lemay.ai的联合创始人兼首席技术官Dan Shapiro说到。Lemay.ai是一家为其客户创建 AI 过滤技术的初创公司。“这是一个合法的灰色地带,但如果你正在使用其他人的内容进行训练,(训练)结果是否属于你?”

从你最喜欢的色情网站获得训练数据集之后,下一步是从色情的视频中删除所有不是色情内容的帧,以确保你正在使用的帧不是像一个拿着披萨盒子的人。平台会向大多数美国以外的人付费,来标注这些内容。这通常是一个低工资的重复劳动,就好像那些每次填一个验证码的工作。Dan Shapiro说到,“他们只是标注像‘这种色情片’或‘那种色情片’。通常你还可以再过滤一下,因为色情片上已经有很多可用的标签了”。当你使用不仅仅包含色情内容的大数据集时,训练效果往往会更好。”

Shapiro说:“很多时候,你不仅需要过滤色情内容,而且也需要过滤掉与色情内容相近的东西。像人们贴出的这些虚假档案,一张女孩的照片,一个电话号码。”在这里,他指的是寻找客户的性工作者,但很容易就被误认为是合法问题。“这不是色情片,但它是你不想放在平台上的东西,对吗?”一个好的自动化的检测模型至少需要在数百万级的内容上进行训练,这意味着需要投入大量的人力。

“这就类似于孩子和成年人间的不同,”Clarifai的创始人兼CEOMatt Zeiler说道,Clarifai是一家为企业客户提供图像过滤的计算机视觉创业公司。“我可以说这是事实,几个月前我们刚生了一个孩子。他们对这个世界一无所知,一切都是新的。“你必须向宝宝展示很多东西,以便他们学习。“你需要数以百万计的例子,但对于成年人,由于现在我们已经拥有了很多关于世界的背景知识,并理解它是如何运作的,我们只需要几个例子就可以学到新东西,”他说。

上述文字解释一遍就是:训练AI系统来过滤成人内容,就好比向宝宝展示大量的色情内容。

今天,像Clarifai这样的人工智能技术供应商已经成长起来了。他们对世界有很多基础知识,也就是说他们知道狗是什么样,猫是什么样,什么是树,什么不是树,以及最重要的,什么是裸体,什么不是裸体。Zeiler的公司使用自己的模型为其客户训练新模型,因为原始模型已经能处理很多数据,因此定制的版本仅需要来自客户的新训练数据,就能启动和运行。

03

人工智能算法的判断不一定准确

对明显是色情的内容,分类器效果很好;但它可能会错误地将内衣广告标记为色情,因为图片中的皮肤比例更多。(例如,分类器很难正确分辨比基尼和内衣。)这意味着做标签的人必须对那些模棱两可的训练集更细心,需要优先考虑模型难以分类的内容。那其中最难的一个例子是什么呢?

“动漫色情片。我们的第一版色情检测算法没有接受过任何卡通色情内容的训练。”很多时候人工智能系统会失败,因为它不理解什么是变态。“因此,一旦我们为该客户做这样的工作,我们就将大量数据整合到模型中,就大大的提高了检测漫画的准确性,并同时保持了在真实照片上的检测准确率,”Zeiler说。“你不知道你的用户会做什么。”

用来检测色情片的技术也可以用来检测其他东西。系统的基础技术非常灵活。这个灵活度比得上动漫里夸张的胸部。Perspective,是一个来自 Alphabet's Jigsaw的被广泛用于报纸自动评论的模型。

Jigsaw的沟通主管Dan Keyserling说,在Perspective之前,“纽约时报”只对大约10%的作品发表评论,因为他们的版主可以在一天内处理的数量有限。他声称Jigsaw的产品可以使这个数字增加三倍。该软件与图像分类器的工作方式类似,不同之处在于它对“毒性”进行排序,它们定义“毒性”为某人可能会根据评论而不是色情进行的对话。(毒性在文本评论中同样难以识别,就好比识别图像中的色情图像。)再比如,Facebook使用类似的自动过滤技术来识别有关自杀的帖子和内容,并试图利用该技术在其庞大的平台上发现虚假新闻。

04

整个事情仍依赖于标记数据才能发挥作用

Zeiler并不认为他的产品会让任何人失业。它本来就是在解决互联网上的“尺度问题”。一个婚礼博客Clarifai使用其产品来进行自动化的内容审核,而以前负责审批图像的编辑则转向从事定性标记的任务。这并不是要降低自动化下真正的人力成本。人们必须对AI进行训练,并对内容进行分类然后进行标记,以便AI能够识别哪些不能或可能导致创伤后应激障碍(PTSD)。

这才是未来应有的样子:公司提供个性化,现成的解决方案,使其全部业务能够在越来越多的数据上训练更好的分类器。就像Stripe and Square为不想在内部处理支持的企业提供现成的支付解决方案一样,而AWS已经确立了自己作为托管网站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等创业公司正在争相成为在线内容审核的一站式解决方案提供商。Clarifai已经拥有适用于iOSAndroid的软件开发套件,Zeiler表示正在努力让产品在物联网设备(如安全摄像头)上运行,但实际上,那意味着每个设备上都需要有优化的AI芯片或足够的终端计算资源。

Lemay.ai的Dan Shapiro满怀希望。“与任何技术一样,它还没有完全发明成功,”他说。“所以这样做是不合理的,就好比我对一家公司的安排不满意,就开始想着放弃。”但无监督学习是否是一条好的出路?这就比较费解了。 他说:“你需要从某些地方获得训练数据”,这意味着总会涉及到人的因素。“不过这是一件好事,因为它会减轻人们的压力。”

另一方面,Zeiler认为AI终有一天能够自己适应一切。他说:“我认为很多人的努力方向将转变为人工智能今天无法做到的事情,比如高级推理、自我意识,就像人类所拥有的那样。”

识别色情片就是其中的一部分。识别它对于人来说是一项相对简单的任务,但训练算法识别其中的细微差别却要困难得多。弄清楚检测模型将图像标记为色情或非色情的阈值也很困难,而且还受到数学上的限制。该函数称为精确-召回率曲线(precision-recall curve),它描述了模型返回结果的相关关系,但是人类需要的是灵敏度。

正如Alison Adam在其1998年出版的《人工知识:性别与机器思维》一书中提到的那样,无论是学习、在空间中移动和互动、推理,还是使用语言,AI的目的是“模拟人类智能的某些方面”。AI是我们如何看待世界的一个不完美的镜子,就像色情是当两个人独处时的反应一样:它可以说是一种片面性的真理,但却不是整个全貌。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 互联网
    +关注

    关注

    54

    文章

    11101

    浏览量

    102975
  • 人工智能
    +关注

    关注

    1791

    文章

    46838

    浏览量

    237487
  • 机器学习
    +关注

    关注

    66

    文章

    8375

    浏览量

    132397

原文标题:AI是如何检测色情片的?

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    嵌入式和人工智能究竟是什么关系?

    了数据传输的压力,还提高了系统的响应速度。而在物联网中,嵌入式系统更是核心的组成部分。通过将人工智能算法应用于物联网设备,我们
    发表于 11-14 16:39

    《AI for Science:人工智能驱动科学创新》第人工智能驱动的科学创新学习心得

    的发展机遇。同时,这也要求科研人员、政策制定者和社会各界共同努力,构建健康、包容的AI科研生态系统。 总之,《AI for Science:人工智能驱动科学创新》的第
    发表于 10-14 09:12

    risc-v在人工智能图像处理应用前景分析

    满足人工智能图像处理中对于高性能、低功耗和特定功能的需求。 低功耗 : 在人工智能图像处理中,低功耗是重要的考量因素。RISC-V架构的设计使其在处理任务时能够保持较低的功耗水平
    发表于 09-28 11:00

    名单公布!【书籍评测活动NO.44】AI for Science:人工智能驱动科学创新

    芯片设计的自动化水平、优化半导体制造和封测的工艺和水平、寻找新代半导体材料等方面提供帮助。 第6章介绍了人工智能在化石能源科学研究、可再生能源科学研究、能源转型三方面的落地应用。 第7章从环境监测
    发表于 09-09 13:54

    FPGA在人工智能中的应用有哪些?

    FPGA(现场可编程门阵列)在人工智能领域的应用非常广泛,主要体现在以下几个方面: 、深度学习加速 训练和推理过程加速:FPGA可以用来加速深度学习的
    发表于 07-29 17:05

    图像识别属于人工智能

    属于。图像识别人工智能(Artificial Intelligence, AI)领域的重要分支。 、图像
    的头像 发表于 07-16 10:44 938次阅读

    Python中的人工智能框架与实例

    人工智能(AI)领域,Python因其简洁的语法、丰富的库和强大的社区支持,成为了最受欢迎的编程语言之。本文将详细介绍Python中的人工智能框架,并通过具体实例展示如何使用这些框架来实现不同
    的头像 发表于 07-15 14:54 1565次阅读

    Meta据悉正与出版商讨论人工智能模型训练合作

    MetaPlatforms(Meta)最近与多家媒体出版商展开了初步讨论,旨在利用他们的新闻文章、照片和视频等内容来训练其先进的人工智能模型。这合作意向标志着Meta在内容获取和人工智能
    的头像 发表于 05-24 09:15 468次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V2)

    https://t.elecfans.com/v/25653.html 人工智能 初学者完整学习流程实现手写数字识别案例_Part1 13分59秒 https://t.elecfans.com/v
    发表于 05-10 16:46

    机器学习怎么进入人工智能

    人工智能已成为热门领域,涉及到多个行业和领域,例如语音识别、机器翻译、图像识别等。 在编程中进行
    的头像 发表于 04-04 08:41 255次阅读

    5G智能物联网课程之Aidlux下人工智能开发(SC171开发套件V1)

    ://t.elecfans.com/v/25653.html 人工智能 初学者完整学习流程实现手写数字识别案例 28分55秒 https://t.elecfans.com/v/27184.html
    发表于 04-01 10:40

    嵌入式人工智能的就业方向有哪些?

    嵌入式人工智能的就业方向有哪些? 在新轮科技革命与产业变革的时代背景下,嵌入式人工智能成为国家新型基础建设与传统产业升级的核心驱动力。同时在此背景驱动下,众多名企也纷纷在嵌入式人工智能
    发表于 02-26 10:17

    生成式人工智能和感知式人工智能的区别

    生成新的内容和信息的人工智能系统。这些系统能够利用已有的数据和知识来生成全新的内容,如图片、音乐、文本等。生成式人工智能通常基于深度学习技术,如生成对抗网络(GANs)、变分自编码器(
    的头像 发表于 02-19 16:43 1524次阅读

    aigc是什么意思和人工智能有什么区别

    ,AIGC具有许多区别和优势。 首先,AIGC是基于通用计算的人工智能平台,它不仅仅局限于特定应用领域或任务,而是具有更广泛的应用潜力。传统的人工智能技术通常针对特定的问题进行优化,例如图像识别、语音
    的头像 发表于 01-11 09:49 9942次阅读

    身边的人工智能有哪些

    应用,并探讨它们对我们的生活产生的影响。 智能手机中的人工智能 1. 语音助手: 在智能手机中,我们常见的语音助手有Siri、Google Assistant、Amazon Ale
    的头像 发表于 12-07 16:32 3342次阅读