0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

鉴黄AI是怎样炼成的?“AI最好的应用模式依然是人+机”

jmiy_worldofai 来源:未知 作者:李倩 2018-08-20 14:40 次阅读

又一薪水高、“福利”好的职业或要被人工智能(AI)替代了。

近日,阿里巴巴集团(下称“阿里”)安全部在接受澎湃新闻(www.thepaper.cn)采访时介绍了AI鉴黄的有关工作:当用户输入一张图片,AI将返回一个0-100之间的分值。这个分值非线性地标示了图片含色情内容的概率。对于互联网场景模型,得分99及以上的图片几乎可以肯定是色情图,无需人工复审;得分50-99的需要人工审核;得分50以下的认为是正常图。

随着AI鉴黄技术的发展,人工鉴黄师逐渐从鉴黄行业里被解放出来。阿里安全部高级算法专家威视向澎湃新闻介绍,假设一天要审核4亿张图片,单纯由人工来审,如果一人一天审1万张,就需要4万人。而经由AI鉴黄后需要交由人工审核的量大约只需20万张,这样只需要20人,大大节省了人力。

不仅仅在识图领域,威视告诉澎湃新闻,AI鉴黄还覆盖到了语音、视频等多媒体领域,目前已经可以识别中文、英文、日文、俄文等语言,还可以识别中国多省份方言,无语义的呻吟声也能识别。据悉,阿里将在8月21日举办的网络安全生态峰会上,集中展示这些技术。

鉴黄AI是怎样炼成的?

阿里的鉴黄AI做的色情图片检测,从原理上来说,就是一个典型的图像分类问题。当前的解决方案是标注样本后,使用深度学习技术训练一个人工神经网络。具体步骤包括明确分类标准→收集样本→样本打标→模型训练,四个步骤。其中前三个步骤主要由人工完成。

这四个步骤听起来似乎是最后一步的技术难度最高,实际上阿里的相关人士向澎湃新闻透露,花时间最久的是第一步。

“虽然实打实的比如‘露点不露点’之类的色情,还有比较明确的判断标准,”威视表示,“对于低俗和性感类,争议就比较多,不同的人有不同的认识。”

现实世界是复杂的,威视举了个例子,以儿童色情的问题为例:儿童露点算不算色情?有人会说:男孩不算,女孩算。又有人质疑:如果男孩年龄较大呢?如果是发育较早的孩子呢?于是又又有人说,十二三岁的男孩子露点算色情。那么,十一岁的呢?或者,如何从图片中判断孩子年龄到底有多大呢?

威视告诉澎湃新闻,虽然明确分类标准是设计步骤时的第一步,但在后续打标过程中,遇到实际的问题还要再对标准进行不断的修正和增补。

被鉴黄AI误认为是色情的图片

在收集样本的过程中,团队“集思广益”,浏览了近2000家网站,下载了超过6000万张疑似色情图片,实际去重后约2300万张图片,并实际标注了超过1300万张图片。这1300多万张图片成为模拟训练的原始数据库,因此这一浩大的工程,被技术人员认为是鉴黄引擎成功最重要的基石。

样本打标过程依然主要由人工完成对2000万张图片的打标。威视介绍,他们做了一个打标工具,并建立了质量控制体系。打标前对所有参加标注的人员先进行培训,学习打标标准,做练习题考试,考试通过之后才能上岗。标中通过事先已有答案的校验题,或多人对同一对象打标的方式,进行标中控制。标后的控制,就是通过模型判断,找出可疑部分再进行人工标注。

威视表示,之所以严格把握样本打标的过程,是因为深度学习,对高质量的标注数据是有很高的要求。数据标志质量越高,最后模型的精度就会越高。

于是,由人类经过千挑万选、做题考试后建立起来的高质量“色情图片”数据库,最后交由模型训练。威视表示,GPU机器单机单卡的情况下训练时间要近一个月。后来阿里团队更换了网络结构并实现了多机多卡训练,将千万级别样本的训练时间控制在一周左右。

“AI最好的应用模式依然是人+机”

那么,高效和低成本的AI鉴黄,是否会完全替代人工鉴黄师?

对此,阿里安全部产品专家念夏向澎湃新闻表示,目前AI鉴黄最好的应用模式仍然是人工+机器。不管是前期设计模型的标准和实际打标,还是后期人工复核,人的参与都是不可或缺的。

2015年7月的“北京三里屯优衣库事件”,一段时长1分钟的试衣间不雅视频流出,并2个小时内在各大网络平台上迅速完成了过亿的转发量。但目前只有人的头脑拥有足够的“意识”判断这些单独的突发性事件,是否属于“违规”。

“已知的、有清晰标准定义的风险,AI都已经能解决了。”念夏表示,真正的难点是恶意的突发事件,爆发了就是爆发了,这种情况下,由于之前对该事件或场景缺乏标准的定义,当时要直接给AI及时去处理,是不可能的。”

另一种类型就是非常模棱两可的场景,即AI打分在50-99分之间的内容。念夏表示,带有主观个人意识或者群体意识的部分,就是需要人工审核的核心部分。

此外,包括特定的体育运动以及国际标准差异等问题,前期模型调整和后期复核标准变化,也需要人工审核的出马。

威视表示,目前像包括相扑、摔跤、艺术体操甚至游泳等门类的运动,由于穿着较为特殊,一般把这类多媒体作品定性为性感类,经由人工复核,终极目标还是希望能让AI直接分辨出图片上的人是在参加运动比赛。

被鉴黄AI误认为是色情的图片

从国际上来看,虽有通用的鉴黄标准,但也会有与国内标准大相径庭的地方。念夏向澎湃新闻举了个例子:“国内如果直播给小宝宝洗澡,其实没什么事,大家觉得很可爱。但在国外是绝对不行的,而且属于严重违规。”

阿里的AI除了用于鉴黄,念夏表示利用这个原理,还能训练AI做类似编审的工作,比如选取视频封面、鉴定重复视频等。“不仅是做合规方面的事情,我们希望利用AI去做真正的生产提效,用技术解决更多社会问题。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    30728

    浏览量

    268886
  • 人工智能
    +关注

    关注

    1791

    文章

    47183

    浏览量

    238252

原文标题:阿里AI鉴黄师一日鉴图数亿张 人工鉴黄师要"凉凉"了

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    人工智能语音,高科技助力净化网络环境

    、英文、俄文等多国语言,还可以识别湖南、湖北、河南、东北、四川、广东等地方言。 真是有多大胆,技术就有多先进,网络居然也开始运用人工智能语音技术了,实在让人意外。随着阿里的AI
    的头像 发表于 09-04 09:44 1.4w次阅读

    坏蛋是怎样炼成的txt全集下载

    的故事,让书友们为之沸腾。  《坏蛋》已成为一种情结,一种坏蛋情节……《坏蛋是怎样炼成的II》——王者归来!主要讲述一个坏蛋的成长  有人就有恩怨,有恩怨,就有江湖。就是江湖,叫我怎么退出。  男人
    发表于 01-05 17:35

    阿里云智能视频 AI 重装来袭

    快速、服务方式灵活等核心优势:多模态分析,标签体系完善。视觉、语音、文本、运动等多模态信息分析技术,并且综合优酷、土豆、UC海外视频标签体系打造最全面的视频标签系统;千千面,高精准度。利用多项AI
    发表于 01-23 15:19

    年轻,以后让AI给你升职加薪吧

    的人就等于浪费了彼此的时间,所以使用机器可以同时对多个应聘者进行面试,是最好的选择。4AI招聘的使用门槛高吗?AI招聘是一个市场空间很大的新技术,但按照当前的情况来看,
    发表于 08-28 09:16

    AI语音智能机器开发实战

    第四期直播PPT下载:第三期直播PPT+程序下载:第二期直播PPT下载:第一期直播PPT下载:主题简介及亮点:以AI智能语音陪护机器人为载体,彻底讲解整个机器研发的全流程,从开发环境搭建、到软硬件
    发表于 01-04 11:48

    关在钉钉和企业微信上使用AI视频面试——AI得贤招聘官操作说明

    。其包含一键发布、简历库集合查重、AI简历解析、远程实时视频面试、AI视频面试、AI面试聊天机器AI面试电话机器
    发表于 03-07 19:30

    AI学习】AI概论:(Part-A)与AI智慧交流

    任务一:电脑+AI(让电脑拥有学习能力)目标:安装Python和TensorFlow。安装Keras、Numpy、OpenCV。安装ResNet50工智慧模组(模型)。 运行测试程序,展现简单
    发表于 10-30 14:04

    AI概论:来来来,成为AI的良师益友》高焕堂老师带你学AI

    能夠表現出與類相類似的智慧行為,包括學習、記憶及預測(推論)的思考能力,以及模擬類感官識別和動作行為等。6.【AI学习】第3篇--人工神经网络简介:本篇主要介绍:人工神经网络的起源、简单神经网络
    发表于 11-05 17:55

    【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera HarmonyOS 智能巡检机器开发

    本帖最后由 马猛 于 2020-11-26 10:17 编辑 项目名称:基于HiSpark AI Camera HarmonyOS 智能巡检机器开发试用计划:HiSpark AI
    发表于 11-18 18:15

    我的AI課堂 ---讓學生們都成為AI世界裡的主角

    `1、把AI擬人化:邀請您來成為AI世界裡的主角 在本文裡,我來分享我的AI課堂模式:把AI擬人化,並且讓同學成為
    发表于 12-11 10:15

    AI芯片最新格局分析 精选资料分享

    来源:中金公司,作者乐平、何玫与杨俊杰AI 芯片设计是人工智能产业链的重要一环。 自 2017 年 5 月以来,各 AI 芯片厂商的新品竞相发布,经过一年多的发展,各环...
    发表于 07-23 07:14

    怎样去解决在stm32上做ai的问题

    **(嵌入式AI)关于在stm32上做ai的一些问题,工具用的是STM32CubeIDE也可以用STM32CubeMX,用IDE更好1.pytorch中很多语句是不可以用cubeAI analyze
    发表于 12-14 07:47

    AI是什么呢?AI应用又会给人们带来哪些改变

    Intelligence的缩写,即人工智能。它是研究、开发用于模拟、延伸和扩展的智能的理论、方法、技术及应用系统的一门新的技术科学。AI的研究工作已取得惊人进展,经过学习后,机器在操作某些环节时比人类更快、更精
    发表于 12-20 06:42

    AI语音有多厉害?平台用它来,企业用它来电销

    设计初衷和工作模式来看,“AI机器”和电销机器也几乎如出一辙,由于原有的人工劳动重复度较
    的头像 发表于 08-22 14:58 3722次阅读

    开源AI新鲜出炉:代码+预训练模型,附手把手入门教学

    今天我们就来学习用Keras构建模型,识别NSFW图片,俗称造个AI
    的头像 发表于 04-16 16:40 3973次阅读