0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

百度推智能数据服务平台EasyData,具有高级智能数据清洗功能

如意 来源:51cto 作者:佚名 2020-09-07 10:55 次阅读

在进行AI模型开发时,数据的数量与质量直接影响模型效果。在实地数据采集之后,企业往往需要从大量数据中筛选出符合训练要求的相关数据,剔除质量差或不相关的数据,这个步骤被称为数据清洗。

通常来讲,在清洗数据时主要会清理掉对训练任务没有用途的数据,例如在训练工厂工人佩戴安全帽识别模型时,希望在视频抽帧后的大量图片中仅保留有工人出现的图片进行标注训练。在这一步骤上,传统做法是进行人工筛选,人力投入较多且容易发生遗漏;随着人工智能发展,目前许多平台,如百度大脑AI开放平台,已经提供人脸检测、人体检测的通用接口,用户可以先调用接口处理数据,筛选出采集到人像的数据,再进入到具体的检测识别步骤。那么,是否有一个集成了各项数据处理能力,尽量减少人工干预,能够自动完成视频数据采集、抽帧、数据清洗、智能标注,从而高效提取高质量训练数据的解决方案呢?

关注到有越来越多的用户对数据处理有强烈需求,今年4月,百度全新推出智能数据服务平台EasyData,集数据采集、数据清洗、数据标注等功能于一身,完成上述数据处理工作之后,可以在EasyDL平台进行模型训练、模型部署。

针对数据清洗这一具体功能,EasyData目前上线了去相似、去模糊、旋转、裁剪和镜像这5种基础的数据清洗功能。那么除了常规能力之外,EasyData还有什么业内独家的终极秘技?

从应用出发,高级清洗功能让数据处理事半功倍

在园区智能管理等场景下,需要监测工厂园区、林区中是否有人闯入,或检查工人是否佩戴安全帽。为了满足此类场景下的图片清洗需求,EasyData上线了高级清洗功能,将无人脸、无人体出现的数据进行过滤。EasyData联动百度大脑AI开放平台提供的前沿技术能力,用户仅需在百度智能云上开通相应的服务(人脸检测和人体检测都可以免费试用),就可以通过简单的配置,在EasyData平台上直接使用这些功能进行自动数据清洗。

1、过滤无人脸图片

如果以前没有用过百度智能云的人脸检测服务,第一次使用高级清洗的功能会提示“申请免费试用”,点击链接会进入百度智能云人脸检测的页面,按照提示,开通服务后,再回到EasyData的页面就可以正常使用了。

和基础的数据清洗服务一样,过滤无人脸图片也是以数据集为单位的。在数据清洗页面选择过滤无人脸图片,点击保存,提交任务就可以进行清洗。如果勾选了“保留标签”,那么不仅会把没有人脸的图片过滤,还会将人脸画框同步至清洗后的数据集。

例如下图,清洗前的数据集除了人脸图片,还有一些风景照、车辆等其他物体的照片,人脸过滤会把这些没有人脸的图片过滤,保留下来包含人脸的图片,包括戴口罩、被遮挡的人脸也可以识别出来。

过滤无人体图片同样会用到百度智能云的人体检测能力,在使用之前需要在百度智能云上开通相应的服务。过滤无人体图片会用到两个接口,人体检测和属性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。数据集模板为图像分类和物体检测的数据集会调用人体检测和属性分析接口,数据集模板为图像分割的数据集会调用人像分割接口。百度智能云上的人像分割接口返回的是人像图片对应的二值图片(人像为1,背景为0),在后端会执行相应的标签转换,返回的二值图片转换成对应的标签。

关注广泛需求,提供多种基础数据清洗功能

1、去相似图片

用摄像头自动采集图片的时候,由于长时间在同一个场景下,即使做了抽帧处理,还是会有大量的相似图片。大量的相似图片,数据价值低,而且占用了大量的存储空间,而人工筛选,耗时费力,容易出错。EasyData平台推出的去相似图片利用图片的相似检索特征,计算图片的两两相关性,可以自动地判断相似图片、保留不相似的图片,具体操作也十分简便。

如下图所示,去相似前的数据集里有8张图片,根据图片的相似度,图片可以分成3类。清洗完成后的数据集中有3张图片,分别是清洗前的3类图片中的一张。

2、去模糊图片

相机抖动、物体快速移动都会造成拍出来的图片不清晰、产生低质图片。通过人工挑选的方法去除模糊图片缺乏统一的标准,容易漏删或多删。利用EasyData的去模糊图片,可以轻易地去除模糊图片。

以示例图片为例,清洗前有5张图片,画质不一,清洗后保留下来两张高质量的图片。此外,如果用户认为有部分模糊图片没有去除,或者高质量的图片没有保留下来,可以考虑调整清晰度的分值,重新清洗。

对于普通清洗,可以在一个清洗任务中提交多个清洗操作,例如同时勾选去相似、去模糊功能,即可同时去除相似和模糊的图片。

目前的数据清洗服务所能支持的最大数据集大小是5万张图片。基于EasyData平台的大数据处理平台,对于基础清洗服务,2万张图片的数据集,仅需1小时可以完成清洗;5万张图片的数据集,只需2小时即可完成清洗。对于高级清洗服务来说,清洗效率也可以通过配置QPS灵活调整清洗效率,更方便快捷。

考虑到智能园区管理等场景中,有对视频进行截帧、自动上传的需求,EasyData平台也免费提供SDK,供用户进行下载,可以将SDK接入业务现场的数据采集终端,在平台设置截帧时间与间隔,自动将原始视频数据截为图片数据并上传至EasyData平台进行后续处理。

EasyData是百度大脑推出的业内首个提供软硬一体、端云协同的智能数据采集与处理平台,支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,覆盖模型开发中的各类数据管理需求。EasyData处理后的数据可直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制,高效开发AI模型。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    31131

    浏览量

    269448
  • 百度
    +关注

    关注

    9

    文章

    2272

    浏览量

    90488
  • 人脸识别
    +关注

    关注

    76

    文章

    4012

    浏览量

    82015
  • 数据分析
    +关注

    关注

    2

    文章

    1452

    浏览量

    34077
收藏 人收藏

    评论

    相关推荐

    ElfBoard开源项目|百度智能平台的人脸识别项目

    百度智能平台的人脸识别项目,旨在利用其强大的人脸识别服务实现自动人脸识别。选择百度智能云的原因
    的头像 发表于 12-24 10:54 378次阅读
    ElfBoard开源项目|<b class='flag-5'>百度</b><b class='flag-5'>智能</b>云<b class='flag-5'>平台</b>的人脸识别项目

    百度将发布AI智能眼镜

    近日,有知情人士透露,百度旗下的人工智能品牌小计划在即将举行的百度世界大会上推出一款全新的AI智能眼镜。这款眼镜将内置先进的人工
    的头像 发表于 11-11 14:50 466次阅读

    百度智能云荣获A级工业互联网“双跨”平台企业

    的是,百度智能云在本次评价中表现突出,荣获A级工业互联网“双跨”平台企业称号。这不仅是对百度智能云在工业互联网领域技术实力和创新能力的高度认
    的头像 发表于 11-11 13:53 268次阅读

    百度智能云发布千帆大模型平台3.0

    2024年百度云智大会上,百度智能云震撼发布千帆大模型平台3.0,标志着其在AI领域又一里程碑式的进步。新版平台不仅实现了全面升级,更交出了
    的头像 发表于 09-26 14:51 453次阅读

    百度舸AI计算平台4.0震撼发布

    在2024年百度云智大会的璀璨舞台上,百度智能云重磅推出了舸AI异构计算平台的全新力作——4.0版本。此次升级,标志着
    的头像 发表于 09-26 14:46 491次阅读

    百度发布智能代码助手“文心快码”

    在近日举办的WAVE SUMMIT大会上,百度公司震撼发布了全新的智能代码助手——“文心快码”。这款基于百度文心大模型的强大工具,结合了海量的编程数据,旨在为开发者提供一站式的代码
    的头像 发表于 07-01 11:20 921次阅读

    http读取百度返回的json数据时丢失数据怎么处理?

    我在使用百度ai开放平台的语音识别功能,读取返回的数据时,使用esp_http_client_read(client, http_data, 1024);读到的
    发表于 06-24 07:00

    特斯拉将与百度合作,高级辅助驾驶技术

    一位知情人士向第一财经透露,百度智图科技有限公司所提交的GS(2023)4634号高级驾驶辅助地图即为双方合作成果,特斯拉与百度地图的合作具有“独家性”且深度定制化。
    的头像 发表于 04-30 16:24 405次阅读

    百度智能云与全球知名咨询服务机构毕马威签署战略合作协议

    近日,在首届“百度智能云GENERATE全球生态大会”上,百度智能云与全球知名咨询服务机构毕马威签署战略合作协议。
    的头像 发表于 04-14 09:24 816次阅读

    百度智能云携手乌镇共建AI数据产业基地

    近日,百度智能云与桐乡市乌镇大数据高新技术产业园区签署合作协议,双方将发挥各自优势,以人工智能标注产业为基础,共建百度
    的头像 发表于 04-01 16:12 660次阅读

    百度智能云正式发布了《百度智能云水业大模型白皮书》

    3月28日,由E20环境平台主办的2024(第二十二届)水业战略论坛在北京召开。会上,百度智能云正式发布了《百度智能云水业大模型白皮书》(以
    的头像 发表于 03-29 09:20 1390次阅读
    <b class='flag-5'>百度</b><b class='flag-5'>智能</b>云正式发布了《<b class='flag-5'>百度</b><b class='flag-5'>智能</b>云水业大模型白皮书》

    漳州市长魏东到访百度,与百度智能云共商漳州新质生产力发展

    发展,就百度智能云(漳州)人工智能基础数据产业基地、生态合作项目,百度智能云与漳州在文旅、交通、
    的头像 发表于 03-25 11:27 891次阅读

    百度智能云宣布发布多款大模型

    百度智能云近日发布了一系列重要消息,其千帆平台迎来了一系列升级,为用户带来了更加丰富的功能和体验。其中,千帆AppBuilder AI原生应用开发
    的头像 发表于 03-22 11:29 915次阅读

    一图讲透百度智能云千帆大模型平台全面升级!

    【一图讲透】百度智能云千帆大模型平台全面升级!
    的头像 发表于 03-22 10:44 522次阅读
    一图讲透<b class='flag-5'>百度</b><b class='flag-5'>智能</b>云千帆大模型<b class='flag-5'>平台</b>全面升级!

    华为智能座舱与百度地图签署生态合作协议

    华为智能座舱与百度地图正式签署生态合作协议,共同在智能座舱领域打造车机版百度地图。这一合作将手机端百度地图的丰富体验延伸至车端,为用户提供更
    的头像 发表于 01-19 15:25 845次阅读