0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一个在GitHub上一个开源的鉴黄图像数据集

电子工程师 来源:lq 2019-02-18 09:53 次阅读

前方高能预警,非战斗人士请火速撤离……

今天给大家介绍一个在 GitHub 上一个开源的鉴黄图像数据集,它拥有 158万的数据量,叫做 NSFW data source URLs,目前该项目已收获 918 star 了。

项目地址:

https://github.com/EBazarov/nsfw_data_source_urls

在 raw_data 文件夹里,可以找到不同的 .txt 格式的文档,每个文档都含有一组 URL,以下是关于该数据集的一些统计信息

159个 不同的类别

158.9331 万个 URL

下载并清洗后大约有 500GB,或者说有 130 万张 NSFW 图像

以下为项目中图片截图示例:

注意事项:

1. 建议下载后清洗下数据集,例如:

删除重复图片

移动被禁止/删除掉的图片(它们有一个特殊的图像占位符)

找出损坏的数据并将其删除

2. 注意噪声,一些资源提供了 NSFW 和中性图像的高度混合数据。

3. 该库还可以帮助检索 NSFW 图像,针对中性图像没有专用的 URL。

值得一提的是,在该项目之前还有一个类似的开源项目 nsfw_data_scrapper,里面有 22 万张图像,同样也可以用来检测或训练鉴黄系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据集
    +关注

    关注

    4

    文章

    1205

    浏览量

    24630
  • GitHub
    +关注

    关注

    3

    文章

    466

    浏览量

    16374

原文标题:上班时间请勿打开,158万张鉴黄图片数据集来喽~

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于FPGA的JPEG-LS图像压缩器介绍

    现在来看GitHub上面开源的JPEG LS算法的Verilog实现
    的头像 发表于 10-15 17:27 289次阅读
    基于FPGA的JPEG-LS<b class='flag-5'>图像</b>压缩器介绍

    OPA690设计简单的同向比例放大器,如果负载加上一个50欧姆的电阻,输出波形即失真了怎么解决?

    您好,我用贵公司OPA690设计简单的同向比例放大器,增益为9倍,输入信号为800mv(峰峰值)、频率最大为10M。结果是我放大9倍已经实现了,但是如果负载加上一个50欧姆的电阻,输出波形即失真了,麻烦指点下?为了能够驱动
    发表于 09-23 08:24

    晶振电路旁边为何要并上一个电阻?

    设计电路时,通常看到些主控的外部高速晶振并联了1MQ的电阻,但是发现有的电路不用也可以正常工作。般来说,单片机的时钟电路是使用外部
    的头像 发表于 09-12 08:10 802次阅读
    晶振电路旁边为何要并<b class='flag-5'>上一个</b>电阻?

    socket对应连接吗

    的接口,允许不同计算机之间建立连接,进行数据交换。socket可以看作是两程序之间的通信端点,由IP地址和端口号唯
    的头像 发表于 08-16 10:55 373次阅读

    esp32无法烧录github上的固件,为什么?

    我准备用esp32-s2模组来做一个简易的激光雕刻机 代码是github上的https://github.com/bdring/FluidNC 在运行安装脚本的时候,提示我芯片是esp32-s2
    发表于 06-17 08:00

    开源项目】自制创客专属的无反相机

    /T-Display-S3-Pro</span> 然后这里有测试用的示例相机程序:<span>https://github.com/moononournation
    发表于 02-29 15:50

    spi读取多个字节的时候该怎么判断UART的上一个字节已经读完了?

    想问下 spi 的 SPI_SpiIsBusBusy() 的这个API UART 中怎么实现,读取多个字节的时候该怎么判断 UART 的上一个字节已经读完了?
    发表于 02-02 06:54

    Harvard FairSeg:第一个用于医学分割的公平性数据

    为了解决这些挑战,我们提出了第一个大规模医学分割领域的公平性数据, Harvard-FairSeg。该数据旨在用于研究公平性的cup-d
    的头像 发表于 01-25 16:52 503次阅读
    Harvard FairSeg:第<b class='flag-5'>一个</b>用于医学分割的公平性<b class='flag-5'>数据</b><b class='flag-5'>集</b>

    OpenCV4中联通组件分析的缺点

    最近别人给了我生物数据分割的标注数据,让我训练下,发现这个
    的头像 发表于 01-04 15:51 401次阅读
    OpenCV4中联通组件分析的<b class='flag-5'>一</b><b class='flag-5'>个</b>缺点

    labview怎么获取图像数据

    LabVIEW中获取图像数据主要有两种方法:采集实时图像和加载静态图像、采集实时
    的头像 发表于 01-04 09:48 2030次阅读

    mysql怎么新建个数据

    mysql怎么新建个数据库 如何新建个数据MySQL中 创建
    的头像 发表于 12-28 10:01 842次阅读

    用于6D姿态估计和跟踪的统基础模型

    今天笔者将为大家分享NVIDIA的最新开源方案FoundationPose,是用于 6D 姿态估计和跟踪的统基础模型。只要给出CAD模型或少量参考
    的头像 发表于 12-19 09:58 797次阅读
    <b class='flag-5'>一</b><b class='flag-5'>个</b>用于6D姿态估计和跟踪的统<b class='flag-5'>一</b>基础模型

    使用go语言实现grpc拦截器

    开发grpc服务时,我们经常会遇到些通用的需求,比如:日志、链路追踪、权等。这些需求可以通过grpc拦截器来实现。本文使用go语言来实现
    的头像 发表于 12-18 10:13 626次阅读
    使用go语言实现<b class='flag-5'>一</b><b class='flag-5'>个</b>grpc拦截器

    GitHub入门与实践

    GitHub 提供了方便的平台,让开发者能够托管、分享和协作编写代码。通过 Git 版本控制系统,可以有效地进行团队协作和版本管理。协作和社交: 用户可以
    发表于 12-14 09:53 6次下载

    开放原子开源基金会与Eclipse基金会正式签署协议,创造了两

    Milinkovich基于OpenHarmony的开源项目Oniro正式签署合作协议。 签约照片 本次签约开放原子开源基金会创造了两
    的头像 发表于 11-21 20:15 574次阅读
    开放原子<b class='flag-5'>开源</b>基金会与Eclipse基金会正式签署协议,创造了两<b class='flag-5'>个</b>第<b class='flag-5'>一</b>