0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

8种适用于不同机器学习问题的常用数据集

电子工程师 来源:lq 2019-01-29 10:21 次阅读

要找到一定特定的数据集可以解决各种机器学习问题,是一件很难的事情。越来越多企业或研究机构将自己的数据集公开,已经成为全球的趋势,这也将有助于大家进行更多研究。

近期,亚马逊高级技术顾问 Will Badr 分享了 8 种适用于不同机器学习问题的常用数据集,并给出相应的描述,用法示例以及在某些情况下用于解决与该数据集相关的机器学习问题的代码。

1、Kaggle 数据集

链接:

https://www.kaggle.com/datasets

这是当前数据科学领域最热门,也是最受欢迎的数据集之一。在 Kaggle 中,每个数据集都是对应一项比赛,参赛者可以在这个小社区里讨论数据,查找一些公共代码或在 kernel 中创建自己的项目。Kaggle 中包含大量不同类型,不同大小以及多种不同格式的真实数据集。此外,参赛者还可以看到与每个数据集关联的 kernel,其中许多数据科学家会上传自己的 notebooks 来分析数据集,还能找到解决特定数据集问题的算法实现。

2、Amazon 数据集

链接:

https://registry.opendata.aws/

Amazon 数据库包含不同领域的多种数据集,如公共交通,生态资源,卫星图像等。在数据集官网还有一个搜索框,可以帮助使用者快速找到所需的数据集。每个数据集包含相应的数据集描述和使用示例,数据量非常丰富且易于使用。

此外,依托于 Amazon Web Services (AWS) 平台,如 Amazon S3,这些储存在云端的数据集都有高度的可扩展性服务,这对于那些使用 AWS 进行机器学习开发和实验的用户来说,将非常方便。因为在云端,数据集的传输将非常快。

3、UCI 机器学习数据集

链接:

https://archive.ics.uci.edu/ml/datasets.html

这是由加州大学欧文分校(UCI)信息与计算机科学学院的研究者创建的一个包含 100 多种不同类型数据集的大型数据库。该数据库根据不同的机器学习问题来对数据集进行分类,在这里,用户可以找到单变量、多变量时间序列数据集,分类、回归、推荐系统数据集等。此外,该数据库中的部分数据集已经经过数据清洗过程,是可以直接为用户使用。

4、Google 数据集所搜引擎

链接:

https://toolbox.google.com/datasetsearch

2018 年 9 月,Google 推出了这项服务,它是一个可以按名称搜索相应数据集的工具箱,其目标是集成数万个不同的数据集,并对用户开放使用。

5、Miscrosoft 数据集

链接:

https://msropendata.com/

2018 年 7 月,Miscrosoft 联合其外部的研究社区声明发布 Miscrosoft Research Open Data 服务。这项存储在云端的数据库,包含了一系列在已发表研究中使用过的数据集,致力于促进全球研究社区的研究合作。

6、Awesome 公开数据集

链接:

https://github.com/awesomedata/awesome-public-datasets

Awesome 是一个按不同主题分类的数据库,其中涵盖了如生物学,经济学,教育等不同领域的重要数据集,其中列出的大多数数据集都可供用户免费试用,但在使用任何数据集之前,用户需要通过认证已获得使用许可。

7、government 数据集

在这里你可以找到那些与政府相关的数据集。为显示政府工作的透明度,许多国家机构公开发布了其国家在一些领域的数据集,如下示例:

EU Open Data:欧洲政府数据集

链接:

https://data.europa.eu/euodp/data/dataset

US Gov Data:美国政府数据(非政治问题上的数据集,但自特朗普政府上调以来,该网站数据集暂时无法使用)

链接:

https://www.data.gov/

New Zealand’s Government Dataset:新西兰政府数据集

链接:

https://catalogue.data.govt.nz/dataset

Indian Government Dataset:印度政府数据集

链接:

https://data.gov.in/

8、Computer Vision 领域数据集

链接:

https://www.visualdata.io/

如果是从事图像处理、计算机视觉深度学习领域的工作,那么该数据集会是最好的实验资源。Visual Data 包含一些可用于构建计算机视觉(CV)模型的优秀数据集。使用者可以通过某个特定的 CV 任务来查找相应的数据集,如语义分割(semantic segmentation)、图像生成标题(image captioning)、图像生成(image generation),甚至是无人驾驶解决方案所需的数据集。

原文链接:

https://towardsdatascience.com/top-sources-for-machine-learning-datasets-bb6d0dc3378b

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8408

    浏览量

    132580
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24691
  • 数据科学
    +关注

    关注

    0

    文章

    165

    浏览量

    10053

原文标题:秘籍 | 机器学习数据集网址大全

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    适用于TI Sitara™平台的WL1837MODCOM8I WLAN MIMO和Bluetooth®模块评估板

    电子发烧友网站提供《适用于TI Sitara™平台的WL1837MODCOM8I WLAN MIMO和Bluetooth®模块评估板.pdf》资料免费下载
    发表于 12-05 14:08 0次下载
    <b class='flag-5'>适用于</b>TI Sitara™平台的WL1837MODCOM<b class='flag-5'>8</b>I WLAN MIMO和Bluetooth®模块评估板

    适用于机器视觉应用的智能机器视觉控制平台

    看51camera的合作伙伴Neousys宸曜科技的Nuvis系列工控机。Nuvis系列机器视觉控制平台是适用于现如今机器视觉市场的高整合机器视觉解决方案。Nuvis系列
    的头像 发表于 11-23 01:08 169次阅读
    <b class='flag-5'>适用于</b><b class='flag-5'>机器</b>视觉应用的智能<b class='flag-5'>机器</b>视觉控制平台

    RISC-V的指令位宽的几点学习心得

    ,实际上,RISC-V指令的位宽具有更大的灵活性。 RISC-V指令的位宽多样性 RISC-V是一基于精简指令(RISC)的开放式指令
    发表于 10-31 22:05

    光电式传感器有几种类型各适用于哪些检测控制场合

    (Photoelectric Switches) 类型: 漫反射型 镜反射型 对射型 适用场合: 漫反射型适用于检测物体的有无,常用于包装机械、自动化流水线等。 镜反射型适用于检测物体
    的头像 发表于 09-23 09:18 1151次阅读

    常用的k8s容器网络模式有哪些?

    ,每种模式都有其特点和适用场景。Bridge模式适用于简单的容器通信场景;Host模式适用于需要高度集成和性能优化的场景;Overlay模式和Flannel模式适用于跨节点的容器通信场
    的头像 发表于 09-19 11:29 237次阅读

    选择适用于汽车应用的基准电压

    电子发烧友网站提供《选择适用于汽车应用的基准电压.pdf》资料免费下载
    发表于 09-02 11:26 0次下载
    选择<b class='flag-5'>适用于</b>汽车应用的基准电压

    适用于3D机器视觉的高度可扩展的TI DLP技术

    电子发烧友网站提供《适用于3D机器视觉的高度可扩展的TI DLP技术.pdf》资料免费下载
    发表于 08-23 09:57 0次下载
    <b class='flag-5'>适用于</b>3D<b class='flag-5'>机器</b>视觉的高度可扩展的TI DLP技术

    适用于类人机器人的TI DLP® Pico™技术

    电子发烧友网站提供《适用于类人机器人的TI DLP® Pico™技术.pdf》资料免费下载
    发表于 08-23 09:26 0次下载
    <b class='flag-5'>适用于</b>类人<b class='flag-5'>机器</b>人的TI DLP® Pico™技术

    供应 英芯IP2348,适用于扫地机器人解决方案的锂电池同步降压充电芯片

    电压,能够同步降压模式独立充电1~6节串联锂电池,确保机器人在各种工作场景下都能稳定运行。IP2348不仅适用于扫地机器人,更是电动工具、对讲机等设备领域的理想选择。其混合动力升压模式可输出4.5V
    发表于 07-24 14:47

    如何理解机器学习中的训练、验证和测试

    理解机器学习中的训练、验证和测试,是掌握机器学习
    的头像 发表于 07-10 15:45 3821次阅读

    MCX N系列微控制器适用于安全、智能的电机控制和机器学习应用

    ‍‍ 贸泽电子即日起开售NXP Semiconductors的MCX工业和物联网微控制器 (MCU)。这些新款MCU属于高性能、低功耗微控制器,配备智能外设和加速器,适用于安全、智能的电机控制和机器
    的头像 发表于 06-05 09:06 1073次阅读

    适用于USB应用的高效降压转换器TPS6275x数据

    电子发烧友网站提供《适用于USB应用的高效降压转换器TPS6275x数据表.pdf》资料免费下载
    发表于 04-26 11:17 0次下载
    <b class='flag-5'>适用于</b>USB应用的高效降压转换器TPS6275x<b class='flag-5'>数据</b>表

    适用于DDR5 On-DIMM 电源的TPS53832成式数字降压转换器数据

    电子发烧友网站提供《适用于DDR5 On-DIMM 电源的TPS53832成式数字降压转换器数据表.pdf》资料免费下载
    发表于 03-29 10:03 2次下载
    <b class='flag-5'>适用于</b>DDR5 On-DIMM 电源的TPS53832<b class='flag-5'>集</b>成式数字降压转换器<b class='flag-5'>数据</b>表

    适用于DDR5 On-DIMM电源的TPS53830成式数字降压转换器 数据

    电子发烧友网站提供《适用于DDR5 On-DIMM电源的TPS53830成式数字降压转换器 数据表.pdf》资料免费下载
    发表于 03-29 10:01 0次下载
    <b class='flag-5'>适用于</b>DDR5 On-DIMM电源的TPS53830<b class='flag-5'>集</b>成式数字降压转换器 <b class='flag-5'>数据</b>表

    微软正式发布适用于Windows的Sudo

    微软已在 Windows 11 Insider Preview Build 26052 中发布适用于 Windows 的 Sudo,并将其在 MIT 协议下进行开源。
    的头像 发表于 03-19 09:20 846次阅读
    微软正式发布<b class='flag-5'>适用于</b>Windows的Sudo