0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

八大机器学习数据集

DPVg_AI_era 来源:lq 2019-01-18 09:52 次阅读

近日,Medium上的一位用户整理了一份机器学习大型数据集清单,包括八大数据集资源库。总有一款适合你,快来收藏吧!

下面的ML大型数据集,总有一款适合你。

就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较困难的。

本文作者Will Badr便列举了八大机器学习数据集。

不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。

话不多说,上数据集!

1、Kaggle数据集

数据集地址:

https://www.kaggle.com/datasets

这是作者最喜欢的数据集之一。

每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。

用户还可以看到与每个数据集相关的“内核”,许多数据科学家还提供了相关手册来分析数据集。

2、Amazon数据集

数据集地址:

https://registry.opendata.aws/

该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。

网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!

数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。

如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。

3、UCI机器学习资源库

数据集地址:

https://archive.ics.uci.edu/ml/datasets.html

另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。

用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。

有些UCI的数据集已经是被清洗过的。

4、谷歌数据集搜索引

数据集地址:

https://toolbox.google.com/datasetsearch

在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。

他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。

5、微软数据集

数据集地址:

https://msropendata.com/

2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。

它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。

6、Awesome Public Datasets Collection

数据集地址:

https://github.com/awesomedata/awesome-public-datasets

这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。

这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。

7、政府数据集

政府相关数据集也很容易找到的。

许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:

欧盟开放数据门户:欧洲政府数据集。

数据集地址:

https://data.europa.eu/euodp/data/dataset

美国政府数据:目前由于一些非政治性原因,暂时无法访问。

数据集地址:

https://www.data.gov/

新西兰政府数据集:

数据集地址:

https://catalogue.data.govt.nz/dataset

印度政府数据集:

数据集地址:

https://data.gov.in/

8、计算机视觉数据集

数据集地址:

https://www.visualdata.io/

Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。

用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。

总结

从上述作者所观察到数据集情况来看,似乎是涵盖各个方向和领域。

这些新数据集的社区将继续发展,使数据更容易被获取,使众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4607

    浏览量

    92840
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132566
  • 数据集
    +关注

    关注

    4

    文章

    1208

    浏览量

    24689

原文标题:【收藏】8款大型机器学习数据集顶级资源

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    2025年全球半导体八大趋势,万年芯蓄势待发

    近日,国际数据公司(IDC)发布了2025年全球半导体市场的八大趋势预测,显示出对半导体市场回暖的信心,为业界提供了宝贵的市场洞察。在全球范围内,特别是在人工智能(AI)和高性能运算(HPC)需求
    的头像 发表于 12-17 16:53 383次阅读
    2025年全球半导体<b class='flag-5'>八大</b>趋势,万年芯蓄势待发

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习中的作用 模型评估 :比较不同模型的性能是
    的头像 发表于 12-17 09:35 137次阅读

    什么是机器学习?通过机器学习方法能解决哪些问题?

    计算机系统自身的性能”。事实上,由于“经验”在计算机系统中主要以数据的形式存在,因此机器学习需要设法对数据进行分析学习,这就使得它逐渐成为智
    的头像 发表于 11-16 01:07 383次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?通过<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法能解决哪些问题?

    NPU与机器学习算法的关系

    紧密。 NPU的起源与特点 NPU的概念最早由谷歌在其TPU(Tensor Processing Unit)项目中提出,旨在为TensorFlow框架提供专用的硬件加速。NPU的设计目标是提高机器学习算法的运行效率,特别是在处理大规模
    的头像 发表于 11-15 09:19 433次阅读

    【《时间序列与机器学习》阅读体验】+ 时间序列的信息提取

    提高机器学习模型效果与性能的过程。 而我对特征工程的理解就是从一堆数据里找出能表示这堆数据的最小数据
    发表于 08-14 18:00

    pycharm怎么训练数据

    在本文中,我们将介绍如何在PyCharm中训练数据。PyCharm是一款流行的Python集成开发环境,提供了许多用于数据科学和机器学习
    的头像 发表于 07-11 10:10 628次阅读

    机器学习中的数据分割方法

    机器学习中,数据分割是一项至关重要的任务,它直接影响到模型的训练效果、泛化能力以及最终的性能评估。本文将从多个方面详细探讨机器学习
    的头像 发表于 07-10 16:10 1696次阅读

    如何理解机器学习中的训练、验证和测试

    理解机器学习中的训练、验证和测试,是掌握机器学习
    的头像 发表于 07-10 15:45 3806次阅读

    PyTorch如何训练自己的数据

    PyTorch是一个广泛使用的深度学习框架,它以其灵活性、易用性和强大的动态图特性而闻名。在训练深度学习模型时,数据是不可或缺的组成部分。然而,很多时候,我们可能需要使用自己的
    的头像 发表于 07-02 14:09 1640次阅读

    机器学习数据分析中的应用

    随着大数据时代的到来,数据量的爆炸性增长对数据分析提出了更高的要求。机器学习作为一种强大的工具,通过训练模型从
    的头像 发表于 07-02 11:22 612次阅读

    机器学习的经典算法与应用

    关于数据机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。Iris鸢尾花数据是一个
    的头像 发表于 06-27 08:27 1639次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用

    华为发布5G-A八大创新实践,助力全球运营商因地制宜

    MWC24 巴塞罗那期间,华为发布了5G-A八大创新实践,助力全球运营商因地制宜,基于自身网络情况多路径构建5G-A网络。
    的头像 发表于 02-29 10:00 613次阅读

    盘点飞创高精度直线电机模组八大主流应用行业

    飞创高精度直线电机模组八大主流应用行业
    的头像 发表于 02-05 16:19 695次阅读

    什么是机器学习?它的重要性体现在哪

    任务的解决方法。机器学习的重要性体现在几个方面数据处理能力:在当今数字化时代,我们产生了大量的数据机器
    的头像 发表于 01-05 08:27 1573次阅读
    什么是<b class='flag-5'>机器</b><b class='flag-5'>学习</b>?它的重要性体现在哪

    软件测试的八大特性有哪些?

    软件测试是软件开发过程中重要的一环,其目的是发现软件中存在的问题,并提供解决方案。因此,软件测试的八大特性对于保证软件的质量和稳定性至关重要。 1、功能性是指软件是否按照需求文档和设计文档正确
    发表于 01-02 10:15