近日,Medium上的一位用户整理了一份机器学习大型数据集清单,包括八大数据集资源库。总有一款适合你,快来收藏吧!
下面的ML大型数据集,总有一款适合你。
就目前来看,找到一个特定的数据集来解决各种机器学习问题,甚至进行实验还是比较困难的。
本文作者Will Badr便列举了八大机器学习数据集。
不仅包含用于实验的大型数据集,还附带对数据集的描述以及使用示例。有的还包含用于解决与该数据集相关机器学习问题的算法代码。
话不多说,上数据集!
1、Kaggle数据集
数据集地址:
https://www.kaggle.com/datasets
这是作者最喜欢的数据集之一。
每个数据集都是一个小型社区,用户可以在其中讨论数据、查找公共代码或在内核中创建自己的项目。包含各式各样的真实数据集。
用户还可以看到与每个数据集相关的“内核”,许多数据科学家还提供了相关手册来分析数据集。
2、Amazon数据集
数据集地址:
https://registry.opendata.aws/
该数据源包含多个不同领域的数据集,如:公共交通、生态资源、卫星图像等。
网页中也有一个搜索框来帮助用户寻找想要的数据集,还有所有数据集的描述和使用示例,这些数据集信息丰富且易于使用!
数据集存储在Amazon Web Services (AWS)资源中,比如Amazon S3——云中的一个高度可伸缩的对象存储服务。
如果用户正在使用AWS进行机器学习实验和开发,这将非常方便,由于它是AWS网络的本地数据,因此数据集的传输将非常快。
3、UCI机器学习资源库
数据集地址:
https://archive.ics.uci.edu/ml/datasets.html
另一个来自加州大学信息与计算机科学学院的大型资源库,包含100多个数据集。
用户可以找到单变量和多变量时间序列数据集,分类、回归或推荐系统的数据集。
有些UCI的数据集已经是被清洗过的。
4、谷歌数据集搜索引擎
数据集地址:
https://toolbox.google.com/datasetsearch
在2018年末,谷歌做了他们最擅长的事情,推出了另一项伟大的服务——它是一个可以按名称搜索数据集的工具箱。
他们的目标是统一成千上万个不同的数据集存储库,使这些数据能够且易被发现。
5、微软数据集
数据集地址:
https://msropendata.com/
2018年7月,微软与外部研究社区共同宣布推出“Microsoft Research Open Data”。
它在云中包含一个数据存储库,用于促进全球研究社区之间的协作。它提供了一系列用于已发表研究的、经过处理的数据集。
6、Awesome Public Datasets Collection
数据集地址:
https://github.com/awesomedata/awesome-public-datasets
这是一个按“主题”组织的数据集,比如生物学、经济学、教育学等。
这里列出的大多数数据集都是免费的,但是在使用任何数据集之前,用户需要检查一下许可要求。
7、政府数据集
政府相关数据集也很容易找到的。
许多国家为了提高透明度,向公众分享了各种数据集。以下是一些例子:
欧盟开放数据门户:欧洲政府数据集。
数据集地址:
https://data.europa.eu/euodp/data/dataset
美国政府数据:目前由于一些非政治性原因,暂时无法访问。
数据集地址:
https://www.data.gov/
新西兰政府数据集:
数据集地址:
https://catalogue.data.govt.nz/dataset
印度政府数据集:
数据集地址:
https://data.gov.in/
8、计算机视觉数据集
数据集地址:
https://www.visualdata.io/
Visual Data包含一些可以用来构建计算机视觉(CV)模型的大型数据集。
用户可以通过特定的CV主题查找特定的数据集,如语义分割、图像标题、图像生成,甚至可以通过解决方案(自动驾驶汽车数据集)查找特定的数据集。
总结
从上述作者所观察到数据集情况来看,似乎是涵盖各个方向和领域。
这些新数据集的社区将继续发展,使数据更容易被获取,使众包和计算机科学社区能够继续快速创新,为生活带来更多创造性的解决方案。
-
算法
+关注
关注
23文章
4607浏览量
92840 -
机器学习
+关注
关注
66文章
8406浏览量
132566 -
数据集
+关注
关注
4文章
1208浏览量
24689
原文标题:【收藏】8款大型机器学习数据集顶级资源
文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论