阿里巴巴再度开放一份计算机集群的真实数据集（Alibaba Cluster Data V2018）-电子发烧友网

阿里妹导读：打开一篇篇 IT 技术文章，你总能够看到“大规模”、“海量请求”这些字眼。这些功能强大的互联网应用，都运行在大规模数据中心上。数据中心每个机器的运行情况如何？运行着什么样的应用？应用有什么特点？除了少数资深从业者之外，普通学生和企业的研究者很难了解其中细节。

今天，阿里巴巴再度开放一份计算机集群的真实数据集（Alibaba Cluster Data V2018）。该数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离，推动产业的进一步发展。

下面，阿里系统软件事业部的技术专家临石，为大家深入介绍这份独特的数据集。

2015 年，我们尝试在阿里巴巴的数据中心，将延迟不敏感的批量离线计算任务和延迟敏感的在线服务部署到同一批机器上运行，让在线服务用不完的资源充分被离线使用以提高机器的整体利用率。

经过 3 年多的试验论证、架构调整和资源隔离优化，目前这个方案已经走向大规模生产。我们通过混部技术将集群平均资源利用率从 10% 大幅度提高到 45%。另外，通过各种优化手段，可以让更多任务运行在数据中心，将“双11”平均每万笔交易成本下降了 17%。

那么，实施了一系列优化手段之后的计算机集群究竟是什么样子？混部的情况究竟如何？

为了让有兴趣的学生以及相关研究人员，可以从数据上更加深入地理解大规模数据中心，我们特别发布了这份数据集（Alibaba Cluster Data V2018）。数据集中记录了某个生产集群中服务器以及运行任务的详细情况。我们希望这波数据的发布可以拉近我们与学术研究、业界同行之间的距离。

在数据集中，你可以详细了解到我们是如何通过混部把资源利用率提高到 45%；我们每天到底运行了多少任务；以及业务的资源需求有什么特点。如何使用这份数据集，完全取决于你的需要。

这个数据可以做什么？

这份 Alibaba Cluster Data V2018 包含 6 个文件，压缩后大小近 50GB（压缩前270+GB），里面包含了 4000 台服务器、相应的在线应用容器和离线计算任务长达 8 天的运行情况。

通过这份数据，你可以：

了解当代先进数据中心的服务器以及任务运行特点；

试验你的调度、运筹等各种任务管理和集群优化方面的各种算法并撰写论文；

利用这份数据学习如何进行数据分析，揭示更多我们自己都未曾发现的规律。

上面这几点，没有接触过类似数据的朋友，可能对于这份数据的用处并没有直观的印象，下面我举几个简单的例子：

电商业务在白天和晚上面临的压力不同，我们如何在业务存在波峰波谷的情况下提高整体资源利用率？

你知道我们最长的 DAG 有多少依赖吗？

一个典型的容器存在时间是多久？

一个计算型任务的典型存在时间是多少？一个 Task 的多个 Instance 理论上彼此很相似，但是它们运行的时间都一样吗？

实际上，学者们甚至可以用这些数据作出更加精彩的分析。2017年，我们开放的第一波数据（Alibaba Cluster Data V2017），已经产生了多篇优秀的学术成果。

以下是学者们在论文中引用数据（Alibaba Cluster Data V2017）的例子，其中不乏被 OSDI 这样顶级学术会议收录的优秀文章。我们期待，未来你也能与我们共同分享你用这份数据产生的成果！

"LegoOS: A Disseminated, Distributed OS for Hardware Resource Disaggregation, Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang, Purdue University. OSDI'18"(Best paper award!)

"Imbalance in the Cloud: an Analysis on Alibaba Cluster Trace, Chengzhi Lu et al. BIGDATA 2017"

"CharacterizingCo-located Datacenter Workloads: An Alibaba Case Study, Yue Cheng, Zheng Chai,Ali Anwar. APSys2018"

"The Elasticity and Plasticity in Semi-Containerized Co-locating Cloud Workload: aView from Alibaba Trace, Qixiao Liu and Zhibin Yu. SoCC2018"

Cluster Data V2018 更出色

新版本 V2018 与 V2017 存在两个最大的区别：

DAG 信息加入

我们加入了离线任务的 DAG 任务信息，据了解，这是目前来自实际生产环境最大的 DAG 数据。

究竟什么是 DAG？离线计算任务，例如 Map Reduce、Hadoop、Spark、Flink 中常用的任务，都是以有向无环图（Directed Acyclic Graph，DAG）的形式进行编排的，其中涉及到任务之间的并行、依赖等方面。下面是一个 DAG 的例子。

规模更大

上一版数据包含了约 1300 台机器在约 24 小时的内容数据，而新版 Cluster Data V2018 中包括了 4000 台机器 8 天的数据。

我们建立了一个关于Cluster Data V2018的交流钉钉群。使用钉钉搜索群号：23112775，即可加入。点击文末“阅读原文”，可填写调查问卷。

想看到更多数据？我们长期招收研究型实习生，与我们一起发现问题、解决问题，挑战世界级技术问题，欢迎投递简历：haiyang.dhy@alibaba-inc.com

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

服务器

服务器

+关注

关注
12

文章
9191

浏览量
85509
阿里巴巴

阿里巴巴

+关注

关注
7

文章
1617

浏览量
47243
数据集

数据集

+关注

关注
4

文章
1208

浏览量
24717

原文标题：阿里重磅开源！4000台服务器真实数据集，揭秘世界级数据中心

文章出处：【微信号：AI_Career，微信公众号：人工智能见闻】欢迎添加关注！文章转载请注明出处。

搜索历史

阿里巴巴再度开放一份计算机集群的真实数据集（Alibaba Cluster Data V2018）

评论

阿里巴巴将在美国推出AI电商工具PIC COPILOT

阿里巴巴整合电商资源，成立全新电商事业群

阿里巴巴国际站首推全流程AI产品

阿里巴巴云计算入股苏州语灵人工智能科技公司

阿里巴巴完成双重主要上市

阿里巴巴季报出炉阿里云二季度营收增长6%

阿里巴巴投资逐际动力，深化智能机器人布局

阿里巴巴集团2024财年稳健增长

阿里巴巴杭州全球总部正式启用

阿里巴巴减持小鹏汽车股份至9.24%

阿里巴巴重返中国顶级电商轨道

阿里巴巴涨超3% 财报或超预期

软银子公司确认减持阿里阿里巴巴最大股东易主

软银已完成减持阿里巴巴股份

马云大幅增持阿里股票马云取代软银成为阿里巴巴最大股东