大数据基础设施建设的技术关键及解决办法
大小:0.26 MB 人气: 2017-10-13 需要积分:1
标签:大数据系统(1832)
2015中国大数据技术大会第二天的大数据基础设施分论坛中,来自阿里云、Hulu、北京忆恒创源、阿里巴巴、企事录以及中科院计算所的技术专家分享了大数据基础设施从设计、搭建到平台测试标准各个方面的技术关键点、实际问题和解决方法。阿里云的高级技术专家李超
首先,来自阿里云的高级技术专家李超通过双11活动讲解了阿里如何构建自己的大数据平台。他首先讲解了阿里云大数据的发展史,接下来讲解了今天的阿里巴巴大数据平台到底能做什么事情,第一点最重要就是海量处理能力,这个离线计算平台支持SQL、MR、MPI、BSP算法平台。单个集群规模上线达到一万台,存储有800PB的数据,有100万以上的JOB数,响应速度做到100个毫秒级别,导出速度达到100万。除了海量数据处理能够,平台还可以提供数据整合能力,包括大数据的整合,把集团内部各个业务的数据整合在自己的平台,现在已经达到800PB的数据量,相互之间可以流转,包括结构化半结构化非结构化的数据,用统一的数据进行整合。还有数据交换能力,完全可信的数据交换平台,多层次的数据交换,还有数据管理能力,包括原数据管理,数据质量管理,数据标准管理。接下来李超讲解了大数据平台里面三个比较重要的计算框架,一个是ODPS,第二个ADS实时数据分析,第三个StreamSQL,离线实时计算。前面两个已经在阿里云官网有云服务提供,后面一个处于准备当中。此外,阿里云的伏羲系统今年打破了sort benchmark的4项世界纪录,而ODPS和ADS系统的底层,都是基于伏羲分布式调度。李超也从技术上讲解了如何用377秒将100TB的数据做出排序。
Hulu公司的资深研发主管梁宇明
Docker 技术越来越得到了很多开发者的青睐,而YARN对于多数爱好者来说还是一个比较新的平台。来自Hulu公司的资深研发主管梁宇明为大家讲解了如何把Voidbox用在YARN中。他的演讲题目是《Voidbox - Docker On YARN在Hulu的实践》。
Voidbox是什么?可以做什么呢?梁宇明说, 在一个集群中,你把不同的应用在同一个计算的集群中共同的运行起来,这时候其实需要一个很好的调度系统,在开源的社区一般情况下大家就用Voidbox。为了把更多的应用,在全部的基础框架之上,用户构建一些Voidbox。
在集群中的很多部署问题,用户可以写完打包到同一个集群去,利用Voidbox就可自动匹配,类似于虚拟机提供复杂环境得包的能力,提供一个相对比较好的资源隔离。Yarn作为资源调度系统实现了资源调度,VoidboxAPI使得用户把复杂的东西统一到Yarn上去。
梁宇明介绍说:“我们之所以选择Voidbox有两个原因,第一个对应用程序可以进行很好封装,可以屏蔽环境的依赖。把这些复杂环境封装更好的打包在里面这是第一点。第二点本身CPU有很好隔离,在新版本中做到一定对网络比较好的隔离,这一点是可以提供的,这些隔离基于在一个程序之中,通过设置不同的队列,你可以把不同的任务分到不同业务运行,你可以把不同运用程序支持不同队列当中去,不同队列支持不同的机器。”
非常好我支持^.^
(0) 0%
不好我反对
(0) 0%
下载地址
大数据基础设施建设的技术关键及解决办法下载
相关电子资料下载
- 新型大数据系统技术的四大挑战与十大趋势 498
- 大数据系统包括哪些 2225
- 什么是大数据系统身份认证技术? 866
- 大数据系统隐私保护关键技术是什么? 310
- 首创主动式智能场景 艾拉物联开创未来空间智能 1186
- 公安大数据系统具有哪些性能,有哪些应用优势 3841
- 未来人工智能人脸识别大数据系统发展三大趋势 2631
- 能源管控平台开发,可视化BI大数据系统解决方案 163
- “阿里巴巴大数据系统体系”学习笔记-纲领篇 111
- NI 着力展示其面向工业物联网的大数据系统解决方案 1405