0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

eBay利用Hadoop建立了一个大规模的集群系统—Athena

倩倩 来源:IT168 2020-03-20 11:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在eBay上存储着上亿种商品的信息,而且每天有数百万种的新商品增加,因此需要用云系统来存储和处理PB级别的数据,而Hadoop则是个很好的选择。

Hadoop是建立在商业硬件上的容错、可扩展、分布式的云计算框架,eBay利用Hadoop建立了一个大规模的集群系统—Athena,它被分为五层(如下图所示),下面从最底层向上开始介绍:

1)Hadoop核心层,包括Hadoop运行时环境、一些通用设施和HDFS,其中文件系统为读写大块数据而做了一些优化,如将块的大小由128MB改为256MB。

2)MapReduce层,为开发和执行任务提供API和控件。

3)数据获取层,现在数据获取层的主要框架是HBase、Pig和Hive:

·HBase是根据Google BigTable开发的按列存储的多维空间数据库,通过维护数据的划分和范围提供有序的数据,其数据储存在HDFS上。

·Pig(Latin)是提供加载、筛选、转换、提取、聚集、连接、分组等操作的面向过程的语言,开发者使用Pig建立数据管道和数据工厂。

·Hive是用于建立数据仓库的使用SQL语法的声明性语言。对于开发者、产品经理和分析师来说,SQL接口使得Hive成为很好的选择。

4)工具和加载库层,UC4是eBay从多个数据源自动加载数据的企业级调度程序。加载库有:统计库(R)、机器学习库(Mahout)、数学相关库(Hama)和eBay自己开发的用于解析网络日志的库(Mobius)。

5)监视和警告层,Ganglia是分布式集群的监视系统,Nagios则用来警告一些关键事件如服务器不可达、硬盘已满等。

eBay的企业服务器运行着64位的RedHat Linux

·NameNode负责管理HDFS的主服务器;

·JobTracker负责任务的协调;

·HBaseMaster负责存储HBase存储的根信息,并且方便与数据块或存取区域进行协调;

·ZooKeeper是保证HBase一致性的分布式锁协调器。

用于存储和计算的节点是1U大小的运行Cent OS的机器,每台机器拥有2个四核处理器和2TB大小的存储空间,每38~42个节点单元为一个rack,这组建成了高密度网格。有关网络方面,顶层rack交换机到节点的带宽为1Gbps,rack交换机到核心交换机的带宽为40Gpbs。

这个集群是eBay内多个团队共同使用的,包括产品和一次性任务。这里使用Hadoop公平调度器(Fair Scheduler)来管理分配、定义团队的任务池、分配权限、限制每个用户和组的并行任务、设置优先权期限和延迟调度。

▲数据流

数据流的具体处理过程如上图所示,系统每天需要处理8TB至10TB的新数据,而Hadoop主要用于:

·基于机器学习的排序,使用Hadoop计算需要考虑多个因素(如价格、列表格式、卖家记录、相关性)的排序函数,并需要添加新因素来验证假设的扩展功能,以增强eBay物品搜索的相关性。

·对物品描述数据的挖掘,在完全无人监管的方式下使用数据挖掘和机器学习技术将物品描述清单转化为与物品相关的键/值对,以扩大分类的覆盖范围。

·eBay的研究人员在系统构建和使用过程中遇到的挑战及一些初步计划有以下几个方面:

·可扩展性,当前主系统的NameNode拥有扩展的功能,随着集群的文件系统不断增长,需要存储大量的元数据,所以内存占有量也在不断增长。若是1PB的存储量则需要将近1GB的内存量,可能的解决方案是使用等级结构的命名空间划分,或者使用HBase和ZooKeeper联合对元数据进行管理。

·有效性,NameNode的有效性对产品的工作负载很重要,开源社区提出了一些备用选择,如使用检查点和备份节点、从Secondary NameNode中转移到Avatar节点、日志元数据复制技术等。eBay研究人员根据这些方法建立了自己的产品集群。

·数据挖掘,在存储非结构化数据的系统上建立支持数据管理、数据挖掘和模式管理的系统。新的计划提议将Hive的元数据和Owl添加到新系统中,并称为Howl。eBay研究人员努力将这个系统联系到分析平台上去,这样用户可以很容易地在不同的数据系统中挖掘数据。

·数据移动,eBay研究人员考虑发布数据转移工具,这个工具可以支持在不同的子系统如数据仓库和HDFS之间进行数据的复制。

·策略,通过配额实现较好的归档、备份等策略(Hadoop现有版本的配额需要改进)。eBay的研究人员基于工作负载和集群的特点对不同的集群确定配额。

·标准,eBay研究人员开发健壮的工具来为数据来源、消耗情况、预算情况、使用情况等进行度量。

同时eBay正在改变收集、转换、使用数据的方式,以提供更好的商业智能服务。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7361

    浏览量

    95128
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137381
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    17021
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国内最大规模6万卡AI4S计算集群投入使用

    4月14日,中科曙光提供的6万卡科学智能(AI for Science)计算集群系统,在位于郑州的国家超算互联网核心节点投入使用。作为国内最大的AI4S计算集群,其以超智融合全栈技术能力,满足用户从
    的头像 发表于 04-14 16:19 1706次阅读
    国内最<b class='flag-5'>大规模</b>6万卡AI4S计算<b class='flag-5'>集群</b>投入使用

    Prometheus千节点集群的横向扩展实践

    在2026年的运维环境中,千节点规模的Kubernetes集群已经稀松平常。典型的中大型互联网公司,其Kubernetes集群
    的头像 发表于 03-31 14:37 283次阅读

    中科曙光scaleX万卡超集群筑牢超大规模智算硬核底座

    3月5日,2026年《政府工作报告》为算力产业划下重点:深化拓展“人工智能+”,实施超大规模智算集群、算电协同等新型基础设施工程,并加强全国体化算力监测调度。
    的头像 发表于 03-10 14:35 922次阅读

    中科曙光3套scaleX万卡超集群落地国家超算互联网郑州核心节点

    2月5日,由中科曙光提供的3套万卡超集群系统在国家超算互联网郑州核心节点同时上线试运行,成为全国首个实现3万卡部署、且实际投入运营的最大国产AI算力池,全面覆盖万亿参数模型训练、高通量推理、AI for Science等大规模AI计算场景。
    的头像 发表于 02-09 10:32 787次阅读

    中科曙光scaleX万卡超集群重塑超大规模算力基础设施

    在“人工智能+”行动深入推进的当下,算力基础设施已成为国家战略竞争力的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX万卡超集群打造的智能管理体系,正以“能管住-管得稳-用得好”的进阶逻辑,重塑超大规模算力基础
    的头像 发表于 01-30 15:43 1081次阅读

    燧原科技荣获2025年超大规模智算集群创新应用实践成果

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开2025AI云产业发展大会。中国通信标准化协会理事长闻库、中国信通院副院长王志勤出席会议并致辞。中国工程院院士郑纬民作主旨报告。会议期间,发布了超大规模智算集群创新应用实践成果,燧原科技国产万卡推理
    的头像 发表于 12-29 09:59 596次阅读
    燧原科技荣获2025年超<b class='flag-5'>大规模</b>智算<b class='flag-5'>集群</b>创新应用实践成果

    部分能力超越2027年NVL576,中科曙光发布scaleX万卡超集群

    2025年12月18日,在昆山举行的光合组织2025人工智能创新大会(HAIC2025)上,中科曙光发布并展出了全球领先的大规模智能计算系统——scaleX万卡超集群,这也是国产万卡级AI集群
    发表于 12-18 18:30 1210次阅读
    部分能力超越2027年NVL576,中科曙光发布scaleX万卡超<b class='flag-5'>集群</b>

    中科曙光AI超集群系统和scaleX640超节点等产品全面适配DeepSeek V3.2

    层实现“跨层协同”,曙光AI超集群系统、scaleX640超节点等产品0day完成对DeepSeek新版本的深度适配与调优,支持各行各业客户进行全量落地部署。
    的头像 发表于 12-05 14:32 1038次阅读

    如何获取易贝EBAY商品详情 API 返回值说明?

    易贝(eBay)是在线拍卖和购物网站,提供了API(应用程序接口)供开发者获取商品详情等信息。使用
    的头像 发表于 11-19 11:57 616次阅读

    曙光AI超集群系统全面支持DeepSeek-V3.2-Exp

    9月29日,DeepSeek-V3.2-Exp正式发布并开源,引入创新的稀疏Attention架构。基于中国首个AI计算开放架构,芯片层、软件层、模型层实现“跨层协同”,使得曙光AI超集群系统完成对DeepSeek新版本的深度适配与调优,支持各行各业客户进行全量落地部署。
    的头像 发表于 09-30 16:18 1925次阅读

    标准集群和虚拟集群的区别是什么?

    遵循行业标准就可以互联互通。 虚拟集群则是在DMR常规数字模式基础上,通过私有协议和软件控制实现的“准集群”功能。它不是官方标准,而是对标准功能的增强,如海能达XPT、北峰SVT、
    的头像 发表于 09-19 16:52 1066次阅读
    标准<b class='flag-5'>集群</b>和虚拟<b class='flag-5'>集群</b>的区别是什么?

    大规模专家并行模型在TensorRT-LLM的设计

    DeepSeek-V3 / R1 等模型采用大规模细粒度混合专家模型 (MoE) 架构,大幅提升了开源模型的质量。Llama 4 和 Qwen3 等新发布的开源模型的设计原则也采用了类似的大规模细粒度 MoE 架构。但大规模 M
    的头像 发表于 09-06 15:21 1532次阅读
    <b class='flag-5'>大规模</b>专家并行模型在TensorRT-LLM的设计

    中科曙光发布国内首个开放架构AI超集群系统

    9月5日,在2025重庆世界智能产业博览会上,中科曙光发布了国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统。该系统以GPU为核心,实现了“算、存、网、电、冷、管、软”体化紧耦合
    的头像 发表于 09-06 09:11 1688次阅读

    使用Ansible实现大规模集群自动化部署

    当你面对1000+服务器需要部署时,你还在台台手工操作吗?本文将揭秘如何用Ansible实现大规模集群的自动化部署,让运维效率提升10倍!
    的头像 发表于 08-27 14:41 1094次阅读

    大规模部署(如分布式光伏集群)时,装置的通信网络易出现哪些瓶颈(如拥堵、延迟

    LZ-DZ200A侧面 在大规模分布式光伏集群等场景中,装置通信网络的瓶颈主要源于节点规模激增、数据量暴增、环境复杂等特点,具体可从以下维度分析: 、节点
    的头像 发表于 08-22 09:50 1113次阅读
    <b class='flag-5'>大规模</b>部署(如分布式光伏<b class='flag-5'>集群</b>)时,装置的通信网络易出现哪些瓶颈(如拥堵、延迟