eBay利用Hadoop建立了一个大规模的集群系统

在eBay上存储着上亿种商品的信息，而且每天有数百万种的新商品增加，因此需要用云系统来存储和处理PB级别的数据，而Hadoop则是个很好的选择。

Hadoop是建立在商业硬件上的容错、可扩展、分布式的云计算框架，eBay利用Hadoop建立了一个大规模的集群系统—Athena，它被分为五层（如下图所示），下面从最底层向上开始介绍：

1）Hadoop核心层，包括Hadoop运行时环境、一些通用设施和HDFS，其中文件系统为读写大块数据而做了一些优化，如将块的大小由128MB改为256MB。

2）MapReduce层，为开发和执行任务提供API和控件。

3）数据获取层，现在数据获取层的主要框架是HBase、Pig和Hive：

·HBase是根据Google BigTable开发的按列存储的多维空间数据库，通过维护数据的划分和范围提供有序的数据，其数据储存在HDFS上。

·Pig（Latin）是提供加载、筛选、转换、提取、聚集、连接、分组等操作的面向过程的语言，开发者使用Pig建立数据管道和数据工厂。

·Hive是用于建立数据仓库的使用SQL语法的声明性语言。对于开发者、产品经理和分析师来说，SQL接口使得Hive成为很好的选择。

4）工具和加载库层，UC4是eBay从多个数据源自动加载数据的企业级调度程序。加载库有：统计库（R）、机器学习库（Mahout）、数学相关库（Hama）和eBay自己开发的用于解析网络日志的库（Mobius）。

5）监视和警告层，Ganglia是分布式集群的监视系统，Nagios则用来警告一些关键事件如服务器不可达、硬盘已满等。

eBay的企业服务器运行着64位的RedHat Linux：

·NameNode负责管理HDFS的主服务器;

·JobTracker负责任务的协调;

·HBaseMaster负责存储HBase存储的根信息，并且方便与数据块或存取区域进行协调;

·ZooKeeper是保证HBase一致性的分布式锁协调器。

用于存储和计算的节点是1U大小的运行Cent OS的机器，每台机器拥有2个四核处理器和2TB大小的存储空间，每38～42个节点单元为一个rack，这组建成了高密度网格。有关网络方面，顶层rack交换机到节点的带宽为1Gbps，rack交换机到核心交换机的带宽为40Gpbs。

这个集群是eBay内多个团队共同使用的，包括产品和一次性任务。这里使用Hadoop公平调度器（Fair Scheduler）来管理分配、定义团队的任务池、分配权限、限制每个用户和组的并行任务、设置优先权期限和延迟调度。

▲数据流

数据流的具体处理过程如上图所示，系统每天需要处理8TB至10TB的新数据，而Hadoop主要用于：

·基于机器学习的排序，使用Hadoop计算需要考虑多个因素（如价格、列表格式、卖家记录、相关性）的排序函数，并需要添加新因素来验证假设的扩展功能，以增强eBay物品搜索的相关性。

·对物品描述数据的挖掘，在完全无人监管的方式下使用数据挖掘和机器学习技术将物品描述清单转化为与物品相关的键/值对，以扩大分类的覆盖范围。

·eBay的研究人员在系统构建和使用过程中遇到的挑战及一些初步计划有以下几个方面：

·可扩展性，当前主系统的NameNode拥有扩展的功能，随着集群的文件系统不断增长，需要存储大量的元数据，所以内存占有量也在不断增长。若是1PB的存储量则需要将近1GB的内存量，可能的解决方案是使用等级结构的命名空间划分，或者使用HBase和ZooKeeper联合对元数据进行管理。

·有效性，NameNode的有效性对产品的工作负载很重要，开源社区提出了一些备用选择，如使用检查点和备份节点、从Secondary NameNode中转移到Avatar节点、日志元数据复制技术等。eBay研究人员根据这些方法建立了自己的产品集群。

·数据挖掘，在存储非结构化数据的系统上建立支持数据管理、数据挖掘和模式管理的系统。新的计划提议将Hive的元数据和Owl添加到新系统中，并称为Howl。eBay研究人员努力将这个系统联系到分析平台上去，这样用户可以很容易地在不同的数据系统中挖掘数据。

·数据移动，eBay研究人员考虑发布数据转移工具，这个工具可以支持在不同的子系统如数据仓库和HDFS之间进行数据的复制。

·策略，通过配额实现较好的归档、备份等策略（Hadoop现有版本的配额需要改进）。eBay的研究人员基于工作负载和集群的特点对不同的集群确定配额。

·标准，eBay研究人员开发健壮的工具来为数据来源、消耗情况、预算情况、使用情况等进行度量。

同时eBay正在改变收集、转换、使用数据的方式，以提供更好的商业智能服务。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6886

浏览量
88818
机器学习

机器学习

+关注

关注
66

文章
8375

浏览量
132401
Hadoop

Hadoop

+关注

关注
1

文章
90

浏览量
15958

使用EMBark进行大规模推荐系统训练Embedding加速

推荐系统是互联网行业的核心系统，如何高效训练推荐系统是各公司关注的核心问题。目前，推荐系统基本上都是基于深度学习的大规模 ID 类模型，模型

发表于 10-31 14:46 •121次阅读

使用EMBark进行<b class='flag-5'>大规模</b>推荐<b class='flag-5'>系统</b>训练Embedding加速

FPGA仿真黑科技\"EasyGo Vs Addon \"，助力大规模电力电子系统仿真

，可以搭建多电机系统、电力电子系统等包含开关器件的系统模型。依托强大的FPGA资源，最大可仿真240个关键元件的电力电子系统，使得更

发表于 10-23 18:18

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

背景 Hadoop是一个由Apache基金会所开发的分布式系统基础架构，它允许用户在不需要深入了解分布式底层细节的情况下，开发分布式程序。Hadoo

发表于 10-08 15:12 •122次阅读

中国移动智算中心(哈尔滨)成为最大单集群智算中心

9月6日最新资讯，中国移动智算中心（哈尔滨）正式宣告投入运营，这一里程碑事件不仅标志着中国移动在智能计算领域的又一重大突破，更确立了其在全球运营商中拥有最大规模单

发表于 09-06 15:33 •752次阅读

中国电信上海、北京两个万卡集群已经投产

中国电信在智算领域的发展迎来重要里程碑。近日，中国电信宣布，其上海、北京两个万卡智算集群已正式投产运行，标志着中国电信在构建大规模智算能力方面取得了显著进展。

发表于 08-09 17:47 •680次阅读

燧原科技与清程极智携手共创AI未来：共筑超大规模智算集群新篇章

协议，双方将携手步入全新的合作阶段，共同探索并开发面向超万亿参数大模型和超大规模集群的高性能系统软件方案，标志着双方在推动AI技术边界、加速产业智能化进程上迈出了坚实的一步。

发表于 07-05 14:50 •705次阅读

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

存为128GB DDR3。 5.ARM：ARM A9处理器主频为667MHz，2个核心，内存为1GB DDR3。 6.FPGA集群系统：FPGA集群包含8个Xilinx ZYNQ 70

发表于 06-25 18:35

高性能计算集群的能耗优化

高性能计算（HighPerformanceComputing，HPC）是指利用大规模并行计算机集群来解决复杂的科学和工程问题的技术。高性能计算集群的应用领域非常广泛，包括天气预报、生物

发表于 05-25 08:27 •380次阅读

北京：规划建设支撑万亿级参数大模型训练需求的超大规模智算集群

”局面，集中建设一批智算单一大集群，到2025年，本市智算供给规模达到45EFLOPS，2025-2027年根据人工智能大模型发展需要和国家相关部署进一步优化算力布局

发表于 04-29 08:26 •293次阅读

专用集成电路都是大规模的吗为什么呢

的集成度和性能优势。然而，并非所有专用集成电路都是大规模的，因为集成度的大小取决于设计和制造的要求。在探讨专用集成电路是否大规模之前，我们首先需要了解什么是大规模集成电路（Very Large Scale Integratio

发表于 04-21 09:15 •491次阅读

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

，在大模型实践和理论研究的过程中，历时8个月完成《大规模语言模型：从理论到实践》一书的撰写。希望这本书能够帮助读者快速入门大模型的研究和应用，并解决相关技术问题。本书一经上市，

发表于 03-11 15:16

中国电信规划在上海建设首个国产超大规模算力液冷集群

中国电信规划建设首个国产超大规模算力液冷集群人工智能技术的快速发展催生了巨大的算力需求；中国电信规划在上海规划建设可支持万亿参数大模型训练的智算集群中心。其中会搭载液冷技术，单池新建国产算力达10000卡，也是首个支持单池万卡

发表于 02-22 18:48 •1302次阅读

Hadoop是什么?其核心由两大部分组成,分别是什么?

Hadoop是一个开源的分布式计算框架，它可以处理大规模数据集并能够在通常由计算机集群或者计算机网络上的数千台计算机上并行运行。

发表于 02-05 10:52 •1660次阅读

大规模储能-碱性水系钠离子电池开发

当前，对大规模储能的需求不断增长，推动了具有安全性、环保性和低成本的电池系统的开发。

发表于 01-24 09:29 •1124次阅读

使用sigmastudio建立了一个工程，怎么将这个工程烧写到ADSP-21489中，并且断电重启后该工程的代码不会丢失？

使用sigmastudio建立了一个工程，怎么将这个工程烧写到ADSP-21489中，并且断电重启后该工程的代码不至于丢失，需要的LDR文件已经有了，

发表于 11-30 07:18

搜索历史

eBay利用Hadoop建立了一个大规模的集群系统—Athena

评论

使用EMBark进行大规模推荐系统训练Embedding加速

FPGA仿真黑科技\"EasyGo Vs Addon \"，助力大规模电力电子系统仿真

基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

中国移动智算中心(哈尔滨)成为最大单集群智算中心

中国电信上海、北京两个万卡集群已经投产

燧原科技与清程极智携手共创AI未来：共筑超大规模智算集群新篇章

基于FPGA的类脑计算平台 —PYNQ 集群的无监督图像识别类脑计算系统

高性能计算集群的能耗优化

北京：规划建设支撑万亿级参数大模型训练需求的超大规模智算集群

专用集成电路都是大规模的吗为什么呢

名单公布！【书籍评测活动NO.30】大规模语言模型：从理论到实践

中国电信规划在上海建设首个国产超大规模算力液冷集群

Hadoop是什么?其核心由两大部分组成,分别是什么?

大规模储能-碱性水系钠离子电池开发

使用sigmastudio建立了一个工程，怎么将这个工程烧写到ADSP-21489中，并且断电重启后该工程的代码不会丢失？