首页: 电子电路图,电子技术资料网站首页

电子资料下载: 电子资料下载频道 -- 为电子工程师提供激发创新灵感的新方案、新的参考设计、新的设计构想等可下载的电子资料！

电子技术应用: 电子技术应用频道 -- 为电子工程师提供电子产品设计所需的技术分析、设计技巧、设计工具、测试工具等技术文章！

电子元器件: 专业的电子元器件平台 -- 及时发布大量最新IC、分立器件、模组等电子元器件产品信息！

电子电路图: 电路图频道 -- 提供电子电路图,原理图,汽车电路图,手机电路图,功放电路图,电源电路图等电路图纸

电子技术论坛: 构建电子工程师交流的平台 -- 在交流中进一步学习设计技巧、规划技术人生、提升自我价值！

源码下载: 源码下载频道; uCOS编程 C/C++语言编程 Symbian编程 Linux/uClinux/Unix编程 Windows编程 matlab源程序 php源码下载 asp.net源码下载 java源码下载汇编编程驱动程序单片机编程数值算法/人工智能

您的位置：电子发烧友网>源码下载>数值算法/人工智能>

HBase客户端实践重试机制

大小：0.6 MB 人气： 2017-10-10 需要积分：1

推荐 + 挑错 + 收藏(0) + 用户评论（0）

普通下载 VIP下载免积分海量资料下载

分享到:

PCB打样、加工，最快24小时交货

标签：Hbase(11036)

现在，网易视频云与大家分享HBase客户端实践–重试机制。
　　在运维HBase的这段时间里，发现业务用户一方面比较关注HBase本身服务的读写性能：吞吐量以及读写延迟，另一方面也会比较关注HBase客户端使用上的问题，主要集中在两个方面：是否提供了重试机制来保证系统操作的容错性？是否有必要的超时机制保证系统能够fastfail，保证系统的低延迟特性？
　　这个系列我们集中介绍HBase客户端使用上的这两大问题，本文通过分析之前一个真实的案例来介绍HBase客户端提供的重试机制，并通过配置合理的参数使得客户端在保证一定容错性的同时还能够保证系统的低延迟特性。
　　案发现场
　　最近某业务在使用HBase客户端读取数据时出现了大量线程block的情况，业务方保留了当时的线程堆栈信息，如下图所示：
　　 HBase客户端实践重试机制

　　看到这样的问题，首先从日志和监控排查了业务表和region server，确认了在很长时间内确实没有请求进来，除此之外并没有其他有用的信息，同时也没有接到该集群上其他用户的异常反馈，从现象看，这次异常是在特定环境下才会触发的。
　　案件分析过程
　　1.根据上图图1所示，所有的请求都block在《0x0000000782a936f0》这把全局锁上，这里需要关注两个问题：
　　哪个线程持有了这把全局锁《0x0000000782a936f0》？
　　这是一把什么样的全局锁（对于问题本身并不重要，有兴趣可以参考步骤3）？
　　2.哪个线程持有了这把锁？
　　2.1 很容易在jstack日志中通过搜索找到全局锁《0x0000000782a936f0》被如下线程持有：
　　 HBase客户端实践重试机制

　　定睛一看，该线程持有了这把全局锁，而且处于TIMED_WAITING状态，因此这把锁可能长时间不释放，导致所有需要这把全局锁的线程都阻塞等待。好了，那问题就转化成了：为什么这个线程会处于TIME_WAITING状态？
　　2.2 根据上图提示，查看源码中RpcRetryingCall.java的115行代码，可以确定该线程处于TIME_WAITING状态是因为自己休眠导致，如下图所示：
　　 HBase客户端实践重试机制

　　RpcRetryingCall函数是Rpc请求重试机制的实现，所以可以有两点推断：
　　HBase客户端请求在那个时间段网络有异常导致rpc请求失败，进入重试逻辑
　　根据HBase的重试机制（退避机制），每两次重试机制之间会休眠一段时间，即上图115行代码，这个休眠时间太长导致这个线程一直处于TIME_WAITING状态。
　　休眠时间由上图中expectedSleep = callable.sleep（pause，tries + 1）决定，根据hbase算法（见第三部分），默认最大的expectedSleep为20s，整个重试时间会持续8min，这也就是说全局锁会被持有8min，可这并不能解释持续将近几个小时的阻塞无请求。除非有两种情况：
　　配置有问题：需要客户端检查hbase.client.pause和hbase.client.retries.number两个参数配置出现异常，比如hbase.client.pause参数如果手抖配成了10000，就有可能出现几个小时阻塞的情况
　　网络持续有问题：如果线程1持有全局锁重试失败之后退出，线程2竞争到这把锁，此时网络依然有问题，线程2会再次进入重试，重试8min之后失败退出，循环下去，也有可能出现几个小时阻塞的情况
　　和业务方确认配置，所有参数基本属于默认配置，因此猜测一不成立，那最有可能的情况就是猜测二。经过确认，在事发当时（凌晨0点～早上6点）确实存在很多服务因为云网络升级异常发生抖动的情况出现。然而因为没有具体的日志信息，所以并不能完全确认猜测是否正确。但是，通过问题的分析可以进一步明白HBase重试机制以及部分客户端参数优化策略，这也是写这篇文章的初衷之一。

非常好我支持^.^

(0) 0%

不好我反对

(0) 0%

下载地址

不能下载？请通知我们

HBase客户端实践重试机制下载

电信下载联通下载

海量PCB软件教程下载华强PCB技术中心，海量PCB软件教程下载！

用户评论

发表评论即可获得积分！ 详见积分规则

HBase客户端实践重试机制

下载地址

HBase客户端实践重试机制下载

相关电子资料下载

用户评论

发表评论

分享你我的电子世界

实用电子设计资料下载

源码下载排行

热门词