hbase快速入门与使用教程

HBase简介

HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统（File System）所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库，它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。

什么时候需要HBase呢？

半结构化或非结构化数据，对于数据结构字段不够确定或杂乱无章很难按一个概念去进行抽取的数据适合用HBase。当业务发展需要存储author的email，phone，address信息时RDBMS需要停机维护，而HBase支持动态增加。

记录非常稀疏

RDBMS的行有多少列是固定的，为null的列浪费了存储空间。而如上文提到的，HBase为null的Column不会被存储，这样既节省了空间又提高了读性能。

多版本数据

如上文提到的根据Row key和Column key定位到的Value可以有任意数量的版本值，因此对于需要存储变动历史记录的数据，用HBase就非常方便了。比如上例中的author的Address是会变动的，业务上一般只需要最新的值，但有时可能需要查询到历史值。

超大数据量

当数据量越来越大，RDBMS数据库撑不住了，就出现了读写分离策略，通过一个Master专门负责写操作，多个Slave负责读操作，服务器成本倍增。随着压力增加，Master撑不住了，这时就要分库了，把关联不大的数据分开部署，一些join查询不能用了，需要借助中间层。随着数据量的进一步增加，一个表的记录越来越大，查询就变得很慢，于是又得搞分表，比如按ID取模分成多个表以减少单个表的记录数。经历过这些事的人都知道过程是多么的折腾。采用HBase就简单了，只需要加机器即可，HBase会自动水平切分扩展，跟Hadoop的无缝集成保障了其数据可靠性（HDFS）和海量数据分析的高性能（MapReduce）。

hbase快速入门与使用教程

HTable一些基本概念

Row key

行主键， HBase不支持条件查询和Order by等查询，读取记录只能按Row key（及其range）或全表扫描，因此Row key需要根据业务来设计以利用其存储排序特性（Table按Row key字典序排序如1，10，100，11，2）提高性能。

Column Family（列族）

在表创建时声明，每个Column Family为一个存储单元。在上例中设计了一个HBase表blog，该表有两个列族：article和author。

Column（列）

HBase的每个列都属于一个列族，以列族名为前缀，如列article:title和article:content属于article列族，author:name和author:nickname属于author列族。

Column不用创建表时定义即可以动态新增，同一Column Family的Columns会群聚在一个存储单元上，并依Column key排序，因此设计时应将具有相同I/O特性的Column设计在一个Column Family上以提高性能。

Timestamp

HBase通过row和column确定一份数据，这份数据的值可能有多个版本，不同版本的值按照时间倒序排序，即最新的数据排在最前面，查询时默认返回最新版本。如上例中row key=1的author:nickname值有两个版本，分别为1317180070811对应的“一叶渡江”和1317180718830对应的“yedu”（对应到实际业务可以理解为在某时刻修改了nickname为yedu，但旧值仍然存在）。Timestamp默认为系统当前时间（精确到毫秒），也可以在写入数据时指定该值。

Value

每个值通过4个键唯一索引，tableName+RowKey+ColumnKey+Timestamp=》value，例如上例中{tableName=’blog’，RowKey=’1’，ColumnName=’author:nickname’，Timestamp=’ 1317180718830’}索引到的唯一值是“yedu”。

存储类型

TableName 是字符串

RowKey 和 ColumnName 是二进制值（Java 类型 byte［］）

Timestamp 是一个 64 位整数（Java 类型 long）

value 是一个字节数组（Java类型 byte［］）。

将HTable的存储结构理解为

即HTable按Row key自动排序，每个Row包含任意数量个Columns，Columns之间按Column key自动排序，每个Column包含任意数量个Values。理解该存储结构将有助于查询结果的迭代。

阅读全文

12 3 4 下一页全文

本文导航

第 1 页：hbase快速入门与使用教程
第 2 页：HTable使用教程
第 3 页：新增、更新数据Put
第 4 页：获取单行Get

Hbase(11089) Hbase(11089)

HBase read replicas 功能介绍系列

摘要：主要介绍HBase 在读可用性这块做的read replica 功能的大概介绍，包括：基本使用，读写流程的大概链路，设计的折中等等。HBase read replicas1.概述对于这个模块

2018-06-12 16:02:47

HBase2.0中的Benchmark工具 — PerformanceEvaluation

　　摘要：在项目开发过程中，我们经常需要一些benchmark工具来对系统进行压测，以获得系统的性能参数，极限吞吐等等指标。而在HBase中，就自带了一个benchmark工具

2018-06-13 15:07:58

HBase安装与操作指南

HBase初识、CentOS66中HBase安装与HBase Shell简单使用

2019-09-20 14:51:36

HBase性能优化方法总结

HBase是Hadoop生态系统中的一个组件，是一个分布式、面向列的开源数据库，可以支持数百万列、超过10亿行的数据存储，因此，对HBase性能提出了一定的要求，那么如何进行HBase性能优化呢

2018-04-20 17:16:47

HBase性能调优概述

HBase性能调优

2019-07-03 11:35:56

HBase架构的特点和读写流程

HBase架构详解析

2019-05-15 11:14:20

HBase表微博存储系统项目

HBase应用（三）：HBase表设计实践

2019-06-18 13:11:38

Hbase shell的基本操作完整流程

HBase的命令行工具，最简单的接口，适合HBase管理使用，可以使用shell命令来查询HBase中数据的详细情况。安装完HBase之后，启动hadoop集群(利用hdfs存储)，启动

2018-09-11 16:14:30

hbase shell创建命名空间

一.hbase shell创建命名空间hbase shellcreate_namespace "gofish"二.python实现hbase增删改查# -*- coding

2021-07-28 06:45:49

hbase shell的操作类别

Hbase shell的基本操作

2019-08-28 09:08:33

hbase数据库方法

hbase 数据库的安装与简单应用

2019-09-18 08:52:48

CAN总线快速入门

2012-08-07 16:07:56

CAN总线快速入门

2012-08-20 19:20:24

Labview 超快速入门

2013-04-11 18:04:12

Linux的HBase安装步骤

# /usr/hbase-0.94.16/bin/start-hbase.sh

2019-07-25 06:50:09

PADS Layout快速入门

2013-10-10 13:04:14

PADS快速入门

PADS快速入门，告别繁琐的操作，使新手快速入门，更快的节省时间，很快的融入到工作中

2018-07-30 16:50:35

RL78G13快速入门教材

2015-08-11 09:27:31

RT-Thread快速入门文档

。目录RT-Thread 快速入门文档RT-Thread 快速入门实例教程准备环境初识 RT-Thread系统启动代码用户入口代码跑马灯的例子生产者 - 消费者问题其他例子Keil下搭建

2019-01-22 22:00:18

STM32如何才能快速入门？

我是学单片机好还是直接学STM32好？？？STM32如何才能快速入门？为什么是STM32呢？为什么不是ARM9，ARM11呢？

2021-02-22 06:59:32

Synplify快速入门

2012-08-13 17:20:43

labview快速入门

labview快速入门手册

2013-09-08 14:33:18

python是如何实现hbase增删改查的

hbase shell是怎样去创建命名空间的？python是如何实现hbase增删改查的？求解

2021-10-19 07:26:14

【HBase从入门到精通系列】如何避免HBase写入过快引起的各种问题

写入。两个相关参数的默认值如下：hbase.hregion.memstore.flush.size=128Mhbase.hregion.memstore.block.multiplier=4或者这样

2018-04-10 13:36:40

企业打开云HBase的正确方式，来自阿里云云数据库团队的解读

。伴随着互联网时代数据的澎湃增长，HBase作为基础存储系统得到了快速发展与应用，大批知名商业公司(Facebook、Yahoo、阿里等)自主地加入到了HBase生态建设队伍，成为Apache最活跃

2018-05-31 15:57:40

值得学习的HBase读写优化参考

HBase读写优化

2019-02-25 16:40:02

兑吧：从自建HBase迁移到阿里云HBase实战经验

的用户体验，目前推啊已经服务超过15000家媒体，阿里云hbase主要服务于"推啊"的广告业务。"推啊"的整体业务流程如下图：整体产品架构广告平台基础架构完善

2018-06-19 17:32:22

关于HBase的学习笔记

初识HBase（一些HBase学习笔记）

2020-04-21 15:07:19

关于Hbase的全面介绍

Hbase原理与使用

2019-07-25 14:58:41

再谈全局网HBase八大应用场景

摘要： HBase可以说是一个数据库，也可以说是一个存储。拥有双重属性的HBase天生就具备广阔的应用场景。在2.0中，引入了OffHeap降低了延迟，可以满足在线的需求。引入MOB，可以存储10M

2018-04-11 11:14:40

国赛用，快速入门

国赛需求，快速入门

2015-08-05 11:11:15

如何快速入门51单片机？

2021-10-26 06:42:14

如何快速入门Arduino语言？

2021-10-13 06:40:44

如何快速入门DSP

都说FPGA入门简单、应用难，DSP入门很难、入门了简单。小弟初学DSP，在此请各位大侠指引指引，争取快速入门。。。

2012-02-27 13:29:06

如何快速入门Labview？

如何快速入门Labview？{:6:}

2013-04-12 11:04:34

如何快速入门Linux？

入门必备零基础如何快速入门Linux？

2020-06-14 09:19:42

如何快速入门STM32L476R？

2021-11-29 07:41:54

如何快速入门STM32？

2021-11-05 06:04:02

如何快速入门python nodemcu_NodeMCU？

2022-02-15 06:31:37

如何快速入门smt32？

如何快速入门ＳＴＭ３２呢，我的５１单片机刚开始学，但是我想是同时学习

2020-05-18 01:11:59

如何快速入门智能车呢

如何快速入门智能车呢？有哪些方法呢？

2021-11-01 07:52:06

谁有好的快速入门学习labview的教程啊

导师要求学习labview做项目谁有好的快速入门学习labview的教程啊麻烦给个地址，好人一生平安

2016-01-22 15:05:25

阿里HBase的数据管道设施实践与演进

。HExporter2.0如上图所示总结ALiHBase数据通道的导入和导出都是添加了中间层，中间层的核心价值易扩展、可靠性高、迭代快和稳定。因为采用分布式水平扩展更易扩展；采用自主识别主备切换，封装对HBase访问更可靠；采用架构解耦，快速迭代使迭代速度更快；因为无状态，节点对等所以更加稳定。原文链接

2018-05-29 20:34:12