Hbase-入门简介PPT文档格式.ppt

上传人:wj 文档编号:1535748 上传时间:2023-04-30 格式:PPT 页数:36 大小:2.23MB
下载 相关 举报
Hbase-入门简介PPT文档格式.ppt_第1页
第1页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第2页
第2页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第3页
第3页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第4页
第4页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第5页
第5页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第6页
第6页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第7页
第7页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第8页
第8页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第9页
第9页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第10页
第10页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第11页
第11页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第12页
第12页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第13页
第13页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第14页
第14页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第15页
第15页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第16页
第16页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第17页
第17页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第18页
第18页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第19页
第19页 / 共36页
Hbase-入门简介PPT文档格式.ppt_第20页
第20页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
下载资源
资源描述

Hbase-入门简介PPT文档格式.ppt

《Hbase-入门简介PPT文档格式.ppt》由会员分享,可在线阅读,更多相关《Hbase-入门简介PPT文档格式.ppt(36页珍藏版)》请在冰点文库上搜索。

Hbase-入门简介PPT文档格式.ppt

面向列:

面向列(族)的存储和权限控制,列(族)独立检索;

稀疏:

对于空(null)的列,并不占用存储空间,表可以设计的非常稀疏;

数据多版本:

每个单元中的数据可以有多个版本,默认情况下版本号自动分配,是单元格插入时的时间戳;

数据类型单一:

Hbase中的数据都是字符串,没有类型。

HBase特点,HBase与RDBMS对比,HBase与RDBMS对比,目录,HBase简介HBase数据模型HBase物理模型HBase体系结构HBase访问方式HBase适用场景,18,HBase以表的形式存储数据。

表由行和列组成。

列划分为若干个列族(rowfamily),HBase数据模型,HBase数据表中一些关键概念,Rowkey键ColumnFamily列族Timestamp时间戳Region区域,键Rowkey,表中行的键是字节数组(最大长度是64KB)任何字符串都可以作为键;

表中的行根据行的键值进行排序,数据按照Rowkey的字节序(byteorder)排序存储;

字典序对int排序的结果是1,10,100,11,12,13,14,15,16,17,18,19,2,20,21,9,91,92,93,94,95,96,97,98,99。

要保持整形的自然序,行键必须用0作左填充所有对表的访问都要通过键通过单个rowkey访问通过rowkey的range全表扫描,列族ColumnFamily,HBase表中的每个列都归属于某个列族,列族必须作为表模式(schema)定义的一部分预先给出。

如createtest,course;

列名以列族作为前缀,每个“列族”都可以有多个列成员(column);

如course:

math,course:

english,新的列族成员可以随后按需、动态加入;

权限控制、存储以及调优都是在列族层面进行的;

同一列族成员最好有相同的访问模式和大小特征;

HBase把同一列族里面的数据存储在同一目录下,由几个文件保存。

时间戳Timestamp,在HBase每个cell存储单元对同一份数据有多个版本,根据唯一的时间戳来区分每个版本之间的差异,不同版本的数据按照时间倒序排序,最新的数据版本排在最前面。

时间戳的类型是64位整型。

时间戳可以由HBase(在数据写入时自动)赋值,此时时间戳是精确到毫秒的当前系统时间。

时间戳也可以由客户显式赋值,如果应用程序要避免数据版本冲突,就必须自己生成具有唯一性的时间戳。

区域Region,HBase自动把表水平划分成多个区域(region),每个region会保存一个表里面某段连续的数据;

每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,region就会等分会两个新的region;

当table中的行不断增多,就会有越来越多的region。

这样一张完整的表被保存在多个Region上。

Cell单元格,由行和列的坐标交叉决定;

单元格是有版本的;

单元格的内容是未解析的字节数组;

由rowkey,column(=+),version唯一确定的单元。

cell中的数据是没有类型的,全部是字节码形式存贮。

锁,HBase的写操作是锁行的,每一行都是一个原子元素,无论对行进行访问的事务设计多少列,对行的更新都是原子的。

都可以加锁。

这使得加锁模型简单化。

目录,HBase简介HBase数据模型HBase物理模型HBase体系结构HBase访问方式HBase适用场景,物理存储,28,1、Table中的所有行都按照rowkey的字典序排列。

2、Table在行的方向上分割为多个HRegion。

物理存储,29,3、Region按大小分割的,每个表一开始只有一个region,随着数据不断插入表,region不断增大,当增大到一个阀值的时候,HRegion就会等分会两个新的HRegion。

当Table中的行不断增多,就会有越来越多的HRegion。

物理存储,30,4、HRegion是HBase中分布式存储和负载均衡的最小单元。

最小单元就表示不同的HRegion可以分布在不同的HRegionserver上。

但一个HRegion是不会拆分到多个server上的。

物理存储,31,5、HRegion虽然是分布式存储的最小单元,但并不是存储的最小单元。

事实上,HRegion由一个或者多个Store组成,每个store保存一个columnsfamily。

每个Strore又由一个memStore和0至多个StoreFile组成。

如图:

StoreFile以HFile格式保存在HDFS上。

物理存储,32,HFile的格式为:

目录,HBase简介HBase数据模型HBase物理模型HBase体系结构HBase访问方式HBase适用场景,HBase体系结构,HBase体系结构,Client包含访问HBase的接口并维护cache来加快对HBase的访问Zookeeper保证任何时候,集群中只有一个master存贮所有Region的寻址入口。

实时监控Regionserver的上线和下线信息。

并实时通知给Master存储HBase的schema和table元数据Master为Regionserver分配region负责Regionserver的负载均衡发现失效的Regionserver并重新分配其上的region管理用户对table的增删改查操作RegionServerRegionserver维护region,处理对这些region的IO请求Regionserver负责切分在运行过程中变得过大的region,Write-Ahead-Log(WAL),Master容错:

Zookeeper重新选择一个新的Master无Master过程中,数据读取仍照常进行;

无master过程中,region切分、负载均衡等无法进行;

RegionServer容错:

定时向Zookeeper汇报心跳,如果一旦时间内未出现心跳Master将该RegionServer上的Region重新分配到其他RegionServer上;

失效服务器上“预写”日志由主服务器进行分割并派送给新RegionServerZookeeper容错:

Zookeeper是一个可靠地服务一般配置3或5个Zookeeper实例。

Hbase容错,-ROOT-与.META.表,-ROOT-表包含.META.表所在的区域列表,该表只会有一个HRegion;

Zookeeper中记录了-ROOT-表的location.META.表包含所有的用户空间区域列表,以及RegionServer的服务器地址;

hbase0.96版本后删除了root表,目录,HBase简介HBase数据模型HBase物理模型HBase体系结构HBase访问方式HBase适用场景,HBase交互接口,NativeJavaAPI,最常规和高效的访问方式,适合HadoopMapReduceJob并行批处理HBase表数据HBaseShell,HBase的命令行工具,最简单的接口,适合HBase管理使用ThriftGateway,利用Thrift序列化技术,支持C+,PHP,Python等多种语言,适合其他异构系统在线访问HBase表数据RESTGateway,支持REST风格的HttpAPI访问HBase,解除了语言限制Hive,使用类似SQL语言来访问HBasePig,可以使用PigLatin流式编程语言来操作HBase中的数据,和Hive类似,本质最终也是编译成MapReduceJob来处理HBase表数据,适合做数据统计,目录,HBase简介HBase数据模型HBase物理模型HBase体系结构HBase访问方式HBase适用场景,HBase适用场景,摘自:

HBaseFacebookTheTechnologyBehindMessages(andmore.),ThankYou,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > IT计算机 > 电脑基础知识

copyright@ 2008-2023 冰点文库 网站版权所有

经营许可证编号:鄂ICP备19020893号-2