区别
做nosql有很多,hive与hbase,二者都是基于hadoop的,不同是,hive基于类sql引擎的,所以可以用HSQL语句来 用来统计查询,返回数据比较慢,默认是便利表中所有的数据。
hbase呢是key/value的数据库,用来实时查询是比较擅长的,facebook的消息实时分析用此,
名词:MapReduce
由master分配任务给worker执行,map函数读取被分配的输入数据片段,输出中间key/value pair值的集合,reduce函数手机具有相中中间key值的value值,合并这些value值,形成一个较小的value值的集合
把一些数据通过map来归类,通过reducer来把同一类的数据进行处理
hbase理解的应该有以下几个模块
简单理解hbase更新数据,首先写到hlog日志,然后同时通过hregionserver 到region,再通过store模块的memstore存储,如果达到设置的值则执行store file,flush到hfile中,这样这几个模块都用上了
master或者hmaster 是Master Server的实现,负责监控集群中的RegionServer实例,同时是所有metadata改变的接口,在集群中,通常运行在NameNode上面
hregionserver 是RegionServer的实现,服务和管理Regions,集群中RegionServer运行在DataNode
region 代表table,Region有多个Store(列簇),Store有一个Memstore和多个StoreFiles(HFiles),StoreFiles的底层是Block
连接 https://blog.csdn.net/maketubu7/article/details/80612930
https://blog.csdn.net/huangliuyu00/article/details/79704371
Hlog
memstore
store file
Hlog如何保证hbase一致性的
HBase的可靠性是通过HLog实现的,HLog机制是WAL(Write-Ahead Logging)的一种实现,预写日志。WAL是事务机制中常见的一致性实现方式。每个Region Server中都会有一个HLog实现,Region Server更新操作时,先把记录到写到WAL(也就是HLog)中,再写入到Store的MemStore,最终MemStore会将数据写入到持久化的HFile中,当MemStore到达配置的内存阀值时。通过先写WAL(HLog),再写MemStore,这样的方式保证写的可靠性。
如果没有WAL,当Region Server宕掉的时候,MemStore还没写入到HFile,或者StoreFile还没保存,那么数据就会丢失。而HFile的数据由HDFS保证的,默认HDFS中会有3份。
如果服务器崩溃,region server会回访Hlog,通过数据回写,来恢复服务器的内存数据。下图显示了写入过程,也是一个Hbase的框架图
————————————————
另外cell,column family ,columns ,table,row,定义是什么
这个连接很清楚https://blog.csdn.net/huangliuyu00/article/details/79704371
另外有需要云服务器可以了解下创新互联建站www.cdcxhl.com,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。