HBase分布式存储系统应用(第二版)

-
【作 者】主编 林徐 陈恒 孙帅
【I S B N 】978-7-5226-1112-9
【责任编辑】魏渊源
【适用读者群】本专通用
【出版时间】2023-02-08
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第2版第1次印刷
【页 数】192
【千字数】300
【印 张】12
【定 价】¥42
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
内 容 提 要
本书通过原理加案例的方式系统讲解了HBase分布式存储系统应用,精心安排了HBase原理和架构分析、环境搭建、案例开发、优化策略等环节,使读者对解决相关问题有清晰的思路。
全书共8章:前7章系统讲解HBase模型和系统架构、数据读写流程、环境搭建、HBase Shell、程序开发、高级特性;第8章是HBase MapReduce实例,通过实例帮助读者进一步理解HBase应用和MapReduce编程。全书脉络清晰,实例新颖实用,内容详实。
本书可作为普通高校大数据相关专业的HBase教材,可供深入了解HBase编程的读者参考,还可作为相关培训班的培训教材。
内容实用——理论与实践结合,重点突出应用
体系完善——构建完整的大数据专业解决方案
产教融合——高校企业共参与,对标行业标准
资源丰富——微课、课件、教案、源码、答案
再版前言
大数据带来了各种各样繁杂的数据,我们不仅要呈现世界,更重要的是通过呈现来处理更庞大的数据,理解各种各样的数据集合,表现多维数据之间的关联。换句话说,就是归纳数据内在的模式、关联和结构。
由于大数据的存储量极大,因此其存储设备需要具有高扩展性、高可用性、自动容错和低成本等特点。常见的存储形式有分布式文件系统和分布式数据库,分布式文件系统采用大规模的分布式存储节点来满足存储大量文件的需求,而分布式的非关系型数据库则为大规模非结构化数据的处理和分析提供支持。
目前常见的非关系型数据库主要有Redis、Tokyo Cabinet、MongoDB、CouchDB、Cassandra、Voldemort和HBase等。本书将对HBase进行深入研究和探讨,其他非关系型数据库可以参考相关书籍。
本书共8章,具体内容如下。
第1章介绍关系型数据库和非关系型数据库的区别、HBase的使用场景。
第2章介绍HBase的逻辑模型、物理模型和系统架构。
第3章详细讲解HRegionServer、HRegion和HBase数据读写流程。
第4章介绍HBase的分布式环境搭建。
第5章介绍如何通过HBase Shell完成表的管理、数据的增删改查和数据迁移。
第6章介绍创建表、数据插入、数据查询等基本操作,然后对Scan查询、Filter过滤、行数统计、NameSpace开发、计数器、协处理器和HBase快照等高级应用进行介绍。
第7章介绍HBase表设计、列族设计优化、读写性能优化策略、HBase集群规划。
第8章讲解HBase MapReduce编程实例。
本书第一版出版以来得到了上百所院校的使用,收到很多老师的意见反馈,在此表示衷心感谢。本次改版除了对部分内容修订外,对软件版本也进行了升级,并增加了课后习题和微课资源。
本书由林徐、陈恒、孙帅担任主编,马宪敏、卓雪雪、李紫薇担任副主编,参与编写的还有李伟。本书的编写得到北京百知教育科技有限公司和中国水利水电出版社的大力支持,在此表示感谢。
由于时间仓促及编者水平有限,书中难免有疏漏甚至错误之处,恳请广大读者批评指正。
编 者
2022年9月
第1章 HBase介绍 1
1.1 面向行和面向列存储对比 1
1.1.1 面向行存储的数据库 1
1.1.2 面向列存储的数据库 2
1.1.3 两种存储方式的对比 2
1.2 HDFS分布式存储的特点 3
1.3 HBase的使用场景 4
本章小结 6
习题1 6
第2章 HBase模型和系统架构 7
2.1 HBase的相关概念 7
2.2 HBase的逻辑模型 8
2.3 HBase的物理模型 10
2.4 HBase的特点 10
2.5 HBase的系统架构 11
2.5.1 Client 11
2.5.2 ZooKeeper 11
2.5.3 HMaster 12
2.5.4 HRegionServer 13
2.5.5 HRegion 13
本章小结 13
习题2 13
第3章 HBase数据读写流程 15
3.1 HRegionServer详解 15
3.1.1 WAL 16
3.1.2 MemStore 17
3.1.3 BlockCache 18
3.1.4 HFile 18
3.1.5 HRegionServer的恢复 23
3.1.6 HRegionServer的上线下线 23
3.2 HRegion 24
3.2.1 HRegion分配 24
3.2.2 HRegion Split 24
3.2.3 HRegion Compact 25
3.3 HMaster上线 25
3.4 数据读流程 26
3.4.1 传统的数据读流程 26
3.4.2 数据读流程的改进 27
3.5 数据写流程 28
3.6 删除数据流程 28
本章小结 28
习题3 29
第4章 HBase环境搭建 30
4.1 ZooKeeper的安装 30
4.2 HBase的安装 31
本章小结 34
习题4 35
第5章 HBase Shell 36
5.1 HBase Shell启动 36
5.2 表的管理 37
5.3 表数据的增删改查 44
5.4 HBase数据迁移的importtsv的使用 48
本章小结 49
习题5 49
第6章 HBase程序开发 53
6.1 表的相关操作 53
6.2 创建Configuration对象 57
6.3 创建表 57
6.3.1 开发环境配置 58
6.3.2 创建表 61
6.4 数据插入 63
6.5 数据查询 69
6.6 数据删除 73
6.7 Scan查询 76
6.8 Filter过滤 85
6.9 行数统计 105
6.10 NameSpace开发 107
6.11 计数器 110
6.12 协处理器 114
6.13 HBase快照 124
本章小结 129
习题6 129
第7章 HBase高级特性 132
7.1 HBase表设计 132
7.2 列族设计优化 136
7.3 写性能优化策略 138
7.4 读性能优化策略 139
7.4.1 HBase客户端优化 139
7.4.2 HBase服务器端优化 140
7.4.3 HDFS相关优化 141
7.5 HBase集群规划 142
7.5.1 集群业务规划 142
7.5.2 集群容量规划 143
7.5.3 Region规划 144
7.5.4 内存规划 145
本章小结 149
习题7 149
第8章 MapReduce On HBase 151
8.1 HBase MapReduce 151
8.2 编程实例 152
8.2.1 使用MapReduce操作HBase 152
8.2.2 从HBase获取数据上传至HDFS 155
8.2.3 MapReduce生成HFile入库到HBase 157
8.2.4 同时写入多张表 161
8.2.5 从多个表读取数据 164
8.2.6 通过读取HBase表删除HBase数据 166
8.2.7 通过读取HBase表数据复制到另外一张表 168
8.2.8 建立HBase表索引 170
8.2.9 将MapReduce输出结果到MySQL 173
8.2.10 利用MapReduce完成MySQL数据读写 178
本章小结 181
习题8 181
附录1 MySQL安装 183
附录2 Python连接HBase 185
- 信息技术基础(麒麟操作系统+WPS Office) [主编 芮雪 蒋莉 王亮亮]
- Office高级应用项目式教程(第2版) [主编 李观金 张倩文 黎夏克 ]
- 巧用翻译学英语:英汉互译500例 [王学文 著]
- 高等教育多维评价体系构建与高质量发展研究 [张妍 著]
- 系统规划与管理师章节习题与考点特训(第二版) [主编 薛大龙]
- 计算机操作系统实践指导(openEuler版) [主编 秦光 曾陈萍 岳付强]
- 信息系统管理工程师真题及模考卷精析(适用机考) [主 编 薛大龙 程 刚 上官绪]
- 航海类院校体育教育教学研究 [张利超 李宁 著]
- 新时代背景下我国职业教育产教融合长效机制建设研究 [王玉贤 著]
- 电路分析 [主编 李飞 毛先柏]
- 信息系统管理工程师(适用第2版大纲)一站通关 [指尖疯 编著]
- 传统山水画论解读与实践 [陈钠 著]
- 网络工程师备考一本通(适配第6版考纲) [夏杰 编著]
- 陈孝云的职教理想与情怀 [祝吉太 江传瑞 张义廷 著]
- 地方本科院校电子信息学科课程思政案例集 [王甫]
- Excel数据处理与分析(第二版) [主编 张志明 邹 蕾]
- 网络工程师5天修炼(适配第6版考纲) [主编 朱小平 施游]
- 仓储管理实务(第二版) [周宁武 编著]
- 基于AE与C#的地理信息系统二次开发 [李小根 贾艳昌 乔翠平 姜彤 ]
- 2023年长沙市文化和旅游业发展报告 [主编 陈莉]
- 舞台化妆造型设计 [主编 刘思彤 张 涛 张忆雨]
- 产教融合视角高校体育专业实践教学体系构建研究 [杨柳青 叶华兵 著]
- 知识图谱及应用案例 [张善文 黄文准 于长青 陈明淑]
- Python程序设计案例教程(微课版) [主编 石利平 田辉平 余以胜]
- 皓月繁星:青少年儿童心理成长手册 [主 编 林赞歌 副主编 杜志南]
- 材料力学 [章宝华 赵新胜 徐斌]
- 系统集成项目管理工程师考试32小时通关(第3版) [主编 薛大龙 副主编 上官绪阳]
- 软考论文高分特训与范文10篇——系统分析师(第二版) [薛大龙 邹月平 施游]
- 黄河海勃湾水利枢纽防凌安全运行 [王战领 王丛发 范瑜彬 著]
- 大学生心理健康教育 [方雄 著]