图书信息

当前位置 : 万水书苑>图书展示>教材>本科>大数据与人工智能>

Hadoop & Spark大数据开发实战

中国水利水电出版社

【作者】主编　肖睿　雷刚跃

【I S B N 】978-7-5170-5643-0

【责任编辑】李炎

【适用读者群】科技

【出版时间】2017-07-01

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】308

【千字数】416

【印张】19.25

【定价】￥58

【丛书】大数据开发工程师系列

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，最终形成变革之力。本书围绕Hadoop和Spark这两个主流技术进行讲解，主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架MapReduce、资源调度框架YARN与Hadoop新特性、大数据数据仓库Hive、离线处理辅助系统、Spark Core、 Spark SQL、Spark Streaming等知识。

为保证最优学习效果，本书紧密结合实际应用，利用大量案例说明和实践，提炼含金量十足的开发经验。本书使用Hadoop和Spark进行大数据开发，并配以完善的学习资源和支持服务，包括视频教程、案例素材下载、学习交流社区、讨论组等终身学习内容，为开发者带来全方位的学习体验，更多技术支持请访问课工场官网：www.kgc.cn。

领先的实用技能——打造大数据开发工程师

科学的训练模式——授人以渔而不只是作品临摹

真实的项目驱动——行业知识与专业设计相呼应

便捷的学习体验——传统教材与二维码革命性携手

丛书设计：

准备好了吗？进入大数据时代！大数据已经并将继续影响人类的方方面面。2015年8月31日，经李克强总理批准，国务院正式下发《关于印发促进大数据发展行动纲要的通知》，这是从国家层面正式宣告大数据时代的到来！企业资本则以BAT互联网公司为首，不断进行大数据创新，从而实现大数据的商业价值。本丛书根据企业人才实际需求，参考历史学习难度曲线，选取“Java +大数据”技术集作为学习路径，旨在为读者提供一站式实战型大数据开发学习指导，帮助读者踏上由开发入门到大数据实战的互联网+大数据开发之旅！

丛书特点：

1．以企业需求为设计导向

满足企业对人才的技能需求是本丛书的核心设计原则，为此课工场大数据开发教研团队，通过对数百位BAT一线技术专家进行访谈、对上千家企业人力资源情况进行调研、对上万个企业招聘岗位进行需求分析，从而实现技术的准确定位，达到课程与企业需求的高契合度。

2．以任务驱动为讲解方式

丛书中的技能点和知识点都由任务驱动，读者在学习知识时不仅可以知其然，而且可以知其所以然，帮助读者融会贯通、举一反三。

3．以实战项目来提升技术

本丛书均设置项目实战环节，该环节综合运用书中的知识点，帮助读者提升项目开发能力。每个实战项目都设有相应的项目思路指导、重难点讲解、实现步骤总结和知识点梳理。

4．以互联网+实现终身学习

本丛书可通过使用课工场APP进行二维码扫描来观看配套视频的理论讲解和案例操作，同时课工场（www.kgc.cn）开辟教材配套版块，提供案例代码及案例素材下载。此外，课工场还为读者提供了体系化的学习路径、丰富的在线学习资源和活跃的学习社区，方便读者随时学习。

读者对象：

1．大中专院校的老师和学生

2．编程爱好者

3．初中级程序开发人员

4．相关培训机构的老师和学员

读者服务：

为解决本丛书中存在的疑难问题，读者可以访问课工场官方网站（www.kgc.cn），也可以发送邮件到ke@kgc.cn，我们的客服专员将竭诚为您服务。

致谢：

本丛书是由课工场大数据开发教研团队研发编写的，课工场（kgc.cn）是北京大学旗下专注于互联网人才培养的高端教育品牌。作为国内互联网人才教育生态系统的构建者，课工场依托北京大学优质的教育资源，重构职业教育生态体系，以学员为本、以企业为基，构建教学大咖、技术大咖、行业大咖三咖一体的教学矩阵，为学员提供高端、靠谱、炫酷的学习内容！

感谢您购买本丛书，希望本丛书能成为您大数据开发之旅的好伙伴！

第1章　初识Hadoop 1
本章任务 2
任务1　大数据概述 2
1.1.1　大数据基本概念 2
1.1.2　大数据对于企业带来的挑战 3
任务2　Hadoop概述 4
1.2.1　Hadoop简介 4
1.2.2　Hadoop生态系统 7
1.2.3　大数据应用案例 9
任务3　Hadoop环境搭建 10
1.3.1　虚拟机安装 11
1.3.2　Linux系统安装 14
1.3.3　Hadoop伪分布式环境搭建 31
本章总结 34
本章作业 35
第2章　分布式文件系统HDFS 37
本章任务 38
任务1　初识HDFS 38
2.1.1　HDFS概述 38
2.1.2　HDFS基本概念 41
2.1.3　HDFS体系结构 42
任务2　HDFS操作 44
2.2.1　HDFS shell访问 44
2.2.2　Java API访问 47
任务3　HDFS运行机制 50
2.3.1　HDFS文件读写流程 51
2.3.2　HDFS副本机制 52
2.3.3　数据负载均衡 53
2.3.4　机架感知 54
任务4　HDFS进阶 55
2.4.1　Hadoop序列化 55
2.4.2　基于文件的数据结构SequenceFile 60
2.4.3　基于文件的数据结构MapFile 65
本章总结 67
本章作业 68
第3章　分布式计算框架
　　　　MapReduce 69
本章任务 70
任务1　MapReduce编程模型 70
3.1.1　MapReduce概述 70
3.1.2　MapReduce编程模型 71
3.1.3　MapReduce WordCount编程实例 72
任务2　MapReduce进阶 77
3.2.1　MapReduce类型 77
3.2.2　MapReduce输入格式 78
3.2.3　MapReduce输出格式 80
3.2.4　Combiner 81
3.2.5　Partitioner 84
3.2.6　RecordReader 87
任务3　MapReduce高级编程 94
3.3.1　Join的MapReduce实现 94
3.3.2　排序的MapReduce实现 101
3.3.3　二次排序的MapReduce实现 103
3.3.4　合并小文件的MapReduce实现 109
本章总结 113
本章作业 114
第4章　YARN与Hadoop新特性 115
本章任务 116
任务1　初识资源调度框架YARN 116
4.1.1　YARN产生背景 116
4.1.2　初识YARN 117
4.1.3　YARN运行机制 119
任务2　HDFS新特性 121
4.2.1　HDFS NameNode HA 122
4.2.2　HDFS NameNode Federation 129
4.2.3　HDFS Snapshots 131
4.2.4　WebHDFS REST API 134
4.2.5　DistCp 135
任务3　YARN新特性 135
4.3.1　ResourceManager Restart 135
4.3.2　ResourceManager HA 136
本章总结 139
本章作业 139
第5章　大数据数据仓库Hive 141
本章任务 142
任务1　初识Hive 142
5.1.1　Hive简介 142
5.1.2　Hive架构 143
5.1.3　Hive与Hadoop的关系 144
5.1.4　Hive与传统关系型数据库对比 144
5.1.5　Hive数据存储 145
5.1.6　Hive环境部署 145
任务2　Hive基本操作 146
5.2.1　DDL操作 147
5.2.2　DML操作 150
5.2.3　Hive shell操作 154
任务3　Hive进阶 155
5.3.1　Hive函数 155
5.3.2　Hive常用调优策略 158
本章总结 163
本章作业 164
第6章　离线处理辅助系统 165
本章任务 166
任务1　使用Sqoop完成数据迁移 166
6.1.1　Sqoop简介 166
6.1.2　导入MySQL数据到HDFS 171
6.1.3　导出HDFS数据到MySQL 177
6.1.4　导入MySQL数据到Hive 179
6.1.5　Sqoop中Job的使用 180
任务2　工作流调度框架Azkaban 180
6.2.1　Azkaban简介 181
6.2.2　Azkaban部署 182
6.2.3　Azkaban实战 186
本章总结 189
本章作业 189
第7章　Spark入门 191
本章任务 192
任务1　初识Spark 192
7.1.1　Spark概述 192
7.1.2　Spark优点 193
7.1.3　Spark生态系统BDAS 195
任务2　Scala入门 198
7.2.1　Scala介绍 199
7.2.2　Scala函数 202
7.2.3　Scala面向对象 203
7.2.4　Scala集合 206
7.2.5　Scala进阶 209
任务3　获取Spark源码并进行编译 211
7.3.1　获取Spark源码 211
7.3.2　Spark源码编译 212
任务4　第一次与Spark亲密接触 214
7.4.1　Spark环境部署 214
7.4.2　Spark完成词频统计分析 215
本章总结 216
本章作业 217
第8章　Spark Core 219
本章任务 220
任务1　Spark的基石RDD 220
8.1.1　RDD概述 220
8.1.2　RDD常用创建方式 221
8.1.3　RDD的转换 223
8.1.4　RDD的动作 225
8.1.5　RDD的依赖 227
任务2　RDD进阶 230
8.2.1　RDD缓存 230
8.2.2　共享变量（Shared Variables） 233
8.2.3　Spark核心概念 235
8.2.4　Spark运行架构 236
任务3　基于RDD的Spark编程 237
8.3.1　开发前置准备 237
8.3.2　使用Spark Core开发词频
　　　计数WordCount 238
8.3.3　使用Spark Core进行年龄统计 242
本章总结 243
本章作业 243
第9章　Spark SQL 245
本章任务 246
任务1　Spark SQL前世今生 246
9.1.1　为什么需要SQL 246
9.1.2　常用的SQL on Hadoop框架 247
9.1.3　Spark SQL概述 248
任务2　Spark SQL编程 250
9.2.1　Spark SQL编程入口 250
9.2.2　DataFrame是什么 251
9.2.3　DataFrame编程 252
任务3　Spark SQL进阶 259
9.3.1　Spark SQL外部数据源操作 259
9.3.2　Spark SQL函数的使用 263
9.3.3　Spark SQL常用调优 266
本章总结 269
本章作业 269
第10章　Spark Streaming 271
本章任务 272
任务1　初始流处理框架及
　　　　Spark Streaming 272
10.1.1　流处理框架概述 272
10.1.2　Spark Streaming概述 274
任务2　Spark Streaming编程 277
10.2.1　Spark Streaming核心概念 278
10.2.2　使用Spark Streaming编程 282
任务3　Spark Streaming进阶 286
10.3.1　Spark Streaming整合Flume 287
10.3.2　Spark Streaming整合Kafka 290
10.3.3　Spark Streaming常用优化策略 294
本章总结 297
本章作业 297

关闭

打印