Spark大数据处理技术

中国水利水电出版社

【作者】主编　刘仁山　周洪翠　庄新妍

【I S B N 】978-7-5226-0485-5

【责任编辑】鞠向超

【适用读者群】本专通用

【出版时间】2022-02-18

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】268

【千字数】418

【印张】16.75

【定价】￥48

【丛书】普通高等教育数据科学与大数据技术专业教材

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

本书面向大数据技术专业，遵循知识性、系统性、实用性、条理性、连贯性和先进性的原则，力求激发读者的兴趣，注重各知识点之间的衔接和实践性环节教学，精心组织内容，做到由浅入深、突出重点。

本书共9章，第1章为Spark基础，主要包括Spark的基础知识、应用场景和生态系统等内容；第2章为Scala语言基础，包括Scala 编程基础、Scala数组和集合以及映射、Scala对象和多继承等内容；第3章为Spark设计与运行原理，包括Spark架构、Spark Core组成、Spark编程模型和计算模型等内容；第4章为Spark环境搭建和使用，包括Spark系列软件环境配置（JDK、Hadoop、MySQL-Server、Hive、ZooKeeper 、Scala、Kafka、Spark）和Spark-shell交互式命令工具使用等内容；第5章为Spark RDD弹性分布式数据集，包括RDD创建方式、RDD转换算子和行动算子操作方法等内容；第6章为Spark SQL结构化数据处理引擎，包括DataFrame和DataSet的创建和操作以及利用Spark SQL操作MySQL数据源等内容；第7章为Spark Streaming实时流处理引擎，包括Spark Streaming程序开发、DStream 高级数据源使用和数据转换操作等内容；第8章为Spark MLlib机器学习，包括机器学习基础、Spark MLlib 机器学习库和常用算法等内容；第9章为订单交易监控系统，主要完成订单交易实时监控平台的搭建，通过综合案例全面应用Spark大数据处理技术中几乎所有知识点，帮助读者运用Spark进行大数据技术开发和应用。

本书可作为普通高校或高职院校大数据技术课程的教材，也可供大数据技术领域从业者参考学习。

本书配有电子课件、源代码、课后习题答案、微课视频等，读者可以从中国水利水电出版社网站（www.waterpub.com.cn）或万水书苑网站（www.wsbookshow.com）免费下载。

内容实用——理论与实践结合，重点突出应用

体系完善——构建完整的大数据专业解决方案

产教融合——高校企业共参与，对标行业标准

资源丰富——微课、课件、教案、源码、答案

随着大数据时代的到来，无论是传统行业、互联网行业还是IT行业都将应用大数据技术。大数据技术可以帮助企业进行数据整合分析并降低生产成本，比如，互联网公司可以在广告业务方面进行大数据应用分析、效果分析和定向优化等，在推荐系统方面能实施大数据优化排名、热点分析和日志监控等。

Spark是一种基于内存的、分布式的大数据处理框架，凭借着快速、简洁易用以及支持多种运行模式而成为很多企业的大数据分析框架。本书不仅介绍Spark基础理论和运行原理，还深入浅出地讲解与Spark学习相关的编程语言、环境搭建、编程模型、数据处理技术、存储原理和机器学习等内容，所涉及的技术都结合代码进行讲解并实现具体功能，读者可以通过实例更加深入地理解Spark的运行机制。

本书内容主要包括Spark基础、Scala语言基础、Spark设计与运行原理、Spark环境搭建和使用、Spark RDD弹性分布式数据集、Spark SQL结构化数据处理引擎、Spark Streaming实时流处理引擎、Spark MLlib机器学习、订单交易监控系统等，最后通过综合案例全面应用Spark中几乎所有知识点，帮助读者运用Spark进行大数据技术开发和应用。

本书融入了丰富的教学和实际工作经验，内容安排合理、结构组织有序，能够让读者循序渐进地学习，通过精讲多个实例激发读者学习兴趣，图文并茂、直观易懂，适合初学者快速学习Spark编程；本书实例丰富，突出该课程操作性强的特点，每章由思维导图、要点、正文、小结和习题组成，重点内容配有微课视频讲解，课后习题配有答案，便于学生课后巩固相关知识，并且提供完整源代码。

本书首先讲解理论基础知识，然后围绕理论知识点进行编程实践，最后通过综合案例结合工作实践培养分析和解决问题的能力，用贴合实际的应用场景提升编程水平，充分巩固各个知识点的应用；源代码全部经过测试，能够在Linux操作系统下编译和运行。

本书编者均从事大数据技术相关课程一线教学，如Spark、Hadoop、Java、Python等，具有丰富的教学经验和较强的实际项目开发能力，主持或参与多个系统开发项目，部分教师具有企业软件开发工作经历。

本书由刘仁山、周洪翠、庄新妍任主编，塔娜、腰苏图任副主编，主要编写分工如下：庄新妍编写第1章和第2章，塔娜编写第3章和第4章，周洪翠编写第5章和第6章，刘仁山编写第7章并负责全书统稿、修改、定稿工作，腰苏图编写第8章和第9章。本书编写得到了北京华晟经世有限公司的大力支持，在此表示感谢。

尽管编者在编写过程中力求准确、完善，但书中不妥之处在所难免，恳请读者批评指正。

编　者

2021年9月

前言
第1章　Spark基础 1
1.1　初识Spark 2
1.1.1　Spark简介 2
1.1.2　Spark发展 2
1.2　Spark应用场景 3
1.3　Spark生态系统 4
1.4　Spark与Hadoop对比 7
1.5　Spark多语言编程 8
本章小结 9
练习一 9
第2章　Scala语言基础 11
2.1　Scala语言概述 12
2.1.1　Scala语言简介 12
2.1.2　Scala编译器安装 12
2.2　Scala命名规范 18
2.2.1　基本语法 18
2.2.2　Scala 关键字 18
2.2.3　Scala注释 19
2.3　变量 20
2.3.1　val变量 20
2.3.2　var变量 20
2.4　数据类型和运算符 20
2.4.1　数据类型 20
2.4.2　运算符 21
2.5　Scala控制结构 23
2.5.1　if...else语句 23
2.5.2　循环语句 24
2.6　函数的定义和调用 26
2.6.1　内置函数和自定义函数 26
2.6.2　函数的参数 27
2.7　Scala的lazy值 29
2.8　异常Exception的处理 30
2.9　数组 31
2.9.1　定长数组和变长数组 31
2.9.2　遍历数组 32
2.9.3　数组转换 32
2.9.4　数组常用方法 33
2.10　元组 33
2.10.1　创建元组 33
2.10.2　元组的访问和遍历 34
2.10.3　拉链操作 34
2.11　集合 34
2.11.1　列表（List） 34
2.11.2　集合（Set） 37
2.11.3　映射（Map） 38
2.12　类 40
2.12.1　类的定义 40
2.12.2　get方法和set方法 41
2.12.3　构造器 41
2.12.4　内部类 42
2.13　单例对象和伴生对象 43
2.13.1　单例（object）对象 43
2.13.2　伴生对象 44
2.13.3　apply方法 44
2.14　Scala中的继承 45
2.14.1　父类具有无参构造器的继承 46
2.14.2　父类具有带参构造器的继承 46
2.15　抽象 47
2.16　Scala中的特质 48
2.16.1　将特质作为接口使用 48
2.16.2　在特质中定义具体的方法 49
2.16.3　混合使用特质的具体方法和抽象方法 49
2.17　Scala包和引用 50
2.17.1　创建包 50
2.17.2　引用 50
2.17.3　包重命名和隐藏方法 51
本章小结 51
练习二 52
第3章　Spark设计与运行原理 53
3.1　Spark架构设计 54
3.1.1　Spark相关术语 54
3.1.2　Spark架构 55
3.1.3　Spark运行流程 56
3.2　Spark核心功能 57
3.2.1　Spark Core组成 57
3.2.2　Spark编程模型 58
3.2.3　Spark计算模型 59
3.3　Spark运行模式 60
3.3.1　Local（本地）模式 60
3.3.2　Standalone（独立）模式 61
3.3.3　Mesos（Spark on Mesos）模式 62
3.3.4　Yarn（Spark on Yarn）模式 63
本章小结 66
练习三 66
第4章　Spark环境搭建和使用 67
4.1　Spark开发环境概述 68
4.2　操作系统及其网络环境准备 68
4.2.1　操作系统环境 68
4.2.2　远程登录 79
4.2.3　Linux系统软件源配置 82
4.2.4　安装和配置第二台和第三台虚拟机 84
4.3　Spark环境搭建 88
4.3.1　安装JDK 88
4.3.2　安装Hadoop 90
4.3.3　安装MySQL Server 100
4.3.4　安装Hive 102
4.3.5　安装ZooKeeper 109
4.3.6　安装Scala 111
4.3.7　安装Kafka 112
4.3.8　安装Spark 114
4.4　Spark集群环境测试 116
4.4.1　使用Spark-submit提交任务 116
4.4.2　使用Spark-shell交互式命令工具 120
本章小结 122
练习四 122
第5章　Spark RDD弹性分布式数据集 123
5.1　RDD简介 124
5.1.1　RDD的特征 124
5.1.2　词频统计（WordCount）案例实现过程 124
5.1.3　RDD的创建 126
5.2　常用操作 130
5.2.1　常用的转换 131
5.2.2　常用的动作 137
5.2.3　实例操作 141
5.3　RDD的分区 145
5.3.1　分区的概念 145
5.3.2　分区原则和方法 146
5.4　持久化 146
5.4.1　持久化存储级别 147
5.4.2　持久化存储级别的选择 147
5.5　容错机制 148
5.6　综合实例 148
本章小结 154
练习五 154
第6章　Spark SQL结构化数据处理引擎 155
6.1　Spark SQL的基础知识 156
6.1.1　Spark SQL简介 156
6.1.2　Spark SQL数据抽象 156
6.1.3　程序主入口SparkSession 156
6.2　DataFrame 157
6.2.1　DataFrame简介 157
6.2.2　创建DataFrame 158
6.2.3　DataFrame查看操作 165
6.2.4　DataFrame查询操作 168
6.2.5　DataFrame输出操作 174
6.3　DataSet 175
6.3.1　DataSet简介 175
6.3.2　创建DataSet 176
6.4　Spark SQL操作数据源 178
本章小结 181
练习六 182
第7章　Spark Streaming实时流处理引擎 184
7.1　离线计算与实时计算 185
7.1.1　离线计算 185
7.1.2　实时计算 185
7.1.3　离线计算与实时计算比较 185
7.2　初探Spark Streaming 186
7.2.1　Spark Streaming简介 186
7.2.2　Spark Streaming工作原理 186
7.2.3　Spark Streaming入门程序 188
7.3　Spark Streaming程序开发 190
7.3.1　Spark Streaming环境准备 190
7.3.2　Spark Streaming项目搭建 190
7.3.3　Spark Streaming核心代码 191
7.3.4　Spark Streaming启动及测试 193
7.4　DStream输入 194
7.4.1　离散流（DStream） 194
7.4.2　DStream输入源 194
7.4.3　文件流数据源 196
7.4.4　RDD 队列流 197
7.4.5　Spark Streaming整合 Flume 197
7.4.6　Spark Streaming整合Kafka 201
7.5　DStream操作 203
7.5.1　无状态操作 204
7.5.2　有状态操作 204
7.5.3　DStream窗口操作 205
7.5.4　DStream输出操作 206
本章小结 208
练习七 208
第8章　Spark MLlib机器学习 210
8.1　机器学习概述 211
8.1.1　机器学习简介 211
8.1.2　大数据与机器学习 211
8.1.3　机器学习与人工智能 212
8.1.4　机器学习与深度学习 212
8.1.5　机器学习发展过程 213
8.1.6　机器学习应用 213
8.2　机器学习分类 214
8.2.1　监督学习 215
8.2.2　无监督学习 215
8.2.3　半监督学习 215
8.2.4　强化学习 216
8.2.5　机器学习的基本任务 216
8.3　机器学习基本流程 216
8.3.1　机器学习基本步骤 216
8.3.2　Spark机器学习流程 217
8.4　Spark MLlib机器学习库 220
8.4.1　MLlib介绍 220
8.3.2　MLlib数据类型 221
8.3.3　MLlib 统计工具 224
8.5　Spark MLlib常用算法 227
8.5.1　算法的选择 227
8.5.2　分类算法 228
8.5.3　回归算法 229
8.5.4　聚类算法 231
8.5.6　协同过滤算法 231
本章小结 233
练习八 233
第9章　订单交易监控系统 234
9.1　系统介绍 235
9.1.1　项目背景 235
9.1.2　相关技术介绍 235
9.2　系统设计 236
9.2.1　流程设计 236
9.2.2　系统架构 237
9.2.3　技术选型 237
9.3　基础环境配置 238
9.3.1　MariaDB数据库部署 238
9.3.2　ZooKeeper集群部署 241
9.3.3　Kafka集群部署 243
9.3.4　Canal安装配置 244
9.3.5　HBase安装配置 246
9.4　系统功能开发 248
9.4.1　订单交易数据表设计 248
9.4.2　订单Mock数据生成 249
9.4.3　订单交易数据采集 253
9.4.4　订单交易数据分析 254
本章小结 258
练习九 259
参考文献 260

源代码
习题答案
电子课件

关闭

打印