大数据技术导论
-
【作 者】主编 樊继慧 李旭耀
【I S B N 】978-7-5226-1101-3
【责任编辑】王玉梅
【适用读者群】本专通用
【出版时间】2022-11-01
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】152
【千字数】237
【印 张】9.5
【定 价】¥32
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
本书根据现有的大数据技术理论,综合介绍了大数据技术的相关基础理论知识,并提供了部分实践操作介绍。本书共8 个章节,内容包含大数据的概念和特征,大数据计量,大数据生命周期,大数据与云计算,Hadoop,HDFS,MapReduce,大数据编程语言Python、Spark、R 语言,数据预处理,聚类分析,k- 邻近分类算法,数据可视化,大数据应用,大数据安全与威胁,爬虫技术,MINIST 数字识别技术。本书分别在大数据采集与预处理、数据挖掘与分析等重要章节中安排了入门级的实践操作内容,以便读者更好地学习和掌握大数据关键技术。
内容实用——理论与实践结合,重点突出应用
体系完善——构建完整的大数据专业解决方案
产教融合——高校企业共参与,对标行业标准
当前,新一代信息技术正在全球孕育兴起,科技创新、产业形态和应用格局正发生着重大变革。随着数据获取和计算技术的进步,大数据已成为一种新的国家战略资源,并引起了学术界、产业界、政府及行业用户等的高度关注。世界主要发达国家已经相继制定了促进大数据产业发展的政策法规,积极构建大数据生态,实施大数据国家战略。
大数据技术正处于快速发展之中,不断有新的技术涌现。基于互联网技术而发展起来的大数据技术,将会有颠覆性的影响。
本书定位为大数据专业课程的导论课教材,以“构建知识体系,阐明基本原理,开展初级实践,了解相关应用”为原则,旨在为读者搭建起通往大数据知识空间的桥梁,为读者在大数据领域的“精耕细作”奠定基础、指明方向。本书主要帮助读者掌握大数据的基本原理和基本知识,熟悉大数据技术在多个行业的应用,加深读者对大数据的理解。本书注重知识结构的基础性与完整性,确保技术内容的通用性、普适性与先进性,遵循教育规律,加强能力培养,同时附加大数据实操案例,开阔读者视野,启发创新思维。
本书共8 个章节,从概念、技术、应用以及发展等方面,全面介绍了当前大数据的体系与基本发展情况。第1 章主要介绍与大数据相关的基础概念,包括大数据的特征、计量、生命周期以及当前时代大数据的重大变革;第2 章主要介绍大数据的生态系统,包括Hadoop、HDFS、MapReduce 以及编程语言Python、Spark 和R 语言;第3 章主要介绍大数据采集的工具技术和大数据预处理阶段的相关技术与方法,包括数据采集的分类、工具,数据清洗的任务、过程以及网络爬虫的实例介绍;第4 章详细介绍了数据挖掘与分析的相关知识,包括大数据分析的概念、流程、特点、难点,数据认知以及数据建模知识,附加数据挖掘与分析的案例详解;第5 章围绕大数据可视化展开讨论,介绍其作用与分类,并剖析其发展历史以及未来的发展方向与挑战;第6 章主要介绍大数据分别在互联网行业、金融行业、保险行业以及旅游行业的应用;第7 章根据目前大数据发展的现状,对大数据安全以及大数据所面临的安全威胁做出了详细剖析;第8 章为大数据案例实操分析,主要通过实践案例来加深读者对前面章节的学习理解。
本书由樊继慧、李旭耀主编。本书主编结合自己在广州理工学院多年的工作经验,以大量事实数据为基础,进行研究工作;高新凯老师为本书资源建设做了很多有益工作。中国水利水电出版社的有关负责同志对本书的出版给予了大力支持。本书在编写过程中参考了大量国内外计算机网络文献资料,在此,谨向这些著作者以及为本书出版付出辛勤劳动的同志深表感谢!
期待读者在本书的介绍中能得到关于大数据的基础理解与收获,由于编者能力有限,书中难免存在不足之处,望广大读者不吝赐教。
第1 章 概论 .................................................................. 1
1.1 揭秘大数据 ............................................................... 1
1.1.1 大数据概念和特征 .......................................... 4
1.1.2 大数据的计量 .................................................. 6
1.1.3 大数据生命周期 .............................................. 7
1.1.4 大数据与云计算 .............................................. 9
1.1.5 大数据时代的重大变革 ................................ 11
1.2 大数据关键技术 ..................................................... 13
练习1 ............................................................................... 13
第2 章 大数据生态系统 .............................................. 14
2.1 Hadoop .................................................................... 14
2.1.1 Hadoop 简介................................................... 15
2.1.2 Hadoop 优势................................................... 16
2.2 HDFS ....................................................................... 16
2.2.1 HDFS 体系结构 ............................................. 17
2.2.2 HDFS 存储原理 ............................................. 17
2.2.3 HDFS 常用操作 ............................................. 18
2.3 MapReduce .............................................................. 18
2.3.1 MapReduce 简介 ............................................ 19
2.3.2 MapReduce 的适用场景 ................................ 19
2.3.3 MapReduce 的优点和缺点 ............................ 19
2.4 大数据编程语言 ..................................................... 20
2.4.1 Python ............................................................. 20
2.4.2 Spark ............................................................... 22
2.4.3 R 语言............................................................. 25
练习2 ............................................................................... 30
第3 章 大数据采集与预处理 ....................................... 31
3.1 数据采集 ................................................................. 31
3.1.1 数据采集分类 ................................................ 32
3.1.2 数据采集方法 ................................................ 32
3.1.3 数据采集工具 ................................................ 34
3.2 数据清洗 ................................................................. 35
3.2.1 数据清洗任务 ................................................ 35
3.2.2 数据清洗过程 ................................................ 35
3.3 数据变换 ................................................................. 37
3.3.1 规范化 ............................................................ 37
3.3.2 数据变换分类 ................................................ 38
3.4 数据分析与采集实例:线性回归和逻辑回归 ..... 39
练习3 ............................................................................... 47
第4 章 数据挖掘与分析 .............................................. 48
4.1 大数据分析概述 ..................................................... 48
4.1.1 数据分析原则 ................................................ 48
4.1.2 大数据分析特点 ............................................ 49
4.1.3 大数据分析流程 ............................................ 50
4.1.4 数据分析师基本技能和素质 ........................ 51
4.1.5 大数据分析难点 ............................................ 52
4.2 数据认知 ................................................................. 53
4.2.1 数据预处理 .................................................... 55
4.2.2 概率分析 ........................................................ 56
4.2.3 对比分析 ........................................................ 56
4.2.4 相关分析 ........................................................ 57
4.3 数据建模 ................................................................. 57
4.3.1 模型分类 ........................................................ 58
4.3.2 决策树 ............................................................ 58
4.3.3 关联分析 ........................................................ 62
4.3.4 回归分析 ........................................................ 67
4.3.5 聚类分析 ........................................................ 69
4.3.6 k- 近邻分类算法 ............................................ 70
4.4 数据挖掘与分析案例分析 ..................................... 71
练习4 ............................................................................... 73
第5 章 数据可视化技术 .............................................. 74
5.1 数据可视化概述 ..................................................... 74
5.2 数据可视化的作用 ................................................. 75
5.3 数据可视化的分类 ................................................. 75
5.4 数据可视化的发展历史 ......................................... 76
5.5 数据可视化发展方向与挑战 ................................. 76
5.6 数据可视化的流程与原则 ..................................... 77
5.7 大数据可视化实操 ................................................. 78
5.7.1 Tableau 安装与ODBC 创建 ......................... 79
5.7.2 Tableau 绘图实操演示 ................................... 86
练习5 ............................................................................... 92
第6 章 大数据应用 ..................................................... 93
6.1 互联网行业大数据应用 ......................................... 93
6.2 金融行业大数据应用 ............................................. 97
6.3 保险行业大数据应用 ............................................. 99
6.4 旅游行业大数据应用 ........................................... 101
6.5 政府大数据应用 ................................................... 103
6.5.1 发展历程 ...................................................... 104
6.5.2 行业痛点 ...................................................... 106
6.5.3 发展机会 ...................................................... 106
6.5.4 社会价值 ...................................................... 107
6.5.5 机遇与挑战 .................................................. 108
6.6 大数据应用平台 ................................................... 109
练习6 ..............................................................................111
第7 章 大数据安全 ................................................... 112
7.1 大数据安全的重要意义 ....................................... 112
7.2 大数据面临的挑战 ............................................... 114
7.3 大数据的安全威胁 ............................................... 116
7.3.1 大数据基础设施安全威胁 .......................... 117
7.3.2 大数据存储安全威胁 .................................. 118
7.3.3 大数据的隐私泄露 ...................................... 121
7.3.4 大数据的其他安全威胁 .............................. 125
练习7 ............................................................................. 127
第8 章 大数据案例实操分析 ..................................... 128
8.1 大数据案例分析的前期准备工作 ....................... 128
8.2 案例一:爬虫技术 ............................................... 130
8.2.1 认识爬虫 ...................................................... 130
8.2.2 认识HTTP ................................................... 132
8.2.3 实现HTTP 请求 .......................................... 133
8.2.4 常规动态网页爬取 ...................................... 135
8.3 案例二:MINIST 数字识别技术 ........................ 140
练习8 ............................................................................. 143
参考文献 ..................................................................... 144
- 输水管线工程风险管理 [张勇 党亥生 著]
- 民用航空飞机标准线路施工 [主编 王志敏 陈明]
- 不息的水脉—大运河讲谈录 [赵珩 著]
- 实用运筹学 [主编 邢育红 于晋臣]
- 三峡梯级电站水资源决策支持系统研究与开发 [姚华明 潘红忠 汤正]
- 海南黎族民俗文化鉴赏 [庞国华 著]
- 石墨烯在太赫兹及中红外频段电磁器件设计中的应用 [李艳秀 庄华伟 著]
- 电子技术(第二版) [主编 覃爱娜 李飞]
- 办公自动化高级应用 [陈萍 朱晓玉]
- 信息处理技术员考试32小时通关 [薛大龙]
- 电子产品设计案例教程(微课版)—基于嘉立创EDA(专业版) [王静 莫志宏 陈学昌 丁红]
- C程序设计实践教程 [刘卫国]
- C程序设计(慕课版) [刘卫国]
- Web技术开发教程(基于.NET开源MVC框架) [王合闯 韩红玲 王青正 陈海蕊]
- 商务英语翻译教程(笔译)(第四版) [主编 王军平]
- 智慧零售技术与应用 [洪旭 著]
- 建设工程法规实务 [主编 余滢]
- 商务秘书理论与实务(第三版) [主编 张同钦]
- 程序设计基础实践教程(C/C++语言版) [张桂芬 葛丽娜]
- C++案例项目精讲 [主编 杨国兴]
- 劳动争议处理实务 [主编 王秀卿 罗静]
- 工程数学 [主编 郭立娟 王海]
- 语音识别理论与实践 [主编 莫宏伟]
- 信息系统项目管理师章节习题与考点特训(第二版) [主编 薛大龙]
- 武术基础教程 [主编 李代勇 谢志民]
- 计算机网络实训教程 [主编 张浩军 赵玉娟]
- 画法几何与机械制图习题集(多学时) [主编 赵军]
- HCIA-Datacom认证题库分类精讲 [主 编 韩立刚]
- SwiftUI完全开发 [李智威 著]
- 网络规划设计师备考一本通 [夏杰 编著]