大数据技术导论
-
【作 者】主编 樊继慧 李旭耀
【I S B N 】978-7-5226-1101-3
【责任编辑】王玉梅
【适用读者群】本专通用
【出版时间】2022-11-01
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】152
【千字数】237
【印 张】9.5
【定 价】¥32
【丛 书】普通高等教育数据科学与大数据技术专业教材
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
本书根据现有的大数据技术理论,综合介绍了大数据技术的相关基础理论知识,并提供了部分实践操作介绍。本书共8 个章节,内容包含大数据的概念和特征,大数据计量,大数据生命周期,大数据与云计算,Hadoop,HDFS,MapReduce,大数据编程语言Python、Spark、R 语言,数据预处理,聚类分析,k- 邻近分类算法,数据可视化,大数据应用,大数据安全与威胁,爬虫技术,MINIST 数字识别技术。本书分别在大数据采集与预处理、数据挖掘与分析等重要章节中安排了入门级的实践操作内容,以便读者更好地学习和掌握大数据关键技术。
内容实用——理论与实践结合,重点突出应用
体系完善——构建完整的大数据专业解决方案
产教融合——高校企业共参与,对标行业标准
当前,新一代信息技术正在全球孕育兴起,科技创新、产业形态和应用格局正发生着重大变革。随着数据获取和计算技术的进步,大数据已成为一种新的国家战略资源,并引起了学术界、产业界、政府及行业用户等的高度关注。世界主要发达国家已经相继制定了促进大数据产业发展的政策法规,积极构建大数据生态,实施大数据国家战略。
大数据技术正处于快速发展之中,不断有新的技术涌现。基于互联网技术而发展起来的大数据技术,将会有颠覆性的影响。
本书定位为大数据专业课程的导论课教材,以“构建知识体系,阐明基本原理,开展初级实践,了解相关应用”为原则,旨在为读者搭建起通往大数据知识空间的桥梁,为读者在大数据领域的“精耕细作”奠定基础、指明方向。本书主要帮助读者掌握大数据的基本原理和基本知识,熟悉大数据技术在多个行业的应用,加深读者对大数据的理解。本书注重知识结构的基础性与完整性,确保技术内容的通用性、普适性与先进性,遵循教育规律,加强能力培养,同时附加大数据实操案例,开阔读者视野,启发创新思维。
本书共8 个章节,从概念、技术、应用以及发展等方面,全面介绍了当前大数据的体系与基本发展情况。第1 章主要介绍与大数据相关的基础概念,包括大数据的特征、计量、生命周期以及当前时代大数据的重大变革;第2 章主要介绍大数据的生态系统,包括Hadoop、HDFS、MapReduce 以及编程语言Python、Spark 和R 语言;第3 章主要介绍大数据采集的工具技术和大数据预处理阶段的相关技术与方法,包括数据采集的分类、工具,数据清洗的任务、过程以及网络爬虫的实例介绍;第4 章详细介绍了数据挖掘与分析的相关知识,包括大数据分析的概念、流程、特点、难点,数据认知以及数据建模知识,附加数据挖掘与分析的案例详解;第5 章围绕大数据可视化展开讨论,介绍其作用与分类,并剖析其发展历史以及未来的发展方向与挑战;第6 章主要介绍大数据分别在互联网行业、金融行业、保险行业以及旅游行业的应用;第7 章根据目前大数据发展的现状,对大数据安全以及大数据所面临的安全威胁做出了详细剖析;第8 章为大数据案例实操分析,主要通过实践案例来加深读者对前面章节的学习理解。
本书由樊继慧、李旭耀主编。本书主编结合自己在广州理工学院多年的工作经验,以大量事实数据为基础,进行研究工作;高新凯老师为本书资源建设做了很多有益工作。中国水利水电出版社的有关负责同志对本书的出版给予了大力支持。本书在编写过程中参考了大量国内外计算机网络文献资料,在此,谨向这些著作者以及为本书出版付出辛勤劳动的同志深表感谢!
期待读者在本书的介绍中能得到关于大数据的基础理解与收获,由于编者能力有限,书中难免存在不足之处,望广大读者不吝赐教。
第1 章 概论 .................................................................. 1
1.1 揭秘大数据 ............................................................... 1
1.1.1 大数据概念和特征 .......................................... 4
1.1.2 大数据的计量 .................................................. 6
1.1.3 大数据生命周期 .............................................. 7
1.1.4 大数据与云计算 .............................................. 9
1.1.5 大数据时代的重大变革 ................................ 11
1.2 大数据关键技术 ..................................................... 13
练习1 ............................................................................... 13
第2 章 大数据生态系统 .............................................. 14
2.1 Hadoop .................................................................... 14
2.1.1 Hadoop 简介................................................... 15
2.1.2 Hadoop 优势................................................... 16
2.2 HDFS ....................................................................... 16
2.2.1 HDFS 体系结构 ............................................. 17
2.2.2 HDFS 存储原理 ............................................. 17
2.2.3 HDFS 常用操作 ............................................. 18
2.3 MapReduce .............................................................. 18
2.3.1 MapReduce 简介 ............................................ 19
2.3.2 MapReduce 的适用场景 ................................ 19
2.3.3 MapReduce 的优点和缺点 ............................ 19
2.4 大数据编程语言 ..................................................... 20
2.4.1 Python ............................................................. 20
2.4.2 Spark ............................................................... 22
2.4.3 R 语言............................................................. 25
练习2 ............................................................................... 30
第3 章 大数据采集与预处理 ....................................... 31
3.1 数据采集 ................................................................. 31
3.1.1 数据采集分类 ................................................ 32
3.1.2 数据采集方法 ................................................ 32
3.1.3 数据采集工具 ................................................ 34
3.2 数据清洗 ................................................................. 35
3.2.1 数据清洗任务 ................................................ 35
3.2.2 数据清洗过程 ................................................ 35
3.3 数据变换 ................................................................. 37
3.3.1 规范化 ............................................................ 37
3.3.2 数据变换分类 ................................................ 38
3.4 数据分析与采集实例:线性回归和逻辑回归 ..... 39
练习3 ............................................................................... 47
第4 章 数据挖掘与分析 .............................................. 48
4.1 大数据分析概述 ..................................................... 48
4.1.1 数据分析原则 ................................................ 48
4.1.2 大数据分析特点 ............................................ 49
4.1.3 大数据分析流程 ............................................ 50
4.1.4 数据分析师基本技能和素质 ........................ 51
4.1.5 大数据分析难点 ............................................ 52
4.2 数据认知 ................................................................. 53
4.2.1 数据预处理 .................................................... 55
4.2.2 概率分析 ........................................................ 56
4.2.3 对比分析 ........................................................ 56
4.2.4 相关分析 ........................................................ 57
4.3 数据建模 ................................................................. 57
4.3.1 模型分类 ........................................................ 58
4.3.2 决策树 ............................................................ 58
4.3.3 关联分析 ........................................................ 62
4.3.4 回归分析 ........................................................ 67
4.3.5 聚类分析 ........................................................ 69
4.3.6 k- 近邻分类算法 ............................................ 70
4.4 数据挖掘与分析案例分析 ..................................... 71
练习4 ............................................................................... 73
第5 章 数据可视化技术 .............................................. 74
5.1 数据可视化概述 ..................................................... 74
5.2 数据可视化的作用 ................................................. 75
5.3 数据可视化的分类 ................................................. 75
5.4 数据可视化的发展历史 ......................................... 76
5.5 数据可视化发展方向与挑战 ................................. 76
5.6 数据可视化的流程与原则 ..................................... 77
5.7 大数据可视化实操 ................................................. 78
5.7.1 Tableau 安装与ODBC 创建 ......................... 79
5.7.2 Tableau 绘图实操演示 ................................... 86
练习5 ............................................................................... 92
第6 章 大数据应用 ..................................................... 93
6.1 互联网行业大数据应用 ......................................... 93
6.2 金融行业大数据应用 ............................................. 97
6.3 保险行业大数据应用 ............................................. 99
6.4 旅游行业大数据应用 ........................................... 101
6.5 政府大数据应用 ................................................... 103
6.5.1 发展历程 ...................................................... 104
6.5.2 行业痛点 ...................................................... 106
6.5.3 发展机会 ...................................................... 106
6.5.4 社会价值 ...................................................... 107
6.5.5 机遇与挑战 .................................................. 108
6.6 大数据应用平台 ................................................... 109
练习6 ..............................................................................111
第7 章 大数据安全 ................................................... 112
7.1 大数据安全的重要意义 ....................................... 112
7.2 大数据面临的挑战 ............................................... 114
7.3 大数据的安全威胁 ............................................... 116
7.3.1 大数据基础设施安全威胁 .......................... 117
7.3.2 大数据存储安全威胁 .................................. 118
7.3.3 大数据的隐私泄露 ...................................... 121
7.3.4 大数据的其他安全威胁 .............................. 125
练习7 ............................................................................. 127
第8 章 大数据案例实操分析 ..................................... 128
8.1 大数据案例分析的前期准备工作 ....................... 128
8.2 案例一:爬虫技术 ............................................... 130
8.2.1 认识爬虫 ...................................................... 130
8.2.2 认识HTTP ................................................... 132
8.2.3 实现HTTP 请求 .......................................... 133
8.2.4 常规动态网页爬取 ...................................... 135
8.3 案例二:MINIST 数字识别技术 ........................ 140
练习8 ............................................................................. 143
参考文献 ..................................................................... 144
- 控制器件(第三版) [主编 鲁兴举]
- 人工智能与信息素养 [主编 吴华光 房宜汕]
- 智能多媒体技术 [主编 陈萍 刘灵傲]
- 云南异龙湖无机碳埋藏的近现代模式研究 [李平 著]
- 基于多模态的人脸图像生成算法与关键技术 [罗晓东 著]
- 应用型地方本科高校教师专业发展研究 [吴丽 著]
- 高维数据特征筛选策略与算法 [陈念 著]
- 外贸英语从入门到实战:53种实战场景秒变谈判高手 [张乐 廖熠 编著]
- Linux系统管理(openEuler版) [主编 许兴鹍 黄君羡]
- Python程序设计项目化教程(基于AI) [主编 禹晨 赵金考 王宏斌]
- 可编程控制器应用项目化教程(三菱FX系列) [主编 姜文雍 李东方]
- 全球英文电影精选:看电影学英文 [张颖 编译]
- Python程序设计与网络爬虫 [黄海辉 彭新东]
- 实体店创业分析实务 [燕艳 陈文冬 编著]
- 中国对欧盟OFDI效率与风险的多维度实证评估—基于KK-SFA模型与PCF-聚类分析方法 [黄健钧 著]
- 生成式人工智能素养 [邱有春 罗明全]
- 系统分析师考试32小时通关(适配第2版考纲) [薛大龙 邹月平]
- Ansys DesignModeler参数化特征建模与仿真指南 [蔡宜时 编著]
- 浙江省山区县共富工坊建设的现状与对策 [徐骏骅 著]
- 计算机网络技术及应用(第3版) [主编 刘永华 陈瑶]
- 北京冬奥精神传承和发展研究 [顾春雨 邹新娴 等 著]
- 汽车营销理论与实务(第三版) [主编 赵培全]
- 人工智能基础与实践 [禹晨 赵金考 王宏斌 李璐]
- 系统分析师5天修炼(适配第2版考纲) [施游 邹汉斌 黄少年 主编]
- 线性代数(第二版) [惠小健 贺艳琴 夏斌湖]
- 微控制器系统设计(STM32版) [主编 杨凌]
- 机械原理与机械设计作业集(第二版) [主编 田亚平 李爱姣]
- 高剑父的现代国画研究 [陈水兴 著]
- 用英语介绍中国江河湖海 [庞彦杰 李静 赵娟 刘桂杰 编]
- 大学生创新创业基础(第2版) [主编 姜国权 方邡]

