热门关键字:  听力密码  单词密码  新概念美语  巧用听写练听力  零起点
图书信息

数据清洗

中国水利水电出版社
    【作 者】黄源 刘智杨 孙大松 【I S B N 】978-7-5226-0382-7 【责任编辑】周春元 【适用读者群】本专通用 【出版时间】2022-02-15 【开 本】16开 【装帧信息】平装(光膜) 【版 次】第1版第1次印刷 【页 数】192 【千字数】300 【印 张】12 【定 价】38 【丛 书】普通高等教育数据科学与大数据技术专业教材 【备注信息】
图书详情

    内 容 提 要

    本书编写目的是向读者介绍大数据清洗的基本概念和相应的技术应用,共分8章:数据清洗简介、数据清洗中的理论基础、文件格式及其转换、Excel数据清洗、Kettle数据清洗、Kettle与数据仓库、Python数据清洗、数据清洗综合实训。

    本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用数据清洗相关技术,并对重要的核心知识点加大练习比例,以达到熟练应用的目的。

    本书适用于高校人工智能、大数据技术相关专业的学生,也可供大数据技术爱好者自学使用。

    内容实用——理论与实践结合,重点突出应用

    体系完善——构建完整的大数据专业解决方案

    产教融合——高校企业共参与,对标行业标准

    资源丰富——微课、课件、教案、源码、答案

    前  言

    近年来,随着数字经济的快速发展,数据成为继土地、劳动力、资本、技术之后的第五大生产要素,在国家治理、社会发展和人民生活中的作用日益突出。而大数据是现代社会高科技发展的产物,是第四次工业革命最主要的内容之一,也是数字经济发展重要的推动力量。

    当前,发展大数据已经成为国家战略,大数据在引领经济社会发展中的新引擎作用更加明显。2015年,国家印发《关于促进大数据发展的行动纲要》,第一次将大数据上升到国家战略高度,提出了我国大数据的顶层设计。此后,随着大数据底层设施逐渐成熟,大数据分析开始结合具体行业,向下游垂直行业应用延伸。

    大数据必须经过清洗、分析、建模、可视化才能体现其潜在的价值。例如政府、银行和保险公司等内部存在海量的非结构化、不规则的数据,而只有将这些数据采集并清洗为结构化、规则的数据,才能提高公司决策支撑能力和政府决策服务水平,使之发挥应有的作用。

    本书以理论与实践操作相结合的方式深入讲解了数据清洗的基本知识和实现的基本技术,在内容设计上既有上课时老师讲述的部分(包括详细的理论与典型的案例),又有大量的实训环节,双管齐下,极大地激发了学生的学习积极性和主动创造性,让学生在课堂上跟上老师的思维,从而学到更多的知识和技能。

    本书特色如下:

    (1)采用“理实一体化”教学方式:课堂上既有老师讲述的内容又有学生独立思考、上机操作的内容。

    (2)丰富的教学案例:包含教学课件、习题答案等多种教学资源。

    (3)紧跟时代潮流,注重技术变化:书中包含最新的大数据分析知识及一些开源库的使用。建议读者在阅读本书时使用3.7以上的Python程序版本,且需要安装MySQL和Kettle等软件。

    (4)编写本书的老师都具有多年教学经验,做到重难点突出,能够激发学生的学习热情。

    (5)配有微课视频:对本书中的重难点进行细致讲解,方便学生课后学习。

    本书可作为大数据专业、人工智能专业、软件技术专业、云计算专业、计算机网络专业的教材,也可作为大数据爱好者的参考书。

    本书建议学时为50学时,具体分布见下表。

    章节 建议学时

    数据清洗简介 4

    数据清洗中的理论基础 6

    文件格式及其转换 6

    Excel数据清洗 4

    Kettle数据清洗 8

    Kettle与数据仓库 6

    Python数据清洗 12

    数据清洗综合实训 4

    本书由黄源、刘智杨、孙大松任主编,陈勇、王曙光、刘广敏任副主编。其中,黄源编写第1章和第2章并负责统稿工作,刘智杨编写第3章,孙大松编写第4 章,陈勇编写第5章和第6章,王曙光编写第7章,刘广敏编写第8章。

    在本书编写过程中,编者得到了中国电信金融行业信息化应用重庆基地总经理助理杨琛的大力支持,同时参阅了大量相关资料,在此一并表示感谢。

    由于编者水平有限,书中难免存在疏漏甚至错误之处,恳请读者批评指正,编者电子邮箱:2103069667@qq.com。

    编 者

    2021年10月

    前言
    第1章 数据清洗简介 1
    1.1 数据清洗概述 2
    1.1.1 什么是数据清洗 2
    1.1.2 数据清洗的原理 2
    1.1.3 数据清洗的过程 3
    1.2 数据质量管理 5
    1.2.1 数据质量管理的含义 5
    1.2.2 数据质量的评估 6
    1.2.3 数据质量管理应用 7
    1.3 数据清洗模型研究 8
    1.3.1 数据清洗模型描述 8
    1.3.2 数据清洗模型应用 9
    1.4 数据清洗常用软件与工具 9
    1.4.1 数据清洗常用软件 9
    1.4.2 数据清洗常用工具 11
    1.5 实训 11
    练习1 13
    第2章 数据清洗中的理论基础 14
    2.1 微积分 15
    2.1.1 微积分概述 15
    2.1.2 微积分的作用 15
    2.2 线性代数 15
    2.2.1 线性代数概述 16
    2.2.2 线性代数的定义 16
    2.3 概率论与数理统计 21
    2.3.1 概率论与数理统计概述 21
    2.3.2 概率论与数理统计基本概念 21
    2.4 最优化理论 26
    2.4.1 最优化理论定义 26
    2.4.2 凸函数 26
    2.5 主成分分析 27
    2.5.1 主成分分析概述 27
    2.5.2 主成分分析的实现 27
    2.6 数据清洗常见算法 28
    2.6.1 哈希算法 29
    2.6.2 字符串匹配算法 29
    2.6.3 聚类算法 31
    2.7 实训 33
    练习2 34
    第3章 文件格式及其转换 35
    3.1 文件格式概述 36
    3.1.1 文件格式简介 36
    3.1.2 Windows中常见的文件格式介绍 36
    3.2 数据类型与字符编码 37
    3.2.1 数据类型 37
    3.2.2 字符编码 37
    3.3 跨平台数据传输格式 38
    3.3.1 XML 38
    3.3.2 JSON 39
    3.4 Kettle中文件格式的运行与转换 40
    3.4.1 文本文件的转换 41
    3.4.2 XML文件的转换 43
    3.4.3 JSON文件的转换 46
    3.4.4 CSV文件的转换 48
    3.5 实训 50
    练习3 56
    第4章 Excel数据清洗 57
    4.1 认识Excel 58
    4.1.1 Excel介绍 58
    4.1.2 Excel数据清洗的特点 58
    4.2 Excel数据清洗基本操作 58
    4.2.1 Excel数据工具的认识 58
    4.2.2 Excel数据工具的应用 59
    4.3 使用Excel中的函数进行数据清洗 65
    4.3.1 Excel中的函数介绍 65
    4.3.2 Excel函数的具体应用 66
    4.4 实训 70
    练习4 71
    第5章 Kettle数据清洗 72
    5.1 Kettle数据清洗概述 73
    5.1.1 Kettle数据清洗简介 73
    5.1.2 Kettle数据清洗的认识 73
    5.2 Kettle数据清洗基础 74
    5.2.1 Kettle数据清洗基本操作 75
    5.2.2 Kettle数据清洗的实现 75
    5.3 实训 94
    练习5 105
    第6章 Kettle与数据仓库 106
    6.1 数据仓库概述 107
    6.1.1 什么是数据仓库 107
    6.1.2 数据仓库的特点 107
    6.2 Kettle中的数据仓库相关技术 107
    6.2.1 Kettle连接数据库 107
    6.2.2 Kettle成功连接数据库的其他操作 109
    6.3 Kettle在数据仓库中的应用 111
    6.3.1 Kettle读取数据库 111
    6.3.2 Kettle迁移数据库 115
    6.4 实训 117
    练习6 119
    第7章 Python数据清洗 120
    7.1 Python数据清洗概述 121
    7.1.1 Python数据清洗简介 121
    7.1.2 Python扩展库的安装与导入 121
    7.2 Python数据清洗基础 122
    7.2.1 NumPy库的使用 122
    7.2.2 Pandas库的使用 128
    7.3 机器学习中的数据清洗 149
    7.3.1 Seaborn库 149
    7.3.2 对机器学习中的数据集进行分析清洗 152
    7.4 Python中的时间序列 154
    7.4.1 时间序列基础datetime 154
    7.4.2 Pandas中的日期与时间工具 156
    7.5 实训 157
    练习7 165
    第8章 数据清洗综合实训 166
    8.1 Kettle输入记录排序 167
    8.2 Kettle数据流优先级排序 171
    8.3 Kettle生成记录排序 175
    8.4 使用Python清洗数据 178
    8.5 Python读取CSV文档 180
    参考文献 186
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册