Python机器学习技术与应用

中国水利水电出版社

【作者】主编王路漫齐惠颖

【I S B N 】978-7-5226-1100-6

【责任编辑】赵佳琦

【适用读者群】本科

【出版时间】2023-02-08

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】240

【千字数】384

【印张】15

【定价】￥49

【丛书】普通高等教育人工智能专业系列教材

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

内容提要

本书以机器学习初学者为教学对象，通过讲解机器学习的常用方法及实际应用，培养读者机器学习应用技能及计算思维能力。本书共12章，主要内容包括机器学习概述、Python语言基础、网络爬虫、数据预处理与特征工程、多元回归分析、分类方法、支持向量机、朴素贝叶斯方法、聚类分析方法、人工神经网络与深度学习、数据可视化、基于Pyecharts的大数据可视化图表。

本书内容丰富、图文并茂，以数据分析流程为主线，算法与应用相结合，系统讲解常用的机器学习理论和分析方法，通过案例帮助读者快速掌握机器学习相关技术，以实现理论与实践的紧密结合。

本书可以作为高等学校各类专业的机器学习通识课程教材，或计算机类专业学生的必修课教材，也可供对机器学习感兴趣的相关人员阅读。

本书配有习题答案，读者可从中国水利水电出版社网站（www.waterpub.com.cn）或万水书苑网站（www.wsbookshow.com）免费下载。

内容全面循序渐进地引导读者掌握机器学习的常用方法。

案例实用以实际问题为案例，提升计算思维能力。

资源丰富讲解视频、程序源码、习题答案等资源，方便读者学习使用。

前　　言

机器学习是人工智能的一个重要分支，被广泛应用于大数据相关的诸多领域，深入推动了各个行业的创新与变革。对于当今的高校学生，全面理解且有效运用机器学习方法是十分必要的。面对新时代的发展需求，为培养学生应对时代变革所需的能力，从2015年开始北京大学医学部面向本科生和研究生开设多门机器学习相关选修课，同时将机器学习的相关内容融入到本科生的“大学计算机”这门必修课中。多位老师花费大量时间和精力进行课程的建设和改革，形成完整的教学内容及丰富的案例式教学课程资源，这些课程深受学生的喜爱。因此我们反复对课程实施过程中的教学资源及教学经验进行梳理总结，并编写整理成书，为更多高校的教育教学提供参考。

本书面向各领域的实际问题需求，以培养学生的计算思维能力为目标，以全新的视角组织内容，按照数据分析的流程，通过机器学习方法和应用实践相结合的方式深入讲解常用算法。

本书既注重思维培养，又兼顾应用需求，在通俗易懂的前提下，追求知识体系的系统性，尽可能全面展示机器学习的方法及应用。

本书具有以下特点：

1. 内容全面。以机器学习的角度，按照数据分析的流程组织内容，循序渐进地引导读者掌握机器学习的常用方法，逐步培养读者的数据素养。

2. 案例实用。本书选用实际问题作为案例，以Python语言为载体，让读者通过简单的代码轻松实现机器学习的整个过程，解决实际问题，快速获得计算思维能力的提升。

3. 资源丰富。本书提供重点例题的讲解视频⒊绦蛟绰搿⑾疤獾榷嘀纸萄ё试矗枋橹邢嘤ξ恢玫亩肟梢栽谙吖劭础⒀啊�

4. 作者团队优秀。编写本书的教师都具有多年的一线教学经验，本书重难点突出，能够激发学生的学习热情。

本书由王路漫、齐惠颖任主编，张爱桃、王静、殷蜀梅、周瑜任副主编。参编人员撰写任务情况如下：第1、6、11章由王路漫编写，第2章由王晨编写，第3章由齐惠颖编写，第4章由杨莉编写，第5、8章由张爱桃编写，第7、10章由王静编写，第9章由周瑜编写，第12章由殷蜀梅编写。王路漫、周瑜和焦影倩共同完成本书的统稿和定稿工作。

此外，中国水利水电出版社的有关负责同志对本书的出版给予了大力支持，特别是周益丹副编审，在本书的策划和写作中，提出了宝贵的意见，在此深表感谢。

由于编者水平有限，书中难免出现遗漏和不当之处，敬请读者提出宝贵建议，批评指正！

王路漫

2022年6月

前言
第1章　机器学习概述 1
1.1 机器学习的概念 1
1.2　机器学习的分类 2
1.2.1　实际问题的分类 2
1.2.2　根据训练方法进行分类 2
1.3 机器学习的开发流程 3
1.4 机器学习的应用 4
本章小结 6
习题 6
第2章　Python语言基础 7
2.1 Python语言概述 7
2.1.1 Python简介 7
2.1.2 Python优势 7
2.2　Python环境配置与使用 8
2.2.1 Anaconda的安装方法 8
2.2.2 Spyder的环境介绍 12
2.2.3 第三方库的安装方法 13
2.3　数据分析相关库的介绍 15
2.3.1 NumPy库 15
2.3.2 Pandas库 19
2.3.3 Sklearn库 22
本章小结 24
习题 24
第3章网络爬虫 26
3.1 网络爬虫基本知识 26
3.1.1 网络爬虫简介 26
3.1.2 HTTP协议 28
3.1.3 HTML语言 32
3.1.4 CSS样式表 33
3.1.5 JavaScript脚本 34
3.2 网页内容获取方法 35
3.2.1 requests主要方法 35
3.2.2 response对象 39
3.3 网页内容解析方法 40
3.3.1 BeautifulSoup 40
3.3.2 正则表达式 46
3.4 数据存储 50
3.4.1 TXT格式存储 51
3.4.2 JSON格式存储 51
3.4.3 CSV格式存储 52
3.4.4 图片文件存储 52
本章小结 52
习题 53
第4章　数据预处理与特征工程 54
4.1　数据预处理的主要方法 54
4.1.1 删除数据 54
4.1.2 缺失值处理 56
4.1.3 重复值处理 60
4.1.4 异常值处理 62
4.1.5 数据类型的转换 62
4.2　特征选择的主要方法 64
4.2.1 过滤法 64
4.2.2 包裹法 67
4.2.3 嵌入法 68
4.3　数据预处理与特征工程综合实例
——Titanic生存分析 68
本章小结 73
习题 73
第5章　多元回归分析 75
5.1　多元线性回归 75
5.1.1　线性回归的基本原理 75
5.1.2 多元线性回归的实现 79
5.1.3 回归模型的评估指标 81
5.2　多重共线性问题 83
5.2.1　多重共线性的定义 83
5.2.2　岭回归 85
5.2.3　Lasso回归 89
5.3 非线性回归——多项式回归 91
5.3.1　多项式回归的基本概念 92
5.3.2　多项式回归的实现 93
5.4　Logistic回归 94
5.4.1　Logistic回归模型 94
5.4.2　Logistic回归参数估计 96
5.4.3　Logistic回归评估指标 98
5.4.4　应用实例 100
本章小结 103
习题 103
第6章分类方法 106
6.1 分类方法概述 106
6.2 决策树 107
6.2.1 决策树方法的基本概念 107
6.2.2　决策树方法的工作方式 108
6.2.3　属性选择的度量 109
6.2.4　决策树算法——ID3算法 110
6.2.5 Sklearn中决策树算法的实现 110
6.2.6　决策树算法应用实例 113
6.3 随机森林 117
6.3.1 随机森林概述 117
6.3.2 Sklearn中随机森林算法的实现 118
6.3.3 随机森林算法应用实例 118
6.4　分类算法评估 122
6.4.1　评估准则 122
6.4.2 评估过程 122
6.4.3 评估方法 123
6.4.4 评估实例 124
本章小结 125
习题 125
第7章支持向量机 126
7.1 支持向量机算法概述 126
7.2　SVM的分类实现方法及案例 129
7.2.1 SVC支持向量分类算法 129
7.2.2 NuSVC支持向量分类算法 131
7.2.3 LinearSVC线性支持向量分类算法 133
7.3 SVM的回归实现方法及案例 135
7.3.1 SVR回归实现方法 135
7.3.2 NuSVR回归实现方法 137
7.3.3 LinearSVR回归实现方法 138
7.4 SVM异常检测的实现方法 139
7.5 SVM实战——人脸识别 140
7.5.1 导入并显示数据集 141
7.5.2 SVM分类器模型选择和优化 142
本章小结 144
习题 144
第8章朴素贝叶斯方法 146
8.1 朴素贝叶斯方法概述 146
8.1.1　贝叶斯定理 146
8.1.2　朴素贝叶斯方法原理 147
8.2　不同分布下的贝叶斯方法 148
8.2.1　高斯朴素贝叶斯方法 148
8.2.2　多项式朴素贝叶斯方法 150
8.3 朴素贝叶斯实例——文本分类 152
8.4 概率类模型评估的评估指标 154
8.4.1 布利尔分数 155
8.4.2 对数损失函数 156
8.4.3 可靠性曲线 156
本章小结 158
习题 159
第9章聚类分析方法 161
9.1 聚类分析方法与无监督学习 161
9.1.1 聚类分析方法 161
9.1.2 聚类分析和分类分析的区别 162
9.2 k-均值聚类算法 162
9.2.1 k-均值聚类算法概述 162
9.2.2 距离度量 163
9.2.3 Sklearn中k-均值聚类算法的实现 164
9.2.4 k-均值聚类算法的优缺点 166
9.3 密度聚类算法 167
9.3.1 密度聚类算法概述 167
9.3.2 DBSCAN算法的实现 169
9.4 聚类算法的评估 170
9.4.1 确定聚类簇数k 170
9.4.2 评估聚类质量 172
9.5 聚类算法实例 174
本章小结 177
习题 178
第10章人工神经网络与深度学习 179
10.1 人工神经网络与深度学习概述 179
10.2 人工神经网络的原理 181
10.2.1 人工神经元模型 181
10.2.2 人工神经网络模型 185
10.2.3 人工神经网络算法 186
10.3 BP神经网络 186
10.3.1　BP神经网络的模型 187
10.3.2　BP神经网络的学习算法 187
10.3.3　BP神经网络的设计 188
10.4 人工神经网络的实现方法 189
10.4.1 MLPClassifier介绍 189
10.4.2 MLPClassifier案例 190
10.5 人工神经网络算法实战——人脸识别 195
10.5.1　导入数据集并进行数据集划分 196
10.5.2 优化MLP分类器模型 196
10.5.3 MLP分类器模型预测 200
本章小结 201
练习 201
第11章数据可视化 202
11.1 数据可视化的概念及分类 202
11.2 使用Matplotlib库进行图表的绘制 204
11.2.1　图表的主要元素及绘制步骤 204
11.2.2 简单图表绘制 206
11.2.3　多图组合绘制 214
本章小结 216
习题 217
第12章基于Pyecharts的大数据可视化图表 218
12.1 Pyecharts概述 218
12.1.1 Pyecharts的简介 218
12.1.2 Pyecharts的主要绘制步骤 218
12.2 基于文本数据生成词云图 221
12.2.1 利用Pyecharts绘制英文词云图 221
12.2.2 利用jieba绘制中文词云图 222
12.3 基于结构化数据生成立体交互式图表 223
12.4 基于JSON格式文件绘制桑基图 225
12.5 绘制圆形关系图 227
本章小结 229
习题 229
参考文献 230

参考答案
电子教案

关闭

打印