高维数据特征筛选策略与算法
-
【作 者】陈念 著
【I S B N 】978-7-5226-3840-9
【责任编辑】张玉玲
【适用读者群】本专通用
【出版时间】2025-12-01
【开 本】16开
【装帧信息】平装(光膜)
【版 次】第1版第1次印刷
【页 数】192
【千字数】195
【印 张】12
【定 价】¥68
【丛 书】暂无分类
【备注信息】
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
本书是著者结合自身的科学研究方向和专长,从统计学角度对高维数据特征选择相关策略和实现算法进行综述,并重点介绍了近年来该领域的科学研究进展情况。本书专业性较强,注重对技术理论依据和解决思路的精细讲解,读者可通过对本书的阅读,了解和掌握作为特征工程重要组成部分的特征降维技术的实现思路和方法。
本书内容分为6个章节:概述、基于指标排序的特征选择、基于回归模型的特征选择、子集搜索特征选择方法、正则化策略特征选择方法、确定性独立筛选策略及其改进。各章节对策略和算法思路进行了细致阐述,并在真实数据集上进行验证和分析,使得方法的应用效果得以具象化展示,方便初学者对抽象理论知识的理解和掌握,从而能够有效提升读者的数据降维处理思维能力和实操能力。
通过特征选择方式实现高维数据降维是特征工程的重要组成部分,在各种大数据应用场景下具有很高的科学研究意义和实用价值。本书理论性强,读者需要有一定的数学和统计学基础,部分内容对初学者来说需要经过细致地思考才能理解。本书以特征选择的策略,以及各策略下对应的实现算法为主线组织叙述框架,介绍了特征质量指标排序方法、借助回归模型的分析结果方法、在候选特征子集空间中搜索最优方法、正则化回归系数压缩方法,以及超高维情形下的确定性独立筛选方法等特征选择实施策略。各章节围绕特征选择过程中涉及的相关技术理论依据、实现思路、不同算法的优劣势等展开论述,并将一些重要的知识点通过举例的方式直观讲解,以加深读者的理解。
特征选择策略中涉及的具体实现技术较多,叙述时难以面面俱到。本书基于高维数据特征稀疏性假设,探讨了在有监督数据形态下使用不同策略及算法去除无关、冗余特征达到约简数据维度、提高特征的可解释性、避免模型过拟合等,同时兼顾特征间的交互协同关系,保证了特征选择结果的准确性。
本书分为概述、基于指标排序的特征选择、基于回归模型的特征选择、子集搜索特征选择方法、正则化策略特征选择方法、确定性独立筛选策略及其改进,共6章。本书由池州学院教师陈念撰写。本书的出版受到安徽省高校自然科学研究项目—电子信息处理与材料器件创新团队(项目编号:2022AH010098)的资助,在此表示感谢。对于本书的错误和不当之处,敬请读者批评指正。
著 者
2025年4月
第1章 概述 1
1.1 数据治理 1
1.2 特征计量与编码 3
1.2.1 特征分类 3
1.2.2 特征计量方式 4
1.2.3 特征编码 5
1.3 特征清洗与转换 10
1.3.1 特征清洗 10
1.3.2 特征转换 14
1.3.3 特征分布 18
1.4 特征选择 20
1.4.1 特征降维的必要性 20
1.4.2 特征选择步骤 22
1.4.3 特征选择方式 25
1.4.4 特征选择算法 28
1.4.5 多标签特征选择 32
1.5 模型与学习 34
1.5.1 模型种类 34
1.5.2 学习方式 34
1.6 本章小结 35
第2章 基于指标排序的特征选择 37
2.1 相关与冗余 37
2.2 相关性度量 39
2.2.1 回归模型的显著性检验 39
2.2.2 相关系数 42
2.2.3 信息度量标准 48
2.2.4 模型的学习效果 51
2.3 基于区分能力的排序 55
2.3.1 Laplacian得分 56
2.3.2 Constraint得分 56
2.3.3 Fisher得分 57
2.3.4 MIC 57
2.3.5 Gini得分 58
2.3.6 Relief-F算法 59
2.4 基于信息论的排序 60
2.4.1 互信息度量方法 60
2.4.2 条件/联合互信息度量 62
2.4.3 交互信息度量 64
2.5 本章小结 65
第3章 基于回归模型的特征选择 67
3.1 基础知识 67
3.2 常见回归模型 69
3.2.1 多元线性回归模型 69
3.2.2 多项式回归模型 73
3.2.3 Logistic回归模型 74
3.2.4 Cox回归模型 79
3.2.5 变系数模型 80
3.2.6 树回归模型 82
3.3 回归性能评价 87
3.3.1 误差评价指标 88
3.3.2 拟合优度指标 89
3.3.3 模型评价准则 91
3.4 回归分析举例 93
3.5 本章小结 98
第4章 子集搜索特征选择方法 100
4.1 子集搜索策略要素 100
4.2 MCMC随机搜索 102
4.2.1 Monte Carlo方法 102
4.2.2 Markov链 104
4.2.3 MCMC采样 106
4.3 特征子集采样寻优 107
4.3.1 候选模型搜索 108
4.3.2 最优模型选择 110
4.4 逐步回归搜索 112
4.4.1 逐步回归原理 112
4.4.2 逐步回归举例 115
4.5 群智能搜索 118
4.5.1 BGWO算法 119
4.5.2 SSA 121
4.6 本章小结 124
第5章 正则化策略特征选择方法 125
5.1 正则化的原理 125
5.1.1 正则化的作用 125
5.1.2 正则化的相关概念 126
5.2 Lasso回归特征选择 131
5.2.1 Lasso求解方法 131
5.2.2 Lasso参数调节 136
5.2.3 特征选择实例 139
5.3 独立正则化模型 141
5.3.1 线性稀疏模型 141
5.3.2 非线性稀疏模型 146
5.3.3 组稀疏模型 148
5.4 集成特征筛选 152
5.5 本章小结 155
第6章 确定性独立筛选策略及其改进 157
6.1 超高维特征筛选 157
6.1.1 意义与研究进展 157
6.1.2 筛选效果评价 159
6.2 基于模型假设的筛选 160
6.2.1 SIS 160
6.2.2 ISIS 163
6.2.3 RRCS 164
6.2.4 MMLE-SIS 165
6.2.5 NIS 166
6.3 无模型假设筛选 168
6.3.1 SIRS 168
6.3.2 DC-SIS 171
6.3.3 QaSIS 172
6.4 交互效应选择 173
6.4.1 基础知识 173
6.4.2 交互效应筛选算法 175
6.5 本章小结 177
参考文献 179
- 外贸英语从入门到实战:53种实战场景秒变谈判高手 [张乐 廖熠 编著]
- Linux系统管理(openEuler版) [主编 许兴鹍 黄君羡]
- Python程序设计项目化教程(基于AI) [主编 禹晨 赵金考 王宏斌]
- 可编程控制器应用项目化教程(三菱FX系列) [主编 姜文雍 李东方]
- 全球英文电影精选:看电影学英文 [张颖 编译]
- Python程序设计与网络爬虫 [黄海辉 彭新东]
- 实体店创业分析实务 [燕艳 陈文冬 编著]
- 中国对欧盟OFDI效率与风险的多维度实证评估—基于KK-SFA模型与PCF-聚类分析方法 [黄健钧 著]
- 生成式人工智能素养 [邱有春 罗明全]
- 系统分析师考试32小时通关(适配第2版考纲) [薛大龙 邹月平]
- Ansys DesignModeler参数化特征建模与仿真指南 [蔡宜时 编著]
- 浙江省山区县共富工坊建设的现状与对策 [徐骏骅 著]
- 计算机网络技术及应用(第3版) [主编 刘永华 陈瑶]
- 北京冬奥精神传承和发展研究 [顾春雨 邹新娴 等 著]
- 汽车营销理论与实务(第三版) [主编 赵培全]
- 人工智能基础与实践 [禹晨 赵金考 王宏斌 李璐]
- 系统分析师5天修炼(适配第2版考纲) [施游 邹汉斌 黄少年 主编]
- 线性代数(第二版) [惠小健 贺艳琴 夏斌湖]
- 微控制器系统设计(STM32版) [主编 杨凌]
- 机械原理与机械设计作业集(第二版) [主编 田亚平 李爱姣]
- 高剑父的现代国画研究 [陈水兴 著]
- 用英语介绍中国江河湖海 [庞彦杰 李静 赵娟 刘桂杰 编]
- 大学生创新创业基础(第2版) [主编 姜国权 方邡]
- 丰碑——河北水利电力学院校史(1950—2024) [河北水利电力学院校史编写委员会]
- 信息系统监理师真题及模考卷精析(适配第2版考纲) [主编 薛大龙]
- 高等职业教育深度教学研究 [何凤梅 陈逸怀 著]
- JavaScript前端框架应用实践教程(基于Vue 3.x) [主编 李礼 吴海天 刘颖]
- 人工智能理论与应用研究 [钟建坤 著]
- 中国民间美术山水语言体系研究 [陈钠 著]
- 园林规划设计 [主编 刘金萍]

