热门关键字:  听力密码  听力密码  新概念美语  单词密码  巧用听写练听力
图书信息

SQL Server 2005数据挖掘实例分析

中国水利水电出版社
    【作 者】王欣 等编著 【I S B N 】978-7-5084-5346-0 【责任编辑】宋俊娥 【适用读者群】本科 【出版时间】2008-03-01 【开 本】16开本 【装帧信息】平装(光膜) 【版 次】2008年03月第1版 【页 数】256 【千字数】 【印 张】 【定 价】28 【丛 书】21世纪高等院校计算机系列教材 【备注信息】
图书详情

      数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果。数据挖掘过程涉及下列7个研究方面:数据仓库及OLAP技术、数据预处理、使用SQL Server Data Mining、关联规则、分类和预测、聚类分析和时序和序列数据的挖掘。

      本书对数据挖掘和知识发现的各个方面都进行了必要的解说,侧重于用SSAS进行数据挖掘模型的建立、挖掘结果的分析与检验,以及解释与验证结果。本书对主要的挖掘技术提供了详细的SQL Server2005数据挖掘的实例,读者通过案例来实验性地建立和检验数据挖掘模型。 

      本书适合希望学习SQL Server2005挖掘技术的读者,可以作为数据挖掘工程师的参考用书。本书适合作为高校教学数据挖掘的教程,也是公司培训不可多得的参考用书。

      随着计算机技术,特别是数据库技术的快速发展和广泛应用,各行各业积累的数据量越来越大,传统的数据处理方式已经很难充分利用蕴藏在这些数据中的有用知识,于是数据挖掘技术应运而生。

      数据挖掘(Data Mining)又称为数据库中的知识发现,可以把数据转化为有用的信息以帮助制定决策,从而在市场竞争中获得优势地位。数据挖掘是一个过程——一个不断把商业经验和知识与数据相结合的过程。数据挖掘的目标是找到能够帮助他们做出对其成功至关重要的决策的信息。例如,他们想知道这样一些情况:“现在客户中哪些会对我们的新产品感兴趣?”,“这个贷款申请有合理的信用风险吗?”等等。数据挖掘中应用的方法包括概念描述、分类与预测、关联规则、聚集和神经网络等。

    基于数据挖掘技术,微软公司于2005年12月2日发布了新一代企业级应用平台   SQL Server 2005、Visual Studio 2005。使用 SQL Server 2005 Analysis Services (SSAS)可以很方便地创建复杂的数据挖掘解决方案。SSAS工具提供了设计、创建和管理数据挖掘模型的功能,并且使客户端能够访问数据及挖掘数据。

      数据挖掘的目的在于使用所发现的模式帮助解释当前的行为或预测未来的结果。数据挖掘过程涉及下列7个研究方面:数据仓库及OLAP技术、数据预处理、使用SQL Server Data Mining、关联规则、分类和预测、聚类分析及时序和序列数据的挖掘。

      本书对数据挖掘和知识发现的各个方面都进行了必要的解说,侧重于用SSAS进行数据挖掘模型的建立、挖掘结果的分析与检验,以及解释与验证结果。为了更好地理解数据挖掘过程,本书对主要的挖掘技术提供了详细的SQL Server 2005数据挖掘的实例,读者通过实例来实验性地建立和检验数据挖掘模型。

    本书读者

    本书阐述了数据挖掘的部分原理以及使用SSAS进行数据挖掘的基本方法和各种可视化工具。本书还针对不同的挖掘模型设计了实用的案例,帮助读者深入理解数据挖掘和熟悉SSAS。对于数据挖掘的用户而言,本书将成为他们的入门工具和实践指南。相信大多数数据库管理人员、IT专业人员和数据挖掘方面的学生都会从本书中获益。

    本书内容

    全书分为9个章节,细致地讲解了SQL Server 2005数据挖掘的原理和实务,帮助读者快速入门学习深奥的数据挖掘知识。本书的内容包括:

    第1章  数据挖掘基本知识:提供关于数据挖掘的多学科领域的导论,讨论导致需要数据挖掘的数据库技术的发展道路和数据挖掘应用的重要性;考察挖掘的数据类型,包括关系、事务和数据仓库数据,以及复杂数据类型,如数据流、时间序列、序列、图形、社会网络和多重关系数据、时空数据、多媒体数据、文本数据以及Web数据;根据所挖掘的知识类型,对数据挖掘任务进行一般分类。

    第2章  数据仓库及OLAP技术:介绍了数据仓库和联机分析处理的基本概念、系统结构和一般实现,以及数据仓库和数据挖掘的关系;更深入地考察数据仓库和OLAP技术,详细地研究数据立方体的计算方法;讨论数据仓库和OLAP的进一步探查,如发现驱动的立方体探查,复杂数据挖掘查询的多特征立方体和立方体梯度分析;讨论另一种数据泛化和概念描述方法——面向属性的归纳。

    第3章  数据预处理:介绍挖掘之前的数据预处理技术,包括描述性数据汇总的各种统计方法,包括数据的中心趋势和散布的度量。加强了数据清理方法的介绍,讨论了数据集成和变换、数据归约的方法,包括动态和静态离散化概念分层的使用;介绍概念分层的自动产生。

    第4章  使用SQL Server 2005进行数据挖掘:通过Business Intelligence Development Studio的使用,数据源、数据源视图、数据挖掘对象的管理,数据查看及模型评估,介绍SSAS的特性以及设计、创建和管理数据挖掘模型的功能。

    第5章  关联规则:介绍挖掘关系数据库中的频繁模式、关联和相关性的方法。除介绍诸如购物篮分析等基本概念外,进一步介绍了关联规则挖掘模型。通过完整的实例阐述了  关联规则的挖掘步骤以及结果分析。

    第6章  分类和预测:介绍数据分类和预测方法,包括决策树归纳、贝叶斯分类、后向传播的神经网络技术。还介绍了  决策树挖掘模型、  贝叶斯挖掘模型、  神经网络挖掘模型。通过决策树、神经网络两个实例介绍完整的挖掘方法和结果分析。

    第7章  聚类分析:主要介绍数据的聚类方法,包括划分方法、层次方法、基于密度的方法等。通过对  聚类挖掘模型及基于该模型的案例的介绍,阐述如何利用  聚类挖掘技术进行挖掘、分析、可靠性检验等。

    第8章  时序和序列数据的挖掘:主要讨论流数据、时间序列数据和序列数据(包括事务序列和生物学序列)的挖掘,简要介绍了  顺序分析挖掘模型。

    第9章  数据挖掘的应用和发展趋势:总结本书介绍的概念,并讨论数据挖掘的应用和发展趋势。添加了一些新的数据挖掘材料,涉及生物学和生物医学数据分析、其他科学应用、入侵检测和协同过滤。除了具有挑战性的研究问题之外,还讨论了数据挖掘对社会的影响,如隐私和数据安全问题。

    本书特色

      简单而详细的例子。本书通过列举不同数据挖掘技术如何建立模型的简单、详细的例子,揭去了数据挖掘的神秘面纱。

      章节之间是独立的,读者可以按自己的兴趣选择阅读顺序,实现按需阅读,提高问题的解决能力。

      精选数据挖掘经典分析方向,核心讲解必要的原理,将深奥的数据挖掘原理浅显地讲解出来。

      与实际分析项目结合,全书以作者从事的实际分析项目为蓝本,讲解复杂数据挖掘的具体实践。

    致谢

      本书由王欣(西南交通大学)、徐腾飞、唐连章编著,姚新军负责前期的策划和后期质量监控。王欣从事数据仓库与数据挖掘领域的教学、研究与应用工作,对SSAS有着丰富的实践经验和独特的理解。在本书的编写过程中,参与具体工作的还有万雷、王斌、厉剑梁、殷世钦、江广顺、李强、吴志俊、杜长城、余松、刘羽宇、郭敏、董茜、陈鲲、王晓、陈洪军、余伟炜、王呼佳、许志清、张赛桥、夏惠军。还要感谢中国水利水电出版社计算机编辑室的老师们的辛苦努力,正是因为你们辛苦的付出,才使本书能在第一时间和读者见面。

      本书的内容涉及面广,专业性强,虽几经斟酌,多方查找资料,但由于作者水平有限,难免有错误和不当之处,敬请各位读者批评指正。

    前言
    第1章  数据挖掘基本知识 1
    1.1  数据挖掘的概念 1
    1.2  数据挖掘的存储对象 4
    1.2.1  关系数据库 4
    1.2.2  数据仓库 7
    1.2.3  事务数据库 9
    1.2.4  高级数据库系统和高级数据库应用 10
    1.3  基本数据挖掘任务 14
    1.3.1  特征和区分 14
    1.3.2   关联分析 14
    1.3.3  分类和预测 15
    1.3.4  聚类分析 15
    1.3.5  局外者分析 15
    1.4  数据挖掘系统的分类 15
    1.5  数据挖掘的主要问题 16
    第2章  数据仓库及OLAP技术 20
    2.1  数据仓库的概念 20
    2.1.1  数据仓库的定义 20
    2.1.2  数据仓库的建立 21
    2.1.3  操作数据库系统与数据仓库的区别 22
    2.1.4  分离的数据仓库 23
    2.2  多维数据模型 24
    2.2.1  由表和电子数据表到数据方 24
    2.2.2  多维数据库模式 26
    2.2.3  定义星型、雪花和星座的实例 29
    2.2.4  度量的计算 30
    2.2.5  概念分层 32
    2.2.6  多维数据模型上的OLAP操作 34
    2.2.7  多维数据库的星型查询模型 36
    2.3  数据仓库的系统结构 37
    2.3.1  数据仓库的设计步骤和结构 37
    2.3.2  三层数据仓库结构 39
    2.3.3  OLAP服务器类型(ROLAP、MOLAP、HOLAP)的比较 41
    2.4  数据仓库实现 43
    2.4.1  数据方的有效计算 43
    2.4.2  索引OLAP数据 48
    2.4.3  OLAP查询的有效处理 50
    2.4.4  元数据存储 51
    2.4.5  数据仓库后端工具和实用程序 52
    2.5  数据方技术的进一步发展 52
    2.5.1  数据方发现驱动的探查 53
    2.5.2  多粒度上的复杂聚集:多特征方 55
    2.5.3  其他进展 57
    2.6  由数据仓库到数据挖掘 58
    2.6.1  数据仓库的使用 58
    2.6.2  由联机分析处理到联机分析挖掘 59
    第3章  数据预处理 62
    3.1  数据预处理的重要性 62
    3.2  数据清洗 64
    3.2.1  遗漏数据处理 64
    3.2.2  噪声数据处理 64
    3.2.3  不一致数据处理 66
    3.3  数据集成与转换 66
    3.3.1  数据集成处理 66
    3.3.2  数据转换处理 67
    3.4  数据消减 69
    3.4.1  数据立方合计 70
    3.4.2  维数消减 71
    3.4.3  数据块消减 72
    3.5  离散化和概念层次树生成 75
    3.5.1  数值概念层次树生成 76
    3.5.2  类别概念层次树生成 78
    第4章  使用SQL Server 2005进行数据挖掘 81
    4.1  关于Business Intelligence Development Studio 81
    4.1.1  关于用户界面 81
    4.1.2  联机模式和离线模式 83
    4.1.3  如何创建数据挖掘对象 87
    4.2  对数据源进行设置 87
    4.2.1  数据源 87
    4.2.2  使用数据源视图 90
    4.3  创建和编辑模型 101
    4.3.1  挖掘结构与模型 102
    4.3.2  使用数据挖掘向导 102
    4.3.3  创建MovieClick的数据挖掘结构和模型 106
    4.3.4  使用数据挖掘设计器 110
    4.4  处理 113
    4.5  使用模型 115
    4.5.1  掌握模型查看器 115
    4.5.2  使用挖掘准确性图表 118
    4.5.3  在MovieClick上建立提升图 121
    4.5.4  使用【挖掘模型预测】窗口 123
    4.5.5  创建数据挖掘报告 124
    第5章  关联规则 125
    5.1  关联规则简介 125
    5.1.1  购物篮分析 126
    5.1.2  关联规则挖掘路线 127
    5.2  关联规则挖掘算法 128
    5.2.1  Apriori算法:使用候选项集找频繁项集 128
    5.2.2  由频繁项集产生关联规则 130
    5.2.3  提高Apriori的有效性 131
    5.3  Microsoft关联规则挖掘模型简介 133
    5.4  Microsoft关联规则挖掘模型的使用 134
    5.4.1  挖掘问题的提出 134
    5.4.2  数据准备 135
    5.4.3  挖掘模型简介 137
    5.4.4  挖掘操作流程 138
    5.4.5  挖掘结果分析 147
    第6章  分类和预测 148
    6.1  分类与预测的内涵 148
    6.2  有关分类和预测的若干问题 150
    6.3  基于决策树的分类 151
    6.3.1  决策树生成算法 152
    6.3.2  树剪枝 155
    6.3.3  由决策树提取分类规则 157
    6.4  Microsoft决策树挖掘模型简介 158
    6.5  Microsoft决策树挖掘模型的使用 159
    6.5.1  挖掘问题的提出 160
    6.5.2  数据准备 160
    6.5.3  挖掘模型简介 161
    6.5.4  挖掘操作流程 161
    6.5.5  挖掘结果分析 169
    6.6  贝叶斯分类 169
    6.6.1  贝叶斯定理 170
    6.6.2  朴素贝叶斯定理 170
    6.6.3  Microsoft贝叶斯挖掘模型简介 172
    6.6.4  Microsoft贝叶斯挖掘模型的使用 172
    6.6.5  挖掘结果分析 174
    6.7  神经网络 175
    6.7.1  神经网络概述 175
    6.7.2  前馈神经网络 176
    6.7.3  Microsoft神经网络挖掘模型简介 180
    6.7.4  挖掘操作流程 181
    6.7.5  挖掘结果分析 183
    第7章  聚类分析 185
    7.1  聚类的概念 185
    7.2  聚类分析中的数据类型 187
    7.2.1  区间标度(Interval-Scaled)变量 188
    7.2.2  二元(Binary)变量 188
    7.2.3  标称型、序数型和比例标度型变量 188
    7.2.4  混合类型的变量 189
    7.3  主要聚类方法的分类 190
    7.3.1  划分方法 190
    7.3.2  层次方法 193
    7.3.3  基于密度的方法 195
    7.3.4  基于网格的方法 197
    7.3.5  基于模型的方法 198
    7.4  Microsoft聚类挖掘模型简介 199
    7.4.1  典型的划分方法 199
    7.4.2  算法参数 202
    7.5  Microsoft聚类挖掘模型的使用 205
    7.5.1  挖掘问题的提出 206
    7.5.2  数据准备 206
    7.5.3  挖掘模型简介 207
    7.5.4  挖掘操作流程 207
    7.5.5  挖掘结果分析 211
    第8章  时序和序列数据的挖掘 214
    8.1  时序数据的挖掘 214
    8.1.1  时序分析中的相似性搜索 214
    8.1.2  Microsoft时序分析挖掘模型简介 217
    8.1.3  Microsoft时序分析挖掘模型的使用 220
    8.2  序列数据聚类 221
    8.2.1  Microsoft顺序分析挖掘模型简介 222
    8.2.2  Microsoft顺序分析挖掘模型的使用 225
    第9章  数据挖掘的应用和发展趋势 227
    9.1  数据挖掘的应用 227
    9.1.1  针对生物医学和DNA数据分析的数据挖掘 227
    9.1.2  针对金融数据分析的数据挖掘 229
    9.1.3  零售业中的数据挖掘 230
    9.1.4  电信业中的数据挖掘 231
    9.2  数据挖掘系统产品和研究原型 231
    9.2.1  怎样选择一个数据挖掘系统 232
    9.2.2  商用数据挖掘系统的例子 234
    9.3  数据挖掘的其他主题 234
    9.3.1  视频和音频数据挖掘 235
    9.3.2  科学和统计数据挖掘 235
    9.3.3  数据挖掘的理论基础 236
    9.3.4  数据挖掘和智能查询应答 237
    9.4  数据挖掘的社会影响 238
    9.5  数据挖掘的发展趋势 242
    参考文献 244





最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册