文本分类中的几个关键问题研究

中国水利水电出版社

【作者】裴志利

【I S B N 】978-7-5170-3115-4

【责任编辑】张玉玲

【适用读者群】本专通用

【出版时间】2015-05-19

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】96

【千字数】105

【印张】6

【定价】￥25

【丛书】

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

本书基于数据挖掘的相关技术做了如下几个方面的工作：①针对标准互信息和tf.idf特征权重公式的缺点提出了改进方法，改进的方法明显提高了宏观准确率、宏观召回率和宏观F1值；②针对标准tf.idf方法估算特征权重的盲目性，提出了基于实数域粗糙集理论的特征频率重要度加权方法，该方法改善了样本空间的分布状态，明显提高了文本分类的效果；③提出了一种基于互信息和信息熵对的特征选择方法，利用该方法进行特征选择的分类效果接近代表分类水平的支持向量机；④提出了基于粗糙集的多知识粒度的启发式属性约简方法，通过引入悲观和乐观多粒度函数，有效提高了分类的效率和准确率；⑤研究了基于深度学习的主要模型，并选择其中的Autoencoder进行文本分类研究，在语料库20NG上进行了验证，证明了方法的有效性。

近几十年来，随着计算机技术和网络技术的迅猛发展，极大地方便了人们的交流与沟通，但是技术的进步和发展也使得互联网上出现了海量的文本资源，而对于互联网用户来说，出现了拥有海量信息但知识相对贫乏的现象，从而导致人们从海量的信息中获取有意义的、相关性强的知识变得困难，因此将文本信息按照某些主题分类是一个迫切需要解决的问题。

文本分类（Text Classification）是指依据文本的内容，由计算机根据某种分类算法，把文本判分为预先定义好的一个或多个类别的过程。文本分类作为信息处理的一个重要环节，已经成为信息技术领域的一个主要研究方向。文本分类技术的出现，使文档可以自动地按照类别组织和处理，符合人类组织和处理信息的方式，方便了人们准确地定位所需的信息。同时，作为信息过滤、信息检索、搜索引擎等领域的技术基础，文本分类技术有着广泛的应用前景。

20世纪50年代末开始，H.P.Lunhn等人对文本分类的工作进行了开创性的研究。1961年，第一篇关于自动文本分类的文章《Automatic indexing: an experimental inquiry》（Maron）发表，随后很多学者进入了这一领域的研究。20世纪80年代末之前，知识工程专家规则仍是自动文本分类的主要方法。到了90年代，随着可用文本数据量的不断增长，机器学习和统计方法被引入自动文本分类技术中，分类结果比基于知识工程专家规则的自动文本分类方法取得了长足的发展，并成为了主流研究方向。

基于机器学习的文本分类方法中主要采用向量空间模型VSM（Vector Space Model），这个模型的关键技术有三个方面：特征选择、特征权重估算、文本分类器设计。目前的相关研究工作主要是针对以上三个方面的关键技术进行讨论的。文本分类是一个系统工程，其中最重要的一个环节是特征选择。特征选择是指从高维的文本特征空间中选择出最能代表文本内容的特征词，特征选择技术一方面能够降低文本特征空间的维数，大大提高文本分类的效率；另一方面通过消除无效的特征词，提高文本分类的精度。在实际的语料库中，我们通常选取一个词作为一个特征，将文本抽象成向量空间中的一个点是对文本进行结构化表示的一个重要步骤，由于文本中的词语很多，就会造成特征空间的维数灾难，面对如此高维的特征空间，如果不进行特征空间的优化处理，那么任何分类算法都是无法承受的，所以寻找优秀的特征选择方法就是必要和有用的。

近几十年来，伴随着信息技术的发展，人们产生和收集数据的能力迅速提高，数据的规模急剧增加，传统的统计分析技术由于其自身的局限性，以及海量数据的复杂性、异构性、动态性，使得隐藏在数据中间的、有用的知识难以被发现，因此出现了“数据丰富而信息缺乏”的现象。人们希望能够有新的工具自动地分析和整理如此庞大和复杂的数据，从中发现有价值的信息，为决策提供必要的支持。面对这一挑战，数据挖掘技术便应运而生了。

数据挖掘（Data Mining），又称为数据库中的知识发现，是指从海量的、不完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程。数据挖掘是一门涉及面很广的交叉学科，包括机器学习、数理统计、人工智能、神经网络、数据库、模式识别、粗糙集和模糊数学等相关技术，它的主要任务是对数据进行关联分析、分类、聚类、预测、孤立点分析、演变分析等。尽管数据挖掘技术还有许多悬而未决的问题，但它广泛的应用前景和巨大的商业魅力，吸引了众多学者极大的研究热情和产业界人士的广泛关注。

很多数据挖掘技术在自动文本分类中得到了广泛的应用。文本分类中的核心问题是构造分类器，分类器需要通过某种算法进行学习获得。在文本分类中，几乎存在着和一般分类同样多的方法，主要的方法有：Rocchio算法、朴素贝叶斯算法（Naive Bayesian，NB）、K-近邻算法（K-nearest neighbor，KNN）、DT算法、ANN算法和SVM等算法。文本分类作为处理和组织大量文本数据的关键技术，可以在很大程度上解决信息的杂乱问题，对于信息的高效管理和有效利用都具有极其重要的意义，并且已成为数据挖掘领域中一个重要的研究方向。因此，文本分类与数据挖掘相结合也就成了必然。

基于机器学习的文本分类技术经过几十年的发展，已能较好地解决了大部分具有数据量相对较小、标注比较完整及数据分布相对均匀等特点的问题和应用。但是，自动文本分类技术的大规模应用仍有很多关键问题没有得到很好的解决，这些问题的解决不仅可以使文本分类技术尽快进入应用阶段，同时也为很多学者提供了明确的研究方向。

在上述背景下，有必要利用数据挖掘方法在文本分类领域做一些有益的尝试工作。本书受到国家自然科学基金项目（61163034，61373067）资助，鉴于作者水平有限，书中难免存在错误之处，敬请读者批评、指正。

作者

2014年12月28日

于内蒙古民族大学计算机科学与技术学院

第1章绪论 1
1.1 数据挖掘技术简介 1
1.1.1 数据挖掘的背景介绍 1
1.1.2 数据挖掘的研究现状 1
1.1.3 数据挖掘的相关知识 3
1.1.4 数据挖掘的应用和研究方向 7
1.2 数据挖掘技术在文本分类中的应用 8
1.2.1 数据挖掘技术在文本分类中的应用 8
1.2.2 文本分类的应用和展望 9
1.3 本书工作 11
第2章基于改进互信息和特征权重的文本分类方法 13
2.1 背景介绍 13
2.2 特征选择前的低频特征预处理 15
2.3 改进互信息的特征选择方法 16
2.3.1 互信息方法 16
2.3.2 互信息公式的改进 17
2.4 改进的特征权重的估计方法 19
2.4.1 tf.idf方法 19
2.4.2 改进的tf.idf方法 19
2.5 模拟实验 21
2.5.1 评价方法 21
2.5.2 实验结果 22
2.6 本章小结 25
第3章基于互信息和信息熵对的特征选择方法 26
3.1 背景介绍 26
3.2 特征选择方法 27
3.2.1 互信息方法 27
3.2.2 信息熵和信息熵对 27
3.2.3 基于互信息和信息熵对的特征选择方法 28
3.3 仿真实验 29
3.3.1 数据集 29
3.3.2 评价方法 30
3.3.3 实验结果 30
3.4 本章小结 34
第4章基于实数域粗糙集特征加权的文本分类方法 35
4.1 引言 35
4.2 基于实数域粗糙集理论的几个定义 35
4.3 基于实数域粗糙集理论的改进特征加权公式 37
4.3.1 tf.idf方法 37
4.3.2 改进的tf.idf方法 37
4.4 实验结果和分析 40
4.5 本章小结 43
第5章基于多粒度粗糙集的启发式属性约简 44
5.1 引言 44
5.2 粗糙集基本概念 45
5.2.1 上近似集和下近似集 45
5.2.2 不可区分关系 45
5.2.3 信息系统和决策信息系统 45
5.2.4 属性约简 45
5.3 多粒度粗糙集模型 46
5.3.1 悲观多粒度下近似和上近似 46
5.3.2 乐观多粒度下近似和上近似 46
5.4 基于多粒度粗糙集模型构造新的知识粒度函数 46
5.4.1 基于多粒度属性重要度的属性约简 46
5.4.2 基于多知识粒度的启发式属性约简算法 48
5.5 实验结果与分析 48
5.5.1 选取语料集 48
5.5.2 语料预处理 49
5.5.3 评价指标 49
5.6 本章小结 50
第6章基于深度学习的文本分类 51
6.1 背景介绍 51
6.1.1 研究背景及意义 51
6.1.2 研究现状 52
6.1.3 本章的研究内容 53
6.2 文本分类技术及深度学习相关技术 54
6.2.1 文本预处理过程 54
6.2.2 文本的数学表示模型 55
6.2.3 常用的文本分类算法 57
6.2.4 深度学习的相关技术 60
6.3 基于单个自动编码器的文本分类 61
6.3.1 自动编码器结构 63
6.3.2 实验数据分析 65
6.4 基于多个自动编码器的文本研究 70
6.4.1 基于多个自编码器分类的理论研究 70
6.4.2 实验结果分析 71
6.5 本章小结 75
第7章结论和展望 76
参考文献 78

关闭

打印