热门关键字:  听力密码  听力密码  新概念美语  单词密码  巧用听写练听力

搜索引擎与信息检索教程

中国水利水电出版社
    【作 者】袁津生 赵传刚 等编著 【I S B N 】978-7-5084-5394-1 【责任编辑】王艳燕 【适用读者群】本科 【出版时间】2008-04-01 【开 本】16开本 【装帧信息】平装(光膜) 【版 次】2008年04月第1版 【页 数】288 【千字数】 【印 张】 【定 价】28 【丛 书】21世纪高等学校精品教材 【备注信息】
图书详情

      随着搜索引擎技术的发展和不断完善,越来越多的人开始对搜索引擎原理和技术进行研究,越来越多的人喜欢上了搜索引擎。

      本书从教学的角度出发,全面地阐述了搜索引擎的技术和信息检索技术,包括:搜索引擎的基本原理与技术、搜索引擎的数据结构和搜索引擎的爬虫、信息获取与信息检索技术、分类与聚类技术以及Web信息检索技术。

      本书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考,也适合相关领域的工程技术人员参阅。

      网络的发展彻底改变了我们的生活和工作方式,它让我们在更容易获取信息的同时,也将自己抛弃在无边无际的信息海洋之中。每时每刻我们都要自觉或不自觉,被动或主动地面对数十亿网页的网络信息,想找到自己需要的信息简直就是“大海捞针”。那么在巨大的网络信息世界里,怎样才能找到需要的数据呢?这就要依靠搜索引擎。

    当Internet走入我们的生活并逐渐改变这个世界的时候,搜索引擎作为信息检索最有效的工具也逐渐为我们熟悉和使用。Internet给我们带来了信息共享的一次巨大革命,搜索引擎给这场革命注入了鲜活的血液。面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。据统计,搜索引擎已经成为仅次于电子邮件的第二大网络应用服务,是用户获取信息的首要途径,在美国有超过84%的网民经常使用搜索引擎,在中国,这个数字每天都在增长。

      全书较为系统地阐述搜索引擎和信息检索研究领域所涉及的相关内容,共分为9章。第1章全面地介绍搜索引擎的概念、搜索引擎的发展、分类、搜索引擎的信息检索模型以及建立搜索引擎的关键技术。第2章讨论搜索引擎的基本结构、工作原理以及工作的过程。第3章讲述信息检索的经典模型、代数模型和概率模型。第4章介绍文本操作的技术,主要有文本预处理技术、文本聚类技术和文本压缩技术。第5章介绍文本信息检索技术,主要内容有顺排文档检索技术、倒排文档检索技术、布尔检索技术、加权检索技术、全文检索技术、超文本检索技术以及分布式信息检索和分布式数据库查询技术。第6章讨论信息检索系统的性能评价问题,主要有相关性的评价、查全率和查准率等内容。第7章介绍常用文本分类方法和常用文本聚类的方法。第8章讨论Web信息检索技术,主要内容有Web信息处理的基本技术和Web数据挖掘以及Web信息检索的关键技术、搜索引擎的基本结构、搜索引擎的数据结构、搜索引擎爬虫、元搜索引擎。第9章介绍搜索引擎开发技术,主要内容有搜索引擎环境的搭建与配置、网页搜集的实现、预处理的实现和查询服务。

      我们编写本书的目的就是帮助读者对搜索引擎技术有一个全面的了解和提高,同时为更加深入地学习和研究搜索引擎打下良好的基础。我们希望本书的出版能够对搜索引擎的设计者、Web站点的管理员以及广大用户有所帮助,也希望它成为搜索引擎和信息检索领域学生学习的参考书。

      本书是作者在多年的教学基础上,参考若干资料整理而成的。在教材的编写过程中,对基本概念、基础知识的介绍力求做到简明扼要;各章相互配合,又自成体系,并附有小结和习题,同时还有相关的实验。建议本课程为40学时,其中讲课30学时,实验10学时。

      本书由袁津生、赵传刚编写,蔡岳参与编写了本书的第9章并调试了部分程序。参加书稿的编写和审阅的还有高宝、齐建东、曹佳、李群等,郭敏哲、武晓岛、胡鸿、夏丽、陈雅娴、王春燕、郭艳芬参与了资料的收集、试验及程序的编写工作。由于作者水平有限,书中难免有错误和不当之处,敬请读者批评指正。

    前言
    第1章  搜索引擎概述 1
    1.1  搜索引擎的概念 1
    1.2  搜索引擎的发展史 2
    1.3  搜索引擎的分类 5
    1.4  搜索引擎的信息检索模型 7
    1.5  建立搜索引擎的关键技术 8
    1.6  中文搜索引擎的发展趋势 9
    1.7  主要搜索引擎介绍 10
    1.7.1  谷歌(Google)搜索 10
    1.7.2  雅虎(Yahoo)搜索 13
    1.7.3  百度(Baidu)搜索 15
    1.7.4  天网搜索 18
    1.8  小结 19
    思考题 21
    第2章  搜索引擎的工作原理 22
    2.1  搜索引擎的基本结构及工作原理 22
    2.2  网页的搜集 24
    2.3  网页内容的提取 25
    2.4  查询服务 26
    2.5  小结 28
    思考题 28
    第3章  信息检索的模型 29
    3.1  经典模型 29
    3.1.1  布尔模型 29
    3.1.2  向量模型 30
    3.1.3  概率模型 31
    3.2  代数模型 33
    3.2.1  广义向量空间模型 34
    3.2.2  神经网络模型 34
    3.3  其他概率模型 37
    3.3.1  贝叶斯网络 37
    3.3.2  推理网络模型 37
    3.3.3  信任度网络模型 38
    3.4  小结 40
    思考题 41
    第4章  文本操作 42
    4.1  文本预处理 42
    4.1.1  文本的词法分析 42
    4.1.2  中文分词技术 43
    4.1.3  无用词汇的删除 48
    4.1.4  词干提取技术 48
    4.1.5  索引词条的选择 56
    4.1.6  词典 56
    4.2  文本聚类 57
    4.2.1  文本聚类算法 57
    4.2.2  文本聚类中的相关概念 58
    4.2.3  特征空间的降维处理 59
    4.3  文本压缩 59
    4.3.1  基本概念 59
    4.3.2  统计方法 60
    4.3.3  字典方法 66
    4.3.4  倒排文档压缩 71
    4.4  小结 74
    思考题 75
    第5章  文本信息检索技术 77
    5.1  顺排文档检索 77
    5.1.1  表展开法 77
    5.1.2  逻辑树展开法 80
    5.1.3  其他顺排文档检索算法 86
    5.2  倒排文档检索 91
    5.2.1  倒排文档的检索 91
    5.2.2  倒排文档的建立 92
    5.2.3  逆波兰表达式 94
    5.2.4  检索指令表的生成 96
    5.2.5  检索实施 97
    5.3  布尔检索 97
    5.4  加权检索 98
    5.4.1  检索词加权检索 98
    5.4.2  词频加权检索 99
    5.4.3  标引加权检索 99
    5.5  全文检索 100
    5.5.1  全文检索的技术指标 100
    5.5.2  全文检索的实现 102
    5.5.3  全文检索效率的提高 104
    5.6  超文本检索 105
    5.6.1  超文本技术概述 105
    5.6.2  超文本的功能及结构 108
    5.6.3  超文本检索的优缺点 108
    5.7  分布式信息检索 110
    5.7.1  分布式检索的查询协议 110
    5.7.2  分布式检索系统的结构 112
    5.7.3  分布式信息检索模式 114
    5.7.4  分布式检索资源选择 119
    5.8  分布式数据库查询技术 122
    5.8.1  分布式数据库的基本概念 123
    5.8.2  利用C#实现分布式数据库查询 125
    5.8.3  基于.NET Remoting的查询技术 128
    5.8.4  基于DCOM的分布式查询技术 131
    5.8.5  基于JDBC的查询技术 133
    5.8.6  基于Servlet的查询技术 135
    5.8.7  基于CORBA的查询技术 137
    5.8.8  基于Agent的查询技术 139
    5.9  小结 142
    思考题 143
    第6章  信息检索评价 144
    6.1  相关性 144
    6.1.1  相关性的特征 144
    6.1.2  相关性研究类别 145
    6.1.3  相关性模型 146
    6.2  信息检索性能评价 149
    6.2.1  信息检索系统的有效性 149
    6.2.2  评价指标 150
    6.2.3  Web检索系统性能评价 152
    6.3  信息检索领域的相关组织和会议 153
    6.4  小结 154
    思考题 155
    第7章  文本分类与聚类 156
    7.1  分类与聚类介绍 156
    7.1.1  文本分类 156
    7.1.2  文本聚类 157
    7.1.3  文本分类的算法 158
    7.1.4  文本聚类的算法 159
    7.1.5  自动分类与自动聚类 161
    7.1.6  文本分类的评测方法与指标 161
    7.1.7  文本聚类的评测方法与指标 163
    7.2  常用文本分类方法 165
    7.2.1  文本分类的问题 165
    7.2.2  kNN分类算法 166
    7.2.3  NB分类算法 167
    7.2.4  决策树分类算法 167
    7.2.5  Rocchio分类算法 167
    7.2.6  支持向量机分类算法 168
    7.2.7  特征选择分类算法 169
    7.2.8  文本分类系统的实现 171
    7.3  常用文本聚类方法 174
    7.3.1  层次聚类算法 175
    7.3.2  分割聚类算法 177
    7.3.3  基于密度的聚类算法 178
    7.3.4  基于网格的聚类算法 179
    7.3.5  基于模型的聚类算法 181
    7.4  小结 182
    思考题 184
    第8章  Web信息检索技术 185
    8.1  Web信息处理的基本技术 185
    8.1.1  Web信息的基本特点 185
    8.1.2  Web信息的表现方式 186
    8.1.3  Web信息系统结构 186
    8.1.4  网络信息资源的组织与管理 188
    8.2  Web数据挖掘 191
    8.2.1  Web挖掘流程 191
    8.2.2  Web挖掘的分类及现状 192
    8.2.3  Web数据挖掘和Web信息检索的区别 194
    8.3  Web信息检索的关键技术 195
    8.3.1  文档搜集 195
    8.3.2  文档预处理 197
    8.3.3  索引数据库的建立 198
    8.3.4  相似度计算与排序方法 199
    8.4  搜索引擎的基本结构 203
    8.4.1  搜索引擎的结构分类 203
    8.4.2  网页收集模块 204
    8.4.3  网页索引模块 205
    8.4.4  查询模块 206
    8.4.5  用户界面 206
    8.4.6  搜索引擎的主要指标及分析 206
    8.5  搜索引擎的数据结构 207
    8.5.1  存储结构 207
    8.5.2  信息库 209
    8.5.3  文本索引 209
    8.5.4  词典 210
    8.5.5  采样表 210
    8.5.6  前向索引 210
    8.5.7  后向索引 211
    8.6  搜索引擎爬虫 212
    8.6.1  网络爬虫 212
    8.6.2  深度优先策略 213
    8.6.3  广度优先策略 214
    8.6.4  不重复抓取策略 215
    8.6.5  网页抓取优先策略 219
    8.6.6  网页重访策略 220
    8.6.7  网页抓取提速策略 220
    8.6.8  Robots协议 221
    8.6.9  网页内容提取技术 223
    8.7  元搜索引擎 224
    8.7.1  元搜索引擎的基本构成 225
    8.7.2  常用元搜索引擎介绍及其分类 226
    8.7.3  与独立搜索引擎的比较 229
    8.7.4  主要技术指标及分析 230
    8.8  小结 231
    思考题 233
    第9章  搜索引擎开发技术 234
    9.1  实例简介 234
    9.1.1  搜索引擎的体系结构 235
    9.1.2  网页搜集 236
    9.1.3  网页预处理 236
    9.1.4  查询服务 237
    9.2  环境搭建与配置 238
    9.2.1  jdk1.6的安装与配置 239
    9.2.2  eclipse的安装与配置 240
    9.2.3  Tomcat的安装与配置 241
    9.2.4  Heritrix的安装与配置 244
    9.3  网页搜集的实现 255
    9.3.1  扩展Heritrix 255
    9.3.2  抓取网页 257
    9.4  预处理的实现 259
    9.4.1  原始网页的处理 259
    9.4.2  建立索引——Lucene 265
    9.5  提供查询服务 268
    9.5.1  搜索引擎架构设计 268
    9.5.2  后台设计和实现 269
    9.5.3  页面设计和实现 273
    9.5.4  部署到Tomcat 275
    9.6  小结 276
    实验 276
    参考文献 277
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册