XML数据查询与信息检索系统

中国水利水电出版社

【作者】韩忠明著

【I S B N 】978-7-5084-7151-8

【责任编辑】张玉玲

【适用读者群】科技

【出版时间】2010-03-01

【开本】16开本

【装帧信息】平装（光膜）

【版次】第1版

【页数】

【千字数】

【印张】

【定价】￥30

【丛书】暂无分类

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

本书主要研究改进XML数据查询和信息检索的相关理论与技术，以便于它们更好地集成在一起，从而可以更加优化地执行用户的查询需求，针对这个研究目标，本书做了大量的研究工作。本书提出了一个新颖有效的节点编号模式，详细讨论了节点编号模式的定义和性质，还提出了一种新颖有效的对基于XML信息检索查询进行相关度打分的算法，这个打分机制结合了检索查询关键词的频度、文档的结构化特性、文档的语义特性等。基于对结构化查询和信息检索的相关研究成果，本书提出了处理XML结构化查询和信息检索的有效算法与机制。本书还讨论了一个原型系统的设计目标、分析与设计过程。

XML已经成为互联网上数据表示和数据交换的标准。随着XML文档数据量和文档数量的快速增长，产生了很多问题，其中很重要的一个问题就是如何有效地查询这些文档，也就是结构化查询，亦称为数据查询。而有效的数据查询又涉及文档的存储机制和索引结构等问题，这些问题已经引起了学术界和工业界广泛的研究热情，学者们在这些问题上作了大量的研究工作。另外一个问题是基于XML文档的信息检索，这也是一个新产生的研究问题。面对巨大的网络信息，如何才能为用户检索出真正有效的信息是一个非常具有挑战性的研究问题。现存的大部分搜索引擎是基于关键字搜索的，页面排序算法采用页面的超链接或页面内容的文本特性。如果页面采用XML来编写，那么就需要合理地利用XML的结构特性、语义特性以及其他的相关性质来提高检索的效果和效率。这就促使对XML文档进行信息检索成为了一个非常有意义的问题。XML上的信息检索正开始受到学术界的高度重视。

对XML进行结构化查询和信息检索是两个既具有相关性又具有不同特性的研究问题，如何集成这两个研究问题就更加具有研究意义。本书的主要研究对象就是如何改进XML的结构化查询以及信息检索的相关理论与技术，以便于它们更好地集成在一起，从而可以更加优化地执行用户的查询需求。

针对这个研究目标，本书做了大量的研究工作。首先，本书在XQuery语言的基础上扩充了全文本检索功能，为了与原来的XQuery区分，扩充后的语言称为XQuery+（XQuery Plus）。XQuery+语言有如下特点：在XQuery+语言里，扩充了XQuery的检索功能，增加了一个为检索服务的谓词；在XQuery+中还支持检索词的布尔操作。

本书的主要研究任务之一是如何有效地处理XML的结构化查询。作为处理XML结构化查询的基础，XML文档的节点编码模式和索引结构是研究的核心问题。本书提出了一个新颖有效的节点编号模式，详细地讨论了节点编号模式的定义和性质。节点编号模式为XML文档索引和查询提供了基础，一个有效的节点编号模式应该可以包含结构信息，易于支持索引和查询。从本书给出的节点编号定义和性质分析，我们知道编号模式可以满足这些基本的要求。本书在这个节点编号模式的基础上建立了一个HiD索引结构，HiD索引结构有效地集成了结构索引和值索引两个部分。通过大量有竞争性的实验分析表明，采用HiD索引机制方法可以在索引的构建时间和空间消耗上得到很好的平衡和性能表现。

本书研究的第三个主要任务是基于XML的信息检索。XML信息检索的核心问题是如何进行相关度打分。本书提出了一种新颖有效的对基于XML信息检索查询进行相关度打分的算法，该算法同时考虑了结构相关度和语义相关度。结构相关度主要利用了检索词的距离概念；语义相关度的计算则采用了节点相关度语义权重系数的方法。为了合理地评价和比较本书提出的方法与其他研究者的方法之间的效果差异，本书还做了大量的实验。从所做的实验结果中可以看出，在合理应用本书的方法后，检索的查全率和查准率都得到了显著提高，检索结果非常合乎用户的需求。

基于对结构化查询和信息检索的相关研究成果，本书提出了处理XML结构化查询和信息检索的有效算法与机制。这些算法分别处理了XQuery和XQuery+查询。虽然这些算法都基于HiD索引结构之上，但是这些算法的特点不同，处理对象不同。对于XQuery查询来说，本书给出的两种算法分别是处理单路径查询的算法和具有两个分支的树模式查询的算法。基于这两种算法，可以方便地构造出处理复杂查询的算法。而对于XQuery+查询的处理，本书也给出两种不同的处理算法。算法XQuery+G-1采用了on-the-fly的查询和打分机制，而算法XQuery+G-2则简单地采用了查询后计算相关度的技术。通过实验，本书还详细地分析了各种算法的性能和效果，为了合理地评估相关算法的性能，实验中对不同的算法还选用了不同的、合理的比较算法。实验结果表明无论是处理结构化查询还是信息检索，本书提出的对应算法都表现出较高的执行效率，有效地提高了查询和检索的速度。

课题的最后一个研究任务是在相关研究成果的基础上设计开发一个原型系统。本书详细地讨论了原型系统的设计目标、分析与设计过程，确定了原型系统的架构。经过分析原型系统的系统流程，得出各个模块的功能与实现过程。最后，我们采用Java语言并在Qizx/open的基础上实现了原型系统。从原型系统的体系架构和模块功能可以看出，原型系统基本可以满足XML文档查询和检索的需求。原型系统的特色在于：①开放和层次化的结构，这样可以方便地支持和扩充新的功能和算法；②原型系统实现了两种过滤机制和两种结果表示方法，这些都扩展了原型系统的性能和表现力，为将来做成熟的系统打下了良好的基础。

全书组织结构如下：

第1章，介绍课题研究问题的背景以及相关研究，并分析课题研究的主要内容及研究意义。

第2章，介绍如何在XQuery语言的基础上扩展检索功能。为了使XQuery语言满足信息检索的要求，本书引入了一个新的检索谓词，并且在检索谓词中支持检索条件的布尔组合。

第3章，主要论述节点编号模式与索引结构。首先定义了基本概念，然后详细地给出了节点编号模式定义、性质以及一些应用算法等，在节点编号模式的基础上提出HiD索引结构， HiD索引结构包含结构索引和值索引结构等。

第4章，解决了XML信息检索的一个核心问题，即节点相关度打分机制问题，这个研究为处理XML检索查询的算法提供了基础。主要的研究内容包括 XML检索的表达以及节点打分算法和排序机制。

第5章，在第3章和第4章的基础上详细介绍了处理XML结构化查询和信息检索的查询处理算法以及合成两种查询算法的机制。

第6章，给出了原型系统的分析与设计过程，详细描述了原型系统核心模块的处理过程和功能，并介绍了原型系统的几个特色与简单使用方法。

第7章，进行了全书的总结，分析了本书研究内容的主要结果以及可能存在的一些问题，最后讨论了下一步可能的几个研究方向。

前言
第1章绪论 1
1.1 研究背景 1
1.2 XML介绍 3
1.2.1 元素（Element） 4
1.2.2 属性 5
1.2.3 指令/处理指令 6
1.2.4 注释 7
1.2.5 CDATA 7
1.2.6 XML的语法规则 7
1.3 Xpath介绍 9
1.3.1 节点（Node） 9
1.3.2 XPath谓语 11
1.3.3 XPath轴 12
1.3.4 XPath节点测试 13
1.4 XQuery介绍 14
1.4.1 XQuery的语法 15
1.4.2 XQuery的运算符 21
1.4.3 XQuery函数 22
1.4.4 XQuery条件表达式 24
1.5 相关研究 24
1.5.1 数据库的研究 24
1.5.2 XML数据管理 25
1.5.3 XML数据查询 28
1.5.4 信息检索及基于XML的信息检索 30
1.6 小结 35
第2章基于XQuery的信息检索语言 37
2.1 XML查询语言 37
2.2 XML信息检索语言的特点 39
2.3 XML信息检索语言XQuery+ 40
2.3.1 XQuery+语法分析 40
2.3.2 XQuery+语义分析 41
2.4 小结与问题 43
第3章 XML节点编号模式与索引结构 44
3.1 预备知识 44
3.2 XML节点编号模式 47
3.2.1 节点标签路径数 47
3.2.2 节点数据路径数 51
3.2.3 节点标识 53
3.3 XML索引结构 54
3.4 值索引结构 56
3.5 相关实验及分析 58
3.6 小结与问题 61
第4章 XML相关度打分机制与算法 62
4.1 问题描述 62
4.2 IR查询表达 63
4.3 相关度打分机制 65
4.3.1 结构相关度 65
4.3.2 语义相关度 67
4.3.3 相关度集成 70
4.4 实例分析 71
4.5 实验与分析 74
4.6 小结与问题 79
第5章查询处理 81
5.1 问题描述 81
5.2 XQuery查询处理算法 82
5.2.1 单路径查询 82
5.2.2 树模式查询算法 84
5.3 XQuery+查询处理算法 86
5.4 XQuery查询实验分析 88
5.5 XQuery+查询算法实验分析 90
5.6 小结与问题 93
第6章原型系统的设计与实现 94
6.1 原型系统分析与设计 94
6.1.1 系统设计目标和原则 94
6.1.2 需求分析 95
6.1.3 数据流图 96
6.1.4 系统架构 96
6.2 原型系统模块分析 98
6.2.1 系统处理流程 98
6.2.2 模块设计 98
6.3 原型系统的实现 100
6.3.1 原型系统核心数据结构 101
6.3.2 查询引擎处理过程部分代码分析 103
6.3.3 原型系统界面及使用介绍 105
6.4 小结与问题 108
第7章结论与展望 109
参考文献 111

关闭

打印