基于潜在语义的个性化搜索关键技术研究

中国水利水电出版社

【作者】陈冬玲著

【I S B N 】978-7-5170-1031-9

【责任编辑】陈洁

【适用读者群】本专通用

【出版时间】2013-08-26

【开本】16开

【装帧信息】平装（光膜）

【版次】第1版第1次印刷

【页数】152

【千字数】170

【印张】9.5

【定价】￥36

【丛书】暂无分类

【备注信息】

图书详情

简介

本书特色

前言

章节列表

精彩阅读

下载资源

相关图书

随着网络技术的飞速发展，信息爆炸所产生的个人信息疲劳和信息压力使搜索引擎变得越来越重要，搜索引擎已经成为名副其实的信息枢纽和信息门户，是用户获取网络信息的首选工具。然而，在搜索引擎返回的巨大的结果列表中，只有一小部分信息符合用户的偏好，甚至在top K结果中，没有符合用户偏好的信息。面对如此窘境，我们不得不重新审视，究竟如何才能为用户提供符合其偏好的个性化信息？

本文分析其主要原因在于，没有真正理解用户查询背后的潜在语义动机，不清楚用户要做什么，故无法为其提供高质量的个性化服务。

搜索引擎直接面对知识背景及搜索意图各异的用户，因此，不可能有一种普适的查询方式，能弄清楚不同用户输入同一查询词，他们各自的潜在动机分别是什么，他们到底想要得到什么样的信息。例如：用户输入“东北大学”，其可能是想随机了解一些东北大学的普遍信息，也可能是想查询今年的招生政策，还可能是想了解外界对东北大学有些什么评价。由此可见，用户的潜在语义动机理解是个性化搜索的基石，如该环节理解得不够准确，与用户实际需求匹配性不高，那么后续进行的个性化服务工作就有可能误入歧途。在实际查询中，输入“关键词”是用户在搜索中的第一步，代表了用户对于自身的搜索需求的TAG化表述，互联网“全息搜索理论”创始人顺风认为：需要深刻的认识到在传统搜索系统中“关键词”在用户心中产生的过程和搜索输出之间的相互关系，发现在用户搜索动机、搜索前思维量与搜索引擎反馈之间的全息联系，用户输入的“关键词”实际上就是一个将心算出的TAG引入搜索行为的过程，而且此类TAG应该成为最有质量的TAG，因为其中凝聚了搜索用户第一反映的无意识性的内心智慧。搜索引擎只有准确把握用户的搜索动机，才能有的放矢地为其提供高质量的个性化服务。

基于上述分析，本文从用户潜在语义的用户动机分析入手，并以此为主线，对多种个性化服务关键技术进行了研究，主要工作包括以下几个方面：

（1）在计算机研究领域内，从哲学、心理学角度剖析用户搜索行为，并从认知学的角度，提出了基于概率潜在语义动机分析的用户行为模型，高度概括了各种具体搜索行为，从抽象的角度去理解用户的搜索行为。该模型的提出为进一步研究个性化搜索提供了新的思路。

（2）在文档潜在语义空间中，应用Zipf分布与概率潜在语义分析算法相结合的方式进行文档潜在主题提取，改善了文档潜在主题提取的质量。

（3）以狄氏先验的有限混合模型理论为基础，提出了高效无监督的网页聚类算法。可以有效克服一般的文本聚类算法无法有效应对的高维性、稀疏性文本，以及文本数据之间的相似性函数定义困难，聚类质量和效率低等不足，改善了聚类效果，提高了捕获用户兴趣潜在主题需求的能力。

（4）提出了一种新的基于用户潜在语义分析的查询扩展技术。即将通用搜索中查询扩展的技术与用户动机挖掘技术相结合，而开发出的一种新的查询扩展技术，解决了搜索引擎由于通用的性质而缺乏面向用户的个性化的信息处理的能力，从了解用户的语义上的搜索动机以及了解认知与心理相互作用的角度出发，从根本上解决了查询过程中的一词多义及多词同义等问题，在个性化搜索过程中有效的进行语义消歧。

（5）针对面向查询的排名算法的不足提出了面向用户的重排名算法。即在原有网页排序算法的基础上，根据用户的兴趣偏好而提出的一种局部优化排序算法，既符合用户的个性化需求，又不影响搜索结果的查全率，尽可能做到其排序结果与用户语义动机相符合。

总之，本文从用户潜在语义动机的理解出发，针对个性化搜索各个环节中的关键技术展开研究，如用户建模技术、查询扩展技术、网页局部优化排序技术、聚类技术等，力求达到用户查询与搜索引擎返回结果的高效匹配。

前言
第1章绪论 1
1.1 搜索引擎体系结构及功能 1
1.1.1 信息的收集 2
1.1.2 信息预处理 2
1.1.3 查询服务 2
1.2 个性化搜索引擎 2
1.2.1 个性化搜索引擎的体系结构 2
1.2.2 个性化搜索关键技术 4
1.2.3 个性化搜索研究现状 9
1.2.4 个性化搜索面临的问题与挑战 16
1.3 本文研究的主要内容 18
1.4 本文的组织结构 20
第2章基于概率潜在语义的用户模型构造 21
2.1 问题提出 21
2.2 用户模型研究综述 23
2.2.1 用户模型的创建技术研究 23
2.2.2 用户模型的学习与更新技术研究 27
2.2.3 用户模型应用技术的研究 29
2.3 用户搜索行为的理论分析 29
2.3.1 从认知角度分析用户的搜索行为 29
2.3.2 用户搜索行为的不确定性 33
2.3.3 用户搜索行为分析的逻辑框架 34
2.4 用户动机分析的两类不确定问题 36
2.5 基于PLSA的潜在概念获取与用户模型构建 37
2.5.1 概率潜在语义分析 37
2.5.2 潜在语义空间的Zipf分布 38
2.5.3 基于PLSA的用户动机建模 39
2.5.4 用户模型的学习与更新 43
2.6 实验及评价 45
2.6.1 数据集 45
2.6.2 评价标准 47
2.6.3 实验结果及分析 48
2.7 本章小结 51
第3章基于有限混合模型的文本聚类 53
3.1 问题提出 53
3.2 传统聚类算法的概述 54
3.2.1 基于相似性的聚类方法 55
3.2.2 基于模型的聚类 58
3.2.3 各类算法的对比分析 59
3.3 传统聚类方式在个性化搜索中存在的问题 60
3.4 基于有限混合主题模型的文档聚类分析 62
3.4.1 有限混合模型 62
3.4.2 EM算法 63
3.4.3 基于有限混合模型的文档聚类 68
3.5 实验及评价 73
3.5.1 实验数据集 73
3.5.2 评价标准 74
3.5.3 实验结果及分析 74
3.6 本章小结 78
第4章基于用户潜在语义动机的查询扩展 79
4.1 问题提出 79
4.2 现有的查询扩展方法概述 80
4.2.1 基于大规模语料库的查询扩展方法 80
4.2.2 基于语义关系/语义结构的查询扩展方法 84
4.3 目前查询扩展方法的不足 87
4.4 基于潜在语义动机的查询扩展 88
4.4.1 ULSM-QE的框架 88
4.4.2 查询词处理 90
4.4.3 查询语义动机分析 90
4.4.4 相关度计算 94
4.4.5 查询词的语义消歧 95
4.4.6 生成新查询 98
4.5 实验及评价 101
4.5.1 数据集 101
4.5.2 评价标准 102
4.5.3 实验结果及分析 103
4.6 本章小结 109
第5章基于用户偏好的网页排序局部优化策略 110
5.1 问题提出 110
5.2 传统网页排序算法介绍 111
5.2.1 PageRank算法及其衍生算法 111
5.2.2 HITS算法 113
5.3 传统排序算法存在的问题 114
5.4 基于用户偏好的网页排序 116
5.4.1 UP-PR框架 117
5.4.2 查询词的主题分类 119
5.4.3 网页的主题分类 120
5.4.4 参数的选择 122
5.5 实验及评价 123
5.5.1 数据集 123
5.5.2 评价标准 124
5.5.3 实验结果及分析 124
5.6 本章小结 128
第6章结论 129
6.1 本文的主要贡献与结论 129
6.2 进一步的工作 130
参考文献 132
作者简介 142

关闭

打印