面向知识元的领域信息抽取与图谱构建
简介
本书特色
前言
章节列表
精彩阅读
下载资源
相关图书
本书围绕领域信息抽取和知识图谱构建问题,从知识元的角度利用层次主题模型获取领域资料的知识片段;基于融合领域知识的机器学习方法对知识元中的实体、属性及关系等信息进行抽取;并在此基础上提出了主题扩展的知识表达及关联模型。本书以油气领域为例,实现了油气成藏知识图谱构建和应用。研究内容为非结构化资料的信息抽取,为领域知识图谱构建提供了方法参考。
本书内容范围属于计算机学科在其他专业领域中的应用,既适合本领域的研究者了解机器学习、信息抽取、知识图谱等研究前沿内容,也适合人工智能相关专业方向的本科生和研究生作为课外学习的素材。
知识元通常被认为是领域中不可再分的最小知识片段,是构成领域知识体系的基本单位。从知识元的角度出发,对行业或领域大数据进行信息抽取并构建领域知识图谱是人工智能研究的热点问题,也是实现智能化信息服务的重要基础。作为典型的知识密集型产业,我国石油天然气工业已从最初的数据获取时代逐步过渡到对知识高度依赖的智能化时代。油气领域的数据资料种类众多、主题层次关系复杂,并且包含了大量的调查报告、生产记录、研究文献等非结构化数据。这些体量不断增大的数据资料给油气领域的信息化管理与服务带来了巨大挑战。由于缺少对资料中细粒度知识的描述,无法实现知识之间的显式关联,基于关键词匹配和主题分类的传统文档管理方法具有较大的局限性,难以满足面向知识的数据服务需求。从信息技术发展和我国油田信息化建设趋势来看,油气领域的信息服务正由数据服务向知识服务转变。逐渐成熟的信息化理论与技术,如机器学习、自然语言处理、知识表示、知识图谱等,给开展油气领域的信息抽取和知识结构化工作带来了契机。
本书以油气领域为例,首先围绕领域信息抽取和知识图谱构建问题,在分析油气资料内容及形式特点的基础上,利用主题抽取算法和知识元模型对资料中的知识片段进行合理组织;然后,基于自然语言处理技术提取知识元中的实体、属性及关系信息,用以丰富当前的资料检索方式;最后,采用由底向上的方法逐步构建油气成藏知识图谱,并将其应用于油气资料的知识检索服务。通过文献主题筛选和知识关联查询等功能提高资料信息的获取效率并辅助用户发现知识的隐式关联,提高石油地质学研究的准确度和油气勘探决策的可信度。
本书第1章为绪论,介绍了油气领域信息抽取及知识图谱构建的研究背景、研究现状,并概述了本书的研究目标、内容及技术路线。第2、3章为理论基础和关键技术,对知识元及知识组织方式、知识服务的含义及模式、信息抽取、知识图谱等理论进行了阐述,并对文本表示技术、主题模型、实体及关系抽取、注意力机制与预训练技术进行了介绍与归纳。第4章为油气领域资料信息化概述,分析了油气领域资料结构及主题层次的特点。第5至8章,在研究油气领域本体构建的基础上,开展油气领域文本中知识元的提取、油气藏特征信息抽取、油气成藏知识图谱构建等研究。第9章为结论与展望。
本书主要研究内容包括:
(1)基于层次主题的油气领域知识元提取。
研究利用主题分析技术进行文本段落的主题特征获取,顾及油气领域文本主题较强的层次性和聚集性,研究利用领域内的专业词汇对层次主题模型进行约束,以改善主题提取效果。同时,结合油气资料结构与实际应用需求,研究油气领域知识元的描述和提取方法;提出了基于局部特征算法联合策略和动态规划策略的主题知识元提取方法;提出了基于图表标题主题相似度和图表指示词匹配的图表知识元提取方法。
(2)融合领域知识的油气藏特征信息抽取。
研究顾及油气资料主题对应性和相关性,以油气领域本体、专业词汇表、关系数据库元数据等先验知识为辅助,研究知识元对应文本片段中油气藏特征的信息抽取。针对油气藏特征中重叠实体及重叠关系的提取问题,研究利用领域本体在概念及关系语义描述上的优势,提出基于词表特征加强的实体识别模型与基于改进标签策略的关系提取模型,实现油气藏特征实体、属性及关系等特征信息的抽取。
(3)基于多特征关联的油气成藏知识图谱构建。
针对已有模型在知识表示和关联上的不足,研究建立基于多特征的知识关联。提出了基于主题扩展的三元组知识表示和向量化方法,用于解决领域知识的表示问题。研究高维空间中多特征关联方法,用于解决知识抽象表达和关联问题。由此将所构建的油气成藏知识图谱应用于知识服务系统,提供油气藏知识检索及关联服务,验证设计方案的适应性和实用性。
本书内容是计算机学科在油气领域中的具体应用,既适合本领域的研究者了解机器学习、信息抽取、知识图谱等研究前沿,也适合人工智能相关专业方向的本科生和研究生作为学习参考素材。全书由作者独撰,约19万字。本书的编写得到了荆楚理工学院校级科研重点项目“面向知识元的领域信息抽取及图谱构建”(编号:ZD202319)、荆楚理工学院智联网应用创新研究中心的资助,以及荆门市重大科技计划项目“基于人工智能和边缘计算融合的自动化生产线关键技术研究与应用”(编号:2022ZDYF019)的支持。在此,一并表示感谢!
由于作者水平有限,时间也比较仓促,书中的错误和不妥之处在所难免,望读者给予批评指正。
作者
2023年8月
1.1 研究背景及意义 1
1.2 研究现状与分析 4
1.2.1 油气领域知识服务现状 4
1.2.2 领域信息抽取研究进展 5
1.2.3 知识图谱构建研究进展 7
1.2.4 存在的问题与分析 8
1.3 研究目标与研究内容 9
1.4 技术路线与章节组织 10
1.5 本章小结 13
第2章 理论基础 14
2.1 知识元及知识组织方式 14
2.1.1 知识元的概念 14
2.1.2 知识组织方式 15
2.2 知识服务的含义及模式 17
2.2.1 知识服务含义 17
2.2.2 知识服务模式 18
2.3 信息抽取概述 19
2.3.1 引言 19
2.3.2 实体识别 21
2.3.3 关系抽取 22
2.4 知识图谱概述 23
2.4.1 知识图谱定义 23
2.4.2 知识图谱逻辑框架 24
2.4.3 知识图谱构建流程 24
2.5 本章小结 32
第3章 关键技术 34
3.1 文本表示技术 34
3.1.1 浅层语义表示 34
3.1.2 深层语义表示 35
3.1.3 多粒度文本表示 37
3.2 主题模型与主题域划分 37
3.2.1 主题模型概述 38
3.2.2 主题域的划分 42
3.3 实体及关系抽取技术 43
3.3.1 基于神经网络的实体抽取 43
3.3.2 基于联合模型的关系抽取 45
3.4 注意力机制与预训练技术 47
3.4.1 自然语言的注意力机制 47
3.4.2 预训练的语言模型技术 50
3.5 本章小结 51
第4章 油气领域资料信息化概述 52
4.1 油气资料的收集与汇总 52
4.2 油气资料的分类及特点 53
4.2.1 油气资料分类 54
4.2.2 油气文档特点 55
4.3 我国油气资料信息化建设 58
4.3.1 国家的油气资料信息化建设 59
4.3.2 企业的油气资料信息化建设 59
4.4 我国油气资料信息服务 60
4.4.1 传统的信息服务 60
4.4.2 面向知识的服务 61
4.5 本章小结 62
第5章 油气领域本体构建研究 64
5.1 油气藏的概念及其特征 64
5.1.1 油气藏概念 64
5.1.2 油气藏特征 65
5.2 构建原则及方法 67
5.2.1 本体构建原则 67
5.2.2 本体建立方法 68
5.3 规划与设计 70
5.4 概念及关系的建立 71
5.4.1 叙词表与领域本体映射关系的建立 71
5.4.2 数据库元数据及实体关系的获取 73
5.5 存储与评价 76
5.5.1 领域本体存储 76
5.5.2 本体评价与进化 77
5.6 本章小结 77
第6章 基于层次主题的领域知识元提取 79
6.1 引言 79
6.2 相关工作 80
6.3 数据准备 81
6.3.1 数据的选择与收集 81
6.3.2 资料文档预处理 81
6.4 基于词约束hLDA的油气资料层次主题提取 82
6.4.1 概述 82
6.4.2 词约束hLDA模型设计 83
6.4.3 领域文本主题提取方法 85
6.4.4 实验 87
6.5 顾及资料结构特点的油气领域知识元提取 92
6.5.1 概述 92
6.5.2 主题特征知识元提取方法 94
6.5.3 图表关联知识元提取方法 96
6.5.4 实验 98
6.6 本章小结 102
第7章 融合油气领域知识的信息抽取 104
7.1 引言 104
7.2 相关工作 105
7.3 基于词表特征加强的油气领域实体提取 107
7.3.1 概述 107
7.3.2 油气藏特征实体类型分析 108
7.3.3 油气藏特征实体语料标注 110
7.3.4 一种基于词汇特征增强的实体抽取模型 111
7.3.5 实验 114
7.4 基于改进标签策略的油气领域关系提取 118
7.4.1 概述 118
7.4.2 油气藏特征关系类型分析 119
7.4.3 语义重叠的关系标签策略 121
7.4.4 一种优化标签策略的关系抽取模型 123
7.4.5 实验 125
7.5 本章小结 129
第8章 油气成藏知识图谱构建及应用 131
8.1 引言 131
8.2 基于主题的油气藏知识的表示 132
8.2.1 扩展的三元组知识表示方法 132
8.2.2 融合异质辅助信息的三元组向量化模型 134
8.3 基于多特征的油气藏知识元关联方法 135
8.3.1 知识元的抽象表达 135
8.3.2 多特征距离度量 136
8.4 油气成藏知识图谱构建与服务系统设计 138
8.4.1 油气成藏知识图谱构建 138
8.4.2 油气成藏知识服务系统设计 139
8.5 油气成藏知识图谱的服务应用 144
8.5.1 文献知识主题筛选 145
8.5.2 知识信息检索服务 146
8.5.3 知识信息关联服务 150
8.6 本章小结 151
第9章 结论与展望 153
9.1 全书总结 153
9.2 工作展望 154
参考文献 155
- Linux系统管理(openEuler版) [主编 许兴鹍 黄君羡]
- Web前端开发从学到用完美实践 [阮晓龙 冯顺磊 编著]
- 用英语讲中国故事(全视频 彩色版)上、下册 [主编 谢亮亮 汪洋]
- 新时代大学生美育教育 [穆林 刘苍劲 彭圣芳]
- 电子商务英语 [丁文毅 严慧]
- 智能可穿戴项目化教程 [曾文波 陈赵云]
- 视觉设计解析与实战教程 [姜春磊 杨晓]
- 电子产品制图与制版案例教程 [邹莉莉 苏文斌 贺小艳]
- 设计新维度:CMF元素与创新产品设计 [彭小鹏]
- 园林树木识别与应用 [主编 张玉泉]
- 文本信息处理与应用 [主编 何黎松 姚香秀]
- 工业机器人编程及应用(第二版) [主编 向艳芳 胡月霞]
- C语言程序设计(第二版) [主编 刘祖珉 赵仕波]
- 数据分析与应用 [主编 孙伟 王兰芹]
- Linux操作系统配置与管理项目化教程(第二版) [主编 白玉羚 刘金明 闫 淼]
- Ansys SpaceClaim直接建模与仿真指南 [蔡宜时 编著]
- 基于大数据的智慧农业管理平台关键技术研究与实践 [周永福 著]
- 健美运动 [戴显岩]
- Python程序开发基础(AI+微课版) [赵艳莉 曾鑫]
- 大学生心理困境突围之路 [张珏 著]
- 机器学习基础与实践 [主编 李晓峰 胥文婷 李云波]
- 大模型应用实战 DeepSeek+即梦AI+剪映重塑创作 [丁红 杨彦彦 丁丁 编著]
- HarmonyOS从入门到精通 [陈赵云 周永福 杨 浪]
- 用英语发现世界:欧美文化篇 [李小丽 张薇 编著]
- 大学体育教程 [戴显岩]
- 新一代信息技术 [李佼辉 任雪冬]
- 轨道交通类专门用途英语教程 [李德华主编 商晔副主编]
- 建设工程项目团队知识异质性对团队绩效的影响研究 [胡可]
- 新时代元阳梯田 云南现代化高原立体灌区 前世 今生 未来 [云南省水利水电勘测设计研究院 ]
- 网络工程师章节习题与考点特训(适配第6版考纲) [夏杰 编著]

