热门关键字:  听力密码  听力密码  新概念美语  单词密码  巧用听写练听力
图书信息

面向知识元的领域信息抽取与图谱构建

中国水利水电出版社
    【作 者】朱小龙 著 【I S B N 】978-7-5226-2084-8 【责任编辑】王开云 【适用读者群】本专通用 【出版时间】2024-03-05 【开 本】16开 【装帧信息】平装(光膜) 【版 次】第1版第1次印刷 【页 数】178 【千字数】195 【印 张】11.25 【定 价】56 【丛 书】 【备注信息】
图书详情

    本书围绕领域信息抽取和知识图谱构建问题,从知识元的角度利用层次主题模型获取领域资料的知识片段;基于融合领域知识的机器学习方法对知识元中的实体、属性及关系等信息进行抽取;并在此基础上提出了主题扩展的知识表达及关联模型。本书以油气领域为例,实现了油气成藏知识图谱构建和应用。研究内容为非结构化资料的信息抽取,为领域知识图谱构建提供了方法参考。

    本书内容范围属于计算机学科在其他专业领域中的应用,既适合本领域的研究者了解机器学习、信息抽取、知识图谱等研究前沿内容,也适合人工智能相关专业方向的本科生和研究生作为课外学习的素材。

    知识元通常被认为是领域中不可再分的最小知识片段,是构成领域知识体系的基本单位。从知识元的角度出发,对行业或领域大数据进行信息抽取并构建领域知识图谱是人工智能研究的热点问题,也是实现智能化信息服务的重要基础。作为典型的知识密集型产业,我国石油天然气工业已从最初的数据获取时代逐步过渡到对知识高度依赖的智能化时代。油气领域的数据资料种类众多、主题层次关系复杂,并且包含了大量的调查报告、生产记录、研究文献等非结构化数据。这些体量不断增大的数据资料给油气领域的信息化管理与服务带来了巨大挑战。由于缺少对资料中细粒度知识的描述,无法实现知识之间的显式关联,基于关键词匹配和主题分类的传统文档管理方法具有较大的局限性,难以满足面向知识的数据服务需求。从信息技术发展和我国油田信息化建设趋势来看,油气领域的信息服务正由数据服务向知识服务转变。逐渐成熟的信息化理论与技术,如机器学习、自然语言处理、知识表示、知识图谱等,给开展油气领域的信息抽取和知识结构化工作带来了契机。

    本书以油气领域为例,首先围绕领域信息抽取和知识图谱构建问题,在分析油气资料内容及形式特点的基础上,利用主题抽取算法和知识元模型对资料中的知识片段进行合理组织;然后,基于自然语言处理技术提取知识元中的实体、属性及关系信息,用以丰富当前的资料检索方式;最后,采用由底向上的方法逐步构建油气成藏知识图谱,并将其应用于油气资料的知识检索服务。通过文献主题筛选和知识关联查询等功能提高资料信息的获取效率并辅助用户发现知识的隐式关联,提高石油地质学研究的准确度和油气勘探决策的可信度。

    本书第1章为绪论,介绍了油气领域信息抽取及知识图谱构建的研究背景、研究现状,并概述了本书的研究目标、内容及技术路线。第2、3章为理论基础和关键技术,对知识元及知识组织方式、知识服务的含义及模式、信息抽取、知识图谱等理论进行了阐述,并对文本表示技术、主题模型、实体及关系抽取、注意力机制与预训练技术进行了介绍与归纳。第4章为油气领域资料信息化概述,分析了油气领域资料结构及主题层次的特点。第5至8章,在研究油气领域本体构建的基础上,开展油气领域文本中知识元的提取、油气藏特征信息抽取、油气成藏知识图谱构建等研究。第9章为结论与展望。

    本书主要研究内容包括:

    (1)基于层次主题的油气领域知识元提取。

    研究利用主题分析技术进行文本段落的主题特征获取,顾及油气领域文本主题较强的层次性和聚集性,研究利用领域内的专业词汇对层次主题模型进行约束,以改善主题提取效果。同时,结合油气资料结构与实际应用需求,研究油气领域知识元的描述和提取方法;提出了基于局部特征算法联合策略和动态规划策略的主题知识元提取方法;提出了基于图表标题主题相似度和图表指示词匹配的图表知识元提取方法。

    (2)融合领域知识的油气藏特征信息抽取。

    研究顾及油气资料主题对应性和相关性,以油气领域本体、专业词汇表、关系数据库元数据等先验知识为辅助,研究知识元对应文本片段中油气藏特征的信息抽取。针对油气藏特征中重叠实体及重叠关系的提取问题,研究利用领域本体在概念及关系语义描述上的优势,提出基于词表特征加强的实体识别模型与基于改进标签策略的关系提取模型,实现油气藏特征实体、属性及关系等特征信息的抽取。

    (3)基于多特征关联的油气成藏知识图谱构建。

    针对已有模型在知识表示和关联上的不足,研究建立基于多特征的知识关联。提出了基于主题扩展的三元组知识表示和向量化方法,用于解决领域知识的表示问题。研究高维空间中多特征关联方法,用于解决知识抽象表达和关联问题。由此将所构建的油气成藏知识图谱应用于知识服务系统,提供油气藏知识检索及关联服务,验证设计方案的适应性和实用性。

    本书内容是计算机学科在油气领域中的具体应用,既适合本领域的研究者了解机器学习、信息抽取、知识图谱等研究前沿,也适合人工智能相关专业方向的本科生和研究生作为学习参考素材。全书由作者独撰,约19万字。本书的编写得到了荆楚理工学院校级科研重点项目“面向知识元的领域信息抽取及图谱构建”(编号:ZD202319)、荆楚理工学院智联网应用创新研究中心的资助,以及荆门市重大科技计划项目“基于人工智能和边缘计算融合的自动化生产线关键技术研究与应用”(编号:2022ZDYF019)的支持。在此,一并表示感谢!

    由于作者水平有限,时间也比较仓促,书中的错误和不妥之处在所难免,望读者给予批评指正。

    作者

    2023年8月

    第1章 绪论 1
    1.1 研究背景及意义 1
    1.2 研究现状与分析 4
    1.2.1 油气领域知识服务现状 4
    1.2.2 领域信息抽取研究进展 5
    1.2.3 知识图谱构建研究进展 7
    1.2.4 存在的问题与分析 8
    1.3 研究目标与研究内容 9
    1.4 技术路线与章节组织 10
    1.5 本章小结 13
    第2章 理论基础 14
    2.1 知识元及知识组织方式 14
    2.1.1 知识元的概念 14
    2.1.2 知识组织方式 15
    2.2 知识服务的含义及模式 17
    2.2.1 知识服务含义 17
    2.2.2 知识服务模式 18
    2.3 信息抽取概述 19
    2.3.1 引言 19
    2.3.2 实体识别 21
    2.3.3 关系抽取 22
    2.4 知识图谱概述 23
    2.4.1 知识图谱定义 23
    2.4.2 知识图谱逻辑框架 24
    2.4.3 知识图谱构建流程 24
    2.5 本章小结 32
    第3章 关键技术 34
    3.1 文本表示技术 34
    3.1.1 浅层语义表示 34
    3.1.2 深层语义表示 35
    3.1.3 多粒度文本表示 37
    3.2 主题模型与主题域划分 37
    3.2.1 主题模型概述 38
    3.2.2 主题域的划分 42
    3.3 实体及关系抽取技术 43
    3.3.1 基于神经网络的实体抽取 43
    3.3.2 基于联合模型的关系抽取 45
    3.4 注意力机制与预训练技术 47
    3.4.1 自然语言的注意力机制 47
    3.4.2 预训练的语言模型技术 50
    3.5 本章小结 51
    第4章 油气领域资料信息化概述 52
    4.1 油气资料的收集与汇总 52
    4.2 油气资料的分类及特点 53
    4.2.1 油气资料分类 54
    4.2.2 油气文档特点 55
    4.3 我国油气资料信息化建设 58
    4.3.1 国家的油气资料信息化建设 59
    4.3.2 企业的油气资料信息化建设 59
    4.4 我国油气资料信息服务 60
    4.4.1 传统的信息服务 60
    4.4.2 面向知识的服务 61
    4.5 本章小结 62
    第5章 油气领域本体构建研究 64
    5.1 油气藏的概念及其特征 64
    5.1.1 油气藏概念 64
    5.1.2 油气藏特征 65
    5.2 构建原则及方法 67
    5.2.1 本体构建原则 67
    5.2.2 本体建立方法 68
    5.3 规划与设计 70
    5.4 概念及关系的建立 71
    5.4.1 叙词表与领域本体映射关系的建立 71
    5.4.2 数据库元数据及实体关系的获取 73
    5.5 存储与评价 76
    5.5.1 领域本体存储 76
    5.5.2 本体评价与进化 77
    5.6 本章小结 77
    第6章 基于层次主题的领域知识元提取 79
    6.1 引言 79
    6.2 相关工作 80
    6.3 数据准备 81
    6.3.1 数据的选择与收集 81
    6.3.2 资料文档预处理 81
    6.4 基于词约束hLDA的油气资料层次主题提取 82
    6.4.1 概述 82
    6.4.2 词约束hLDA模型设计 83
    6.4.3 领域文本主题提取方法 85
    6.4.4 实验 87
    6.5 顾及资料结构特点的油气领域知识元提取 92
    6.5.1 概述 92
    6.5.2 主题特征知识元提取方法 94
    6.5.3 图表关联知识元提取方法 96
    6.5.4 实验 98
    6.6 本章小结 102
    第7章 融合油气领域知识的信息抽取 104
    7.1 引言 104
    7.2 相关工作 105
    7.3 基于词表特征加强的油气领域实体提取 107
    7.3.1 概述 107
    7.3.2 油气藏特征实体类型分析 108
    7.3.3 油气藏特征实体语料标注 110
    7.3.4 一种基于词汇特征增强的实体抽取模型 111
    7.3.5 实验 114
    7.4 基于改进标签策略的油气领域关系提取 118
    7.4.1 概述 118
    7.4.2 油气藏特征关系类型分析 119
    7.4.3 语义重叠的关系标签策略 121
    7.4.4 一种优化标签策略的关系抽取模型 123
    7.4.5 实验 125
    7.5 本章小结 129
    第8章 油气成藏知识图谱构建及应用 131
    8.1 引言 131
    8.2 基于主题的油气藏知识的表示 132
    8.2.1 扩展的三元组知识表示方法 132
    8.2.2 融合异质辅助信息的三元组向量化模型 134
    8.3 基于多特征的油气藏知识元关联方法 135
    8.3.1 知识元的抽象表达 135
    8.3.2 多特征距离度量 136
    8.4 油气成藏知识图谱构建与服务系统设计 138
    8.4.1 油气成藏知识图谱构建 138
    8.4.2 油气成藏知识服务系统设计 139
    8.5 油气成藏知识图谱的服务应用 144
    8.5.1 文献知识主题筛选 145
    8.5.2 知识信息检索服务 146
    8.5.3 知识信息关联服务 150
    8.6 本章小结 151
    第9章 结论与展望 153
    9.1 全书总结 153
    9.2 工作展望 154
    参考文献 155





最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册