热门关键字:  听力密码  新概念美语  单词密码  巧用听写练听力  零起点
图书信息

数据挖掘技术在生物信息学中的应用

中国水利水电出版社
    【作 者】裴志利 著 【I S B N 】978-7-5084-9348-0 【责任编辑】杨元泓 【适用读者群】 【出版时间】2012-02-27 【开 本】16开 【装帧信息】平装(光膜) 【版 次】第1版第1次印刷 【页 数】88 【千字数】1000 【印 张】5.5 【定 价】20 【丛 书】 【备注信息】
图书详情

    主要采用一些数据挖掘的技术和方法在生物信息学领域做了如下几个方面的工作:提出了一种基于可变精度粗糙集理论为新的生物序列进行功能注释的方法;初步判断四个种群,即尼日利亚Ibadan的Yoruba人、东京的日本人、北京的汉族、祖籍为欧洲西部和北部地区的美国居民在21号染色体上对疾病的易感程度的差距;提出了一种基于Y染色体SNP基因型频率数据建立人类种群进化关系的新方法,提出的方法支持“走出非洲”假说,为人类种群进化研究提供了一个新思路;使用自组织特征映射模型(SOM)有效预测了蛋白质的亚细胞位置,从而推断出蛋白质分子的功能。

    随着包括人类基因组计划在内的生物基因组测序工程的里程碑式地进展,由此产生的包括生物体生老病死的生物数据以前所未有的速度递增,目前已达到每14个月翻一番的速度。同时随着互联网的普及,数以百计的生物学数据库如雨后春笋般地迅速出现和成长。毫无疑问,我们正从一个积累数据的时代向解释数据的时代转变,数据量的巨大积累往往蕴含着潜在突破性发现的可能。在此背景下出现了以计算机科学、信息技术和数学的理论及方法来研究生物信息的交叉学科,也就是生物信息学。该领域的核心内容是研究如何通过对DNA序列的统计计算分析更加深入地理解DNA序列、结构、演化及其与生物功能之间的关系,其研究课题涉及到分子生物学、分子演化、结构生物学,统计学和计算机科学等诸多领域。生物信息学是内涵丰富的学科,其核心是基因组信息学,包括基因组信息的获取、处理、存储、分配和解释。基因组信息学的关键是“读懂”基因组的核苷酸顺序,即全部基因在染色体上的确切位置和各DNA片段的功能;同时在发现了新基因信息后进行蛋白质空间结构模拟和预测,然后依据特定蛋白质的功能进行药物设计。了解基因表达的调控机理也是生物信息学的重要内容,根据生物分子在基因调控中的作用,描述人类疾病的诊断和治疗的内在规律,其研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”,解释生命的遗传语言。生物信息学已成为整个生命科学发展的重要组成部分并成为生命科学研究的前沿。

    生物信息学在短短十几年时间里已经形成了以下多个研究方向:序列比对、蛋白质结构比对和预测、基因识别非编码区分析研究、分子进化和比较基因组学、序列重叠群装配、遗传密码的起源、基于结构的药物设计、生物图像、基因表达谱分析,代谢网络分析、基因芯片设计和蛋白质组学数据分析等,逐渐成为生物信息学中新兴的重要研究领域;在学科方面,由生物信息学衍生的学科(包括结构基因组学、功能基因组学、比较基因组学、蛋白质学、药物基因组学、中药基因组学、肿瘤基因组学、分子流行病学和环境基因组学),成为系统生物学的重要研究方法。从如今的发展不难看出,基因工程已经进入了后基因组时代。

    大规模的生物信息给数据挖掘提出了新课题和挑战,需要新的思想加入。常规的计算机算法仍可以应用于生物数据分析中,但越来越不适用于序列分析问题。究其原因是由于生物系统本质上的模型复杂且缺乏在分子层上建立的完备的生命组织理论。数据挖掘使得利用计算机从海量的生物信息中提取有用知识、发现知识成为可能。机器学习方法在大样本、多向量的数据分析工作中发挥着日益重要的作用,而目前大量的基因数据库处理需要计算机能自动识别和标注,以避免既耗时又花费巨大的人工处理方法。因此,生物信息学与数据挖掘相结合也就成为了必然趋势。机器学习加速了生物信息学的进展,也带来了相应的问题。机器学习方法大多假定数据符合某种相对固定的模型,而一般数据结构通常是可变的,在生物信息学中尤为突出。因此,有必要建立一套不依赖于假定数据结构的一般性方法来寻找数据集的内在结构。

    生物信息学的挑战很多,例如从蛋白质的氨基酸序列预测蛋白质结构问题。这个难题已困扰理论生物学家达半个多世纪,如今找到问题的答案的要求正变得日益迫切。诺贝尔奖获得者W•Gilbert在1991年曾经指出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应该是理论的。一个科学家将从理论推测出发,然后再回到实验中去追踪或验证这些理论假设”。

    在上述背景下,有必要利用数据挖掘的方法在生物信息学领域中做一些有益的尝试工作。本著作受到国家自然科学基金项目(项目编号:61163034)资助。鉴于作者水平有限,书中难免有错误之处,敬请专家和广大读者指正。

    作者

    2011年11月19日

    前言
    第1章 绪论 1
    1.1 数据挖掘技术简介 1
    1.1.1 数据挖掘的背景介绍 1
    1.1.2 数据挖掘的研究现状 2
    1.1.3 数据挖掘的相关知识 4
    1.1.4 数据挖掘的应用和研究方向 8
    1.2 数据挖掘技术在生物信息学中的应用 9
    1.2.1 生物信息学的定义和研究范围 9
    1.2.2 生物信息学中的数据挖掘过程 11
    1.2.3 数据挖掘在生物信息学中的应用和展望 12
    1.3 本书工作 13
    第2章 基于可变精度粗糙集的基因功能预测方法 15
    2.1 引言 15
    2.2 GO术语属性的离散化 17
    2.2.1 定义和GO术语的属性 17
    2.2.2 GO术语属性的离散化方法 18
    2.3 GO术语的决策规则提取方法 20
    2.3.1 可变精度粗糙集的相关定义 20
    2.3.2 基于可变精度粗糙集的规则提取算法 22
    2.4 规则提取实例 23
    2.4.1 统计术语所在单元及所在单元的相关属性 23
    2.4.2 GO术语属性的离散化 24
    2.4.3 GO术语决策规则的提取 25
    2.5 实验结果与分析 26
    2.5.1 实验结果评价方法 26
    2.5.2 实验数据集 26
    2.5.3 实验结果和分析 27
    2.6 本章小结 28
    第3章 基于21号染色体四个种群的单体型差异比较研究 29
    3.1 背景介绍 29
    3.2 研究对象和数据来源 30
    3.2.1 研究对象 30
    3.2.2 数据来源 31
    3.3 采用的研究方法 31
    3.3.1 准备数据 31
    3.3.2 获取四个种群的标签SNP文件 32
    3.3.3 获取四个种群的SNP单体型数据文件 33
    3.4 四个种群单体型差距比较的数学模型 34
    3.5 数据结果 35
    3.6 结论 36
    第4章 基于Y染色体SNP基因型频率数据的种群进化研究 37
    4.1 引言 37
    4.1.1 背景介绍 37
    4.1.2 相关工作 38
    4.2 单核苷酸多态性理论和国际单体型图计划介绍 39
    4.2.1 单核苷酸多态性基础理论 39
    4.2.2 国际人类基因组单体型图计划介绍 43
    4.3 系统进化树的构建理论 43
    4.3.1 人类起源学说 43
    4.3.2 系统进化树 45
    4.4 基于Y染色体SNP基因型频率数据的种群进化树 49
    4.4.1 研究对象和数据来源 49
    4.4.2 采用的研究方法 50
    4.5 模拟实验 55
    4.6 本章小结 58
    第5章 基于SOM算法的蛋白质亚细胞位置预测研究 59
    5.1 自组织特征映射SOM模型 59
    5.2 SOM算法的具体步骤 59
    5.3 SOM算法实际应用中的几个问题 60
    5.3.1 数据归一化 60
    5.3.2 输出节点的规模 61
    5.3.3 邻居节点范围和距离函数的选择 61
    5.3.4 SOM加速算法Batch-Type SOM 62
    5.4 实验环境和实验数据 63
    5.5 实验结果评价方法 63
    5.6 实验结果分析 64
    5.6.1 算法有效性 64
    5.6.2 不同实验集合的准确率 64
    5.6.3 Bacth-Type SOM的加速效果 65
    5.7 结论 65
    第6章 结论和展望 66
    参考文献 68
最新评论共有 0 位网友发表了评论
发表评论
评论内容:不能超过250字,需审核,请自觉遵守互联网相关政策法规。
用户名: 密码:
匿名?
注册