产品特色
编辑推荐
适读人群 :分子生物学、生物信息学专业及生物医学领域的师生和研究者 《理解生物信息学》中包含,学习效果:每章开篇都有一个学习效果列表,它总结了该章所涉及的主题,可作为一个反馈清单。思维导图:每一章都含有一个思维导图,这是《理解生物信息学》一个特别的教学特征,它确保每个学生都能看到并记住一些特定应用中所必需的步骤。偶尔地,思维导图的两个独立方面也可能有着重要的关联。流程图:每一章的每个小节都有一个流程图以帮助读者记忆该小节所涵盖的主题。作为示例,下面给出了第5章的一个流程图,其中在本节将要解释的概念用深灰色框标注,且相互间用箭头连接起来。例如,两种主要类型的非常优联配:局部和全局将在本章的这一节描述。那些已在之前小节描述过的概念用浅灰色框标注,这样我们就很容易了解本节涉及的主题和已介绍过的主题间的联系。例如,构建联配需要为空缺 打分的方法和为替换打分的方法,两者都已经在这一章描述过了。通过这种方式,整章涉及的主要概念以及相互间的关系就能渐渐地被构架出来。插图:每一章都配有插图。插图的配置是经过充分考虑的,以保证既简单易懂又与本书其他章节保持连贯一致。扩展阅读:在这么一个快速发展的学科中,我们不可能在这本有限的《理解生物信息学》囊括现有的所有知识,更不用说将来的发展了。因此在每章的结尾我们都列了一些研究文献和专业著作的参考文献以帮助读者进一步扩展知识、发展技能。我们根据不同主题收集文章,使得扩展阅读中每节都与这一章相应小节的内容相对应。我们希望这能帮助阅读者以很快的速度找到他们感兴趣的扩展材料。字符表:生物信息学需要使用很多符号,对还不了解生物信息的人来说,许多符号都是不熟悉的。为了帮助读者了解本书适用的符号,我们在《理解生物信息学》后面给出了引用的每个符号、它的定义以及它在本书常出现的位置的列表。名词解释:在文中,所有技术术语在第1次出现时都用黑体显示,且在名词解释中列出其相应的解释。此外,每个在名词解释中的术语都会出现在索引中,这样读者就能很快获得详细介绍这一术语的相应页码。
内容简介
《理解生物信息学》是一本集生物信息学专业参考书和教材于一体的书,共分为7部分:基础知识、序列联配、进化过程、基因组特征、二级结构、蛋白质三级结构、细胞和组织,以及附录和字符表等。每部分由不同章节构成,大多数章节可以被归为应用章节或理论章节。因此存每部分开始时,都有应用章节,描述了特定研究领域较实用的方面。理论章节则紧随其后,解释了其科学、理论基础以及在已有应用中所使用的技术。《理解生物信息学》还提供了思维导图、流程图、扩展阅读等其他书不常见的内容,以供读者能够在每一章、每一节开始时对整体内容有所把握,并能够了解更多扩展知识、发展技能的参考文献。
作者简介
译者 李亦学,男,1955年生,博士,研究员,博士生导师。上海生物信息技术研究中心主任,中科院上海生命科学研究院生物信息中心主任, 中科院系统生物学重点实验室副主任,国家"十一五"863计划生物与医药领域专家组成员。
目录
目录
译者序
前言
给阅读者的短笺
致谢名单
第一部分 基础知识
第1章 核酸的世界 3
1.1 DNA和RNA的结构 4
DNA分子是由4种不同类型的碱基组成的线性多聚体 4
两条互补DNA链通过碱基配对形成双螺旋 6
RNA分子通常为单链结构 但在某些情况下可形成碱基配对结构 6
1.2 DNA、RNA和蛋白质:中心法则 8
DNA是信息载体 而RNA则是信使 9
信使RNA根据遗传密码翻译产生蛋白质 10
翻译过程涉及了含DNA和RNA的核糖体的转移 11
1.3 基因结构和基因调控 12
特定的定位序列能和RNA聚合酶结合 并识别转录起始点 13
真核生物中的转录起始信号远比细菌中复杂得多 14
真核生物mRNA转录物在翻译前需经历一系列修饰 15
翻译的调控 16
1.4 生命与进化之树 16
主要生命形式的基本特征 17
突变可以改变核苷酸序列 18
总结 19
名词解释 19
扩展阅读 21
第2章 蛋白质结构 22
2.1 初级结构和二级结构 23
我们可从多个不同水平考察蛋白质结构 23
氨基酸是蛋白质的组成单位 24
侧链决定了氨基酸化学和物理特性的不同 24
蛋白质链中的氨基酸通过肽键共价连接 26
蛋白质的二级结构由α螺旋、β链构成 28
在蛋白质结构中已发现了几种不同类型的β折叠片 31
螺旋和链通过转角、发夹结构和环连接 31
2.2 对生物信息学的启发 32
某些氨基酸倾向于形成特定的结构单元 32
从进化角度帮助序列分析 32
蛋白质结构的计算和可视化 32
2.3 蛋白质通过折叠形成紧凑的结构 33
蛋白质的三级结构是通过多肽链的路径来定义的 34
蛋白质折叠的稳定状态是能量最低的状态 35
很多蛋白质是由多个亚基组成的 35
总结 35
名词解释 36
扩展阅读 37
第3章 数据库的处理 38
3.1 数据库的结构 39
平面文件数据库以文本文件的方式存储数据 40
关系数据库广泛应用于存储生物信息 41
XM1的灵活性可以确定定制的数据分类 42
一些用于生物数据的其他数据库结构 42
数据库可以通过本地访问或通过互联网相互链接 43
3.2 数据库类型 43
数据库中不仅仅是数据 44
原始数据和衍生数据 44
我们如何定义和链接事物的重要性:本体 44
3.3 数据库搜索 45
序列数据库 46
芯片数据库 46
蛋白质相互作用数据库 50
结构数据库 50
3.4 数据质量 51
非冗余性对一些应用特别重要 52
自动化方法可用于检查数据的一致性 52
初步的分析和注释通常是自动化完成的 53
为了产生高质量的注释经常需要人为干预 53
数据库更新和条目注释版本号的重要性 53
总结 54
名词解释 54
扩展阅读 55
第2部分 序列联配
第4章 产生和分析序列联配 59
4.1 序列联配的原理 60
联配是在两个或更多序列的相同区域寻找最大相似性的任务 60
联配可以揭示序列间的同源性 61
比较蛋白质序列比校酸序列更容易检测同源性 62
4.2 联配分值 62
一个联配的质量是通过给予一个量化的分值来衡量的 62
量化两个序列间的相似性的最简单的方法是百分数 62
基于一致度的点图可以可视化地评价相似性 63
真正的匹配不必相同 65
最低一致度比可以被接受为具有显著性 66
对于打分联配有许多不同的方法 66
4.3 替代矩阵 66
使用替代矩阵对每个排列后的序列位点分配一个单独的值 66
PAM替代矩阵使用密切相关的蛋白质序列集的替代频率 66
B1OSUM替代矩阵使用了局部高度保守区域序列的突变数据 67
替代矩阵的选择取决于要解决的问题 67
4.4 插入空缺 68
在序列插入空缺以达到和另一条序列的相似度最大 需要罚分制度 68
动态规划算法可以决定引入最优空缺 69
4.5 联配类型 69
对于不同情况采用不同类型的联配 69
多重序列联配能同时比较一些相似序列 71
有几种不同的技术可构造多重联配 72
多重联配可以提高低相似性序列联配的精确度 72
C1usta1W可以对DNA和蛋白质序列进行全局联配 72
通过合并一些局部联配可以构建多重联配 73
增加新信息可以改进联配 74
4.6 检索数据库 74
已开发了快速而准确的搜索算法 75
FASTA格式是一个基于较短的相同片段匹配的快速的数据库搜索方法 75
B1AST的基础在于发现非常相似的短片段 75
对不同的问题采用不同版本的B1AST和FASTA 75
PSI-B1AST基于配置文件的数据库搜索 76
SSEARCH是一个严格的联配方法 76
4.7 搜索核酸或蛋白质序列 76
可直接使用或翻译后的DNA或RNA序列 76
必须测试数据库的匹配质量 以确保其不可能是偶然发生 77
选择一个适当的E值的阈值有助于限制数据库搜索 77
低复杂度区域可以将同源性搜索复杂化 79
不同的数据库可以用来解决具体问题 79
4.8 蛋白质序列模体或模式 81
建立数据库的模式需要专业知识 82
B1OCKS数据库包含自动编译的保守蛋白质序列的多重联配的较短序列模块 82
4.9 使用模式和模体搜索 83
可以在PROSITE数据库中搜索蛋白质的模式和模体 83
基于模式的PHI-B1AST程序同时搜索同源性和模体匹配 84
可以使用PRATT扶多条序列产生模式 84
PRINTS数据库包括了指纹图谱 描述一个
蛋白质家族的一些保守模体 84
Pfam数据库定义了蛋白质家族的表达谱 85
4.10 模式和蛋白质功能 85
可以搜索蛋白质上特定的功能位点 85
序列比较不是唯一分析蛋白质序列的途径 85
总结 86
名词解释 87
扩展阅读 88
第5章 序列比对比数据库搜索 90
5.1 替换矩阵和打分 91
联配分值用于衡量公共进化祖先的似然性 91
PAM (MDM)替代打分矩阵用于探索蛋白质进化起源 92
B1OSUM矩阵用于寻找保守的蛋白质区域 94
用于核苷酸联配的打分矩阵需由相似的方式得到 96
替换打分矩阵必须适用于特定的联配问题 97
插入空缺的打分相对替换而言使用了更为启发式的方法 97
5.2 动态规划算法 98
使用改进后的Need1eman-Wunsch算法构建全局最优联配 99
对动态规划算法的简单改进就能用于局部序列联配 104
不计算完整的矩阵 牺牲精确度提高时间效率 106
5.3 索引技术和近似算法 108
后缀树定位和独特及重复序列的位置 108
散列索引是一种技术 列出了所有k的起始位置元组(k_tup1es) 109
FASTA算法使用哈希算法和快速链接进行数据库搜索 110
B1AST算法利用了有限状态自动机 111
直接比较核酸序列和蛋白质序列 需要对
B1AST和FASTA进行特殊的调整 114
5.4 联配分值的显著性 116
有空缺局部联配的统计可以按相似的算法进行 117
5.5 联配全基因组序列 118
有效索引和扫描全基因组序列对高等生物
序列比对至关重要 118
密切关联的物种基因组之间复杂进化关系需
要创新的联配算法 119
总结 120
名词解释 121
扩展阅读 122
第6章 模式、序列和多序列比对 124
6.1 序列和序列标记 125
位置特异性分数矩阵是得分矩阵的扩展 125
解决构建PSSM时数据缺失问题的方法 127
PSI-B1AST是一个序列数据库检索程序 130
将序列表现为序列标记 131
6.2 谱式隐马尔可夫模型 132
用于序列比对的HMM的基本结构 133
利用联配序列莛立HMM参数 137
利用谱式HMM给序列打分:最大可能路径以及所有路径的总和 138
利用未联配序列评估HMM参数 140
6.3 序列联配 141
利用联配比较两个PSSM 141
联配谱式HMM 143
6.4 利用序列递增(gradua1 sequence addition)的多序列比对 144
序列添加的顺序是基于评估合并联配错误可能性而决定的 145
许多不同的打分策略用于建立多序列联配 147
多序列联配是利用向导树以及谱式方法构建的 且可能进一步改进 149
6.5 其他获得多序列联配的方法 152
多序列联配程序DIA1IGN联配无间隙的区段 152
利用遗传算法的SAGA多序列联配方法 153
6.6 序列模式发现 154
在多序列联配中查找模式:eMOTIF和AACC 157
序列中共有模式的概率查询:Gibbs和MEME 158
总结 159
名词解释 160
扩展阅读 161
第3部分 进化过程
第7章 重现进化历史 167
7.1 系统发生树的结构和解释 168
系统发生树重建进化关系 168
用几种方式描述树的拓扑结构 172
一致树和可信树报告拓扑结构的比较结果 174
7.2 分子进化及其结果 176
大多数相关序列有许多变异了几次的位置 176
可接受突变速率对所有类型的碱基替换通常是不相同的 178
密码子不同位置有不同的突变速率 179
只应该用直系同源基因构建物种系统发生树 181
基因组大区域变化是常见的 187
7.3 系统发生树构建 187
核糖体小亚基rRNA序列非常适用于重建物种的进化 187
构树方法的选择在某种程度上依赖于数据集的大小和质量 188
在使用这些方法时必需选择一个进化模型 189
所有的系统发生分析必须以精确的多序列比对开始 191
16 S RNA序列的一个小数据集的系统发生分析 192
为酶家族建立基因树有助于发现酶功能的进化 194
总结 198
名词解释 199
扩展阅读 200
第8章 构建系统发生树 203
8.1 进化模型和进化距离的计算 204
一个简单但不精确衡量进化距离的是p距离 204
Poissan校正距离考虑了同一位点上的多次突变 204
Gamma校正距离考虑了不同的序列位点上突变速率的差异 205
Jukes-Cantor模型再现了核苷酸序列进化的一些基本特征 205
更复杂的模型区分不同类型突变的相对频率 206
在DNA序列上存在核苷酸的偏好 208
蛋白质序列的进化模型和用于序列联配的替代矩阵密切相关 208
8.2 产生系统发生树 209
聚类方法基于进化距离产生一个系统发育树 209
UPGMA方法假定一个恒定的分子钟 并产生一个等距树 210
Fiteh-Margo1iash方法产生一个无根的加性树 211
邻接法:此方法涉及最小进化
前言/序言
理解生物信息学 [Understanding Bionformatics] 电子书 下载 mobi epub pdf txt