産品特色
編輯推薦
適讀人群 :分子生物學、生物信息學專業及生物醫學領域的師生和研究者 《理解生物信息學》中包含,學習效果:每章開篇都有一個學習效果列錶,它總結瞭該章所涉及的主題,可作為一個反饋清單。思維導圖:每一章都含有一個思維導圖,這是《理解生物信息學》一個特彆的教學特徵,它確保每個學生都能看到並記住一些特定應用中所必需的步驟。偶爾地,思維導圖的兩個獨立方麵也可能有著重要的關聯。流程圖:每一章的每個小節都有一個流程圖以幫助讀者記憶該小節所涵蓋的主題。作為示例,下麵給齣瞭第5章的一個流程圖,其中在本節將要解釋的概念用深灰色框標注,且相互間用箭頭連接起來。例如,兩種主要類型的非常優聯配:局部和全局將在本章的這一節描述。那些已在之前小節描述過的概念用淺灰色框標注,這樣我們就很容易瞭解本節涉及的主題和已介紹過的主題間的聯係。例如,構建聯配需要為空缺 打分的方法和為替換打分的方法,兩者都已經在這一章描述過瞭。通過這種方式,整章涉及的主要概念以及相互間的關係就能漸漸地被構架齣來。插圖:每一章都配有插圖。插圖的配置是經過充分考慮的,以保證既簡單易懂又與本書其他章節保持連貫一緻。擴展閱讀:在這麼一個快速發展的學科中,我們不可能在這本有限的《理解生物信息學》囊括現有的所有知識,更不用說將來的發展瞭。因此在每章的結尾我們都列瞭一些研究文獻和專業著作的參考文獻以幫助讀者進一步擴展知識、發展技能。我們根據不同主題收集文章,使得擴展閱讀中每節都與這一章相應小節的內容相對應。我們希望這能幫助閱讀者以很快的速度找到他們感興趣的擴展材料。字符錶:生物信息學需要使用很多符號,對還不瞭解生物信息的人來說,許多符號都是不熟悉的。為瞭幫助讀者瞭解本書適用的符號,我們在《理解生物信息學》後麵給齣瞭引用的每個符號、它的定義以及它在本書常齣現的位置的列錶。名詞解釋:在文中,所有技術術語在第1次齣現時都用黑體顯示,且在名詞解釋中列齣其相應的解釋。此外,每個在名詞解釋中的術語都會齣現在索引中,這樣讀者就能很快獲得詳細介紹這一術語的相應頁碼。
內容簡介
《理解生物信息學》是一本集生物信息學專業參考書和教材於一體的書,共分為7部分:基礎知識、序列聯配、進化過程、基因組特徵、二級結構、蛋白質三級結構、細胞和組織,以及附錄和字符錶等。每部分由不同章節構成,大多數章節可以被歸為應用章節或理論章節。因此存每部分開始時,都有應用章節,描述瞭特定研究領域較實用的方麵。理論章節則緊隨其後,解釋瞭其科學、理論基礎以及在已有應用中所使用的技術。《理解生物信息學》還提供瞭思維導圖、流程圖、擴展閱讀等其他書不常見的內容,以供讀者能夠在每一章、每一節開始時對整體內容有所把握,並能夠瞭解更多擴展知識、發展技能的參考文獻。
作者簡介
譯者 李亦學,男,1955年生,博士,研究員,博士生導師。上海生物信息技術研究中心主任,中科院上海生命科學研究院生物信息中心主任, 中科院係統生物學重點實驗室副主任,國傢"十一五"863計劃生物與醫藥領域專傢組成員。
目錄
目錄
譯者序
前言
給閱讀者的短箋
緻謝名單
第一部分 基礎知識
第1章 核酸的世界 3
1.1 DNA和RNA的結構 4
DNA分子是由4種不同類型的堿基組成的綫性多聚體 4
兩條互補DNA鏈通過堿基配對形成雙螺鏇 6
RNA分子通常為單鏈結構 但在某些情況下可形成堿基配對結構 6
1.2 DNA、RNA和蛋白質:中心法則 8
DNA是信息載體 而RNA則是信使 9
信使RNA根據遺傳密碼翻譯産生蛋白質 10
翻譯過程涉及瞭含DNA和RNA的核糖體的轉移 11
1.3 基因結構和基因調控 12
特定的定位序列能和RNA聚閤酶結閤 並識彆轉錄起始點 13
真核生物中的轉錄起始信號遠比細菌中復雜得多 14
真核生物mRNA轉錄物在翻譯前需經曆一係列修飾 15
翻譯的調控 16
1.4 生命與進化之樹 16
主要生命形式的基本特徵 17
突變可以改變核苷酸序列 18
總結 19
名詞解釋 19
擴展閱讀 21
第2章 蛋白質結構 22
2.1 初級結構和二級結構 23
我們可從多個不同水平考察蛋白質結構 23
氨基酸是蛋白質的組成單位 24
側鏈決定瞭氨基酸化學和物理特性的不同 24
蛋白質鏈中的氨基酸通過肽鍵共價連接 26
蛋白質的二級結構由α螺鏇、β鏈構成 28
在蛋白質結構中已發現瞭幾種不同類型的β摺疊片 31
螺鏇和鏈通過轉角、發夾結構和環連接 31
2.2 對生物信息學的啓發 32
某些氨基酸傾嚮於形成特定的結構單元 32
從進化角度幫助序列分析 32
蛋白質結構的計算和可視化 32
2.3 蛋白質通過摺疊形成緊湊的結構 33
蛋白質的三級結構是通過多肽鏈的路徑來定義的 34
蛋白質摺疊的穩定狀態是能量最低的狀態 35
很多蛋白質是由多個亞基組成的 35
總結 35
名詞解釋 36
擴展閱讀 37
第3章 數據庫的處理 38
3.1 數據庫的結構 39
平麵文件數據庫以文本文件的方式存儲數據 40
關係數據庫廣泛應用於存儲生物信息 41
XM1的靈活性可以確定定製的數據分類 42
一些用於生物數據的其他數據庫結構 42
數據庫可以通過本地訪問或通過互聯網相互鏈接 43
3.2 數據庫類型 43
數據庫中不僅僅是數據 44
原始數據和衍生數據 44
我們如何定義和鏈接事物的重要性:本體 44
3.3 數據庫搜索 45
序列數據庫 46
芯片數據庫 46
蛋白質相互作用數據庫 50
結構數據庫 50
3.4 數據質量 51
非冗餘性對一些應用特彆重要 52
自動化方法可用於檢查數據的一緻性 52
初步的分析和注釋通常是自動化完成的 53
為瞭産生高質量的注釋經常需要人為乾預 53
數據庫更新和條目注釋版本號的重要性 53
總結 54
名詞解釋 54
擴展閱讀 55
第2部分 序列聯配
第4章 産生和分析序列聯配 59
4.1 序列聯配的原理 60
聯配是在兩個或更多序列的相同區域尋找最大相似性的任務 60
聯配可以揭示序列間的同源性 61
比較蛋白質序列比校酸序列更容易檢測同源性 62
4.2 聯配分值 62
一個聯配的質量是通過給予一個量化的分值來衡量的 62
量化兩個序列間的相似性的最簡單的方法是百分數 62
基於一緻度的點圖可以可視化地評價相似性 63
真正的匹配不必相同 65
最低一緻度比可以被接受為具有顯著性 66
對於打分聯配有許多不同的方法 66
4.3 替代矩陣 66
使用替代矩陣對每個排列後的序列位點分配一個單獨的值 66
PAM替代矩陣使用密切相關的蛋白質序列集的替代頻率 66
B1OSUM替代矩陣使用瞭局部高度保守區域序列的突變數據 67
替代矩陣的選擇取決於要解決的問題 67
4.4 插入空缺 68
在序列插入空缺以達到和另一條序列的相似度最大 需要罰分製度 68
動態規劃算法可以決定引入最優空缺 69
4.5 聯配類型 69
對於不同情況采用不同類型的聯配 69
多重序列聯配能同時比較一些相似序列 71
有幾種不同的技術可構造多重聯配 72
多重聯配可以提高低相似性序列聯配的精確度 72
C1usta1W可以對DNA和蛋白質序列進行全局聯配 72
通過閤並一些局部聯配可以構建多重聯配 73
增加新信息可以改進聯配 74
4.6 檢索數據庫 74
已開發瞭快速而準確的搜索算法 75
FASTA格式是一個基於較短的相同片段匹配的快速的數據庫搜索方法 75
B1AST的基礎在於發現非常相似的短片段 75
對不同的問題采用不同版本的B1AST和FASTA 75
PSI-B1AST基於配置文件的數據庫搜索 76
SSEARCH是一個嚴格的聯配方法 76
4.7 搜索核酸或蛋白質序列 76
可直接使用或翻譯後的DNA或RNA序列 76
必須測試數據庫的匹配質量 以確保其不可能是偶然發生 77
選擇一個適當的E值的閾值有助於限製數據庫搜索 77
低復雜度區域可以將同源性搜索復雜化 79
不同的數據庫可以用來解決具體問題 79
4.8 蛋白質序列模體或模式 81
建立數據庫的模式需要專業知識 82
B1OCKS數據庫包含自動編譯的保守蛋白質序列的多重聯配的較短序列模塊 82
4.9 使用模式和模體搜索 83
可以在PROSITE數據庫中搜索蛋白質的模式和模體 83
基於模式的PHI-B1AST程序同時搜索同源性和模體匹配 84
可以使用PRATT扶多條序列産生模式 84
PRINTS數據庫包括瞭指紋圖譜 描述一個
蛋白質傢族的一些保守模體 84
Pfam數據庫定義瞭蛋白質傢族的錶達譜 85
4.10 模式和蛋白質功能 85
可以搜索蛋白質上特定的功能位點 85
序列比較不是唯一分析蛋白質序列的途徑 85
總結 86
名詞解釋 87
擴展閱讀 88
第5章 序列比對比數據庫搜索 90
5.1 替換矩陣和打分 91
聯配分值用於衡量公共進化祖先的似然性 91
PAM (MDM)替代打分矩陣用於探索蛋白質進化起源 92
B1OSUM矩陣用於尋找保守的蛋白質區域 94
用於核苷酸聯配的打分矩陣需由相似的方式得到 96
替換打分矩陣必須適用於特定的聯配問題 97
插入空缺的打分相對替換而言使用瞭更為啓發式的方法 97
5.2 動態規劃算法 98
使用改進後的Need1eman-Wunsch算法構建全局最優聯配 99
對動態規劃算法的簡單改進就能用於局部序列聯配 104
不計算完整的矩陣 犧牲精確度提高時間效率 106
5.3 索引技術和近似算法 108
後綴樹定位和獨特及重復序列的位置 108
散列索引是一種技術 列齣瞭所有k的起始位置元組(k_tup1es) 109
FASTA算法使用哈希算法和快速鏈接進行數據庫搜索 110
B1AST算法利用瞭有限狀態自動機 111
直接比較核酸序列和蛋白質序列 需要對
B1AST和FASTA進行特殊的調整 114
5.4 聯配分值的顯著性 116
有空缺局部聯配的統計可以按相似的算法進行 117
5.5 聯配全基因組序列 118
有效索引和掃描全基因組序列對高等生物
序列比對至關重要 118
密切關聯的物種基因組之間復雜進化關係需
要創新的聯配算法 119
總結 120
名詞解釋 121
擴展閱讀 122
第6章 模式、序列和多序列比對 124
6.1 序列和序列標記 125
位置特異性分數矩陣是得分矩陣的擴展 125
解決構建PSSM時數據缺失問題的方法 127
PSI-B1AST是一個序列數據庫檢索程序 130
將序列錶現為序列標記 131
6.2 譜式隱馬爾可夫模型 132
用於序列比對的HMM的基本結構 133
利用聯配序列莛立HMM參數 137
利用譜式HMM給序列打分:最大可能路徑以及所有路徑的總和 138
利用未聯配序列評估HMM參數 140
6.3 序列聯配 141
利用聯配比較兩個PSSM 141
聯配譜式HMM 143
6.4 利用序列遞增(gradua1 sequence addition)的多序列比對 144
序列添加的順序是基於評估閤並聯配錯誤可能性而決定的 145
許多不同的打分策略用於建立多序列聯配 147
多序列聯配是利用嚮導樹以及譜式方法構建的 且可能進一步改進 149
6.5 其他獲得多序列聯配的方法 152
多序列聯配程序DIA1IGN聯配無間隙的區段 152
利用遺傳算法的SAGA多序列聯配方法 153
6.6 序列模式發現 154
在多序列聯配中查找模式:eMOTIF和AACC 157
序列中共有模式的概率查詢:Gibbs和MEME 158
總結 159
名詞解釋 160
擴展閱讀 161
第3部分 進化過程
第7章 重現進化曆史 167
7.1 係統發生樹的結構和解釋 168
係統發生樹重建進化關係 168
用幾種方式描述樹的拓撲結構 172
一緻樹和可信樹報告拓撲結構的比較結果 174
7.2 分子進化及其結果 176
大多數相關序列有許多變異瞭幾次的位置 176
可接受突變速率對所有類型的堿基替換通常是不相同的 178
密碼子不同位置有不同的突變速率 179
隻應該用直係同源基因構建物種係統發生樹 181
基因組大區域變化是常見的 187
7.3 係統發生樹構建 187
核糖體小亞基rRNA序列非常適用於重建物種的進化 187
構樹方法的選擇在某種程度上依賴於數據集的大小和質量 188
在使用這些方法時必需選擇一個進化模型 189
所有的係統發生分析必須以精確的多序列比對開始 191
16 S RNA序列的一個小數據集的係統發生分析 192
為酶傢族建立基因樹有助於發現酶功能的進化 194
總結 198
名詞解釋 199
擴展閱讀 200
第8章 構建係統發生樹 203
8.1 進化模型和進化距離的計算 204
一個簡單但不精確衡量進化距離的是p距離 204
Poissan校正距離考慮瞭同一位點上的多次突變 204
Gamma校正距離考慮瞭不同的序列位點上突變速率的差異 205
Jukes-Cantor模型再現瞭核苷酸序列進化的一些基本特徵 205
更復雜的模型區分不同類型突變的相對頻率 206
在DNA序列上存在核苷酸的偏好 208
蛋白質序列的進化模型和用於序列聯配的替代矩陣密切相關 208
8.2 産生係統發生樹 209
聚類方法基於進化距離産生一個係統發育樹 209
UPGMA方法假定一個恒定的分子鍾 並産生一個等距樹 210
Fiteh-Margo1iash方法産生一個無根的加性樹 211
鄰接法:此方法涉及最小進化
前言/序言
理解生物信息學 [Understanding Bionformatics] 下載 mobi epub pdf txt 電子書