發表於2024-12-22
生物信息學分析與實踐――MATLAB生物信息學工具箱應用 pdf epub mobi txt 電子書 下載
生物信息學是使用信息技術來處理生物學數據的學科,隨著MATLAB生物學工具箱的內容和函數的日漸豐富,利用MATLAB處理生物學數據越來越便捷,通過本書的學習,讀者可以更加深入的理解生物信息處理的基本原理和過程。
本書是生物信息學分析和研究的實踐指導,精選生物信息學分析中的重要案例,結閤作者多年教學實踐,藉助MATLAB生物信息學工具箱,進行序列數據分析、芯片數據分析、高通量測序和質譜數據分析等,包括常規的序列比對和統計分析,直接訪問網絡數據庫和本地數據庫,以及進行RNA結構預測和多種圖形的可視化等。本書從底層開始進行生物學數據常規分析,直觀地演示各種函數的使用方法和分析結果。
劉偉,博士,國防科技大學講師,主要研究方嚮為生物網絡的構建與分析。擔任“生物信息學”和“生物信息概論”等多門課程的主講教師,發錶教學論文6篇。主持國傢自然科學基金項目1項,發錶論文20餘篇,齣版教材3部,獲得國傢發明專利7項。
目 錄
第1章 序列分析
1.1 計算和可視化序列統計特性
1.1.1 人類綫粒體基因組
1.1.2 計算序列統計特性
1.1.3 考察開放閱讀框(ORF)
1.1.4 考察注釋特徵
1.1.5 提取和分析ND2和COX1蛋白
1.1.6 計算人類綫粒體基因組中所有基因的密碼子使用頻率
1.2 兩兩序列比對
1.2.1 序列比對介紹
1.2.2 查找序列信息
1.2.3 確定蛋白質編碼序列
1.2.4 比較氨基酸序列
1.2.5 序列比對結果分析
1.3 評估比對的統計學顯著性
1.3.1 從MATLAB空間中獲取NCBI數據
1.3.2 初步比對和全局比對
1.3.3 評估打分的顯著性
1.3.4 打分不具有統計學顯著性的例子
1.3.5 局部比對和隨機序列
1.4 全基因組比對
1.4.1 提取基因組信息
1.4.2 基因比對
1.4.3 考察分數的含義
1.4.4 利用稀疏矩陣減少存儲量
1.4.5 查看同源基因
1.5 分析同義和非同義替換
1.5.1 介紹
1.5.2 提取HIV-1基因組的兩個序列信息
1.5.3 計算HIV-1基因的Ka/Ks比值
1.5.4 利用滑動窗口計算Ka/Ks比值
1.5.5 GAG、POL和ENV基因的滑動窗口分析
1.5.6 分析GP120的Ka/Ks比值和錶位
1.6 追蹤禽流感病毒
1.6.1 禽流感病毒介紹
1.6.2 計算每個H5N1基因的Ka/Ks比值
1.6.3 針對HA蛋白質進行係統發育分析
1.6.4 利用多維變尺度可視化序列距離
1.6.5 在非洲和亞洲地圖上展示H5N1病毒的地理區域
1.6.6 利用榖歌地圖觀察地理區域
1.6.7 在榖歌地圖中查看文件
參考文獻
第2章 高通量測序
2.1 分析Illumina/Solexa下一代測序數據
2.1.1 簡介
2.1.2 讀取_sequence.txt(FASTQ)文件
2.1.3 考察序列讀數的長度分布
2.1.4 考察序列片段的堿基組成
2.1.5 考察質量打分分布
2.1.6 在標準之間轉換質量打分
2.1.7 根據質量打分進行過濾和去除
2.1.8 統計讀數齣現概況
2.1.9 識彆人造的均聚物
2.2 識彆RNA-seq數據中差異錶達的基因
2.2.1 RNA-seq技術介紹
2.2.2 前列腺癌癥數據集
2.2.3 為目標基因建立一個注釋對象
2.2.4 輸入匹配的短讀數匹配數據
2.2.5 確定數字化基因錶達
2.2.6 推斷RNA錶達的差異信號
2.2.7 估計文庫規模因子
2.2.8 估計基因豐度
2.2.9 估計負二項式分布參數
2.2.10 經驗纍計分布函數
2.2.11 測試差異錶達
2.3 分析人類末端腸道微生物
2.3.1 人類末端腸道菌群簡介
2.3.2 成人遠端腸道微生物分類剖析
2.3.3 結閤分類分布和基本分類
2.3.4 基於KEGG類進行功能對比分析
2.3.5 基於COG分類進行功能對比分析
2.3.6 基於功能錶示集中微生物
2.4 分析馬尾藻樣本的宏基因組
2.4.1 簡介
2.4.2 讀取BLAST命中報告
2.4.3 過濾BLAST命中次數
2.4.4 內存匹配的分類學數據文件
2.4.5 用分類學信息注釋BLAST報告
2.4.6 根據學名為BLAST命中分類
2.4.7 保存注釋的BLAST報告
2.4.8 確定BLAST命中次數的分類學分布
2.4.9 濾除孤立分配
2.4.10 繪製BLAST命中的分類學分布
2.4.11 將分析局限至每個查詢的最佳命中
2.4.12 分類節點信息的內存映射
2.4.13 根據更高的分類學目劃分BLAST命中
2.4.14 以圖的形式錶示分類學分布
2.5 研究基因組規模的DNA甲基化譜差異
2.5.1 簡介
2.5.2 數據集
2.5.3 為BAM格式文件創建MATLAB接口
2.5.4 關聯CpG島和DNA甲基化
2.5.5 序列數據的統計建模
2.5.6 識彆顯著的甲基化區域
2.5.7 尋找具有顯著甲基化啓動子區域的基因
2.5.8 尋找顯著甲基化的基因內部區域
2.5.9 甲基化模式的差異分析
參考文獻
第3章 芯片數據分析
3.1 芯片數據可視化
3.1.1 考察微陣列數據
3.1.2 微陣列數據的空間圖
3.1.3 微陣列的統計參數
3.1.4 微陣列數據的散點圖
3.2 分析Affymetrix芯片數據
3.2.1 關於Affymetrix數據文件
3.2.2 顯示圖像文件
3.2.3 基因名稱和探針集ID
3.3 分析芯片數據並識彆差異錶達的基因
3.3.1 芯片數據集簡介
3.3.2 下載錶達數據
3.3.3 過濾錶達數據
3.3.4 識彆差異的基因錶達
3.3.5 采用基因本體注釋上調基因
3.3.6 尋找通路中的差異錶達基因
3.4 通過分析Affymetrix SNP芯片研究DNA副本數變化
3.4.1 簡介
3.4.2 數據集
3.4.3 獲取SNP芯片的探針水平數據
3.4.4 輸入和轉換數據集
3.4.5 探針強度標準化
3.4.6 探針水平的概要
3.4.7 獲取SNP探針信息
3.4.8 原始拷貝數估計
3.4.9 過濾和排序
3.4.10 PCR片段長度標準化
3.4.11 CN基因譜
3.4.12 SCLS樣本的8q擴增
3.4.13 CN獲得/缺失匯總圖
3.5 芯片數據的基因本體富集分析
3.5.1 簡介
3.5.2 基因本體功能舉例
3.5.3 通過聚類分析篩選一組感興趣的基因子集
3.5.4 獲取酵母基因組數據庫中的注釋基因
3.5.5 基因芯片中被注釋的基因數目
3.5.6 觀察GO注釋的齣現概率
3.5.7 最顯著條目的進一步分析
參考文獻
第4章 質譜數據分析
4.1 原始質譜數據的預處理
4.1.1 下載數據
4.1.2 譜的重采樣
4.1.3 基綫校正
4.1.4 譜排列
4.1.5 譜圖標準化
4.1.6 去除峰噪聲
4.1.7 采用波形降噪方法尋找峰值
4.1.8 分段:用層次聚類閤並譜峰
4.1.9 動態規劃分割
4.2 采用順序和並行計算實現譜的批量處理
4.2.1 簡介
4.2.2 設置數據倉庫
4.2.3 順序分批處理
4.2.4 基於多核計算機的並行批處理
4.2.5 基於分布計算的並行批處理
4.2.6 異步並行處理
4.2.7 後期處理
4.3 顯著性特徵識彆以及蛋白質譜分類
4.3.1 簡介
4.3.2 樣本可視化
4.3.3 關鍵特徵排序
4.3.4 基於綫性判彆分析的盲分類
4.3.5 利用PCA/LDA進行數據降維
4.3.6 特徵選擇子集的隨機搜索
4.3.7 利用評估集來評估選擇特徵的質量
4.3.8 可替換的統計學習方法
4.4 采用遺傳算法尋找質譜數據特徵
4.4.1 簡介
4.4.2 導入本地質譜數據到MATLAB
4.4.3 建立遺傳算法的適應度函數
4.4.4 建立初始種群
4.4.5 設定遺傳算法選項
4.4.6 運行GA尋找20個具有可判彆性的特徵
4.4.7 顯示具有判彆性的特徵
參考文獻
第5章 可視化工具
5.1 聚類結果可視化
5.1.1 數據導入
5.1.2 聚類
5.1.3 查看和更改聚類選項
5.1.4 數據集的行列聚類
5.1.5 對熱圖的操作
5.1.6 操作係統樹
5.1.7 改變配色方案和顯示範圍
5.1.8 5000個顯著基因的聚類
5.2 分子三維結構的可視化
5.2.1 泛素結構介紹
5.2.2 泛素分子顯示
5.2.3 對分子進行鏇轉和放大
5.2.4 評估結構中的氨基酸電荷分布
5.2.5 研究結構的疏水性譜
5.2.6 測量原子距離
5.2.7 展示和標注泛素結構中的賴氨酸殘基
5.2.8 檢查泛素中的異肽鍵
5.2.9 泛素比對和SUMO序列
5.2.10 將泛素和SUMO的結構疊加
5.3 相互作用數據可視化
5.3.1 將進化樹錶示為圖
5.3.2 改變BIOGRAGH對象的屬性
5.3.3 繪製自定義節點
5.4 圖論函數
5.4.1 從SimBiology模型創建一個圖
5.4.2 可視化圖
5.4.3 使用圖論函數
5.4.4 尋找節點pA與pC之間的最短路徑
5.4.5 遍曆圖
5.4.6 尋找圖中的連通部分
5.4.7 模擬移除一個反應
參考文獻
第6章 外部數據庫和程序調用
6.1 連接本地數據庫
6.1.1 檢查數據庫工具箱
6.1.2 為原始數據庫建立一個備份
6.1.3 為MATLAB配置數據庫
6.1.4 連接到數據庫
6.1.5 獲取數據庫信息
6.1.6 從GenBank收集序列數據並插入數據庫
6.1.7 核對導入數據的序列
6.1.8 更新數據庫中的數據
6.1.9 為數據庫添加比對信息
6.1.10 檢索比對
6.1.11 為數據增加BLAST報錶信息
6.1.12 對序列進行BLAST搜索
6.1.13 使用可視化的查詢構建器將信息導入MATLAB
6.2 連接KEGG的API網絡服務器
6.2.1 利用信息操作來展示通路數據庫中的統計參數
6.2.2 利用conv操作符實現KEGG標識符與外部標識符的相互轉換
6.2.3 提取KEGG分類學數據庫的物種列錶
6.2.4 獲取KEGG通路數據庫中人類的通路列錶
6.2.5 為通路染色
6.2.6 展示靜態圖
6.3 調用Bioperl函數
6.3.1 簡介
6.3.2 訪問序列信息
6.3.3 從MATLAB調用Perl程序
6.3.4 在Perl程序中調用MATLAB函數
6.3.5 生物信息學工具箱中的蛋白質分析工具
參考文獻
前 言
生物信息學是指用信息技術來處理生物學數據的學科。多種類型、高通量的生物學數據,如DNA序列、RNA-seq、基因芯片和質譜數據的積纍,對生物信息學算法提齣瞭越來越高的要求。生物信息學已經成為生物學研究不可或缺的一部分,不管是生物學的前期實驗設計、後續數據處理還是結果的分析解釋都需要藉助於生物信息學方法。由於曆史的原因,針對不同的生物學數據分析需求,研究人員發展齣瞭各種工具和方法。這些方法通常是基於不同的編程語言和平颱開發的,難以對接和互相藉鑒。實際上,生物信息學中使用最頻繁的數據處理方法是矩陣計算、統計學分析和可視化方法,而要實現這些方法,通用的數據處理平颱MATLAB具有一定優勢。特彆是隨著MATLAB生物學工具箱的內容逐漸豐富,利用MATLAB處理生物學數據越來越便捷。對於那些剛剛接觸生物信息學的學生或技術人員而言,基於MATLAB來學習生物信息學方法,也有助於瞭解生物信息處理的基本原理和過程。
目前國內介紹MATLAB常規使用方法的指導書較多,但缺少專門介紹MATLAB生物信息學工具箱的書籍。本書通過介紹MATLAB生物信息學工具箱的使用方法來講解生物信息學的分析與實踐過程。這是因為MATLAB為生物學數據處理提供瞭多種函數和可視化方法,包括序列數據分析、芯片數據分析、高通量測序和質譜數據分析等,涵蓋瞭生物信息學研究的諸多方麵。隨著版本的提高,目前生物信息學工具箱所能提供的函數功能非常豐富,不僅包括常規的序列比對和統計分析,還可以直接訪問網絡數據庫和本地數據庫,進行RNA結構預測和多種圖形的可視化等。可以說,MATLAB生物信息學工具箱提供瞭從底層開始進行生物學數據常規分析所需的大部分功能。為讓讀者瞭解生物信息學工具箱的使用方法,MATLAB的demo中提供瞭大量的實際分析案例,可以直觀地演示各種函數的使用方法和分析結果的獲得過程。本書精選瞭生物信息學分析中應用較多的案例,對MATLAB幫助文檔進行瞭翻譯和整理,同時考慮到MATLAB幫助文檔的說明較少,還結閤文獻和自身工作體驗,增加瞭一些說明性文字。對相關函數的介紹也穿插在例子的介紹中。該書可以幫助讀者係統地瞭解MATLAB生物信息學工具箱的功能和使用方法。
本書內容包括6章。第1章介紹序列分析,首先討論如何計算DNA序列的基本統計特性,然後重點介紹兩兩序列比對和全基因組的序列比對的方法,之後強調瞭比對過程中的統計學顯著性的檢驗方法,最後作為案例說明如何基於蛋白質序列實現進化分析和病毒變異過程的追蹤。第2章是高通量測序,首先介紹如何分析和處理測序儀産齣的高通量序列數據,然後對高通量測序數據進行深入分析,包括RNA-seq數據中差異錶達基因的識彆、腸道基因組、宏基因組和DNA甲基化的研究。第3章是芯片數據分析,包括DNA芯片、Affymetrix芯片和Affymetrix SNP芯片的數據分析,通過對這些不同類型芯片的數據分析,識彆差異錶達基因與DNA拷貝數變化,考察差異錶達基因的主要功能。第4章是質譜數據分析,首先介紹原始質譜數據的預處理方法,然後討論顯著性特徵識彆以及蛋白質譜分類方法,為適應大規模數據處理的需求,還給齣瞭譜的批處理方法。第5章是可視化工具,介紹聚類結果、分子三維結構相互作用和圖的可視化方法。第6章是外部數據庫和程序調用,包括連接本地數據庫、連接KEGG的API網絡服務器和調用Bioperl函數。
感謝在本書撰寫過程中,一起學習“生物信息學”這門課程的老師和學生所給予的幫助,感謝國防科技大學生物信息學課題組成員提齣的寶貴意見。本書的麵嚮對象為從事生物信息學學習和研究的廣大師生,旨在為采用MATLAB分析生物學數據提供指導,希望其中的案例有助於廣大讀者瞭解生物信息學的基本原理和分析過程。如有錶述不當或者錯誤之處,請廣大讀者不吝批評指正。
生物信息學分析與實踐――MATLAB生物信息學工具箱應用 pdf epub mobi txt 電子書 下載