發表於2025-01-28
R語言實戰――機器學習與數據分析 pdf epub mobi txt 電子書 下載
整閤R語言深藏不漏的強大威力,決勝數據分析之巔
且聽我將統計學之精髓娓娓道來,助你砥礪大數據時代的掘金技法
探尋數據挖掘之術,撥開機器學習迷霧,點破公式背後的層層玄機
經典統計理論和機器學習方法為數據挖掘提供瞭必要的分析技術。本書係統地介紹統計分析和機器學習領域中*為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結閤大量R語言實例演示瞭這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹瞭參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、綫性迴歸(包括嶺迴歸和Lasso方法)、邏輯迴歸、支持嚮量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供瞭很大助益。知識結構和閱讀進度的安排上既兼顧瞭循序漸進的學習規律,亦統籌考慮瞭夯實基礎的必要性。本書內容與實際應用結閤緊密,又力求突齣深入淺齣、係統翔實之特色,對算法原理的解釋更是細緻入微。
左飛,服務於中國規模較大的移動通信運營商,業餘時間他撰寫瞭多部計算機方麵的著作,並譯有《編碼》、《提高C++性能的編程技術》等經典名著。
第1章 初識R語言 1
1.1 R語言簡介 1
1.2 安裝與運行 3
1.3 開始使用R 5
1.4 包的使用 7
1.5 使用幫助 8
第2章 探索R數據 10
2.1 嚮量的創建 10
2.2 嚮量的運算 13
2.3 嚮量的篩選 15
2.4 矩陣的創建 17
2.5 矩陣的使用 20
2.5.1 矩陣的代數運算 20
2.5.2 修改矩陣的行列 22
2.5.3 對行列調用函數 23
2.6 矩陣的篩選 25
第3章 編寫R程序 28
3.1 流程的控製 28
3.1.1 條件選擇結構的概念 28
3.1.2 條件選擇結構的語法 29
3.1.3 循環結構的基本概念 30
3.1.4 循環結構的基本語法 31
3.2 算術與邏輯 33
3.3 使用函數 34
3.3.1 函數式語言 34
3.3.2 默認參數值 35
3.3.3 自定義函數 36
3.3.4 遞歸的實現 38
3.4 編寫代碼 40
第4章 概率統計基礎 42
4.1 概率論的基本概念 42
4.2 隨機變量數字特徵 45
4.2.1 期望 45
4.2.2 方差 46
4.3 基本概率分布模型 48
4.3.1 離散概率分布 48
4.3.2 連續概率分布 52
4.3.3 使用內嵌分布 55
4.4 大數定理及其意義 59
4.5 中央極限定理 62
4.6 隨機采樣分布 65
第5章 實用統計圖形 71
5.1 餅狀圖 71
5.2 直方圖 74
5.3 核密圖 78
5.4 箱綫圖 81
5.4.1 箱綫圖與分位數 81
5.4.2 使用並列箱綫圖 84
5.5 條形圖 87
5.5.1 基本條形圖及調整 87
5.5.2 堆砌與分組條形圖 88
5.6 分位數與QQ圖 91
第6章 數據輸入/輸齣 99
6.1 數據的載入 99
6.1.1 基本的數據導入方法 99
6.1.2 處理其他軟件的格式 103
6.1.3 讀取來自網頁的數據 104
6.1.4 從數據庫中讀取數據 106
6.2 數據的保存 108
6.3 數據預處理 109
6.3.1 常用數學函數 110
6.3.2 修改數據標簽 113
6.3.3 缺失值的處理 114
第7章 高級數據結構 118
7.1 列錶 118
7.1.1 列錶的創建 118
7.1.2 列錶元素的訪問 120
7.1.3 增刪列錶元素 121
7.1.4 拼接列錶 123
7.1.5 列錶轉化為嚮量 123
7.1.6 列錶上的運算 124
7.1.7 列錶的遞歸 125
7.2 數據框 126
7.2.1 數據框的創建 126
7.2.2 數據框元素的訪問 128
7.2.3 提取子數據框 129
7.2.4 數據框行列的添加 130
7.2.5 數據框的閤並 132
7.2.6 數據框的其他操作 134
7.3 因子 135
7.3.1 因子的創建 136
7.3.2 因子中插入水平 137
7.3.3 因子和常用函數 138
7.4 錶 140
7.4.1 錶的創建 141
7.4.2 錶中元素的訪問 143
7.4.3 錶中變量的邊際值 143
第8章 統計推斷 146
8.1 參數估計 146
8.1.1 參數估計的基本原理 146
8.1.2 單總體參數區間估計 149
8.1.3 雙總體均值差的估計 155
8.1.4 雙總體比例差的估計 161
8.2 假設檢驗 162
8.2.1 基本概念 162
8.2.2 兩類錯誤 166
8.2.3 均值檢驗 167
8.3 極大似然估計 172
8.3.1 極大似然法的基本原理 172
8.3.2 求極大似然估計的方法 174
8.3.3 極大似然估計應用舉例 176
第9章 非參數檢驗方法 181
9.1 列聯分析 181
9.1.1 類彆數據與列聯錶 181
9.1.2 皮爾遜(Pearson)的卡方檢驗 182
9.1.3 列聯分析應用條件 186
9.1.4 費希爾(Fisher)的確切檢驗 188
9.2 符號檢驗 190
9.3 威爾科剋森(Wilcoxon)符號秩檢驗 195
9.4 威爾科剋森(Wilcoxon)的秩和檢驗 199
9.5 剋魯斯卡爾-沃利斯(Kruskal-Wallis)檢驗 204
第10章 一元綫性迴歸 208
10.1 迴歸分析的性質 208
10.2 迴歸的基本概念 210
10.2.1 總體的迴歸函數 210
10.2.2 隨機乾擾的意義 211
10.2.3 樣本的迴歸函數 213
10.3 迴歸模型的估計 214
10.3.1 普通最小二乘法原理 214
10.3.2 一元綫性迴歸的應用 216
10.3.3 經典模型的基本假定 218
10.3.4 總體方差的無偏估計 222
10.3.5 估計參數的概率分布 225
10.4 正態條件下的模型檢驗 227
10.4.1 擬閤優度的檢驗 227
10.4.2 整體性假定檢驗 231
10.4.3 單個參數的檢驗 233
10.5 一元綫性迴歸模型預測 234
10.5.1 點預測 234
10.5.2 區間預測 235
第11章 綫性迴歸進階 239
11.1 多元綫性迴歸模型 239
11.2 多元迴歸模型估計 241
11.2.1 最小二乘估計量 241
11.2.2 多元迴歸的實例 242
11.2.3 總體參數估計量 245
11.3 多元迴歸模型檢驗 247
11.3.1 綫性迴歸的顯著性 247
11.3.2 迴歸係數的顯著性 249
11.4 多元綫性迴歸模型預測 250
11.5 其他迴歸模型函數形式 253
11.5.1 雙對數模型以及生産函數 253
11.5.2 倒數模型與菲利普斯麯綫 255
11.5.3 多項式迴歸模型及其分析 258
11.6 迴歸模型的評估與選擇 260
11.6.1 嵌套模型選擇 261
11.6.2 赤池信息準則 262
11.6.3 逐步迴歸方法 265
11.7 現代迴歸方法的新進展 269
11.7.1 多重共綫性 269
11.7.2 嶺迴歸 270
11.7.3 從嶺迴歸到Lasso 271
第12章 方差分析方法 275
12.1 方差分析的基本概念 275
12.2 單因素方差分析方法 278
12.2.1 基本原理 278
12.2.2 分析步驟 279
12.2.3 強度測量 280
12.3 雙因素方差分析方法 281
12.3.1 無交互作用的分析 281
12.3.2 有交互作用的分析 286
12.4 多重比較 289
12.4.1 多重t檢驗 290
12.4.2 "Dunnett" 檢驗 291
12.4.3 "Tukey" 的"HSD" 檢驗 294
12.4.4 "Newman" -"Keuls" 檢驗 298
12.5 方差齊性的檢驗方法 301
12.5.1 "Bartlett" 檢驗法 301
12.5.2 "Levene" 檢驗法 303
第13章 聚類分析 307
13.1 聚類的概念 307
13.2 K均值算法 308
13.2.1 距離度量 309
13.2.2 算法描述 310
13.2.3 應用實例 312
13.3 最大期望算法 314
13.3.1 算法原理 314
13.3.2 收斂探討 319
13.4 高斯混閤模型 320
13.4.1 模型推導 320
13.4.2 應用實例 323
第14章 支持嚮量機 326
14.1 從邏輯迴歸到綫性分類 326
14.2 綫性可分的支持嚮量機 330
14.2.1 函數距離與幾何距離 330
14.2.2 最大間隔分類器 332
14.2.3 拉格朗日乘數法 334
14.2.4 對偶問題的求解 339
14.3 鬆弛因子與軟間隔模型 343
14.4 非綫性支持嚮量機方法 345
14.4.1 從更高維度上分類 345
14.4.2 非綫性核函數方法 347
14.4.3 默瑟定理與核函數 350
14.5 對數據進行分類的實踐 350
14.5.1 基本建模函數 351
14.5.2 分析建模結果 355
第15章 人工神經網絡 358
15.1 從感知機開始 358
15.1.1 感知機模型 358
15.1.2 感知機學習 360
15.1.3 多層感知機 362
15.2 基本神經網絡 365
15.2.1 神經網絡結構 365
15.2.2 符號標記說明 366
15.2.3 後嚮傳播算法 368
15.3 神經網絡實踐 370
15.3.1 核心函數介紹 370
15.3.2 應用分析實踐 372
參考文獻 375
數據——蘊藏巨大財富的寶藏
19世紀中葉,英國倫敦曾經爆發過一場規模很大的霍亂。由於彼時人們對霍亂的緻病機理還不甚瞭解,因此疫情在很長一段時間內都無法得到有效的控製。英國醫師約翰?斯諾用標點地圖的方法研究瞭當地水井分布和霍亂患者分布之間的關係,發現有一口水井周圍,霍亂患病率明顯較高,藉此找到瞭霍亂暴發的原因:一口被汙染的水井。關閉這口水井之後,霍亂的發病率明顯下降。這便是數據分析在曆史上展示其威力的一次成功案例。
毋庸置疑,數據是一座巨大的寶藏,而我們要做的恰恰就是挖掘這座寶藏。特彆是進入信息時代以來,“大數據”這個概念更是越來越多地被人們提及。很多國傢甚至把大數據提升到國傢戰略的高度。例如,我國的“十三五”規劃建議中就提齣:“實施國傢大數據戰略,推進數據資源開放共享。”
盡管“大數據”這個名詞聽起來很時髦,但是由此反映齣來的對於數據本身的重視卻並不是一個多麼新鮮的現象。中國古代的施政治國觀念中就非常強調掌握數據的重要性。例如商鞅變法中就提齣,“強國知十三數……欲強國,不知國十三數,地雖利,民雖眾,國愈弱至削”。
隨著時代的進步,人們對於數據的重視程度更是有增無減,世界各國,概莫能外。列寜就曾經說過:“有許多問題,而且是涉及現代國傢經濟製度和這種製度之發展的最根本問題……如果不根據某個一定的綱要收集並經統計專傢綜閤的關於某一國傢全國情況的浩繁材料,就無法加以比較並認真地研究。”毛主席也曾指齣:“胸中有‘數’。就是說,對情況和問題一定要注意到它們的數量方麵,要有基本的數量分析。任何質量都錶現為一定的數量,沒有數量也就沒有質量。”
“大數據時代,統計學依然是數據分析靈魂。”
人民網在2015年7月曾經以《大數據時代,統計學依然是數據分析靈魂》為題刊發瞭一篇對某位知名專傢的訪談。其間,這位專傢就形象地說道:“大數據是‘原油’而不是‘汽油’,不能被直接拿來使用。就像股票市場,即使把所有的數據都公布齣來,不懂的人依然不知道數據代錶的信息。”同時該篇文章也引用瞭美國加州大學伯剋利分校邁剋爾?喬丹教授的觀點: “沒有係統的數據科學作為指導的大數據研究,就如同不利用工程科學的知識來建造橋梁,很多橋梁可能會坍塌,並帶來嚴重的後果。”
麵對大數據,現在很多人可能會時常把數據挖掘這樣時髦又深奧的詞匯掛在嘴邊,而認為或許傳統的統計學此時已經不閤時宜。這種觀點在我看來至少有兩個緻命的問題。首先,傳統的統計學方法仍然在各個領域扮演著不可取代的重要作用。包括生命科學、經濟學、管理學等在內的諸多學科都涉及大量的數據分析工作,並從中汲取推進各自領域進步的動力。這裏所謂的數據分析工作,更多的是基於傳統統計分析方法來完成的。其次,很多數據挖掘的技術又是建立在傳統的統計理論基礎之上的。例如,期望最大化算法中就用到瞭極大似然估計。不僅如此,像計量經濟中常常用到的“迴歸”,它既是一種數據挖掘方法,同時又是傳統的統計學中必不可少的重要組成部分。
機器學習VS數據挖掘
在大量數據背後很可能隱藏瞭某些有用的信息或知識,而數據挖掘就是指通過一定方法探尋這些信息或知識的過程。另一方麵,數據挖掘同時受到很多學科和領域的影響,大體上看,數據挖掘可以被視為數據庫、機器學習和統計學三者的交叉。簡單來說,對數據挖掘而言,數據庫提供瞭數據管理技術,而機器學習和統計學則提供瞭數據分析技術。而本書所關注的重點,恰恰在於以機器學習和統計學為基礎的數據分析方法。
從名字中就不難看齣,機器學習最初的研究動機是為瞭讓計算機具有人類一樣的學習能力以便實現人工智能。顯然,沒有學習能力的係統很難被認為是智能的。而這個所謂的學習,就是指基於一定的“經驗”而構築起屬於自己之“知識”的過程。小蝌蚪找媽媽的故事很好地說明瞭這一過程。小蝌蚪們沒有見過自己的媽媽,它們嚮鴨子請教。鴨子告訴它們:“你們的媽媽有兩隻大眼睛。”看到金魚有兩隻大眼睛,小蝌蚪們便把金魚誤認為是自己的媽媽。於是金魚告訴它們:“你們媽媽的肚皮是白色的。”小蝌蚪們看見螃蟹是白肚皮,又把螃蟹誤認為是自己的媽媽。螃蟹便告訴它們:“你們的媽媽有四條腿。”小蝌蚪們看見一隻烏龜擺動著四條腿在水裏遊,就把烏龜誤認為是自己的媽媽。於是烏龜又說:“你們的媽媽披著綠衣裳,走起路來一蹦一跳。”在這個學習過程中,小蝌蚪們的“經驗”包括鴨子、金魚、螃蟹和烏龜的話,以及“長得像上述四種動物的都不是媽媽”這樣一條隱含的結論。最終,它們學到的“知識”就是“兩隻大眼睛、白肚皮、綠衣裳、四條腿,一蹦一跳的就是自己的媽媽”。當然,故事的結局,小蝌蚪們就是靠著學到的這些知識成功地找到瞭媽媽。反觀機器學習,由於“經驗”在計算機中主要是以“數據”的形式存在的,所以機器學習需要設法對數據進行分析,然後以此為基礎構建一個“模型”,這個模型就是機器最終學到的“知識”。可見,小蝌蚪學習的過程是從“經驗”學到“知識”的過程。相對應地,機器學習的過程則是從“數據”學到“模型”的過程。正是因為機器學習能夠從數據中學到“模型”,而數據挖掘的目的恰恰是找齣數據背後的“信息或知識”,二者不謀而閤,所以機器學習纔逐漸成為數據挖掘最為重要的智能技術供應者而備受重視。
正如前麵所說的,機器學習和統計學為數據挖掘提供瞭數據分析技術。而另一方麵,統計學也是機器學習得以建立的一個重要基礎。所以,統計學本身就是一種數據分析技術的同時,它也為以機器學習為主要手段的智能數據分析提供瞭理論基礎。可見統計學、機器學習和數據挖掘之間是緊密聯係的。基於這樣的認識,我們可以說本書的副標題“機器學習與數據分析”主要包含瞭下麵幾層意思。首先,如果把數據分析看作狹義上的以數理統計為基礎的統計分析方法,那麼本書就涵蓋瞭為數據挖掘提供分析技術的兩部分內容,即以機器學習為基礎的和以統計學為基礎的數據分析方法。其次,如果你把數據分析看作更為宏觀的包含瞭數據挖掘在內的廣義數據分析技術,那麼為瞭引入以機器學習為齣發點的智能分析技術,前期的統計分析知識則是幫助讀者夯實數據分析基礎的必要準備。
關於本書
R語言是當今最為流行的統計分析語言和數據分析環境之一。它是屬於GNU係統的一個自由、免費、源代碼開放的軟件,並擁有媲美於商業軟件的強大統計分析和繪圖功能。此外,R語言還擁有數以萬計貢獻者在為其開發各種功能包,配閤這些包的使用,R的功能得到瞭極大拓展,幾乎可以完成任何你想要的數據分析與挖掘任務。本書選擇R語言作為描述語言和開發環境,不僅通過諸多詳盡的實例來演示R的使用,更為那些新近接觸R語言的讀者提供瞭很好的入門指導。我們相信,無論你屬於何種程度的R語言使用者,都可以很好地利用本書來增進數據分析和挖掘的技術和能力。
經典統計理論和機器學習方法為數據挖掘提供瞭必要的分析技術。本書係統地介紹統計分析和機器學習領域中最為重要和流行的多種技術及其基本原理,在詳解有關算法的基礎上,結閤大量R語言實例演示瞭這些理論在實踐中的使用方法。具體內容被分成三個部分,即R語言編程基礎、基於統計的數據分析方法以及機器學習理論。統計分析與機器學習部分又具體介紹瞭參數估計、假設檢驗、極大似然估計、非參數檢驗方法(包括列聯分析、符號檢驗、符號秩檢驗等)、方差分析、綫性迴歸(包括嶺迴歸和Lasso方法)、邏輯迴歸、支持嚮量機、聚類分析(包括K均值算法和EM算法)和人工神經網絡等內容。同時,統計理論的介紹也為深化讀者對於後續機器學習部分的理解提供瞭很大助益。知識結構和閱讀進度的安排上既兼顧瞭循序漸進的學習規律,亦統籌考慮瞭夯實基礎的必要性。盡管作為一個非常宏大的話題,在有限的篇幅內我們不能將機器學習的所有方法盡述,但循著本書所提供的自學路綫圖,卻可以建立一個十分紮實的基礎以及對數據分析技術相當清晰的認識和理解。
統計學大師喬治?博剋斯曾經是統計學傢埃貢?皮爾遜的學生,而埃貢?皮爾遜則是統計學之父卡爾?皮爾遜的兒子。此外,喬治?博剋斯還是統計學界的另一位巨擘羅納德?費希爾的女婿。從 R語言實戰――機器學習與數據分析 下載 mobi epub pdf txt 電子書
很不錯的書,深入簡齣。
評分買瞭三韆多的書,慢慢看吧
評分很不錯,信賴京東。值得購買,物美價廉。京東購物放心。
評分好好學習,天天嚮上。
評分不錯不錯不錯
評分圖書超級品類日的活動太劃算瞭!買買買!給小外甥和自己買瞭一大堆
評分一段情,一場夢,幾多淚,幾多痛,傷瞭心,斷瞭腸。
評分包裝精緻,質量很好,和賣傢描述的一緻,寶貝性價比高,賣傢服務態度不錯,值得推薦購買。
評分早起呢!啊啊啊啊啊瞭嗎?
R語言實戰――機器學習與數據分析 pdf epub mobi txt 電子書 下載