發表於2025-01-11
機器學習與R語言實戰 pdf epub mobi txt 電子書 下載
涵蓋100多種數據分析和構建預測模型的實用方法,並提供簡單易實現的R源碼
用R進行數據分析已經成為各種機構的關注焦點。R讓沒有深厚的數學背景、僅對基本概念有一點直觀理解的人們可以相當有效和仔細地考察他們的數據。
本書通過展示各種使用R來生成專業分析報告的方法來使你更上一層樓。它提供瞭各類數據分析和機器學習示例,並且準備好瞭所需的數據供讀者立即嘗試。同時書中詳細講解瞭如何快速調整示例代碼來適應自己的需求,這將大大節約從零開始構建代碼所需要的時間。
通過閱讀本書,你將學到:
將數據導入R環境並為分析做好準備工作
執行探索性數據分析並生成有意義的數據可視化結果
應用一些機器學習技術來分類或者迴歸
藉助數據歸約技術來處理大型數據集
從時間序列數據中抽取特徵並基於它預測未來
如何從社交網絡數據中抽取齣可行信息
實施地理空間分析
通過報告來呈現令人信服的分析結論,並建立一個架構讓他人也能與數據交互
現在,越來越多的人開始接觸並考慮引入大數據技術來促進公司産品的銷售以獲得更多利潤,而機器學習已經成為除統計以外一種新的分析方法,采用學習算法既能提高數據模型的預測精準度,又確保瞭對商務活動及其發展過程的預測能夠脫離人腦計算能力的局限,使麵嚮大數據的分析處理在依托計算機大規模計算能力下得以完成。
本書由資深數據科學傢親筆撰寫,藉助當前機器學習和數據分析領域*常用的工具R語言,深入淺齣地介紹瞭采用R語言進行數據分析及構建預測模型的100多種實用方法,包括分類、迴歸、聚類、關聯分析等常用機器學習算法的實現,每一個算法都通過具體案例詳細說明構建模型、實現模型以及評價模型的過程。而且書中還係統講解瞭相關的R語言基礎知識,包括環境準備以及數據轉換、分析和結果可視化的方法。此外,還詳細展示瞭使用RHadoop處理和分析海量數據的過程。
本書融閤瞭作者在實踐機器學習算法來完成數據分析方麵的諸多心得,並且書中所有源代碼和實驗數據在配套的網站上都可以免費下載,相信閱讀完本書並親自動手完成書中所有算法案例後,你將對機器學習和R語言都有更深入的瞭解,設計學習算法來發現隱藏在數據中有價值的模式也不再是遙不可及的目標。
本書共11章。第1章介紹如何創建一個可用的R環境和基本的R命令;第2章講述如何使用R語言進行探索性數據分析;第3章重點探討數據采樣和概率分布的概念;第4章探討因變量和解釋變量集閤之間的綫性關係;第5章介紹基於樹的分類器:K近鄰分類器、邏輯迴歸分類器以及樸素貝葉斯分類器;第6章神經網絡和支持嚮量機;第7章展示一些模型評估的方法;第8章探討集成分類器;第9章講述多種聚類算法;第10章介紹關聯分析和序列挖掘;第11章介紹如何從原始變量中選擇和抽取特徵;第12章討論大數據分析(R和Hadoop)。
丘祐瑋(Yu-Wei Chiu)
Largit Data公司創始人,資深數據科學傢,之前曾就職於Trend Micro公司,主要負責為商務智能及客戶關係管理係統構建大型數據處理平颱。他專注於在數據分析中使用Spark和Hadoop技術來實現海量數據挖掘。同時,他還是一位資深講師,在各類Python、 R、 Hadoop及相關會議上多次分享技術報告。
譯者序
前言
作者簡介
審校者簡介
第1章 基於R實踐機器學習 1
1.1 簡介 1
1.2 下載和安裝R 3
1.3 下載和安裝RStudio 10
1.4 包的安裝和加載 13
1.5 數據讀寫 15
1.6 使用R實現數據操作 18
1.7 應用簡單統計 22
1.8 數據可視化 25
1.9 獲取用於機器學習的數據集 28
第2章 挖掘RMS Titanic數據集 32
2.1 簡介 32
2.2 從CSV文件中讀取Titanic數據集 33
2.3 根據數據類型進行轉換 36
2.4 檢測缺失值 38
2.5 插補缺失值 40
2.6 識彆和可視化數據 43
2.7 基於決策樹預測獲救乘客 50
2.8 基於混淆矩陣驗證預測結果的準確性 53
2.9 使用ROC麯綫評估性能 55
第3章 R和統計 58
3.1 簡介 58
3.2 理解R中的數據采樣 59
3.3 在R中控製概率分布 59
3.4 在R中進行一元描述統計 64
3.5 在R中進行多元相關分析 67
3.6 進行多元綫性迴歸分析 69
3.7 執行二項分布檢驗 71
3.8 執行t檢驗 73
3.9 執行Kolmogorov-Smirnov檢驗 76
3.10 理解Wilcoxon秩和檢驗及Wilcoxon符號秩檢驗 78
3.11 實施皮爾森卡方檢驗 80
3.12 進行單因素方差分析 82
3.13 進行雙因素方差分析 85
第4章 理解迴歸分析 90
4.1 簡介 90
4.2 調用lm函數構建綫性迴歸模型 90
4.3 輸齣綫性模型的特徵信息 93
4.4 使用綫性迴歸模型預測未知值 94
4.5 生成模型的診斷圖 96
4.6 利用lm函數生成多項式迴歸模型 98
4.7 調用rlm函數生成穩健綫性迴歸模型 99
4.8 在SLID數據集上研究綫性迴歸案例 101
4.9 基於高斯模型的廣義綫性迴歸 107
4.10 基於泊鬆模型的廣義綫性迴歸 109
4.11 基於二項模型的廣義綫性迴歸 111
4.12 利用廣義加性模型處理數據 112
4.13 可視化廣義加性模型 114
4.14 診斷廣義加性模型 116
第5章 分類I——樹、延遲和概率 119
5.1 簡介 119
5.2 準備訓練和測試數據集 119
5.3 使用遞歸分割樹建立分類模型 121
5.4 遞歸分割樹可視化 124
5.5 評測遞歸分割樹的預測能力 126
5.6 遞歸分割樹剪枝 128
5.7 使用條件推理樹建立分類模型 130
5.8 條件推理樹可視化 131
5.9 評測條件推理樹的預測能力 132
5.10 使用k近鄰分類算法 134
5.11 使用邏輯迴歸分類算法 137
5.12 使用樸素貝葉斯分類算法 142
第6章 分類II—神經網絡和SVM 146
6.1 簡介 146
6.2 使用支持嚮量機完成數據分類 147
6.3 選擇支持嚮量機的懲罰因子 149
6.4 實現SVM模型的可視化 152
6.5 基於支持嚮量機訓練模型實現類預測 154
6.6 調整支持嚮量機 157
6.7 利用neuralnet包訓練神經網絡模型 161
6.8 可視化由neuralnet包得到的神經網絡模型 164
6.9 基於neuralnet包得到的模型實現類標號預測 166
6.10 利用nnet包訓練神經網絡模型 168
6.11 基於nnet包得到的模型實現類標號預測 170
第7章 模型評估 173
7.1 簡介 173
7.2 基於k摺交叉驗證方法評測模型性能 173
7.3 利用e1071包完成交叉驗證 175
7.4 利用caret包完成交叉檢驗 176
7.5 利用caret包對變量重要程度排序 177
7.6 利用rminer包對變量重要程度排序 180
7.7 利用caret包找到高度關聯的特徵 181
7.8 利用caret包選擇特徵 182
7.9 評測迴歸模型的性能 187
7.10 利用混淆矩陣評測模型的預測能力 189
7.11 利用ROCR評測模型的預測能力 191
7.12 利用caret包比較ROC麯綫 193
7.13 利用caret包比較模型性能差異 196
第8章 集成學習 199
8.1 簡介 199
8.2 使用bagging方法對數據分類 200
8.3 基於bagging方法進行交叉驗證 203
8.4 使用boosting方法對數據分類 204
8.5 基於boosting方法進行交叉驗證 207
8.6 使用gradient boosting方法對數據分類 208
8.7 計算分類器邊緣 213
8.8 計算集成分類算法的誤差演變 216
8.9 使用隨機森林方法對數據分類 218
8.10 估算不同分類器的預測誤差 223
第9章 聚類 226
9.1 簡介 226
9.2 使用層次聚類處理數據 227
9.3 將樹分成簇 231
9.4 使用k均值方法處理數據 234
9.5 繪製二元聚類圖 237
9.6 聚類算法比較 239
9.7 從簇中抽取輪廓信息 241
9.8 獲得優化的k均值聚類 242
9.9 使用密度聚類方法處理數據 244
9.10 使用基於模型的聚類方法處理數據 248
9.11 相異度矩陣的可視化 251
9.12 使用外部驗證評估聚類效果 253
第10章 關聯分析和序列挖掘 256
10.1 簡介 256
10.2 將數據轉換成事務數據 257
10.3 展示事務及關聯 258
10.4 使用Apriori規則完成關聯挖掘 261
10.5 去掉冗餘規則 266
10.6 關聯規則的可視化 267
10.7 使用Eclat挖掘頻繁項集 270
10.8 生成時態事務數據 273
10.9 使用cSPADE挖掘頻繁時序模式 276
第11章 降維 279
11.1 簡介 279
11.2 使用FSelector完成特徵篩選 280
11.3 使用PCA進行降維 283
11.4 使用scree測試確定主成分數 287
11.5 使用Kaiser方法確定主成分數 289
11.6 使用主成分分析散點圖可視化多元變量 290
11.7 使用MDS進行降維 293
11.8 使用SVD進行降維 297
11.9 使用SVD進行圖像壓縮 299
11.10 使用ISOMAP進行非綫性降維 302
11.11 使用局部綫性嵌入法進行非綫性降維 306
第12章 大數據分析(R和Hadoop) 310
12.1 簡介 310
12.2 準備RHadoop環境 311
12.3 安裝rmr2 314
12.4 安裝rhdfs 315
12.5 在rhdfs中操作HDFS 316
12.6 在RHadoop中解決單詞計數問題 318
12.7 比較R MapReduce程序和標準R程序的性能差彆 320
12.8 測試和調試rmr2程序 321
12.9 安裝plyrmr 323
12.10 使用plyrmr處理數據 324
12.11 在RHadoop中實施機器學習 327
12.12 在Amazon EMR環境中配置RHadoop機群 330
附錄A R和機器學習的資源 335
附錄B Titanic幸存者的數據集 337
如今,大數據在諸多領域已經成為一個時髦的熱門詞匯,越來越多的人開始接觸並考慮引入這一技術以促進公司産品的銷售獲得更多利潤。然而,數據的采集、聚集以及可視化僅僅是數據分析整體工程的一部分,要從數據中抽取齣有價值的信息纔是一項有挑戰性的新工作。
大多數研究人員習慣依據曆史樣本數據進行統計分析,這種處理方法的弊端在於從統計分析中能夠獲得的信息十分有限。事實上,科學傢們經常要解決從目標數據中發現被隱藏的模式以及探索未知關係的問題。目前,機器學習已經逐漸成為除統計分析以外的一種新的分析方法,它使用學習算法,結閤輸入的樣本數據,能夠得到更加精確的預測模型。通過機器學習,商業操作及其發展趨勢的分析不再局限於人腦層麵的思考,機器層麵的分析使企業能夠在大數據中發現潛在價值。
R語言是目前機器學習和數據分析領域最常用的工具,開源和免費的優勢使得它成為最受數據科學傢們歡迎的主流語言。R語言為用戶提供瞭豐富的學習包和可視化函數,用戶不需要掌握任何分析過程背後數學模型的細節就能很簡單地通過R語言在數據集上執行機器學習算法,快捷地完成數據分析任務。
本書采取瞭務實的方法介紹如何使用R語言來實踐機器學習。全書共12章,每章包含若乾小節,當讀者循序漸進地學習完每一小節後,將能夠使用數目繁多的機器學習包構建自己的預測模型。
本書首先引導讀者學會搭建一個R語言環境並使用簡單的R命令來觀察數據。接下來讀者將學習利用機器學習算法進行統計分析並評價生成模型,以及如何使R語言與Hadoop結閤以構建大型數據分析平颱。本書所涉及的全部機器學習案例都附帶瞭詳細的說明。
我們相信,讀完這本書你將發現機器學習從來沒有這樣容易。
章節內容第1章介紹瞭如何創建一個可用的R環境和基本的R命令,包括數據讀取、數據操縱、簡單的統計分析以及數據的可視化。
第2章介紹瞭如何使用R語言進行探索性數據分析,以Titanic數據為例,探討瞭數據的轉換、分析以及結果的可視化。我們建立瞭一個預測模型,來判斷泰坦尼剋號可能的幸存者。
第3章首先重點探討瞭數據采樣和概率分布的概念,然後演示瞭對數據進行統計描述和統計推斷性統計的過程。
第4章探討一個因變量(響應變量)和一組或多組獨立的(預測量)解釋變量之間的綫性關係。讀者將學習使用各類迴歸模型來解釋數值間的關聯,同時還將學習運用閤適的模型對連續變量進行預測。
第5章介紹基於樹的分類器、k近鄰分類器、邏輯迴歸分類器以及樸素貝葉斯分類器。為瞭幫助讀者們能夠更好地理解分類器的工作方式,這一章提供瞭一個基於電信數據集的用戶分類實例。
第6章介紹瞭兩種復雜但功能強大的分類算法:神經網絡和支持嚮量機。盡管這些方法從根本而言難度都較大,但通過這一章的學習,讀者會發現在R語言裏使用這些算法做齣精確的預測是一件非常容易的事情。
第7章展示一些評估模型性能的方法,通過這些檢驗方法,我們能夠從中挑選齣最優化的模型應用於預測。
第8章探討集成分類器,相對於單一分類器,集成分類器在分類和迴歸處理方麵具有更多優勢。而鑒於其在很多數據預測比賽中的良好錶現,讀者更應該瞭解在項目中如何使用集成分類器。
第9章討論多種聚類算法。通過聚類,我們能夠發現對象間的共性,該章使用聚類算法對顧客進行劃分,同時比較瞭不同聚類算法之間的差異。
第10章討論瞭如何發現事務數據中所隱含的常見模式和關聯項。
第11章介紹如何從原始變量中選擇和抽取特徵。藉助降維,我們能夠消除冗餘特徵對分析結果的影響,並降低計算的代價以避免模型的過度適應。該章將藉助一個具體的圖像壓縮和存儲案例解釋降維方法。
第12章介紹RHadoop處理和海量數據分析,以及如何使用RHadoop。該章依次介紹瞭RHadoop環境的構建,使用機器學習方法處理實際的海量數據集,最後該章探討瞭使用亞馬遜彈性計算雲(Amazon EC2)服務來部署RHadoop集群。
附錄A提供R和與機器學習相關的所有資源。
附錄B提供泰坦尼剋號幸存者的數據集。
學習指南如果希望實踐本書中的案例,你需要一颱安裝瞭R語言包並且能夠訪問Internet的計算機。讀者可以從下載安裝程序,詳細的安裝說明可以在本書第1章中找到。
本書所提供的全部示例程序都已經在R 3.1.2版本+Windows環境下測試成功,這些示例也同樣適用於安裝在Mac OS X以及類UNIX OS係統上的最新版本的R語言包。
本書麵嚮的讀者本書適閤那些希望瞭解並掌握R語言實踐機器學習完成數據觀察的讀者,我們在書中介紹瞭R語言的基礎知識,那些具備基本編程能力或瞭解機器學習算法的讀者們能夠在學習本書後有所收獲,但如果讀者沒有任何R語言的基礎也沒有關係。
京東的書比當當的包裝要好,這本書還是比較不錯的,簡單易懂,我要努力
評分非常好非常好非常好非常好非常好!
評分拆開看瞭一眼,覺得不錯
評分以後要好好學習瞭
評分具有實戰價值,比較入門
評分書還不錯 活動很便宜
評分非常好,物超所值!
評分很棒,代碼很豐富
評分買瞭很多書,都挺新的,都用膜包著。慢慢看
機器學習與R語言實戰 pdf epub mobi txt 電子書 下載