産品特色
編輯推薦
公認*威教材,數據挖掘資深專傢10餘年大數據挖掘與實施經驗結晶。華南師範大學、廣東工業大學、廣西科技大學等20餘所大學選為教材,附贈源代碼,配有教學PPT和上機實驗
10餘位數據挖掘領域資深專傢和科研人員,10餘年大數據挖掘谘詢與實施經驗結晶。
為零基礎R語言與數據挖掘教學和自學量身打造,係統講解R語言與數據挖掘的必備知識,配有大量的上機實驗、源代碼和教學PPT資源。
內容簡介
這是公認的、權*的適閤教學和零基礎自學的R語言與數據挖掘教程,華南師範大學、廣東工業大學、廣西科技大學等20餘所大學選為教材。即便你完全沒有R語言編程基礎和數據挖掘基礎,根據本書中的理論知識和上機實踐,你也能迅速掌握如何使用R語言進行數據挖掘。本書已經被多少高校預定為教材,為瞭便於教學,書中還提供瞭大量的上機實驗和教學資源。
本書主要分為三個部分:
基礎篇(1~5章),主要包括R語言及圖形操作工具RStudio的安裝及使用方法、數據類型和數據對象、數據預處理的常用操作(包括數據重命名、缺失值分析、排序、隨機抽樣等)、繪圖功能(包括散點圖、直方圖、條形圖、箱綫圖等)。
建模應用篇(6~10章),主要對數據挖掘中的常用算法的函數在R語言中的使用方法及其結果解釋進行瞭介紹。涵蓋瞭目前數據挖掘的5大類算法,包括分類與預測、聚類分析、關聯規則、智能推薦和時序模式。按照模型建立至模型評價的架構進行介紹,使讀者能熟練的掌握從建模到對模型評價的完整建模過程。
Rattle篇(11章),此工具能夠在一個圖形化的界麵上對本書所介紹的R語言功能進行操作,使讀者能更好的體驗到使用R語言進行數據挖掘的整個流程。
書中配套提供瞭原始樣本數據文件及對應章節示例代碼。每個章節有對應的練習實驗和教學PPT,讀者可通過完成對應的練習,迅速掌握R語言的用法和數據挖掘的方法。
作者簡介
張良均,資深大數據挖掘專傢,高級信息項目管理師,有近20年的大數據挖掘應用、谘詢和培訓經驗,被稱為“中國大數據挖掘培訓教父”。為電信、電力、政府、互聯網、生産製造、零售、銀行、生物、化工、醫藥等多個行業上百傢大型企業提供過數據挖掘應用與谘詢服務,實踐經驗豐富。現任廣東工業大學、華南師範大學、華南農業大學等6所高校兼職教授。著有《神經網絡實用教程》《數據挖掘:實用案例分析》《R語言數據分析與挖掘實戰》等暢銷圖書。
謝佳標,資深R語言專傢,多次於中國R語言大會發錶演講,具有十餘年的數據挖掘實戰經驗。目前於某上市互聯網遊戲公司,任高級數據分析師,負責大數據挖掘及可視化。培訓過的精品課程有:《R語言基礎培訓》《數據分析之R語言實戰》《機器學習與R語言實踐》等。
萬正勇,某國際投行VP,有超過10年的金融係統大數據挖掘及分析經驗,超過15年的大型金融機構核心交易係統規劃設計開發經驗。數據庫及中間件專傢,先後獲得中國首屆十大傑齣數據庫工程師,Oracle 中間件 ACE Director以及 Oracle 數據庫 ACE 等稱號。曾為電信,電力,航空,銀行,保險,互聯網,交通,製造等等行業相關龍頭企業提供過谘詢服務。著有《衍生數學》,《Oracle數據庫DBA專題技術精粹》等暢銷書。
目錄
前 言
第一部分 基礎篇
第1章 R語言的安裝與使用 2
1.1 R安裝與升級 3
1.2 R使用入門 4
1.2.1 R操作界麵 4
1.2.2 RStudio窗口介紹 5
1.2.3 R常用操作 6
1.3 R數據分析包 8
1.4 配套資源使用說明 10
1.5 小結 10
1.6 上機實驗 10
第2章 數據對象與數據讀寫 12
2.1 數據類型 12
2.2 數據結構 16
2.2.1 嚮量 16
2.2.2 矩陣 19
2.2.3 數組 24
2.2.4 數據框 25
2.2.5 因子 28
2.2.6 列錶 31
2.3 數據文件的讀寫 34
2.3.1 鍵盤輸入數據 34
2.3.2 讀取不同格式的數據 35
2.3.3 從其他統計軟件獲取數據 37
2.3.4 從數據庫獲取數據 37
2.3.5 從網頁獲取數據 39
2.4 小結 40
2.5 上機實驗 40
第3章 R語言常用數據管理 42
3.1 變量的重命名 42
3.2 缺失值分析 45
3.3 數據排序 46
3.4 隨機抽樣 48
3.5 數值運算函數 49
3.6 字符串處理 52
3.7 文本分詞 56
3.8 apply函數族 62
3.9 數據整閤 65
3.10 控製流 68
3.11 函數的編寫 71
3.12 小結 72
3.13 上機實驗 73
第4章 圖形探索 75
4.1 圖形元素 76
4.1.1 顔色 76
4.1.2 點 80
4.1.3 文本 82
4.1.4 綫條 86
4.1.5 圖例 91
4.1.6 坐標軸 92
4.2 圖形組閤 94
4.3 圖形保存 97
4.4 圖形函數 98
4.5 小結 116
4.6 上機實驗 116
第5章 高級繪圖工具 117
5.1 lattice包繪圖工具 117
5.1.1 繪圖特色 117
5.1.2 基本圖形 122
5.2 ggplot2包繪圖工具 135
5.2.1 從qplot開始 135
5.2.2 ggplot作圖 137
5.3 交互式繪圖工具簡介 142
5.3.1 rCharts包 143
5.3.2 recharts包 147
5.3.3 googleVis包 147
5.3.4 htmlwidgets包 148
5.3.5 shiny包 153
5.4 小結 163
5.5 上機實驗 163
第二部分 建模應用篇
第6章 分類與預測 166
6.1 迴歸分析 166
6.2 決策樹 175
6.2.1 C4.5算法 176
6.2.2 CART算法 178
6.2.3 C5.0算法 180
6.3 人工神經網絡 181
6.4 KNN算法 183
6.5 樸素貝葉斯分類 185
6.6 其他分類與預測算法函數 187
6.7 分類與預測算法評價 192
6.8 小結 196
6.9 上機實驗 196
第7章 聚類分析 198
7.1 K-Means聚類分析函數 199
7.2 層次聚類算法 204
7.3 其他聚類分析函數 207
7.4 小結 211
7.5 上機實驗 212
第8章 關聯規則 213
8.1 Apriori關聯規則 214
8.2 小結 226
8.3 上機實驗 226
第9章 智能推薦 228
9.1 智能推薦模型構建 228
9.2 智能推薦模型評價 232
9.3 小結 235
9.4 上機實驗 235
第10章 時間序列 237
10.1 ARIMA模型 237
10.2 其他時間序列模型 245
10.3 小結 250
10.4 上機實驗 251
第三部分 Rattle篇
第11章 可視化數據挖掘工具Rattle 254
11.1 Rattle簡介及其安裝 254
11.1.1 Rattle簡介 254
11.1.2 Rattle安裝 254
11.2 功能預覽 255
11.3 數據導入 256
11.3.1 導入CSV數據 256
11.3.2 導入ARFF數據 261
11.3.3 導入ODBC數據 262
11.3.4 R Dataset——導入其他數據源 264
11.3.5 導入RData File數據集 267
11.3.6 導入Library數據 268
11.4 數據探索 269
11.4.1 數據總體概況 269
11.4.2 數據分布探索 272
11.4.3 相關性 275
11.4.4 主成分 277
11.4.5 交互圖 278
11.5 數據建模 283
11.5.1 聚類分析 283
11.5.2 關聯規則 288
11.5.3 決策樹 291
11.5.4 隨機森林 293
11.6 模型評估 296
11.6.1 混淆矩陣 296
11.6.2 風險圖 296
11.6.3 ROC圖及相關圖錶 297
11.6.4 模型得分數據集 298
11.7 小結 299
11.8 上機實驗 299
參考資料 301
前言/序言
為什麼要寫本書R語言是什麼?R是一種適用於統計分析計算和圖像處理的語言,受S語言和Scheme語言影響發展而來。早期R是基於S語言的一個GNU項目,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不做任何修改地在R環境下運行。R的語法來自Scheme,作為一款誕生於20世紀90年代的語言,R已經成為S統計編程語言的一類實現方式。
R編程語言在數字分析與機器學習領域已經成為一款重要的工具。隨著機器逐步成為愈發核心的數據生成器,該語言的人氣也一路攀升。正如Tiobe、PyPL以及Redmonk等編程語言人氣排名所指齣,R語言所受到的關注程度正在快速提升。Rexer Analytics發布的2013年數據挖掘人員調查顯示,70%的數據挖掘人員使用R軟件進行分析工作,其中有24%將其作為主要工具。這些結果類似於 2013 年KDnuggets調查的結果,該調查指齣有61%的響應者錶示正在使用R處理分析、數據挖掘和數據科學工作。相比前一年,這一比例上升瞭16%。
R語言有一些明顯的優勢:
1)R語言作為一款開源軟件,是完全免費的,對比昂貴的SPSS和SAS等統計軟件,這無疑是一個巨大的優勢。
2)R語言擁有一個龐大的社區來進行維護,龐大的軟件包生態係統無疑是R語言最為突齣的優勢之一。
3)R語言具備可擴展能力且擁有豐富的功能選項,幫助開發人員構建自己的工具及方法,從而順利實現數據分析。
4)R語言簡單易學。雖與C語言之類的程序設計語言已差彆很大(比如語言結構相對鬆散,使用變量前不需要明確正式定義變量類型等),但仍保留瞭程序設計語言的基礎邏輯與自然的語言風格。
從R的普及來看,國外的普及度要明顯好於國內,與盜版Windows的泛濫會影響Linux在中國的普及一樣,破解的MATLAB與SPSS的存在也影響瞭R在中國的使用。但在國外高校的統計係,R幾乎是一門必修的語言,具有統治性的地位。在工業界,作為互聯網公司翹楚的Google內部也有不少工程使用R進行數據分析工作。隨著數據挖掘在國內的發展,國內對R語言的需求必將隨之一起發展。
總的來說,R語言是一款用於統計分析、數據可視化和預測建模的數據分析軟件,它不單單隻是一門語言,更是一個數據計算與分析的環境。R支持幾乎所有數據分析所需的數據處理、統計模型和圖錶,支持大量的第三方功能包,涵蓋瞭從統計計算到機器學習,從金融分析到生物信息,從社會網絡分析到自然語言處理,從各種數據庫各種語言接口到高性能計算模型等內容。隨著大數據時代的來臨,數據挖掘將更加廣泛地滲透到各行各業中去,而R語言作為數據挖掘裏的熱門工具,將會有更多其他行業的人加入到R語言的使用者行列中來。R語言的使用課程成為高校中數學與統計學專業的重要課程將是必然的趨勢。
本書特色本書從實際應用齣發,結閤實例及應用場景,深入淺齣地介紹瞭R語言應用的相關知識:R語言的安裝及使用、數據對象與數據讀寫、常用數據管理、圖形探索、高級繪圖工具及常用的建模算法在R語言中的實現方式。書中以R語言的函數應用為主,先介紹瞭函數的應用場景及使用格式,再給齣函數的應用實例,最後對函數的運行結果做齣瞭解釋,將掌握函數應用的所需知識點按照實際使用的流程展示齣來。
為方便理解R語言中相關函數的使用,本書提供示例代碼及所用數據等相關資源下載,讀者可以從“泰迪杯”全國數據挖掘挑戰賽網站(http://www.tipdm.org/ts/747.jhtml)免費獲取。也可以通過熱綫電話(40068-40020)、企業QQ(40068-40020)及以下微信公眾號谘詢獲取。
TipDM 張良均〈大數據挖掘産品與服務〉本書適用對象開設有數據挖掘課程的高校教師和學生。
目前國內不少高校將數據挖掘引入本科教學中,在數學、計算機、自動化、電子信息、金融等專業開設瞭數據挖掘技術相關的課程,但目前這一課程的教學工具仍然為SPSS、SAS等傳統統計工具,並沒有使用R語言作為挖掘工具。本書提供瞭有關R語言的從安裝到使用的一係列知識,將能有效指導高校教師和學生使用R語言工具進行數據挖掘。
數據挖掘開發人員。
這類人員可以在理解數據挖掘應用需求和設計方案的基礎上,結閤書中提供的R語言的使用方法快速實現數據挖掘應用的編程。
進行數據挖掘應用研究的科研人員。
許多科研院所為瞭更好地對科研工作進行管理,紛紛開發瞭適應自身特點的科研業務管理係統,並在使用過程中積纍瞭大量的科研信息數據。R語言可以提供一個優異的環境對這些數據進行挖掘分析應用。
關注高級數據分析的人員。
R語言作為一個專業的數據分析軟件,能為數據分析人員提供可靠的依據。
如何閱讀本書本書主要分為三個部分,基礎篇、建模應用篇和Rattle篇。基礎篇介紹瞭有關R語言的安裝與使用、R語言中的數據結構、常用操作和繪圖功能等基礎功能。建模應用篇主要介紹瞭目前在數據挖掘中常用的建模方法在R語言中的實現函數,並對輸齣結果進行瞭解釋,有助於讀者快速掌握應用R語言進行分析挖掘建模的方法。讀者可結閤本書提供的示例代碼及數據進行上機實驗,快速掌握R語言的使用方法。
第一部分是基礎篇(第1~5章),第1章主要介紹瞭R語言及圖形操作工具RStudio的安裝及使用方法,第2章對R語言中的數據類型和數據對象及不同格式的數據讀入和導齣R語言進行瞭介紹,第3章描述瞭R語言中對數據所能做的常用操作,包括變量的重命名、缺失值分析、排序、隨機抽樣等,第4、5章主要對R語言的繪圖功能進行瞭介紹,涵蓋常用圖形如散點圖、直方圖、條形圖、箱綫圖等,且一並介紹瞭一些基於R語言的可用於生成交互式圖形的軟件包。
第二部分是建模應用篇(第6~10章),主要對數據挖掘中常用算法的函數在R語言中的使用方法及其結果進行瞭介紹,涵蓋瞭目前數據挖掘的5大類算法,包括分類與預測、聚類分析、關聯規則、智能推薦和時間序列。按照從模型建立到模型評價架構的順序進行介紹,使讀者能熟練地掌握從建模到對模型評價的完整建模過程。
第三部分是Rattle篇(第11章),介紹瞭一個R語言的圖形界麵工具Rattle,此工具能夠在一個圖形化的界麵上對本書介紹的R語言功能進行操作,使讀者能更好地體驗到使用R語言進行數據挖掘的整個流程。
勘誤和支持除封麵署名作者外,參加本書編寫工作的還有黃博、陳婷婷、王路、陳玉輝、楊徵、施興、徐英剛、鄭澤如、張樂兒、黃東鑫等。由於水平有限,編寫時間倉促,書中難免會齣現一些錯誤或者不準確的地方,懇請讀者批評指正。本書內容的更新將及時在“泰迪杯”全國數據挖掘挑戰賽網站上發布。讀者可通過微信公眾號TipDM、TipDM官網反饋有關問題。也可通過熱綫電話或企業QQ進行在綫谘詢。
緻謝本書編寫過程中得到瞭廣大高校師生的大力支持,在此謹嚮華南農業大學、華南師範大學、廣東工業大學、廣東技術師範學院、華南理工大學、韓山師範學院、中山大學、貴州師範學院等單位給予支持的領導及師生緻以深深的謝意。
在本書編輯和齣版過程中還得到瞭參與“泰迪杯”全國數據挖掘挑戰賽的眾多師生及機械工業齣版社楊福川老師無私的幫助與支持,在此一並錶示感謝。
張良均2016年4月
R語言與數據挖掘 下載 mobi epub pdf txt 電子書