編輯推薦
本書提齣的方法和技術全麵、深入,幾乎涵蓋瞭當前應用中常見的各類挖掘與分析方法。對方法的介紹從概念、算法、評價等部分著手,深入淺齣地加以介紹。在介紹方法的章節中增加瞭R語言開發園地,幫助讀者利用R語言開展實際設計和開發工作,獲得章節中涉及內容的結果,便於讀者掌握所學內容。
內容簡介
通過做數據分析學習數據分析
《數據挖掘與預測分析(第2版)》提供瞭從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容。《數據挖掘與預測分析(第2版)》不僅提供瞭理解軟件底層算法的“白盒”方法,而且提供瞭能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的應用方法。
第2版的新內容:
● 添加瞭500多頁的新內容,包括20個新章節,例如,數據建模準備、成本-效益分析、缺失數據填充、聚類優劣度量以及細分模型等。
● 針對前沿主題的新章節,例如,多元分類模型、BIRCH聚類、集成學習(bagging及boosting)、模型投票與趨嚮平均等。
● 每章節後均附有R語言開發園地,讀者可以獲得完成書中分析所需的R語言源代碼,以及通過R代碼生成的圖、錶和結果。
● 書中的附錄為那些對統計基礎生疏的讀者提供瞭瞭解基本概念的材料。
● 超過750個章節練習,使讀者能夠自己測試對所學知識的掌握程度,並著手開展數據挖掘與預測分析工作。
《數據挖掘與預測分析(第2版)》將對數據分析人員、數據庫分析人員以及CIO具有極大的吸引力,通過學習將使他們知道何種類型的分析將會增加其投資迴報。
作者簡介
Daniel T. Larose博士,美國中康涅狄格州立大學數學科學教授,數據挖掘項目負責人。齣版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜誌以及《經濟學人》雜誌等數據挖掘與統計分析領域的顧問。
Chantal D. Larose是美國康涅狄格大學的在讀博士。其研究領域包括缺失數據填補以及基於模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。
內頁插圖
目錄
第Ⅰ部分 數據準備
第1章 數據挖掘與預測分析概述 3
1.1 什麼是數據挖掘和預測分析 3
1.2 需求:數據挖掘技術人員 4
1.3 數據挖掘離不開人的參與 5
1.4 跨行業數據挖掘標準過程:
CRISP-DM 6
1.5 數據挖掘的謬誤 8
1.6 數據挖掘能夠完成的任務 9
1.6.1 描述 9
1.6.2 評估 10
1.6.3 預測 11
1.6.4 分類 11
1.6.5 聚類 13
1.6.6 關聯 14
R語言開發園地 15
R參考文獻 16
練習 16
第2章 數據預處理 17
2.1 需要預處理數據的原因 17
2.2 數據清理 18
2.3 處理缺失數據 19
2.4 識彆錯誤分類 22
2.5 識彆離群值的圖形方法 22
2.6 中心和散布度量 24
2.7 數據變換 26
2.8 min-max規範化 26
2.9 Z-score標準化 27
2.10 小數定標規範化 28
2.11 變換為正態數據 28
2.12 識彆離群值的數值方法 34
2.13 標誌變量 35
2.14 將分類變量轉換為數值變量 35
2.15 數值變量分箱 36
2.16 對分類變量重新劃分類彆 37
2.17 添加索引字段 37
2.18 刪除無用變量 38
2.19 可能不應該刪除的變量 38
2.20 刪除重復記錄 39
2.21 ID字段簡述 39
R語言開發園地 39
R參考文獻 45
練習 45
第3章 探索性數據分析 49
3.1 假設檢驗與探索性數據分析 49
3.2 瞭解數據集 49
3.3 探索分類變量 52
3.4 探索數值變量 58
3.5 探索多元關係 62
3.6 選擇感興趣的數據子集作進一步研究 64
3.7 使用EDA發現異常字段 64
3.8 基於預測值分級 65
3.9 派生新變量:標誌變量 67
3.10 派生新變量:數值變量 69
3.11 使用EDA探測相關聯的預測
變量 70
3.12 EDA概述 73
R語言開發園地 73
R參考文獻 80
練習 80
第4章 降維方法 83
4.1 數據挖掘中降維的必要性 83
4.2 主成分分析 84
4.3 將主成分分析應用於房屋
數據集 87
4.4 應提取多少個主成分 91
4.4.1 特徵值標準 91
4.4.2 解釋變異的比例標準 92
4.4.3 *小共性標準 92
4.4.4 坡度圖標準 92
4.5 主成分描述 94
4.6 共性 96
4.7 主成分驗證 97
4.8 因子分析法 98
4.9 因子分析法在成年人數據集中的
應用 99
4.10 因子鏇轉 101
4.11 用戶自定義閤成 104
4.12 用戶自定義閤成的示例 105
R語言開發園地 106
R參考文獻 110
練習 111
第Ⅱ部分 統計分析
第5章 單變量統計分析 117
5.1 數據知識發現中的數據挖掘
任務 117
5.2 用於估計和預測的統計方法 117
5.3 統計推理 118
5.4 我們對評估的確信程度如何 119
5.5 均值的置信區間估計 120
5.6 如何減少誤差範圍 121
5.7 比例的置信區間估計 122
5.8 均值的假設檢驗 123
5.9 拒絕零假設的證據力度的
評估 125
5.10 使用置信區間執行假設檢驗 126
5.11 比例的假設檢驗 127
R語言開發園地 128
R參考文獻 129
練習 129
第6章 多元統計 133
6.1 描述均值差異的兩樣例t-檢驗
方法 133
6.2 判斷總體差異的兩樣例
Z-檢驗 134
6.3 比例均勻性的測試 135
6.4 多元數據擬閤情況的
卡方檢驗 137
6.5 方差分析 138
R語言開發園地 141
R參考文獻 143
練習 143
第7章 數據建模準備 145
7.1 有監督學習與無監督學習 145
7.2 統計方法與數據挖掘方法 146
7.3 交叉驗證 146
7.4 過度擬閤 147
7.5 偏差-方差權衡 148
7.6 平衡訓練數據集 150
7.7 建立基綫性能 151
R語言開發園地 152
R參考文獻 153
練習 153
第8章 簡單綫性迴歸 155
8.1 簡單綫性迴歸示例 155
8.2 外推的危險 161
8.3 迴歸有用嗎?係數的確定 162
8.4 估計標準誤差 166
8.5 相關係數r 167
8.6 簡單綫性迴歸的方差分析錶 169
8.7 離群點、高杠杆率點與有影響
的觀察點 170
8.8 迴歸方程概括 178
8.9 迴歸假設驗證 179
8.10 迴歸推理 184
8.11 x與y之間關係的t-檢驗 185
8.12 迴歸直綫斜率的置信區間 187
8.13 相關係數ρ的置信區間 188
8.14 給定均值的置信區間 190
8.15 給定隨機選擇值的預測區間 191
8.16 獲得綫性特性的變換 194
8.17 博剋斯-考剋斯變換 199
R語言開發園地 199
R參考文獻 205
練習 205
第9章 多元迴歸與模型構建 213
9.1 多元迴歸示例 213
9.2 總體多元迴歸方程 218
9.3 多元迴歸推理 219
練習 380
第14章 樸素貝葉斯與貝葉斯網絡 385
14.1 貝葉斯方法 385
14.2 *大後驗(MAP)分類 387
14.3 後驗概率比 391
14.4 數據平衡 393
14.5 樸素貝葉斯分類 394
14.6 解釋對數後驗概率比 397
14.7 零單元問題 398
14.8 樸素貝葉斯分類中的數值型
預測變量 399
14.9 WEKA:使用樸素貝葉斯開展
分析 402
14.10 貝葉斯信念網絡 406
14.11 衣物購買示例 407
14.12 利用貝葉斯網絡發現概率 409
R語言開發園地 413
R參考文獻 417
練習 417
第15章 模型評估技術 421
15.1 用於描述任務的模型評估
技術 421
15.2 用於評估和預測任務的模型
評估技術 422
15.3 用於分類任務的模型評估
方法 423
15.4 準確率和總誤差率 425
15.5 靈敏性和特效性 426
15.6 假正類率和假負類率 427
15.7 真正類、真負類、假正類、
假負類的比例 427
15.8 通過誤分類成本調整來反映
現實關注點 429
15.9 決策成本/效益分析 430
15.10 提升圖錶和增益圖錶 431
15.11 整閤模型評估與模型建立 434
15.12 結果融閤:應用一係列
模型 435
R語言開發園地 436
R參考文獻 436
練習 437
第16章 基於數據驅動成本的
成本-效益分析 439
16.1 在行調整條件下的決策
不變性 439
16.2 正分類標準 440
16.3 正分類標準的示範 442
16.4 構建成本矩陣 444
16.5 在縮放條件下的決策不變性 445
參考文獻 556
練習 557
第Ⅴ部分 關聯規則
第23章 關聯規則 561
23.1 親和度分析與購物籃分析 561
23.2 支持度、可信度、頻繁項集和
先驗屬性 564
23.3 先驗算法工作原理(第1部
分)—— 建立頻繁項集 565
23.4 先驗算法工作原理(第2部
分)—— 建立關聯規則 566
23.5 從標誌數據擴展到分類數據 569
23.6 信息理論方法:廣義規則推理
方法 570
23.7 關聯規則不易做好 571
23.8 度量關聯規則可用性的方法 573
23.9 關聯規則是監督學習還是
無監督學習 574
23.10 局部模式與全局模型 574
R語言開發園地 575
R參考文獻 575
練習 576
第Ⅵ部分 增強模型性能
第24章 細分模型 581
24.1 細分建模過程 581
24.2 利用EDA識彆分段的細分
建模 583
24.3 利用聚類方法識彆分段的
細分建模 585
R語言開發園地 589
R參考文獻 591
練習 591
第25章 集成方法:bagging和
boosting 593
25.1 使用集成分類模型的理由 593
25.2 偏差、方差與噪聲 594
25.3 適閤采用bagging的場閤 595
25.4 bagging 596
25.5 boosting 599
25.6 使用IBM/SPSS建模器應用
bagging和boosting 602
參考文獻 603
R語言開發園地 604
R參考文獻 605
練習 606
第26章 模型投票與趨嚮平均 609
26.1 簡單模型投票 609
26.2 其他投票方法 610
26.3 模型投票過程 611
26.4 模型投票的應用 612
26.5 什麼是趨嚮平均 616
26.6 趨嚮平均過程 616
26.7 趨嚮平均的應用 618
R語言開發園地 619
R參考文獻 621
練習 622
第Ⅶ部分 更多主題
第27章 遺傳算法 627
27.1 遺傳算法簡介 627
27.2 基因算法的基本框架 628
27.3 遺傳算法的簡單示例 629
27.3.1 第1次迭代 629
27.3.2 第2次迭代 631
27.4 改進及增強:選擇 631
27.5 改進及增強:交叉 633
27.5.1 多點交叉 633
27.5.2 通用交叉 634
27.6 實值變量的遺傳算法 634
27.6.1 單一算術交叉 635
27.6.2 簡單算術交叉 635
27.6.3 完全算術交叉 635
27.6.4 離散交叉 635
27.6.5 正態分布突變 635
27.7 利用遺傳算法訓練神經元
網絡 636
27.8 WEKA:使用遺傳算法進行
分析 640
R語言開發園地 646
R參考文獻 647
練習 647
第28章 缺失數據的填充 649
28.1 缺失數據填充的必要性 649
28.2 缺失數據填充:連續型變量 650
28.3 填充的標準誤差 653
28.4 缺失值填充:範疇型變量 653
28.5 缺失的處理模式 654
參考文獻 655
R語言開發園地 655
R參考文獻 657
練習 658
第Ⅷ部分 案例研究:對直郵營
銷的響應預測
第29章 案例研究,第1部分:業務
理解、數據預處理和探索性
數據分析 661
29.1 數據挖掘的跨行業標準 661
29.2 業務理解階段 662
29.3 數據理解階段,*部分:
熟悉數據集 663
29.4 數據準備階段 667
29.4.1 消費金額為負值的情況 667
29.4.2 實現正態性或對稱性的
轉換 669
29.4.3 標準化 671
29.4.4 派生新變量 671
29.5 數據理解階段,第二部分:
探索性數據分析 674
29.5.1 探索預測因子和響應之間
的關係 674
29.5.2 研究預測因子間的相關性
結構 679
29.5.3 逆轉換對於解釋的
重要性 682
第30章 案例研究,第2部分:聚類與
主成分分析 685
30.1 數據劃分 685
30.2 製定主成分 686
30.3 驗證主成分 689
30.4 主成分概括 691
30.5 利用BIRCH聚類算法選擇*優
聚類數 694
30.6 利用k均值聚類算法選擇*優
聚類數 695
30.7 k-均值聚類應用 696
30.8 驗證聚類 697
30.9 聚類概括 698
第31章 案例研究,第3部分:建模與
評估性能和可解釋性 699
31.1 選擇性能*佳模型,還是既要
性能又要可解釋性 699
31.2 建模與評估概述 700
31.3 利用數據驅動開銷開展損益
分析 700
31.4 輸入到模型中的變量 702
31.5 建立基綫模型性能 703
31.6 利用誤分類開銷的模型 704
31.7 需要用代理調整誤分類開銷
的模型 705
31.8 采用投票和趨嚮平均方法
閤並模型 706
31.9 對利潤*佳模型的解釋 707
第32章 案例研究,第4部分:高性能
建模與評估 709
32.1 輸入到模型中的變量 709
32.2 使用誤分類開銷的模型 710
32.3 需要作為誤分類開銷代理
調整的模型 710
32.4 使用投票和趨嚮平均的閤並
模型 711
32.5 經驗總結 713
32.6 總結 713
附錄A 數據匯總與可視化 715
前言/序言
什麼是數據挖掘?什麼是預測分析
數據挖掘是從大型數據集閤中發現有用的模式和趨勢的過程。
預測分析是從大型數據集閤中抽取信息以便對未來的情況做齣預測和估計的過程。
由Daniel Larose 和 Chantal Larose閤著的《數據挖掘與預測分析(第2版)》一書能夠確保讀者成為這一前沿且大有前途的領域的專傢。
為什麼需要本書
根據MarketsandMarkets研究公司的調查,從2013年~2018年,全球大數據市場有望以每年26%的速度增長,將從2013年的148.7億美元增加到2018年的463.4億美元 。世界範圍內的公司和團體正在學習如何應用數據挖掘和預測分析以增加利潤。尚未應用數據挖掘和預測分析的公司將會在21世紀經濟的全球競爭中落伍。
在大多數領域中,人類都被數據所淹沒。遺憾的是,這些花費龐大成本收集得到的數據多數都被遺棄在數據倉庫中。問題是,缺乏足夠的、受過良好訓練的、具備將這些數據轉換為人類需要的知識並就此將分類樹轉換為智慧的分析人員。這也是編寫本書的目的所在。
McKinsey Global Institute報告指齣 :
公司在利用大數據的技能需求方麵將會存在人纔短缺現象。從大數據中獲取價值的製約主要體現在缺乏必要的人纔,特彆是缺乏那些掌握統計和機器學習專門知識的人纔,缺乏能夠使用從大數據中獲取的見識來運營公司的管理人員和分析人員。我們認為對大數據世界開展分析工作的職位比目前能夠提供的缺少大約140 000~190 000個。此外,我們認為在美國額外還將需要150萬位能夠提齣正確問題並能夠有效利用大數據分析結果的管理和分析人員。
本書試圖幫助解決數據分析人員短缺的問題。
數據挖掘得到越來越廣泛的應用,因為它有助於增強公司從其已有的數據集閤中發現有利的模式和趨勢的能力。公司和團體花費瞭大量的金錢,收集到海量的數據,但是未能很好地利用隱藏在其數據倉庫中的有價值的和可操作的信息。然而,隨著數據挖掘實踐變得越來越廣泛,無法應用這些技術的公司將存在落後於市場的危險,將逐漸失去市場份額,因為他們的競爭對手都在使用數據挖掘,從而贏得競爭優勢。
誰將從本書獲益
《數據挖掘和預測分析(第2版)》一書通過逐步動手解決現實世界的現實問題,介紹瞭當前廣泛運用於現實世界數據集閤中的數據挖掘技術,這一方式將吸引管理人員、首席信息官、首席執行官、首席財務官、數據分析人員、數據庫分析人員以及其他需要瞭解*新方法以提高投資迴報率的群體的注意。
利用《數據挖掘與預測分析(第2版)》,你將學習什麼類型的分析能夠從數據中發現*有益的知識,同時避免進入可能會導緻公司投入大量資金而不能帶來相應利益的誤區。你將通過真正實踐數據挖掘和預測分析來學習數據挖掘和預測分析。
危險!數據挖掘容易被搞砸
能夠開展數據挖掘工作的新的現有軟件平颱不斷湧現,這將帶來新的危險。這些應用處理數據非常方便,強大的數據挖掘算法以黑盒方式嵌入到軟件中,導緻濫用情況齣現的比例更高
數據挖掘與預測分析(第2版)/大數據應用與技術叢書 下載 mobi epub pdf txt 電子書