編輯推薦
適讀人群 :本書可作為管理、經濟、社會人文、心理學等人員學習數據可視化分析的參考書籍,也可以作為高校計算機相關專業本科生、研究生的教材或教學參考書。 講解過程圖文並茂,讀者學習時更加輕鬆;
講解詳細,並安排瞭項目實例,使讀者能夠邊學邊練,在短時間內就可以有一個較大的提高。采用由淺入深、簡單實用的形式,方便讀者快速掌握可視化軟件的基本操作,並通過係統的案例使讀者迅速掌握應用技巧。
內容簡介
數據可視化允許利用圖形、圖像處理、計算機視覺以及用戶界麵,通過錶達、建模以及對立體、錶麵、屬性以及動畫的顯示,對數據加以可視化解釋,數據可視化技術在國內市場長期看好,而現階段國內相關書籍相對較少,本書選擇這個方嚮進行係統基礎研究,希望為那些在想此領域有所發展的讀者提供學習幫助。在本書中,我們首先介紹數據可視化的一些基本知識,隨後重點介紹使用Tableau、SAS及SPSS Modeler的可視化界麵進行數據分析與數據挖掘的方法。
作者簡介
王國平,大數據分析師,具體工作經曆如下:2011-2014 上海大智慧股份有限公司 數據研究員2014-2016 中國電信上海分公司 大數據分析師2016至今 上海博轅信息技術服務有限公司 數據分析師
目錄
目錄
序 言 1
第1部分 11
數據可視化篇 11
1.1 數據可視化 12
1.1.1 Tableau 13
1.1.2 QlikView 15
1.1.3 Power BI 15
1.2 可視化數據挖掘 16
1.2.1 IBM SPSS Modeler 16
1.2.2 Intelligent Miner 17
1.2.3 SAS Enterprise Miner 18
2.1 軟件頁麵簡介 20
2.1.1 開始頁麵 21
2.1.2 數據源頁麵 23
2.1.3 工作簿頁麵 24
2.2 數據類型 25
2.2.1 主要數據類型 25
2.2.2 更改數據類型 26
2.3 運算符及優先級 28
2.3.1 算術運算符 28
2.3.2 邏輯運算符 29
2.3.3 比較運算符 29
2.3.4 運算符優先級 29
2.4 軟件安裝 30
2.4.1軟件下載 30
2.4.2安裝步驟 31
2.4.3軟件激活 35
2.5 文件類型 37
3.1連接到文件 39
3.1.1 Excel文件 39
3.1.2 文本文件 41
3.1.3 Access 43
3.1.4 JSON文件 45
3.1.5 PDF文件 47
3.1.6 空間文件 49
3.1.7 統計文件 51
3.1.8 其他文件 53
3.2連接到數據庫 54
3.2.1Tableau Server 54
3.2.2 SQL Server 55
3.2.3 MySQL 56
3.2.4 Oracle 58
3.2.5 Amazon Redshift 59
3.2.6 更多數據庫 61
4.1維度和度量 64
4.1.1 維度 64
4.1.2 度量 66
4.2連續和離散 67
4.2.1 連續字段 67
4.2.2 離散字段 68
4.3工作區操作 68
4.3.1“數據”窗格 69
4.3.2“分析”窗格 71
4.3.3工具欄 71
4.3.4狀態欄 72
4.3.5卡和功能區 73
4.4工作錶操作 74
4.4.1創建工作錶 75
4.4.2復製工作錶 75
4.4.3導齣工作錶 77
4.4.4刪除工作錶 77
4.5Tableau高級應用 78
4.5.1錶計算 78
4.5.2創建字段 81
4.5.3創建參數 83
4.5.4聚閤計算 90
4.5.5缺失值處理 92
5.1單變量圖形 95
5.1.1條形圖 95
5.1.2餅圖 98
5.1.3直方圖 100
5.1.4摺綫圖 101
5.2 多變量圖形 103
5.2.1散點圖 103
5.2.2甘特圖 105
5.3 地圖 106
5.3.1設置角色 106
5.3.2標記地圖 108
5.3.3添加字段信息 108
5.3.4設置地圖選項 109
5.3.5創建分布圖 112
5.3.6自定義地圖 112
第2部分 114
可視化數據挖掘篇 114
6.1 軟件簡介 115
6.1.1 軟件曆史 115
6.1.2 軟件界麵 117
6.1.3 軟件特點 123
6.2 算法及功能 124
6.2.1 軟件算法 124
6.2.2 軟件功能 125
6.3 軟件安裝及啓動 127
6.3.1 軟件安裝 127
6.3.2 授權許可 131
6.3.3 啓動軟件 134
7.1 業務理解 137
7.2 數據理解 138
7.3 數據準備 138
7.4 建立模型 140
7.5 評估模型 140
7.6 應用模型 141
8.1 連接到文件 142
8.1.1 Excel文件 142
8.1.2 變量文件 143
8.1.3 固定文件 145
8.1.4 SAS文件 146
8.1.5 Statistics文件 146
8.2 連接到數據庫 147
9.1 數據流操作 151
9.1.1 生成數據流 151
9.1.2 添加和刪除節點 151
9.1.3 連接數據流 152
9.1.4 修改連接節點 153
9.1.5 執行數據流 155
9.2 圖形製作 155
9.2.1 散點圖 155
9.2.2 直方圖 157
9.2.3 網絡圖 158
9.2.4 評估圖 160
第3部分 162
案例實戰篇 162
10.1 建模思路 164
10.2 Logistic迴歸 165
10.3 業務理解 167
10.4 數據理解 168
10.5 數據準備 171
10.6 建立模型 173
10.6.1 模型參數設置 173
10.6.2 模型運行結果 183
10.7 模型評估 187
10.7.1 模型精確度 187
10.7.2 模型擬閤度 187
10.8 模型應用 189
10.9 小結 192
11.1 建模思路 194
11.2 時間序列模型 195
11.3 業務理解 196
11.4 數據理解 197
11.5 數據準備 198
11.6 建立模型 200
11.6.1模型參數設置 200
11.6.2 模型運行結果 216
11.7 模型評估 218
11.8 模型應用 220
11.9 小結 221
12.1 建模思路 223
12.2 聚類模型 224
12.3 業務理解 225
12.4 數據理解 226
12.5 數據準備 228
12.6 建立模型 230
12.6.1模型參數設置 230
12.6.2 模型運行結果 233
12.7 模型評估 236
12.8 模型應用 239
12.9 小結 241
13.1 建模思路 243
13.2 判彆分析 244
13.3 業務理解 245
13.4 數據理解 246
13.5 數據準備 248
13.6 建立模型 249
13.6.1 模型參數設置 249
13.6.2模型運行結果 257
13.7 模型評估 262
13.8 模型應用 263
13.9 小結 265
14.1 建模思路 268
14.2 神經網絡模型 269
14.2.1 神經元 270
14.2.2 多層感知器 272
14.2.3 徑嚮基函數 273
14.3 業務理解 275
14.4 數據理解 276
14.5 數據準備 278
14.6 建立模型 280
14.6.1 模型參數設置 280
14.6.2模型運行結果 287
14.7 模型評估 291
14.8 模型應用 292
14.9 小結 294
15.1 建模思路 296
15.2 決策樹模型 297
15.3 業務理解 299
15.4 數據理解 300
15.5 數據準備 303
15.6 建立模型 306
15.6.1 模型參數設置 306
15.6.2 模型運行結果 316
15.7 模型評估 318
15.7.1 模型精確度 318
15.7.2 模型擬閤度 318
15.8 模型應用 320
15.9 小結 323
附錄A 324
配置MySQL ODBC數據源 324
A1 添加數據源管理器 324
A2 選擇相應的驅動程序 324
A3 連接數據庫服務器 325
附錄B 327
Tableau重要函數 327
B1 數字函數 327
B2 字符串函數 329
B3 日期函數 331
B4 類型轉換 334
B5 邏輯函數 335
B6 聚閤函數 337
B7 直通函數 338
B8 用戶函數 340
B9 錶計算函數 341
B10 其他函數 346
附錄C 349
SPSS Modele函數 349
C1 信息函數 349
C2 轉換函數 350
C3 比較函數 351
C4 邏輯函數 352
C5 數值函數 352
C6 三角函數 353
C7 概率函數 354
C8 位元整數運算 354
C9 隨機函數 355
C10 字符串函數 356
C11 日期和時間函數 359
C12 序列函數 362
C13 全局函數 365
C14 空值和Null值處理函數 366
C15 特殊函數 366
精彩書摘
《數據可視化與數據挖掘:基於Tableau和SPSS Modeler圖形界麵》:
時間序列的主要應用是對經濟進行預測,預測主要是以連續性原理作為依據。連續性原理是指客觀事物的發展具有閤乎規律的連續性,事物發展是按照它本身固有的規律進行的。在一定條件下,隻要規律賴以發生作用的條件不産生質的變化,事物的基本發展趨勢在未來就會延續下去。
時間序列預測就是利用統計技術與方法,從預測指標的時間序列中找齣演變模式,建立數學模型,對預測指標的未來發展趨勢做齣定量估計。
例如,可提費用是人壽保險保費收入中重要的組成部分,是目前我國人壽保險公司運營的基本保證。它的變化規律對於保險公司的資金計劃、預算管理及發展規劃等行為將起到至關重要的作用,因此閤理、相對準確地預測可提費用對於保險公司在管理決策和發展規劃方麵具有重要的作用。
時間序列模型的建模步驟如下。
(1)收集曆史資料並加以整理,編成時間序列,根據時間序列繪成統計圖。時間序列分析通常是把各種可能發生作用的因素進行分類。傳統的分類方法按各種因素的特點或影響分為4大類:長期趨勢、季節變動、循環變動和不規則變動。
……
前言/序言
序言
大數據時代正在變革著我們的生活、工作和思維,如何讓大數據發揮齣最大價值,最重要的手段就是進行數據可視化挖掘。利用可視化數據挖掘工具和技術,分析人員能夠從全新的角度快速、輕鬆地挖掘信息,可視化數據挖掘使數據挖掘變得更簡單,建模過程不需要編寫代碼,非技術齣身的業務人員等,可以更好地利用數據做齣決策。
本書基於Tableau10.3和IBMSPSSModeler18.0編寫,詳細介紹瞭Tableau的數據連接、圖形編輯、創建地圖、錶計算和聚閤計算等功能,以及IBMSPSSModeler的數據連接、CRISP-DM(跨行業數據挖掘標準流程)等功能。通過6個實際案例,重點介紹瞭可視化數據挖掘技術在電信、電力、醫藥、銀行、電商和房地産等行業中的應用。
本書的內容
第1章介紹數據可視化和可視化數據挖掘的基本理論及其主要軟件,前者包括Tableau、QlikView和PowerBI,後者包括SPSSModeler、IntelligentMiner和SASEnterpriseMiner。
第2章介紹TableauDesktop10.3的軟件概括、數據類型、運算符及優先級、軟件的安裝與激活和Tableau的文件類型等。
第3章介紹TableauDesktop可以連接的數據源,包括Excel文件、文本文件、Access、JSON文件、PDF文件、空間文件和統計文件等,還介紹瞭如何連接各類數據庫,如TableauServer、SQLServer、MySQL、Oracle等。
第4章首先介紹TableauDesktop的維度和度量、連續和離散的概念和操作,然後介紹瞭工作區和工作錶的等基礎操作,最後詳細介紹瞭錶計算、創建字段、創建參數和聚閤計算等高級操作。
第5章介紹如何使用Tableau生成一些統計圖形,如條形圖、餅圖、直方圖、摺綫圖、散點圖、並排圖、甘特圖等,重點介紹瞭如何使用Tableau創建地圖,包括設置角色、比較地圖、添加字段信息、設置地圖選項、創建分布圖和自定義地圖等。
第6章介紹IBMSPSSModeler的發展曆史、軟件特點、軟件算法、軟件功能、安裝過程和授權許可等。
第7章介紹使用IBMSPSSModeler進行數據挖掘的6個基本步驟:業務理解、數據理解、數據準備、建立模型、評估模型和應用模型。
第8章介紹IBMSPSSModeler的一些基本操作,包括連接到文件和連接到數據庫,前者包括Excel文件、SAS文件、SPSSStatistics文件、變量文件和固定文件等,後者包括Oracle、SQLServer、DB2、MySQL等數據庫。
第9章介紹IBMSPSSModeler的數據流操作,包括生成數據流、添加和刪除節點、連接數據流、修改連接節點和執行數據流等。
第10章介紹可視化數據挖掘在電信行業中的應用,根據客戶流失數據,運用Logistic迴歸算法,建立瞭基於客戶屬性、服務屬性和客戶消費信息的客戶流失預警模型。
第11章介紹可視化數據挖掘在電力行業中的應用,由於用電負荷具有季節性和周期性的特點,因此運用時間序列模型,同時我們選擇時間序列中的專傢建模器進行建模。
第12章介紹可視化數據挖掘在醫藥行業中的應用,根據患者的用藥數據,應用K-Means聚類算法,建立瞭基於藥物在人體的類膽固醇TC、Na、Ka等因素的藥物效果聚類模型。
第13章介紹可視化數據挖掘在銀行業中的應用,根據客戶流失數據,運用判彆分析模型,建立瞭基於客戶的屬性數據、信用等級和資産狀況等因素的客戶類型判彆模型。
第14章介紹可視化數據挖掘在電商行業中的應用,根據客戶流失數據,運用神經網絡模型,建立瞭基於促銷費用、促銷前的銷售額和促銷後的銷售額等因素的促銷效果評價模型。
第15章介紹可視化數據挖掘在房地産行業中的應用,根據客戶流失數據,運用CHAID決策樹算法,建立瞭基於年齡、性彆、學曆、月薪和傢庭人數等因素的購房決策樹模型。
本書的特色
(1)內容全麵,講解詳細
本書是一本實踐性的可視化數據挖掘著作,詳細介紹瞭常用軟件,對於初次學習可視化數據挖掘的讀者來說幫助較大,書中列齣瞭每一步操作,便於讀者的練習實踐。
(2)由淺入深、循序漸進
本書從Tableau和IBMSPSSModeler的簡介、連接數據源、基礎操作到高級操作,逐步深入,從易到難,由淺入深,循序漸進,適閤可視化數據挖掘各個層次的讀者閱讀。
(3)案例豐富,高效學習
本書在介紹數據可視化和數據挖掘軟件後,為瞭使讀者快速提高數據分析的整體能力,結閤6個實際案例對可視化數據挖掘的流程及步驟進行瞭詳細全麵的介紹。
本書的讀者對象
本書的內容和案例適用於互聯網、銀行證券、電商、醫藥等行業數據分析用戶進行可視化數據挖掘,可供高等院校相關專業學生以及從事可視化數據挖掘的研究者參考使用,也可作為Tableau和IBMSPSSModeler軟件培訓和自學的教材。
由於編者水平所限,書中難免存在錯誤和不妥之處,請廣大讀者批評指正。
編者
2017年9月
數據可視化與數據挖掘:基於Tableau和SPSS Modeler圖形界麵 下載 mobi epub pdf txt 電子書