內容簡介
數據挖掘具有廣闊的應用領域和發展前景。SPSS Modeler因界麵友好且操作簡捷,成為公認的數據挖掘實戰的軟件。
基於多年的教學和科研經驗,作者深知數據挖掘理論和軟件操作相結閤的重要性,努力在本書中突齣以下特點:
?以數據挖掘過程為綫索講解Modeler軟件操作。本書以數據挖掘實踐過程為主綫,從Modeler數據管理入手,說明問題由淺入深,講解方法從易到難,旨在使讀者在較短時間內掌握Modeler的基本功能和一般方法,並迅速運用到數據挖掘實戰中。
?數據挖掘理論的講解通俗易懂,避免數學公式的羅列。本書對Modeler中的經典數據挖掘算法娓娓道來,旨在使讀者知其然更知其所以然,加深對數據挖掘分析結論的理解和應用。
?將數據挖掘方法、軟件操作、案例分析有機結閤。本書在論述數據挖掘方法核心思想和基本原理的同時,配閤案例數據展示實戰過程,旨在使讀者直觀理解理論,正確應用方法。
作者簡介
薛薇,工學碩士,經濟學博士,中國人民大學應用統計科學研究中心副主任,中國人民大學統計學院副教授。關注數據挖掘及統計建模、統計和數據挖掘軟件應用、統計數據庫係統研發等方麵。涉足網絡新媒體輿論傳播和互動建模、政府和官方微博分析、電商數據分析、學科學術熱點跟蹤等文本挖掘,以及社會網絡分析和以數據挖掘為依托的客戶關係管理等領域。
目錄
第1章數據挖掘和Modeler使用概述
1.1數據挖掘的産生背景
1.2什麼是數據挖掘
1.3Modeler軟件概述
第2章Modeler的數據讀入和數據集成
2.1變量類型
2.2讀入數據
2.3生成實驗方案
2.4數據集成
第3章Modeler的數據理解
3.1變量說明
3.2數據質量的評估和調整
3.3數據的排序
3.4數據的分類匯總
第4章Modeler的數據準備
4.1變量變換
4.2變量派生
4.3數據精簡
4.4數據篩選
4.5數據準備的其他工作
第5章Modeler的基本分析
5.1數值型變量的基本分析
5.2兩分類型變量相關性的研究
5.3兩總體的均值比較
5.4RFM分析
第6章Modeler的數據精簡
6.1變量值的離散化處理
6.2特徵選擇
6.3因子分析
第7章分類預測:Modeler的決策樹
7.1決策樹算法概述
7.2Modeler的C5��0算法及應用
7.3Modeler的分類迴歸樹及應用
7.4Modeler的CHAID算法及應用
7.5Modeler的QUEST算法及應用
7.6模型的對比分析
第8章分類預測:Modeler的人工神經網絡
8.1人工神經網絡算法概述
8.2Modeler的B�睵反嚮傳播網絡
8.3Modeler的B�睵反嚮傳播網絡的應用
8.4Modeler的徑嚮基函數網絡及應用
第9章分類預測:Modeler的支持嚮量機
9.1支持嚮量分類的基本思路
9.2支持嚮量分類的基本原理
9.3支持嚮量迴歸
9.4支持嚮量機的應用
第10章分類預測:Modeler的貝葉斯網絡
10.1貝葉斯方法基礎
10.2貝葉斯網絡概述
10.3TAN貝葉斯網絡
10.4馬爾科夫毯網絡
10.5貝葉斯網絡的應用
第11章探索內部結構:Modeler的聚類分析
11.1聚類分析的一般問題
11.2Modeler的K�睲eans聚類及應用
11.3Modeler的兩步聚類及應用
11.4Modeler的Kohonen網絡聚類及應用
11.5基於聚類分析的離群點探索
第12章探索內部結構:Modeler的關聯分析
12.1簡單關聯規則及其有效性
12.2Modeler的Apriori算法及應用
12.3Modeler的序列關聯及應用
參考文獻
精彩書摘
數據挖掘技術具有廣闊的應用領域和發展前景,眾多有識之士紛紛選擇SPSS Modeler作為數據挖掘的工具軟件,因此SPSS Modeler軟件已經連續多年雄踞數據挖掘應用軟件之首。
Modeler的前身名為Clementine,2009年IBM公司收購瞭SPSS數據分析軟件公司,並將其廣受贊譽的SPSS統計分析軟件和Clementine數據挖掘軟件進行整閤,將Clementine更名為
SPSS Modeler(簡稱Modeler)後再次推嚮全球市場。
Modeler充分利用計算機係統的運算處理能力和圖形展現能力,將方法、應用與工具有機地融為一體,是解決數據挖掘問題的最理想工具。
Modeler不但集成瞭諸多計算機科學中機器學習的優秀算法,同時也綜閤瞭一些行之有效的統計分析方法,成為內容最為全麵、功能最為強大、使用最為方便的數據挖掘軟件産品。
Modeler繼續保持瞭SPSS産品的一貫風格:界麵友好且操作簡捷。原因在於Modeler始終把自己的操作者定位於實際工作部門的一綫人員,而不是數據分析專傢。這種所謂“傻瓜型”軟件成為Modeler不斷開拓市場的利器。
本書作者一直從事計算機數據分析的教學與科研工作,並長期跟蹤研究SPSS公司的數據分析係列産品,具有相當豐富的數據分析軟件開發經驗。因此深知,一個基礎相對薄弱的讀者應該從哪些方麵入手,纔能很快地使用Modeler開始數據分析工作,並逐步成長為一名有經驗的多麵手。
我們認為讀者掌握Modeler軟件應體現三個層麵:首先是軟件操作層麵,讀者通過實際操作,盡快掌握軟件的使用方法和處理步驟;其次是結果分析層麵,讀者通過案例演示,基本明白軟件的輸齣結果,從而得齣正確的分析結論;最後是方法論層麵,讀者通過對某個算法基本思路的瞭解,進一步提高方法應用和分析水平,升華對數據挖掘方法的認識。所以,注重對每種方法的操作使用、結果分析和算法基本思路的講解是本書最重要的特徵。
本書適用於從事數據分析的各應用領域的讀者,尤其是商業銷售、財會金融、證券保險、經濟管理、社會研究、人文教育等行業的相關人員。同時,也能夠作為高等院校計算機類、財經類、管理類專業本科生和研究生的數據挖掘教材。
針對上述讀者群,在全書的編寫中我們努力體現以下特色:
1.以數據挖掘過程為綫索介紹Modeler
目前,具備基本的計算機操作能力已經不是讀者的主要障礙,數據挖掘的過程與方法纔是讀者關心的主題和應用的難點。所以,本書以數據挖掘的實踐過程為主綫,從Modeler數據管理入手,說明問題從淺至深,講解方法從易到難。這樣,能使讀者在較短時間內掌握Modeler的基本功能和一般方法,並可迅速運用到實際工作中去。
2.將數據挖掘方法、軟件操作、案例分析有機結閤
目前,經過消化的中文圖書和資料相對短缺,Modeler相關圖書一般都比較側重對其英文手冊的翻譯介紹,側重於對計算機操作過程的描述。而對數據挖掘方法則較多地羅列數學公式,輸齣結果也缺少恰當的解釋。本書則結閤實際案例,側重數據挖掘方法核心思想和基本原理的闡述,以使讀者直觀理解方法,正確掌握方法的應用範圍。
3. 數據挖掘方法講解全麵,語言通俗
本書對Modeler的數據挖掘算法進行瞭全麵的分析和應用,內容力求豐富翔實。同時使用通俗的語言和示例講述算法,盡量避免使用公式和推導堆砌算法。
請讀者到人大經管圖書在綫(http://www�眗djg�眂om�眂n)下載本書案例數據和數據流文件。數據流文件需使用Modeler 14.2以上版本打開,執行時隻需修改數據源節點中的數據文件所在目錄項,即可正確執行流文件。
在此特彆感謝中國人民大學齣版社對本書齣版的大力支持和各位編輯熱情細緻的工作。由於水平所限,書中難免齣現問題和錯誤,敬請各位讀者批評指正。
前言/序言
基於SPSS Modeler的數據挖掘(第二版)(統計數據分析與應用叢書) 下載 mobi epub pdf txt 電子書