大數據技術叢書:MATLAB數據分析與挖掘實戰 [MATLAB Data Analysis and Data Mining] pdf epub mobi txt 電子書 下載
編輯推薦
多位資深數據挖掘專傢10餘年實戰經驗結晶,深入講解數據挖掘各個環節的各項技術通過10餘個真實的案例為10餘個行業的數據挖掘提供瞭解決方案,並提供相關的建模文件和源代碼
內容簡介
《大數據技術叢書:MATLAB數據分析與挖掘實戰》共16章,共三篇。基礎篇(第1~5章),第1章的主要內容是數據挖掘概述;第2章對《大數據技術叢書:MATLAB數據分析與挖掘實戰》所用到的數據挖掘建模工具MATALB進行瞭簡明扼要的說明;第3章、第4章、第5章對數據挖掘的建模過程,包括數據探索、數據預處理及挖掘建模的常用算法與原理進行瞭介紹。實戰篇(第6~15章),重點對數據挖掘技術在電力、航空、醫療、互聯網、生産製造以及公共服務等行業的應用進行瞭分析。在案例結構組織上,《大數據技術叢書:MATLAB數據分析與挖掘實戰》是按照先介紹案例背景與挖掘目標,再闡述分析方法與過程,最後完成模型構建的順序進行的,在建模過程關鍵環節,穿插程序實現代碼。最後通過上機實踐,加深數據挖掘技術在案例應用中的理解。提高篇(第16章),介紹瞭基於MATLAB二次開發的數據挖掘應用軟件——TipDM數據挖掘建模工具,並以此工具為例詳細介紹瞭基於MATLAB接口完成數據挖掘二次開發的各個步驟,使讀者體驗到通過MATLAB實現數據挖掘二次開發的強大魅力。
作者簡介
張良均,資深大數據挖掘專傢和模式識彆專傢,有10多年的大數據挖掘應用、谘詢經驗,10餘年數據倉庫係統管理與實施經驗,超過10年的係統開發與設計經驗。為電信、電力、互聯網、生産製造、零售、銀行、生物、化工、醫藥等多個行業上百傢大型企業提供過數據挖掘應用與谘詢服務,實踐經驗非常豐富。此外,他精通JavaEE企業級應用開發,是廣東工業大學和華南師範大學兼職教授,著有《神經網絡實用教程》、《數據挖掘:實用案例分析》等暢銷書。
目錄
基礎篇
第1章 數據挖掘基礎
1.1 某知名連鎖餐飲企業的睏惑
1.2 從餐飲服務到數據挖掘
1.3 數據挖掘的基本任務
1.4 數據挖掘的建模過程
1.4.1 定義挖掘目標
1.4.2 數據取樣
1.4.3 數據探索
1.4.4 數據預處理
1.4.5 挖掘建模
1.4.6 模型評價
1.5 常用的數據挖掘建模工具
1.6 小結
第2章 MATLAB數據分析工具箱簡介
2.1 MATLAB的安裝
2.2 MATLAB使用入門
2.2.1 MATLAB R2014a操作界麵
2.2.2 MATLAB常用操作
2.3 MATLAB數據分析工具箱
2.4 配套附件使用設置
2.5 小結
第3章 數據探索
3.1 數據質量分析
3.1.1 缺失值分析
3.1.2 異常值分析
3.1.3 一緻性分析
3.2 數據特徵分析
3.2.1 分布分析
3.2.2 對比分析
3.2.3 統計量分析
3.2.4 周期性分析
3.2.5 貢獻度分析
3.2.6 相關性分析
3.3 MATLAB主要數據的探索函數
3.3.1 統計特徵函數
3.3.2 統計作圖函數
3.4 小結
第4章 數據預處理
4.1 數據清洗
4.1.1 缺失值處理
4.1.2 異常值處理
4.2 數據集成
4.2.1 實體識彆
4.2.2 冗餘屬性識彆
4.3 數據變換
4.3.1 簡單的函數變換
4.3.2 規範化
4.3.3 連續屬性離散化
4.3.4 屬性構造
4.3.5 小波變換
4.4 數據規約
4.4.1 屬性規約
4.4.2 數值規約
4.5 MATLAB主要的數據預處理函數
4.6 小結
第5章 挖掘建模
5.1 分類與預測
5.1.1 實現過程
5.1.2 常用的分類與預測算法
5.1.3 迴歸分析
5.1.4 決策樹
5.1.5 人工神經網絡
5.1.6 分類與預測算法評價
5.1.7 MATLAB主要分類與預測算法函數
5.2 聚類分析
5.2.1 常用的聚類分析算法
5.2.2 K-Means聚類算法
5.2.3 聚類分析算法評價
5.2.4 MATLAB主要聚類分析算法函數
5.3 關聯規則
5.3.1 常用的關聯規則算法
5.3.2 Apriori算法
5.4 時序模式
5.4.1 時間序列算法
5.4.2 時間序列的預處理
5.4.3 平穩時間序列分析
5.4.4 非平穩時間序列分析
5.4.5 MATLAB主要時序模式算法函數
5.5 離群點檢測
5.5.1 離群點的檢測方法
5.5.2 基於統計模型的離群點的檢測方法
5.5.3 基於聚類的離群點的檢測方法
5.6 小結
實戰篇
第6章 電力企業的竊漏電用戶自動識彆
6.1 背景與挖掘目標
6.2 分析方法與過程
6.2.1 數據抽取
6.2.2 數據探索分析
6.2.3 數據預處理
6.2.4 構建專傢樣本
6.2.5 構建模型
6.3 上機實驗
6.4 拓展思考
6.5 小結
第7章 航空公司的客戶價值分析
7.1 背景與挖掘目標
7.2 分析方法與過程
7.2.1 數據抽取
7.2.2 數據探索分析
7.2.3 數據預處理
7.2.4 模型構建
7.3 上機實驗
7.4 拓展思考
7.5 小結
第8章 中醫證型關聯規則挖掘
8.1 背景與挖掘目標
8.2 分析方法與過程
8.2.1 數據獲取
8.2.2 數據預處理
8.2.3 模型構建
8.3 上機實驗
8.4 拓展思考
8.5 小結
第9章 基於水色圖像的水質評價
9.1 背景與挖掘目標
9.2 分析方法與過程
9.2.1 數據預處理
9.2.2 構建模型
9.2.3 水質評價
9.3 上機實驗
9.4 拓展思考
9.5 小結
第10章 基於關聯規則的網站智能推薦服務
10.1 背景與挖掘目標
10.2 分析方法與過程
10.2.1 數據抽取
10.2.2 數據預處理
10.2.3 構建模型
10.3 上機實驗
10.4 拓展思考
10.5 小結
第11章 應用係統負載分析與磁盤容量預測
11.1 背景與挖掘目標
11.2 分析方法與過程
11.2.1 數據抽取
11.2.2 數據探索分析
11.2.3 數據預處理
11.2.4 構建模型
11.3 上機實驗
11.4 拓展思考
11.5 小結
第12章 麵嚮網絡輿情的關聯度分析
12.1 背景與挖掘目標
12.2 分析方法與過程
12.2.1 數據抽取
12.2.2 數據預處理
12.2.3 構建模型
12.3 上機實驗
12.4 拓展思考
12.5 小結
第13章 傢用電器用戶行為分析及事件識彆
13.1 背景與挖掘目標
13.2 分析方法與過程
13.2.1 數據抽取
13.2.2 數據探索分析
13.2.3 數據預處理
13.2.4 模型構建
13.2.5 模型檢驗
13.3 上機實驗
13.4 拓展思考
13.5 小結
第14章 基於基站定位數據的商圈分析
14.1 背景與挖掘目標
14.2 分析方法與過程
14.2.1 數據抽取
14.2.2 數據探索分析
14.2.3 數據預處理
14.2.4 構建模型
14.3 上機實驗
14.4 拓展思考
14.5 小結
第15章 氣象與輸電綫路的缺陷關聯分析
15.1 背景與挖掘目標
15.2 分析方法與過程
15.2.1 數據抽取
15.2.2 數據探索分析
15.2.3 數據預處理
15.2.4 模型構建
15.3 上機實驗
15.4 拓展思考
15.5 小結
提高篇
第16章 基於MATLAB的數據挖掘二次開發
16.1 混閤編程應用體驗——TipDM數據挖掘平颱
16.1.1 建設目標
16.1.2 模型構建
16.1.3 模型發布
16.1.4 模型調用
16.1.5 模型更新
16.2 二次開發過程
16.2.1 接口算法編程
16.2.2 用Library Compiler創建Java組件
16.2.3 安裝MATLAB運行時環境
16.2.4 JDK環境及設置
16.2.5 接口函數的調用
16.3 小結
參考文獻
精彩書摘
決策樹是一樹狀結構,它的每一個葉節點對應著一個分類,非葉節點對應著在某個屬性上的劃分,根據樣本在該屬性上的不同取值將其劃分成若乾個子集。對於非純的葉節點,多數類的標號給齣到達這個節點的樣本所屬的類。構造決策樹的核心問題是在每一步如何選擇適當的屬性對樣本進行拆分。對一個分類問題,從已知類標記的訓練樣本中學習並構造齣決策樹是一個自上而下分而治之的過程。 本節將詳細介紹ID3算法,其也是最經典的決策樹分類算法。 1.ID3算法簡介及基本原理 ID3算法基於信息熵來選擇最 佳的測試屬性,它選擇當前樣本集中具有最大信息增益值的屬性作為測試屬性;樣本集的劃分則依據測試屬性的取值進行,測試屬性有多少個不同的取值就將樣本集劃分為多少個子樣本集,同時決策樹上相應於該樣本集的節點長齣新的葉子節點。ID3算法根據信息論的理論,采用劃分後樣本集的不確定性作為衡量劃分好壞的標準,用信息增益值度量不確定性:信息增益值越大,不確定性越小。因此,ID3算法在每個非葉節點選擇信息增益最大的屬性作為測試屬性,這樣可以得到當前情況下最純的拆分,從而得到較小的決策樹。 ……
前言/序言
為什麼要寫這本書LinkedIn 對全球超過3.3億用戶的工作經曆和技能進行分析後得齣,在目前最炙手可熱的25項技能中,數據挖掘人纔需求排名第一。那麼數據挖掘是什麼?數據挖掘是從大量數據(包括文本)中挖掘齣隱含的、先前未知的、對決策有潛在價值的關係、模式和趨勢,並用這些知識和規則建立用於決策支持的模型,以及提供預測性決策支持的方法、工具和過程。數據挖掘有助於企業發現業務的趨勢,揭示已知的事實,預測未知的結果,因此“數據挖掘”已成為企業保持競爭力的必要方法。
但和國外相比,我國由於信息化程度不太高,企業內部信息不完整,所以零售業、銀行、保險、證券等行業對數據挖掘的應用並不太理想。但隨著市場競爭的加劇,各行業對數據挖掘技術的意願越來越強烈,可以預計,未來幾年,各行業的數據分析應用一定會從傳統的統計分析發展到大規模的數據挖掘應用。在大數據時代,數據過剩、人纔短缺,數據挖掘專業人纔的培養又需要專業知識和職業經驗的積纍。所以,本書注重數據挖掘理論與項目案例實踐相結閤,可以讓讀者獲得真實的數據挖掘學習與實踐環境,更快、更好地學習數據挖掘知識與積纍職業經驗。
總的來說,隨著雲時代的來臨,大數據技術將具有越來越重要的戰略意義。大數據已經滲透到每一個行業和業務職能領域,逐漸成為重要的生産要素,人們對於海量數據的運用預示著新一輪生産率增長和消費者激增浪潮的到來。大數據分析技術將幫助企業用戶在閤理的時間內攫取、管理、處理、整理海量數據,也為企業經營決策提供積極的幫助;大數據分析作為數據存儲和挖掘分析的前沿技術,廣泛應用於物聯網、雲計算、移動互聯網等戰略性的新興産業。雖然大數據目前在國內還處於初級階段,但是其商業價值已經顯現齣來,特彆是有實踐經驗的大數據分析人纔更是各企業爭奪的熱門。為瞭滿足日益增長的大數據分析人纔的需求,很多大學開始嘗試開設不同程度的大數據分析課程。“大數據分析”作為大數據時代的核心技術,必將成為高校數學與統計學專業的重要課程之一。
本書特色本書作者從實踐齣發,結閤大量數據挖掘工程案例及教學經驗,以真實案例為主綫,深入淺齣地介紹數據挖掘建模過程中的有關任務:數據探索、數據預處理、分類與預測、聚類分析、時序預測、關聯規則挖掘、智能推薦、偏差檢測等。因此,本書的編排以解決某個應用的挖掘目標為前提,先介紹案例背景並提齣挖掘目標,再闡述分析方法與過程,最後完成模型構建,在介紹建模的過程中穿插操作訓練,把相關的知識點嵌入相應的操作過程中。為方便讀者輕鬆地獲取一個真實的實驗環境,本書使用大傢熟知的MATLAB工具對樣本數據進行處理以進行挖掘建模。
大數據技術叢書:MATLAB數據分析與挖掘實戰 [MATLAB Data Analysis and Data Mining] 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
我喜歡這本書,喜歡R語言,相比較其他數據處理方式,R語言對數據導入方式之多,和網絡抓取配閤之好,是它最大的優勢。對數據處理的高效也特彆棒,按照作者的說法,4G的內存處理上億條數據也不在話下,這真是很棒的利器。 manning係列的圖書,強調實戰,這本書也是如此,跟著書中的例子一個一個來,全都跟著練一遍,收獲會很大,絕對對得起自己付齣的時間。
評分
☆☆☆☆☆
物流速度超級快,書的質量很好,一直信賴京東。
評分
☆☆☆☆☆
最近開始學習python,用於數據挖掘
評分
☆☆☆☆☆
專業必備,正版書籍,幫助很大,理論基礎,實例經典
評分
☆☆☆☆☆
如果滿分一百分的話 ,我可以給90分,內容很豐富,講得很透徹
評分
☆☆☆☆☆
要有基礎纔能看懂,和很多實例書籍有類似問題,沒頭沒尾不成體係。建議先看數據挖掘類的基礎書籍
評分
☆☆☆☆☆
正品書籍!值得你擁有!信賴京東!
評分
☆☆☆☆☆
還沒怎麼看,實戰化的書,得好好學習
評分
☆☆☆☆☆
內容充實,圖錶示例齊全,是r語言和數據分析與挖掘學習的得力助手!印刷精良,包裝完整!
大數據技術叢書:MATLAB數據分析與挖掘實戰 [MATLAB Data Analysis and Data Mining] pdf epub mobi txt 電子書 下載