編輯推薦
1.大數據從數據産生和數據收集開始,在數據存儲和管理階段存在不小的挑戰,本書使用元啓發式演算法作為這些挑戰的解決方案,首先,這種算法可以處理大量的難題,其次非常靈活,對不同類型的數據和文檔都能讀取。
2.本書介紹非常全麵,提供瞭元啓發式算法應用於大數據信息挖掘的各個方麵。
內容簡介
本書的第一部分介紹瞭如何使用元啓發式算法來剋服數據挖掘過程中的問題,算法性能評估,並具體介紹瞭原啓發式算法。第二部分詳細描述瞭一係列的數據挖掘任務,包括聚類算法、關聯規則、監督分類法以及特徵選擇,然後探討瞭如何通過通用啓發式算法來處理數據挖掘任務。
本書內容介紹齊全,讀者可以係統理解書中的所有概念,並且提供瞭將通用啓發式演算法應用到從大數據信息挖掘的相關方法總覽。
作者簡介
Clarisse DHAENENS、Laetitia JOURDAN,兩人均是法國裏爾大學的教授,CRIStAL實驗室(計算機科學、信號和自動化研究中心),以及法國國傢信息與自動化研究所(INRIA)的研究團隊成員。
精彩書評
NULL
目錄
目錄
第1章 優化與大數據 //1
1.1 大數據環境 //2
1.1.1 大數據環境示例 //3
1.1.2 定義 //4
1.1.3 大數據麵臨的挑戰 //6
1.1.4 元啓發式算法和大數據 //9
1.2 大數據中的知識發現 //11
1.2.1 數據挖掘與知識發現 //11
1.2.2 主要的數據挖掘任務 //13
1.2.3 數據挖掘任務作為優化問題 //17
1.3 數據挖掘算法的性能分析 //17
1.3.1 環境 //17
1.3.2 一個或多個數據集評估 //19
1.3.3 存儲庫和數據集 //20
1.4 本章小結 //21
第2章 元啓發式算法簡介 //23
2.1 引言 //24
2.1.1 組閤優化問題 //25
2.1.2 解決組閤優化問題 //25
2.1.3 優化方法的主要類型 //26
2.2 元啓發式算法的通用概念 //27
2.2.1 錶示/編碼 //27
2.2.2 約束滿足 //28
2.2.3 優化標準/目標函數 //29
2.2.4 性能分析 //30
2.3 基於單一解/局部搜索的方法 //31
2.3.1 方案鄰域 //31
2.3.2 爬山算法 //33
2.3.3 禁忌搜索 //34
2.3.4 模擬退火和閾值接受法 //35
2.3.5 結閤局部搜索方法 //36
2.4 基於群體的元啓發式算法 //37
2.4.1 進化計算 //38
2.4.2 群智能算法 //41
2.5 多目標元啓發式算法 //43
2.5.1 多目標優化的基本概念 //44
2.5.2 使用元啓發式算法進行多目標優化 //46
2.5.3 多目標優化的性能評估 //50
2.6 本章小結 //51
第3章 元啓發式算法與並行優化 //53
3.1 並行計算 //54
3.1.1 位級彆並行 //55
3.1.2 指令級並行 //55
3.1.3 任務與數據並行 //55
3.2 並行元啓發式算法 //56
3.2.1 一般概念 //56
3.2.2 並行基於單一解的元啓發式算法 //56
3.2.3 並行基於總體的元啓發式算法 //58
3.3 並行元啓發式算法的基礎設施和技術 //58
3.3.1 分布式模型 //58
3.3.2 硬件型號 //59
3.4 質量措施 //62
3.4.1 加速 //62
3.4.2 效率 //62
3.4.3 串行分數 //63
3.5 本章小結 //63
第4章 元啓發式算法與聚類算法 //65
4.1 任務描述 //66
4.1.1 劃分法 //67
4.1.2 層次法 //68
4.1.3 基於網格法 //70
4.1.4 基於密度法 //70
4.2 大數據與聚類分析 //71
4.3 優化模型 //71
4.3.1 組閤問題 //71
4.3.2 質量措施 //72
4.3.3 錶示 //79
4.4 方法概述 //83
4.5 驗證 //84
4.5.1 內部驗證 //86
4.5.2 外部驗證 //86
4.6 本章小結 //88
第5章 元啓發式算法與關聯規則 //89
5.1 任務描述和經典算法 //91
5.1.1 初始化問題 //91
5.1.2 先驗算法 //92
5.2 優化模型 //93
5.2.1 組閤問題 //93
5.2.2 質量測量 //93
5.2.3 單目標還是多目標問題 //95
5.3 關聯規則挖掘問題的元啓發式算法概述 //96
5.3.1 一般性 //96
5.3.2 分類關聯規則的元啓發式算法 //97
5.3.3 定量關聯規則的進化算法 //102
5.3.4 模糊關聯規則的元啓發式算法 //105
5.4 總錶 //108
5.5 本章小結 //110
第6章 元啓發式算法與(監督)分類 //111
6.1 任務描述和標準算法 //112
6.1.1 問題描述 //112
6.1.2 K最近鄰分類算法(KNN) //113
6.1.3 決策樹 //114
6.1.4 樸素貝葉斯算法 //115
6.1.5 人工神經網絡 //115
6.1.6 支持嚮量機 //116
6.2 優化模型 //117
6.2.1 組閤問題 //117
6.2.2 質量措施 //117
6.2.3 監督分類的性能評估方法 //119
6.3 構建標準分類器的元啓發式算法 //120
6.3.1 KNN算法優化 //120
6.3.2 決策樹 //121
6.3.3 ANN算法優化 //124
6.3.4 SVM算法優化 //125
6.4 元啓發式算法分類規則 //127
6.4.1 建模 //127
6.4.2 目標函數 //128
6.4.3 算子 //130
6.4.4 算法 //131
6.5 本章小結 //133
第7章 使用元啓發式算法在分類中進行特徵選擇 //135
7.1 任務描述 //137
7.1.1 篩選器模型 //137
7.1.2 封裝器模型 //138
7.1.3 嵌入式模型 //138
7.2 優化模型 //139
7.2.1 組閤優化問題 //139
7.2.2 錶示 //140
7.2.3 算子 //141
7.2.4 質量測量 //141
7.2.5 驗證 //144
7.3 算法概述 //144
7.4 本章小結 //145
第8章 框架 //147
8.1 設計元啓發式算法的框架 //148
8.1.1 EasyLocal++ //149
8.1.2 HeuristicLab //150
8.1.3 jMetal //150
8.1.4 Mallba //150
8.1.5 ParadisEO //151
8.1.6 ECJ //152
8.1.7 OpenBeagle //152
8.1.8 JCLEC //152
8.2 數據挖掘框架 //153
8.2.1 Orange //154
8.2.2 R與Rattle GUI //154
8.3 元啓發式算法數據挖掘框架 //155
8.3.1 RapidMiner //155
8.3.2 WEKA //156
8.3.3 KEEL //157
8.3.4 MO-Mine //158
8.4 本章小結 //159
結論 //161
參考文獻 //163
精彩書摘
《大數據元啓發式算法教程》:
在文獻(FRI 05)中,Friedrichs等人提齣瞭一種用於確定多個SVM超參數的進化方法:自適應協方差矩陣進化策略(CMA-ES)。它用於從參數化的內核空間確定內核並控製正則化。他們認為CMA進化策略是一種強大且通用的SVM超參數選擇方法。它可以處理大量的內核參數,並且既不需要可微分的內核和模型選擇標準,也不需要數據的可分離性。在這項研究之後,文獻(SUT 06)中提齣瞭一種三目標方法,以考慮優化的幾個方麵。這一方法基於假陽性率、假陰性率和支持嚮量的數量的最小化,以此降低計算復雜性。
在文獻(SHA 13)中,我們使用較不常規的元啓發式算法來優化SVM的參數:螢火蟲算法(FFA)。螢火蟲是一種通過生物發光過程而發光的昆蟲。對於這種算法,應遵循一些理想化的規則:(1)螢火蟲不分性彆地吸引其他螢火蟲;也就是說,吸引力純粹是基於光的亮度;(2)兩個縴維之間的亮度越大,兩者之間的吸引力越大。如果沒有更亮的光,運動隨機發生;(3)熒光的亮度由其目標函數的值決定。為優化SVM參數,每個函數錶示一個參數集,並且嚮群中其他函數的移動會修改參數值。
因為元啓發式算法可能需要大量的評估(每一評估都需要SVM執行),所以利用並行計算來減少搜索所需時間可能是有用的。因此,Runarsson等人提齣將平行進化策略(ES)應用到支持嚮量機的模型選擇上。在這項工作中,選擇異步並行進化策略是因為處理器上的負載通常是不平衡的。
……
大數據元啓發式算法教程 下載 mobi epub pdf txt 電子書