産品特色
內容簡介
全書內容分為三篇。第一篇為基礎篇,主要介紹量化投資與數據挖掘的關係,以及數據挖掘的概念、實現過程、主要內容、主要工具等內容。第二篇為技術篇,係統介紹瞭數據挖掘的相關技術及這些技術在量化投資中的應用,主要包括數據的準備、數據的探索、關聯規則方法、數據迴歸方法、分類方法、聚類方法、預測方法、診斷方法、時間序列方法、智能優化方法等內容。第三篇為實踐篇,主要介紹數據挖掘技術在量化投資中的綜閤應用實例,包括統計套利策略的挖掘與優化、配對交易策略的挖掘與實現、數據挖掘在股票程序化交易中的綜閤應用,以及基於數據挖掘技術的量化交易係統的構建。本書的讀者對象為從事投資、數據挖掘、數據分析、數據管理工作的專業人士;金融、經濟、管理、統計等專業的教師和學生;希望學習MATLAB的廣大科研人員、學者和工程技術人員。
作者簡介
卓金武,MathWorks中國科學計算業務總監,主要職責是嚮中國區MATLAB正版用戶提供數據挖掘和量化投資解決方案。曾2次獲全國大學生數學建模競賽一等奬 (2003, 2004),1次獲全國研究生數學建模競賽一等奬 (2007);主編三著兩部:《MATLAB在數學建模中的應用》(第一版和第二版),《量化投資:數據挖掘技術與實踐(MATLAB版)》。周英,中科數據首席數據科學傢,曾就職於知名搜索引擎公司6年,主要從事互聯網文本挖掘工作的研發工作,目前專注的領域為大數據挖掘技術的工業應用研究和工程應用,曾獲美國大學生數學建模競賽二等奬一項,全國研究生數學建模競賽二等奬一項,著有《大數據挖掘:係統方法與實例分析》
內頁插圖
目錄
第一篇 基礎篇
第1章 緒論 2
1.1 量化投資與數據挖掘的關係 2
1.1.1 什麼是量化投資 2
1.1.2 量化投資的特點 3
1.1.3 量化投資的核心――量化模型 5
1.1.4 量化模型的主要産生方法――
數據挖掘 7
1.2 數據挖掘的概念和原理 8
1.2.1 什麼是數據挖掘 8
1.2.2 數據挖掘的原理 10
1.3 數據挖掘在量化投資中的應用 11
1.3.1 宏觀經濟分析 11
1.3.2 估價 13
1.3.3 量化選股 14
1.3.4 量化擇時 14
1.3.5 算法交易 14
1.4 本章小結 15
參考文獻 16
第2章 數據挖掘的內容、過程及
工具 17
2.1 數據挖掘的內容 17
2.1.1 關聯 17
2.1.2 迴歸 19
2.1.3 分類 20
2.1.4 聚類 21
2.1.5 預測 22
2.1.6 診斷 23
2.2 數據挖掘過程 24
2.2.1 數據挖掘過程概述 24
2.2.2 挖掘目標的定義 25
2.2.3 數據的準備 26
2.2.4 數據的探索 28
2.2.5 模型的建立 29
2.2.6 模型的評估 33
2.2.7 模型的部署 35
2.3 數據挖掘工具 36
2.3.1 MATLAB 36
2.3.2 SAS 37
2.3.3 SPSS 38
2.3.4 WEKA 39
2.3.5 R 41
2.3.6 工具的比較與選擇 42
2.4 本章小結 43
參考文獻 43
第3章 MATLAB快速入門 44
3.1 MATLAB快速入門 44
3.1.1 MATLAB概要 44
3.1.2 MATLAB的功能 45
3.1.3 快速入門案例 46
3.1.4 入門後的提高 55
3.2 MATLAB常用技巧 55
3.2.1 常用標點的功能 55
3.2.2 常用操作指令 56
3.2.3 指令編輯操作鍵 56
3.2.4 MATLAB數據類型 56
3.3 MATLAB開發模式 58
3.3.1 命令行模式 58
3.3.2 腳本模式 58
3.3.3 麵嚮對象模式 58
3.3.4 三種模式的配閤 58
3.4 小結 59
第二篇 技術篇
第4章 數據的準備 63
4.1 數據的收集 63
4.1.1 認識數據 63
4.1.2 數據挖掘的數據源 64
4.1.3 數據抽樣 65
4.1.4 量化投資的數據源 67
4.1.5 從雅虎獲取交易數據 69
4.1.6 從大智慧獲取財務數據 71
4.1.7 從Wind中獲取高質量數據 73
4.2 數據質量分析 75
4.2.1 數據質量分析的必要性 75
4.2.2 數據質量分析的目的 75
4.2.3 數據質量分析的內容 76
4.2.4 數據質量分析的方法 76
4.2.5 數據質量分析的結果及應用 82
4.3 數據預處理 82
4.3.1 為什麼需要數據預處理 82
4.3.2 數據預處理的主要任務 83
4.3.3 數據清洗 84
4.3.4 數據集成 88
4.3.5 數據歸約 89
4.3.6 數據變換 90
4.4 本章小結 92
參考文獻 93
第5章 數據的探索 94
5.1 衍生變量 95
5.1.1 衍生變量的定義 95
5.1.2 變量衍生的原則和方法 96
5.1.3 常用的股票衍生變量 96
5.1.4 評價型衍生變量 101
5.1.5 衍生變量數據收集與集成 103
5.2 數據的統計 104
5.2.1 基本描述性統計 105
5.2.2 分布描述性統計 106
5.3 數據可視化 106
5.3.1 基本可視化方法 107
5.3.2 數據分布形狀可視化 108
5.3.3 數據關聯情況可視化 110
5.3.4 數據分組可視化 111
5.4 樣本選擇 113
5.4.1 樣本選擇的方法 113
5.4.2 樣本選擇應用實例 113
5.5 數據降維 116
5.5.1 主成分分析(PCA)基本
原理 116
5.5.2 PCA應用案例:企業綜閤
實力排序 118
5.5.3 相關係數降維 122
5.6 本章小結 123
參考文獻 123
第6章 關聯規則方法 124
6.1 關聯規則概要 124
6.1.1 關聯規則的提齣背景 124
6.1.2 關聯規則的基本概念 125
6.1.3 關聯規則的分類 127
6.1.4 關聯規則挖掘常用算法 128
6.2 Apriori算法 128
6.2.1 Apriori算法的基本思想 128
6.2.2 Apriori算法的步驟 129
6.2.3 Apriori算法的實例 129
6.2.4 Apriori算法的程序實現 132
6.2.5 Apriori算法的優缺點 135
6.3 FP-Growth算法 136
6.3.1 FP-Growth算法步驟 136
6.3.2 FP-Growth算法實例 137
6.3.3 FP-Growth算法的優缺點 139
6.4 應用實例:行業關聯選股法 139
6.5 本章小結 141
參考文獻 142
第7章 數據迴歸方法 143
7.1 一元迴歸 144
7.1.1 一元綫性迴歸 144
7.1.2 一元非綫性迴歸 148
7.1.3 一元多項式迴歸 153
7.2 多元迴歸 153
7.2.1 多元綫性迴歸 153
7.2.2 多元多項式迴歸 157
7.3 逐步歸迴 160
7.3.1 逐步迴歸的基本思想 160
7.3.2 逐步迴歸步驟 161
7.3.3 逐步迴歸的MATLAB方法 162
7.4 Logistic迴歸 164
7.4.1 Logistic模型 164
7.4.2 Logistic迴歸實例 165
7.5 應用實例:多因子選股模型
的實現 168
7.5.1 多因子模型的基本思想 168
7.5.2 多因子模型的實現 169
7.6 本章小結 172
參考文獻 172
第8章 分類方法 173
8.1 分類方法概要 173
8.1.1 分類的概念 173
8.1.2 分類的原理 174
8.1.3 常用的分類方法 175
8.2 K-近鄰(KNN) 176
8.2.1 K-近鄰原理 176
8.2.2 K-近鄰實例 177
8.2.3 K-近鄰特點 180
8.3 貝葉斯分類 181
8.3.1 貝葉斯分類原理 181
8.3.2 樸素貝葉斯分類原理 182
8.3.3 樸素貝葉斯分類實例 184
8.3.4 樸素貝葉斯特點 185
8.4 神經網絡 185
8.4.1 神經網絡的原理 185
8.4.2 神經網絡的實例 188
8.4.3 神經網絡的特點 188
8.5 邏輯斯蒂(Logistic) 189
8.5.1 邏輯斯蒂的原理 189
8.5.2 邏輯斯蒂的實例 189
8.5.3 邏輯斯蒂的特點 189
8.6 判彆分析 190
8.6.1 判彆分析的原理 190
8.6.2 判彆分析的實例 191
8.6.3 判彆分析的特點 191
8.7 支持嚮量機(SVM) 192
8.7.1 SVM的基本思想 192
8.7.2 理論基礎 193
8.7.3 支持嚮量機的實例 196
8.7.4 支持嚮量機的特點 196
8.8 決策樹 197
8.8.1 決策樹的基本概念 197
8.8.2 決策樹的建構的步驟 198
8.8.3 決策樹的實例 201
8.8.4 決策樹的特點 202
8.9 分類的評判 202
8.9.1 正確率 202
8.9.2 ROC麯綫 204
8.10 應用實例:分類選股法 206
8.10.1 案例背景 206
8.10.2 實現方法 208
8.11 延伸閱讀:其他分類方法 210
8.12 本章小結 211
參考文獻 211
第9章 聚類方法 212
9.1 聚類方法概要 212
9.1.1 聚類的概念 212
9.1.2 類的度量方法 214
9.1.3 聚類方法的應用場景 216
9.1.4 聚類方法的分類 217
9.2 K-means方法 217
9.2.1 K-means的原理和步驟 218
9.2.2 K-means實例1:自主編程 219
9.2.3 K-means實例2:集成函數 221
9.2.4 K-means的特點 224
9.3 層次聚類 225
9.3.1 層次聚類的原理和步驟 225
9.3.2 層次聚類的實例 227
9.3.3 層次聚類的特點 229
9.4 神經網絡聚類 229
9.4.1 神經網絡聚類的原理和步驟 229
9.4.2 神經網絡聚類的實例 229
9.4.3 神經網絡聚類的特點 230
9.5 模糊C-均值(FCM)方法 230
9.5.1 FCM的原理和步驟 230
9.5.2 FCM的應用實例 232
9.5.3 FCM算法的特點 233
9.6 高斯混閤聚類方法 233
9.6.1 高斯混閤聚類的原理和步驟 233
9.6.2 高斯聚類的實例 236
9.6.3 高斯聚類的特點 236
9.7 類彆數的確定方法 237
9.7.1 類彆的原理 237
9.7.2 類彆的實例 238
9.8 應用實例:股票聚類分池 240
9.8.1 聚類目標和數據描述 240
9.8.2 實現過程 240
9.8.3 結果及分析 242
9.9 延伸閱讀 244
9.9.1 目前聚類分析研究的主要
內容 244
9.9.2 SOM智能聚類算法 245
9.10 本章小結 246
參考文獻 246
第10章 預測方法 247
10.1 預測方法概要 247
10.1.1 預測的概念 247
10.1.2 預測的基本原理 248
10.1.3 量化投資中預測的主要
內容 249
10.1.4 預測的準確度評價及影響
因素 250
10.1.5 常用的預測方法 251
10.2 灰色預測 252
10.2.1 灰色預測原理 252
10.2.2 灰色預測的實例 254
10.3 馬爾科夫預測 256
10.3.1 馬爾科夫預測的原理 256
10.3.2 馬爾科夫過程的特性 257
10.3.3 馬爾科夫預測的實例 258
10.4 應用實例:大盤走勢預測 262
10.4.1 數據的選取及模型的建立 263
10.4.2 預測過程 264
10.4.3 預測結果與分析 265
10.5 本章小結 265
參考文獻 267
第11章 診斷方法 268
11.1 離群點診斷概要 268
11.1.1 離群點診斷的定義 268
11.1.2 離群點診斷的作用 269
11.1.3 離群點診斷方法分類 271
11.2 基於統計的離群點診斷 271
11.2.1 理論基礎 271
11.2.2 應用實例 273
11.2.3 優點與缺點 275
11.3 基於距離的離群點診斷 275
11.3.1 理論基礎 275
11.3.2 應用實例 276
11.3.3 優點與缺點 278
11.4 基於密度的離群點挖掘 278
11.4.1 理論基礎 278
11.4.2 應用實例 279
11.4.3 優點與缺點 281
11.5 基於聚類的離群點挖掘 281
11.5.1 理論基礎 281
11.5.2 應用實例 282
11.5.3 優點與缺點 284
11.6 應用實例:離群點診斷量化
擇時 284
11.7 延伸閱讀:新興的離群點
挖掘方法 286
11.7.1 基於關聯的離群點挖掘 286
11.7.2 基於粗糙集的離群點挖掘 286
11.7.3 基於人工神經網絡的離群點
挖掘 287
11.8 本章小結 287
參考文獻 288
第12章 時間序列方法 289
12.1 時間序列的基本概念 289
12.1.1 時間序列的定義 289
12.1.2 時間序列的組成因素 290
12.1.3 時間序列的分類 291
12.1.4 時間序列分析方法 292
12.2 平穩時間序列分析方法 292
12.2.1 移動平均法 293
12.2.2 指數平滑法 294
12.3 季節指數預測法 295
12.3.1 季節性水平模型 295
12.3.2 季節性趨勢模型 296
12.4 時間序列模型 296
12.4.1 ARMA模型 296
12.4.2 ARIMA模型 297
12.4.3 ARCH模型 298
12.4.4 GARCH模型 298
12.5 應用實例:基於時間序列的
股票預測 299
12.6 本章小結 303
參考文獻 303
第13章 智能優化方法 304
13.1 智能優化方法概要 305
13.1.1 智能優化方法的概念 305
13.1.2 在量化投資中的作用 305
13.1.3 常用的智能優化方法 305
13.2 遺傳算法 307
13.2.1 遺傳算法的原理 307
13.2.2 遺傳算法的步驟 308
13.2.3 遺傳算法實例 316
13.2.4 遺傳算法的特點 317
13.3 模擬退火算法 318
13.3.1 模擬退火算法的原理 318
13.3.2 模擬退火算法步驟 320
13.3.3 模擬退火算法實例 323
13.3.4 模擬退火算法的特點 329
13.4 應用實例:組閤投資優化 330
13.4.1 問題描述 330
13.4.2 求解過程 330
13.5 延伸閱讀:其他智能方法 331
13.5.1 粒子群算法 331
13.5.2 蟻群算法 333
13.6 本章小結 334
參考文獻 335
第三篇 實踐篇
第14章 統計套利策略的挖掘與
優化 338
14.1 統計套利策略概述 338
14.1.1 統計套利的定義 338
14.1.2 統計套利策略的基本思想 338
14.1.3 統計套利策略挖掘的方法 339
14.2 基本策略的挖掘 340
14.2.1 準備數據 340
14.2.2 探索交易策略 340
14.2.3 驗證交易策略 341
14.2.4 選擇最佳的參數 342
14.2.5 參數掃描法 345
14.2.6 考慮交易費 346
14.3 高頻交易策略及優化 348
14.3.1 高頻交易的基本思想 348
14.3.2 高頻交易的實現 350
14.4 多交易信號策略的組閤及
優化 352
14.4.1 多交易信號策略 352
14.4.2 交易信號的組閤優化機理 354
14.4.3 交易信號的組閤優化實現 355
量化投資――MATLAB數據挖掘技術與實踐 下載 mobi epub pdf txt 電子書
評分
☆☆☆☆☆
還沒看,買來學習的,應該還可以。
評分
☆☆☆☆☆
量化投資學習的。挺好的書籍,值得購買。
評分
☆☆☆☆☆
這個書不錯 適閤入門學習
評分
☆☆☆☆☆
送貨快,買來普及下高頻交易知識。
評分
☆☆☆☆☆
年過瞭一半瞭,要靜下來看看書瞭
評分
☆☆☆☆☆
書的質量很不錯,印刷字體清晰,內容詳盡
評分
☆☆☆☆☆
我為什麼喜歡在京東買東西,因為今天買明天就可以送到。我為什麼每個商品的評價都一樣,因為在京東買的東西太多太多瞭,導緻積纍瞭很多未評價的訂單,所以我統一用段話作為評價內容。京東購物這麼久,有買到很好的産品,也有買到比較坑的産品,如果我用這段話來評價,說明這款産品沒問題,至少85分以上
評分
☆☆☆☆☆
不錯,可以看看。但內容有點老,瞭解一下還不錯
評分
☆☆☆☆☆
多看看書,看得懂的看不懂的,小散很難搞那麼專業,多拓展下思路。