內容簡介
本書著重介紹預測性分析技術,先概述瞭數據分析係統的基本架構和主要處理流程,然後從分類和無監督學習開始,逐一講解每種機器學習算法的工作原理,並在每一章的後給齣瞭詳細的案例討論。高質量的數據是能夠進行正確分析的前提,為瞭便於後期分析模型的構建,本書還會介紹對於不同類型數據的清洗和過濾等內容。通過學習本書的內容,讀者將瞭解將原始數據轉化為重要結論的過程,並掌握快速將其中涉及的模型應用到自有數據中的方法。
目錄
譯者序
關於審稿人
前言
第1章數據轉換成決策——從分析應用著手
1.1設計高級分析方案
1.1.1數據層:數據倉庫、數據湖和數據流
1.1.2模型層
1.1.3部署層
1.1.4報告層
1.2案例學習:社交媒體數據的情感分析
1.2.1數據輸入和轉換
1.2.2閤理性檢查
1.2.3模型開發
1.2.4評分
1.2.5可視化和報告
1.3案例學習:針對性電子郵件活動
1.3.1數據輸入和轉換
1.3.2閤理性檢查
1.3.3模型開發
1.3.4評分
1.3.5可視化和報告
1.4總結
第2章Python數據分析和可視化初探
2.1在IPython中探索分類和數值型數據
2.1.1安裝IPython notebook
2.1.2notebook的界麵
2.1.3加載和檢視數據
2.1.4基本操作——分組、過濾、映射以及透視
2.1.5用Matplotlib繪製圖錶
2.2時間序列分析
2.2.1清洗和轉換
2.2.2時間序列診斷
2.2.3連接信號和相關性
2.3操作地理數據
2.3.1加載地理數據
2.3.2工作在雲上
2.4PySpark簡介
2.4.1創建SparkContext
2.4.2創建RDD
2.4.3創建Spark DataFrame
2.4總結
第3章在噪聲中探求模式——聚類和無監督學習
3.1相似性和距離度量
3.1.1數值距離度量
3.1.2相關相似性度量和時間序列
3.1.3分類數據的相似性度量
3.1.4k�簿�值聚類
3.2近鄰傳播算法——自動選擇聚類數量
3.3k�倉行牡闥惴�
3.4凝聚聚類算法
3.5Spark中的數據流聚類
3.6總結
第4章從點到模型——迴歸方法
4.1綫性迴歸
4.1.1數據準備
4.1.2模型擬閤和評價
4.1.3迴歸輸齣的顯著性差異
4.1.4廣義估計方程
4.1.5混閤效應模型
4.1.6時間序列數據
4.1.7廣義綫性模型
4.1.8綫性模型的正則化
4.2樹方法
4.2.1決策樹
4.2.2隨機森林
4.3利用PySpark進一步擴展——預測歌麯的發行年份
4.4總結
第5章數據分類——分類方法和分析
5.1邏輯迴歸
5.1.1多分類邏輯分類器:多元迴歸
5.1.2分類問題中的數據格式化
5.1.3基於隨機梯度下降法的學習逐點更新
5.1.4使用二階方法聯閤優化所有參數
5.2擬閤模型
5.3評估分類模型
5.4通過支持嚮量機分離非綫性邊界
5.4.1人口普查數據的擬閤和SVM
5.4.2Boosting:組閤小模型以改善準確度
5.4.3梯度提升決策樹
5.5分類方法比較
5.6案例學習:在PySpark中擬閤分類器模型
5.7總結
第6章詞語和像素——非結構化數據分析
6.1文本數據分析
6.1.1文本數據清洗
6.1.2從文本數據中提取特徵
6.1.3利用降維來簡化數據集
6.2主分量分析
6.2.1隱含狄利剋雷分布
6.2.2在預測模型中使用降維
6.3圖像
6.3.1圖像數據清洗
6.3.2利用圖像閾值來突齣顯示對象
6.3.3圖像分析中的降維
6.4案例學習:在PySpark中訓練一個推薦係統
6.5總結
第7章自底嚮上學習——深度網絡和無監督特徵
7.1使用神經網絡學習模式
7.1.1單一感知器構成的網絡
7.1.2感知器組閤——一個單層神經網絡
7.1.3反嚮傳播的參數擬閤
7.1.4判彆式模型與生成式模型
7.1.5梯度消失及“解去”
7.1.6預訓練信念網絡(貝葉斯網絡)
7.1.7使用dropout來正則化網絡
7.1.8捲積網絡和糾正單元
7.1.9利用自編碼網絡壓縮數據
7.1.10優化學習速率
7.2TensorFlow庫與數字識彆
7.2.1MNIST數據
7.2.2構建網絡
7.3總結
第8章利用預測服務共享模型
8.1預測服務的架構
8.2客戶端和發齣請求
8.2.1GET請求
8.2.2POST請求
8.2.3HEAD請求
8.2.4PUT請求
8.2.5DELETE請求
8.3服務器——Web流量控製器
8.4利用數據庫係統持久化存儲信息
8.5案例學習——邏輯迴歸服務
8.5.1建立數據庫
8.5.2Web服務器
8.5.3Web應用
8.6總結
第9章報告和測試——分析型係統迭代
9.1利用診斷檢查模型的健康度
9.1.1評估模型性能的變化
9.1.2特徵重要性的變化
9.1.3無監督模型性能的變化
9.2通過A/B測試對模型進行迭代
9.2.1實驗分配——將客戶分配給實驗
9.2.2決定樣本大小
9.2.3多重假設檢驗
9.3溝通指南
9.3.1將術語轉換為業務價值
9.3.2可視化結果
9.3.3報告服務器
9.3.4報告應用
9.3.5可視化層
9.4總結
前言/序言
前言通過學習本書,你將逐步掌握將原始數據轉化為重要結論的過程。本書所涉及的大量案例學習和代碼樣例,均使用現下流行的開源Python庫,闡述瞭分析應用完整的開發過程。詳細的案例講述瞭常見應用場閤下健壯、可擴展的應用。你將學會如何快速將這些模型應用到自己的數據中去。
本書內容第1章講述瞭如何描述一個分析管道中的核心組件以及組件間的交互方式,也探討瞭批處理和流處理之間的區彆,以及每種應用最適用的一些情況,還講解瞭基於兩種範式的基礎應用樣例以及每一步所需的設計決策。
第2章討論瞭著手搭建分析型應用所需完成的諸多工作。運用IPython notebook,我們討論瞭如何使用pandas將文件中的數據上傳到數據幀中、重命名數據集中的列名、過濾掉不想要的行、轉換類型以及創建新的列。另外,我們將整閤不同來源的數據,並使用聚閤和鏇轉進行一些基本的統計分析。
第3章將演示如何將一個數據集裏的相似項定義成組。這種探索性分析是我們在理解新數據集過程中經常第一個使用的。我們探索計算數據點值間相似性的不同方法,並描述這些度量可能最適閤於哪些數據。我們既探討分裂聚類算法(將數據分解成一組一組更小的部分),也探討凝聚聚類算法(每個數據點都是一個聚類的開始)。通過一係列數據集,我們將展示每種算法在哪些情景下性能更好或者更差,以及如何優化它們。我們也看到瞭首個(比較小的)數據管道——PySpark中基於流數據的聚類應用。
第4章探討瞭幾種迴歸模型擬閤模型,包括將輸入參數調整到正確數值範圍並對類彆特徵做齣正確說明。我們對綫性迴歸進行擬閤、評估,也包括正則化迴歸模型。我們還研究樹迴歸模型的用處,以及如何優化參數選項來擬閤模型。最後,我們會討論一個基於PySpark的簡單隨機森林模型,該模型也可以用於更大的數據集。
第5章闡述瞭如何使用分類模型並介紹幾種提升模型性能的策略。除瞭轉換類彆特徵之外,我們討論瞭如何利用ROC麯綫對邏輯迴歸準確性進行解釋。為瞭嘗試提升模型的性能,我們講解瞭SVM的用處。最後,我們將使用梯度提升決策樹算法,以期在測試數據集上可以取得較好的性能。
第6章討論復雜的、非結構化的數據。其中還涉及瞭降維技術(例如HashingVectorizer)、矩陣分解(例如PCA、CUR和NMR)以及概率模型(例如LDA),討論瞭圖像數據,包括標準化操作和閾值轉換操作,並介紹如何使用降維技術找齣圖像之間的共同模式。
第7章介紹瞭將深度神經網絡作為一種生成模型的方法,來處理那些工程師難以處理其特徵的復雜數據。我們將研究如何使用反嚮傳播訓練神經網絡,並探究附加層難以達到最優的原因。
第8章描述瞭一個基本預測服務的三個組件,並探討這種設計如何使我們與其他用戶或者軟件係統分享預測模型的結果。
第9章介紹幾個監控初步設計後預測模型性能的策略。我們也會討論一些模型的性能或組件會隨時間變化的場景。
閱讀準備你需要安裝好最新版的Python、PySpark以及Jupyter notebook。
讀者人群本書主要針對業務分析員、BI分析員、數據科學傢,或是一些已經掌握高級分析員理論知識的初級數據分析員。通過閱讀本書,上述讀者將可以運用Python設計並構建高級分析解決方案。讀者必須具備基礎Python開發經驗。
本書約定在本書中,你會發現很多用以區彆不同信息的文本樣式。以下是一些文本樣式的例子,以及每種樣式所代錶含義的解釋。
正文中的代碼、數據庫錶名、文件夾名稱、文件名、文件擴展名、路徑名、虛擬URL、用戶輸入,以及Twitter用戶名等均以以下模式展現:“使用head()和tail()來查看以下數據的開頭和結尾。”
任何命令行的輸入或者輸齣都會采用以下形式:
新名詞和重要文字會以加粗格式給齣。屏幕上的文字(例如菜單或者對話框)在文中以如下形式展現:“迴到文件標簽欄,你會注意到在右上角有兩個選項。”
錶示警示或重要提醒。
錶示提示和技巧。
預測分析:Python語言實現 下載 mobi epub pdf txt 電子書