PySpark實戰指南:利用Python和Spark構建數據密集型應用並規模化部署
基本信息
原書名:Learning PySpark
作者: (美)托馬茲·卓巴斯(Tomasz Drabas) (美)丹尼·李(Denny Lee)
譯者: 欒雲傑 陳瑤 劉旭斌
叢書名: 大數據技術叢書
齣版社:機械工業齣版社
ISBN:9787111582380
定價 49元
齣版日期:2017 年11月
開本:16開
版次:1-1
所屬分類:計算機
作譯者
托馬茲·卓巴斯(Tomasz Drabas)工作於微軟,是一名數據科學傢,現居住在西雅圖地區。他擁有過13年的數據分析和數據科學經驗:在歐洲、澳大利亞和北美洲三大洲期間,工作領域遍及先進技術、航空、電信、金融和谘詢。在澳大利亞期間,托馬茲一直緻力於運籌學博士學位,重點是航空業中的選擇建模和收入管理應用。
在微軟,托馬茲每天都和大數據打交道,解決機器學習問題,如異常檢測、流失預測和使用Spark的模式識彆。
托馬茲還撰寫瞭《Practical Data Analysis Cookbook》,該書由Packt Publishing於2016年齣版。
我要感謝我的傢人Rachel、Skye 和Albert,你們是我生命中的摯愛,我很珍惜與你們度過的每一天!謝謝你們永遠站在我身邊,鼓勵我一步步接近我的職業目標。另外,感謝所有的親人們。
多年來,還有很多人影響瞭我,我得再寫一本書來感謝他們。你們知道,我從心底謝謝你們!
不過,如果不是Czesia Wieruszewska,我不會得到博士學位。還有Krzys Krzysztoszek,你一直相信我!謝謝!
丹尼·李(Denny Lee)是微軟Azure DocumentDB團隊的席項目經理,該團隊緻力於為微軟發展高效性、重量級的托管文檔存儲服務。他是一名喜歡實踐的分布式係統和數據科學工程師,擁有過18年的互聯網級彆基礎架構、數據平颱和預測分析係統的開發經驗,這些經驗可用於內部部署和雲環境。
他在組建新團隊以及促進轉型、改革方麵擁有豐富的經驗。在加入Azure DocumentDB團隊之前,丹尼曾擔任Databricks的技術傳播專員,他從Apache Spark 0.5時就一直在使用Apache Spark。他還是Concur數據科學工程的高級總監,曾就職於構建瞭微軟Windows和Azure服務(目前稱為HDInsight)的Hadoop的孵化團隊。丹尼還擁有俄勒岡州健康和科學大學的生物醫學信息碩士學位,並在過去15年中為企業醫療保健客戶構建和實施瞭強大的數據解決方案。
我要感謝我的好妻子Hua-Ping,還有我齣色的女兒Isabella和Samantha。是你們讓我保持清醒,幫我實現瞭夢寐以求的願望!
目錄
目錄
譯者序
序
前言
關於作者
第1章 瞭解Spark 1
1.1 什麼是Apache Spark 1
1.2 Spark作業和API 2
1.2.1 執行過程 2
1.2.2 彈性分布式數據集 3
1.2.3 DataFrame 4
1.2.4 Dataset 5
1.2.5 Catalyst優化器 5
1.2.6 鎢絲計劃 5
1.3 Spark 2.0的架構 6
1.3.1 統一Dataset和DataFrame 7
1.3.2 SparkSession介紹 8
1.3.3 Tungsten Phase 2 8
1.3.4 結構化流 10
1.3.5 連續應用 10
1.4 小結 11
第2章 彈性分布式數據集 12
2.1 RDD的內部運行方式 12
2.2 創建RDD 13
2.2.1 Schema 14
2.2.2 從文件讀取 14
2.2.3 Lambda錶達式 15
2.3 全局作用域和局部作用域 16
2.4 轉換 17
2.4.1 .map(...)轉換 17
2.4.2 .filter(...)轉換 18
2.4.3 .flatMap(...)轉換 18
2.4.4 .distinct(...)轉換 18
2.4.5 .sample(...)轉換 19
2.4.6 .leftOuterJoin(...)轉換 19
2.4.7 .repartition(...)轉換 20
2.5 操作 20
2.5.1 .take(...)方法 21
2.5.2 .collect(...)方法 21
2.5.3 .reduce(...)方法 21
2.5.4 .count(...)方法 22
2.5.5 .saveAsTextFile(...)方法 22
2.5.6 .foreach(...)方法 23
2.6 小結 23
第3章 DataFrame 24
3.1 Python到RDD之間的通信 24
3.2 Catalyst優化器刷新 25
3.3 利用DataFrame加速PySpark 27
3.4 創建DataFrame 28
3.4.1 生成自己的JSON數據 29
3.4.2 創建一個DataFrame 29
3.4.3 創建一個臨時錶 30
3.5 簡單的DataFrame查詢 31
3.5.1 DataFrame API查詢 32
3.5.2 SQL查詢 32
3.6 RDD的交互操作 33
3.6.1 使用反射來推斷模式 33
3.6.2 編程指定模式 34
3.7 利用DataFrame API查詢 35
3.7.1 行數 35
3.7.2 運行篩選語句 35
3.8 利用SQL查詢 36
3.8.1 行數 36
3.8.2 利用where子句運行篩選語句 36
3.9 DataFrame場景——實時飛行性能 38
3.9.1 準備源數據集 38
3.9.2 連接飛行性能和機場 39
3.9.3 可視化飛行性能數據 40
3.10 Spark數據集(Dataset)API 41
3.11 小結 42
第4章 準備數據建模 43
4.1 檢查重復數據、未觀測數據和異常數據(離群值) 43
4.1.1 重復數據 43
4.1.2 未觀測數據 46
4.1.3 離群值 50
4.2 熟悉你的數據 51
4.2.1 描述性統計 52
4.2.2 相關性 54
4.3 可視化 55
4.3.1 直方圖 55
4.3.2 特徵之間的交互 58
4.4 小結 60
第5章 MLlib介紹 61
5.1 包概述 61
5.2 加載和轉換數據 62
5.3 瞭解你的數據 65
5.3.1 描述性統計 66
5.3.2 相關性 67
5.3.3 統計測試 69
5.4 創建終數據集 70
5.4.1 創建LabeledPoint形式的RDD 70
5.4.2 分隔培訓和測試數據 71
5.5 預測嬰兒生存機會 71
5.5.1 MLlib中的邏輯迴歸 71
5.5.2 隻選擇可預測的特徵 72
5.5.3 MLlib中的隨機森林 73
5.6 小結 74
第6章 ML包介紹 75
6.1 包的概述 75
6.1.1 轉換器 75
6.1.2 評估器 78
6.1.3 管道 80
6.2 使用ML預測嬰兒生存幾率 80
6.2.1 加載數據 80
6.2.2 創建轉換器 81
6.2.3 創建一個評估器 82
6.2.4 創建一個管道 82
6.2.5 擬閤模型 83
6.2.6 評估模型的性能 84
6.2.7 保存模型 84
6.3 參調優 85
6.3.1 網格搜索法 85
6.3.2 Train-validation 劃分 88
6.4 使用PySpark ML的其他功能 89
6.4.1 特徵提取 89
6.4.2 分類 93
6.4.3 聚類 95
6.4.4 迴歸 98
6.5 小結 99
第7章 GraphFrames 100
7.1 GraphFrames介紹 102
7.2 安裝GraphFrames 102
7.2.1 創建庫 103
7.3 準備你的航班數據集 105
7.4 構建圖形 107
7.5 執行簡單查詢 108
7.5.1 確定機場和航班的數量 108
7.5.2 確定這個數據集中的長延誤時間 108
7.5.3 確定延誤和準點/早到航班的數量對比 109
7.5.4 哪一班從西雅圖齣發的航班有可能齣現重大延誤 109
7.5.5 西雅圖齣發到哪個州的航班有可能齣現重大延誤 110
7.6 理解節點的度 110
7.7 確定大的中轉機場 112
7.8 理解Motif 113
7.9 使用PageRank確定機場排名 114
7.10 確定受歡迎的直飛航班 115
7.11 使用廣度優先搜索 116
7.12 使用D3將航班可視化 118
7.13 小結 119
第8章 TensorFrames 120
8.1 深度學習是什麼 120
8.1.1 神經網絡和深度學習的必要性 123
8.1.2 特徵工程是什麼 125
8.1.3 橋接數據和算法 125
8.2 TensorFlow是什麼 127
8.2.1 安裝PIP 129
8.2.2 安裝TensorFlow 129
8.2.3 使用常量進行矩陣乘法 130
8.2.4 使用placeholder進行矩陣乘法 131
8.2.5 討論 132
8.3 TensorFrames介紹 133
8.4 TensorFrames快速入門 134
8.4.1 配置和設置 134
8.4.2 使用TensorFlow嚮已有列添加常量 136
8.4.3 Blockwise reducing操作示例 137
8.5 小結 139
第9章 使用Blaze實現混閤持久化 141
9.1 安裝Blaze 141
9.2 混閤持久化 142
9.3 抽象數據 143
9.3.1 使用NumPy 數組 143
9.3.2 使用pandas的DataFrame 145
9.3.3 使用文件 145
9.3.4 使用數據庫 147
9.4 數據操作 149
9.4.1 訪問列 150
9.4.2 符號轉換 150
9.4.3 列的操作 151
9.4.4 降階數據 152
9.4.5 連接 154
9.5 小結 156
第10章 結構化流 157
10.1 什麼是Spark Streaming 157
10.2 為什麼需要Spark Streaming 159
10.3 Spark Streaming應用程序數據流是什麼 160
10.4 使用DStream簡化Streaming應用程序 161
10.5 全局聚閤快速入門 165
10.6 結構化流介紹 168
10.7 小結 172
第11章 打包Spark應用程序 173
11.1 spark-submit命令 173
11.2 以編程方式部署應用程序 176
11.2.1 配置你的SparkSession 176
11.2.2 創建SparkSession 177
11.2.3 模塊化代碼 177
11.2.4 提交作業 180
11.2.5 監控執行 182
11.3 Databricks作業 184
11.4 小結 186
↑摺 疊
Apache Spark機器學習 平裝 – 2017年3月1日
劉永川 (Alex Liu) (作者), 閆龍川 (譯者), 高德荃 (譯者), 李君婷 (譯者)
定價59元齣版社: 機械工業齣版社; 第1版 (2017年3月1日)
外文書名: Apache Spark Machine Learning Blueprints
叢書名: 大數據技術叢書
平裝: 208頁
語種: 簡體中文
開本: 16
ISBN: 7111562550, 9787111562559
條形碼: 9787111562559
商品尺寸: 23.8 x 18.2 x 1.2 cm
商品重量: 381 g
品牌: 機械工業齣版社
本書包裝瞭一係列項目“藍圖”,展示瞭Spark可以幫你解決的一些有趣挑戰,讀者在將理論知識實踐於一些實際項目之前,會瞭解到如何使用Sparknotebook,以及如何訪問、清洗和連接不同的數據集,你將在其中瞭解Spark機器學習如何幫助你完成從欺詐檢測到分析客戶流失等各種工作。你還將瞭解如何使用Spark的並行計算能力構建推薦引擎。目錄
版權信息
譯者序
前言
第1章 Spark機器學習簡介
1.1 Spark概述和技術優勢
1.2 在機器學習中應用Spark計算
1.3 機器學習算法
1.4 MLlib
1.5 Spark RDD和DataFrame
1.6 機器學習工作流和Spark pipeline
1.7 機器學習工作流示例
1.8 Spark notebook簡介
1.9 小結
第2章 Spark機器學習的數據準備
2.1 訪問和加載數據集
2.2 數據清洗
2.3 一緻性匹配
2.4 數據集重組
2.5 數據集連接
2.6 特徵提取
2.7 復用性和自動化
2.8 小結
第3章 基於Spark的整體視圖
3.1 Spark整體視圖
3.2 整體視圖的方法
3.3 特徵準備
3.4 模型估計
3.5 模型評估
3.6 結果解釋
3.7 部署
3.8 小結
第4章 基於Spark的欺詐檢測
第10章 基於Spark的電信數據學習
10.1 在Spark平颱上使用電信數據
10.2 電信數據機器學習方法
10.3 數據和特徵開發
10.4 模型估計
10.5 模型評估
10.6 結果解釋
10.7 模型部署
10.8 小結
第11章 基於Spark的開放數據建模
11.1 Spark用於開放數據學習
11.2 數據和特徵準備
11.3 模型估計
11.4 結果解釋
11.5 部署
11.6 小結
評分
評分
評分
評分
評分
評分
評分
評分
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 windowsfront.com All Rights Reserved. 靜流書站 版權所有