Spark高級數據分析第2版 pdf epub mobi txt 電子書下載 2026

繁體網頁||簡體網頁

☆☆☆☆☆

[美] 桑迪·裏紮（Sandy Ryza），[美] 於裏·萊瑟森（Uri Laserson），[英] 肖恩·歐文（Sean Owen），[美] 喬希·威爾斯（Josh Wills）著，龔少成，邱鑫譯

圖書標籤:

Spark
數據分析
大數據
Python
Scala
機器學習
數據挖掘
高級
第2版
技術

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

windowsfront.com

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：人民郵電齣版社

ISBN：9787115482525

版次：2

商品編碼：12371964

包裝：平裝

開本：16開

齣版時間：2018-06-01

用紙：膠版紙

頁數：226

正文語種：中文

具體描述

産品特色

編輯推薦

作為計算框架，Spark速度快，開發簡單，能同時兼顧批處理和實時數據分析，因此很快被廣大企業級用戶所采納，並隨著近年人工智能的崛起而成為分析和挖掘大數據的重要得力工具。

本書由業內知名數據科學傢執筆，通過豐富的示例展示瞭如何結閤Spark、統計方法和真實世界數據集來解決數據分析問題，既涉及模型的構建和評價，也涵蓋數據清洗、數據預處理和數據探索，並描述瞭如何將結果變為生産應用，是運用Apache Spark進行大數據分析和處理的實戰寶典。

第2版根據新版Spark傑齣實踐，對樣例代碼和所用資料做瞭大量更新。

本書涵蓋模式如下：

● 音樂推薦和Audioscrobbler數據集
● 用決策樹算法預測森林植被
● 基於K均值聚類進行網絡流量異常檢測
● 基於潛在語義算法分析維基百科
● 用GraphX分析伴生網絡
● 對紐約齣租車軌跡進行空間和時間數據分析
● 通過濛特卡羅模擬來評估金融風險
● 基因數據分析和BDG項目
● 用PySpark和Thunder分析神經圖像數據

內容簡介

本書是使用Spark進行大規模數據分析的實戰寶典，由知名數據科學傢撰寫。本書在第1版的基礎上，針對Spark近年來的發展，對樣例代碼和所使用的資料進行瞭大量更新。新版Spark使用瞭全新的核心API，MLlib和Spark SQL兩個子項目也發生瞭較大變化，本書為關注Spark發展趨勢的讀者提供瞭與時俱進的資料，例如Dataset和DataFrame的使用，以及與DataFrame API高度集成的Spark ML API。

作者簡介

【作者簡介】
桑迪·裏紮（Sandy Ryza），Spark項目代碼提交者、Hadoop項目管理委員會委員，Time Series for Spark項目創始人。曾任Cloudera公司高級數據科學傢，現就職於Remix公司從事公共交通算法開發。
於裏·萊瑟森（Uri Laserson），MIT博士畢業，緻力於用技術解決遺傳學問題，曾利用Hadoop生態係統開發瞭可擴展的基因組學和免疫學技術。目前是西奈山伊坎醫學院遺傳學助理教授，曾任Cloudera公司核心數據科學傢。

肖恩·歐文（Sean Owen），Spark、Mahout項目代碼提交者，Spark項目管理委員會委員。現任Cloudera公司數據科學總監。

喬希·威爾斯（Josh Wills），Crunch項目發起人，現任Slack公司數據工程主管。曾任Cloudera公司高級數據科學總監。

【譯者簡介】

龔少成
現任萬達科技集團數據工程部總經理，清華大學自動化係研究生畢業，國內專注企業級大數據平颱建設的先驅者之一，曾經在Intel和Cloudera公司擔任大數據技術負責人，Cloudera公司認證大數據培訓講師。

邱鑫
畢業於武漢大學，目前就職於英特爾亞太研發有限公司，是Intel大數據團隊高級工程師。主要研究大數據與深度學習技術，是基於Spark的深度學習框架BigDL的核心貢獻者。

推薦序 ix
譯者序　xi
序　xiii
前言　xv
第　1章大數據分析　1
1．1　數據科學麵臨的挑戰　2
1．2　認識Apache Spark　4
1．3　關於本書　5
1．4　第 2版說明　6
第　2章用Scala 和Spark 進行數據分析　8
2．1　數據科學傢的Scala　9
2．2　Spark編程模型　10
2．3　記錄關聯問題　10
2．4　小試牛刀：Spark shell和SparkContext　11
2．5　把數據從集群上獲取到客戶端　16
2．6　把代碼從客戶端發送到集群　19
2．7　從RDD到DataFrame　20
2．8　用DataFrame API來分析數據　23
2．9　DataFrame的統計信息　27
2．10　DataFrame的轉置和重塑　29
2．11　DataFrame的連接和特徵選擇　32
2．12　為生産環境準備模型　33
2．13　評估模型　35
2．14　小結　36
第3章　音樂推薦和Audioscrobbler數據集　37
3．1　數據集　38
3．2　交替最小二乘推薦算法　39
3．3　準備數據　41
3．4　構建第一個模型　44
3．5　逐個檢查推薦結果　47
3．6　評價推薦質量　50
3．7　計算AUC　51
3．8　選擇超參數　53
3．9　産生推薦　55
3．10　小結　56
第4章　用決策樹算法預測森林植被　58
4．1　迴歸簡介　59
4．2　嚮量和特徵　59
4．3　樣本訓練　60
4．4　決策樹和決策森林　61
4．5　Covtype數據集　63
4．6　準備數據　64
4．7　第一棵決策樹　66
4．8　決策樹的超參數　72
4．9　決策樹調優　73
4．10　重談類彆型特徵　77
4．11　隨機決策森林　79
4．12　進行預測　81
4．13　小結　82
第5章　基於K均值聚類的網絡流量異常檢測　84
5．1　異常檢測　85
5．2　K均值聚類　85
5．3　網絡入侵　86
5．4　KDD Cup 1999數據集　86
5．5　初步嘗試聚類　87
5．6　k的選擇　90
5．7　基於SparkR 的可視化　92
5．8　特徵的規範化　96
5．9　類彆型變量　98
5．10　利用標號的熵信息　99
5．11　聚類實戰　100
5．12　小結　102
第6章　基於潛在語義分析算法分析維基百科　104
6．1　文檔－詞項矩陣　105
6．2　獲取數據　106
6．3　分析和準備數據　107
6．4　詞形歸並　109
6．5　計算TF-IDF　110
6．6　奇異值分解　111
6．7　找齣重要的概念　113
6．8　基於低維近似的查詢和評分　117
6．9　詞項－詞項相關度　117
6．10　文檔－文檔相關度　119
6．11　文檔－詞項相關度　121
6．12　多詞項查詢　122
6．13　小結　123
第7章　用GraphX分析伴生網絡　124
7．1　對MEDLINE文獻引用索引的網絡分析　125
7．2　獲取數據　126
7．3　用Scala XML工具解析XML文檔　128
7．4　分析MeSH主要主題及其伴生關係　130
7．5　用GraphX來建立一個伴生網絡　132
7．6　理解網絡結構　135
7．6．1　連通組件　136
7．6．2　度的分布　138
7．7　過濾噪聲邊　140
7．7．1　處理EdgeTriplet　141
7．7．2　分析去掉噪聲邊的子圖　142
7．8　小世界網絡　144
7．8．1　係和聚類係數　144
7．8．2　用Pregel計算平均路徑長度　145
7．9　小結　150
第8章　紐約齣租車軌跡的空間和時間數據分析　151
8．1　數據的獲取　152
8．2　基於Spark的第三方庫分析　153
8．3　基於Esri Geometry API和Spray的地理空間數據處理　153
8．3．1　認識Esri Geometry API　154
8．3．2　GeoJSON簡介　155
8．4　紐約市齣租車客運數據的預處理　157
8．4．1　大規模數據中的非法記錄處理　159
8．4．2　地理空間分析　162
8．5　基於Spark的會話分析　165
8．6　小結　168
第9章　基於濛特卡羅模擬的金融風險評估　170
9．1　術語　171
9．2　VaR計算方法　172
9．2．1　方差－協方差法　172
9．2．2　曆史模擬法　172
9．2．3　濛特卡羅模擬法　172
9．3　我們的模型　173
9．4　獲取數據　173
9．5　數據預處理　174
9．6　確定市場因素的權重　177
9．7　采樣　179
9．8　運行試驗　182
9．9　迴報分布的可視化　185
9．10　結果的評估　186
9．11　小結　188
第　10章基因數據分析和BDG項目　190
10．1　分離存儲與模型　191
10．2　用ADAM CLI導入基因學數據　193
10．3　從ENCODE數據預測轉錄因子結閤位點　201
10．4　查詢1000 Genomes項目中的基因型　207
10．5　小結　210
第　11章基於PySpark和Thunder的神經圖像數據分析　211
11．1　PySpark簡介　212
11．2　Thunder工具包概況和安裝　215
11．3　用Thunder加載數據　215
11．4　用Thunder對神經元進行分類　221
11．5　小結　225
作者介紹　226
封麵介紹　226

《海闊憑魚躍：Python數據科學實踐指南》內容簡介在這個信息爆炸的時代，數據已成為驅動決策、洞察市場、引領創新的核心要素。然而，海量數據的背後，往往隱藏著深刻的洞察與機遇，等待著有能力將其轉化為價值的實踐者。《海闊憑魚躍：Python數據科學實踐指南》正是為這樣的你而生。本書並非高高在上的理論堆砌，也不是對單一工具的淺嘗輒止，而是一場深度融入Python生態係統的數據科學實戰之旅。我們將帶領你從零開始，一步步構建堅實的數據科學技能體係，掌握從數據采集、清洗、處理，到探索性分析、建模、評估，直至最終可視化與部署的全流程，讓你真正做到“海闊憑魚躍”。本書的最大特色在於其“實踐為王”的設計理念。我們深知，數據科學的精髓在於解決實際問題。因此，每一章都緊密圍繞一個或多個真實世界的數據分析場景展開。從商業智能分析到用戶行為預測，從金融風險評估到社交網絡分析，我們將通過一係列精心設計的案例，讓你在動手實踐中學習理論，在解決問題中鞏固知識。你將不再是枯燥地閱讀代碼，而是真正參與到數據的生命周期中，體驗數據從“原始”到“洞察”的蛻變過程。核心內容概覽：第一部分：Python數據科學基礎與環境搭建 Python語言入門與進階：即使你對Python尚不熟悉，本書也會從基礎語法、數據類型、控製流、函數等核心概念講起，並快速過渡到麵嚮對象編程、模塊化設計等進階主題。我們關注的是數據科學所需的Python特性，確保你高效掌握。高效開發環境：從Anaconda的安裝與管理，到Jupyter Notebook/Lab、VS Code等主流開發工具的使用，我們將為你搭建一個順暢、高效的數據科學開發環境，讓你專注於數據分析本身。數據科學核心庫速覽： NumPy（數值計算）、Pandas（數據處理與分析）、Matplotlib/Seaborn（數據可視化）等Python數據科學的基石庫，本書將以應用為導嚮，快速讓你掌握它們的核心功能，並理解它們在數據分析流程中的關鍵作用。第二部分：數據采集與預處理：打牢數據基礎多源數據獲取：掌握從CSV、Excel、JSON、SQL數據庫等常見格式文件中讀取數據的方法。更進一步，我們將探索網絡爬蟲（requests, BeautifulSoup, Scrapy）的基本原理和實踐，讓你能夠從互聯網抓取所需數據。數據清洗與轉換：真實世界的數據往往是“髒”的。本部分將係統講解缺失值處理（填充、刪除）、異常值檢測與處理、重復值識彆與去除、數據類型轉換、字符串處理、日期時間處理等核心技術。你將學會如何讓數據變得乾淨、規範，為後續分析奠定堅實基礎。數據重塑與閤並：學習使用Pandas的強大功能進行數據框的閤並（merge, join, concat）、分組（groupby）、透視（pivot_table）等操作，以滿足不同分析需求的數據結構調整。第三部分：探索性數據分析（EDA）：發掘數據中的故事描述性統計：深入理解均值、中位數、方差、標準差、分位數等統計量，並通過Python代碼進行計算與解讀。數據可視化：數據可視化是理解數據、呈現發現的關鍵。我們將使用Matplotlib和Seaborn，係統學習散點圖、摺綫圖、柱狀圖、直方圖、箱綫圖、熱力圖等多種圖錶的繪製技巧，並掌握如何根據分析目的選擇閤適的圖錶類型。學習如何通過可視化發現數據分布、變量關係、趨勢變化等。關聯性分析：運用相關係數（Pearson, Spearman）等方法量化變量之間的綫性或單調關係，並結閤散點圖進行直觀展示。模式與趨勢識彆：學習如何通過時間序列分析、異常檢測等方法，在數據中挖掘潛在的模式和發展趨勢。第四部分：機器學習建模與評估：讓數據說話 Scikit-learn核心組件：掌握Scikit-learn庫的使用，這是Python機器學習的黃金標準。學習其統一的API設計，包括Estimator、Transformer、Pipeline等重要概念。監督學習算法實踐：迴歸問題：綫性迴歸、多項式迴歸、嶺迴歸、Lasso迴歸等，用於預測連續數值。分類問題：邏輯迴歸、K近鄰（KNN）、支持嚮量機（SVM）、決策樹、隨機森林、梯度提升樹（如XGBoost, LightGBM）等，用於預測離散類彆。無監督學習算法實踐：聚類分析： K-Means、DBSCAN等，用於發現數據中的自然分組。降維技術：主成分分析（PCA）、t-SNE等，用於降低數據維度，便於可視化和模型訓練。模型評估與調優：學習常用的評估指標（如準確率、精確率、召迴率、F1分數、ROC麯綫、AUC、均方誤差、R²等），理解交叉驗證的重要性，並掌握網格搜索（Grid Search）、隨機搜索（Random Search）等超參數調優技術，以提升模型性能。特徵工程：講解如何通過特徵選擇、特徵提取、特徵組閤等方法，創造更有利於模型學習的新特徵，是提升模型效果的關鍵一步。第五部分：高級主題與案例分析：融會貫通，解決實際難題時間序列分析：深入講解時間序列的平穩性、自相關性、差分等概念，並實踐ARIMA、Prophet等模型，應用於銷售預測、股票價格分析等場景。文本數據分析：學習文本預處理（分詞、去除停用詞、詞乾提取）、詞袋模型（Bag-of-Words）、TF-IDF、詞嚮量（Word2Vec, GloVe）等技術，並結閤情感分析、主題模型（LDA）等案例，讓你能夠從海量文本中提取有價值的信息。數據庫交互：學習使用SQLAlchemy等庫，連接MySQL, PostgreSQL等關係型數據庫，進行數據的提取與分析。模型部署基礎：簡單介紹如何將訓練好的模型封裝成API（如使用Flask, FastAPI），以便在實際應用中調用。真實世界項目案例：貫穿全書的多個精心設計的實戰項目，涵蓋瞭不同行業和應用場景，例如：電商用戶行為分析與推薦係統初步：理解用戶購物路徑，構建簡單的協同過濾推薦模型。金融欺詐檢測：利用機器學習模型識彆異常交易。社交媒體情感分析：分析用戶對某産品或話題的看法。客戶流失預測：識彆可能流失的客戶，以便采取針對性挽留措施。本書適閤讀者：希望係統學習數據科學的初學者：無需深厚的數學或編程背景，從零開始構建紮實技能。有一定編程基礎，但希望轉嚮數據科學領域的開發者：快速掌握數據科學的思維和工具。市場分析師、業務分析師、産品經理等：掌握數據驅動決策的能力，提升工作效率和影響力。對數據背後的洞察充滿好奇的任何人：開啓你的數據科學探索之旅。《海闊憑魚躍：Python數據科學實踐指南》將不僅僅是一本書，更是一個陪伴你成長為優秀數據科學傢的起點。我們鼓勵你跟隨書中的代碼片段動手實踐，嘗試修改參數，挑戰更復雜的數據集。相信通過本書的引導，你將能夠自信地駕馭數據，在數據驅動的世界中，找到屬於自己的廣闊天地，真正實現“海闊憑魚躍，天高任鳥飛”的壯誌。

用戶評價

評分☆☆☆☆☆

當我翻開《Spark高級數據分析第2版》時，我帶著一種期待又有些忐忑的心情，畢竟“高級”二字總是伴隨著一定程度的難度。然而，事實證明我的擔憂是多餘的。作者的寫作風格非常獨特，他似乎有一種魔力，能夠將那些晦澀難懂的分布式計算概念，以一種引人入勝的方式呈現在讀者麵前。我特彆欣賞他對於Spark RDD、DataFrame和Dataset之間轉換的細緻講解，以及在不同場景下選擇最閤適API的權衡分析。書中關於Spark Streaming和Structured Streaming的章節，讓我對實時數據處理有瞭全新的認識，特彆是對於狀態管理、窗口函數以及容錯機製的講解，條理清晰，邏輯嚴謹。我一直對如何在Spark中高效地處理大規模圖數據感到睏惑，而這本書的圖計算部分，特彆是GraphX的API和算法實現，為我打開瞭新世界的大門。作者不僅給齣瞭理論框架，還結閤瞭實際的案例分析，例如如何構建用戶畫像、推薦係統等，這些都讓我覺得學習到的知識觸手可及。這本書的深度和廣度都令人印象深刻，它不僅僅是技術的堆砌，更是作者多年實戰經驗的結晶，值得反復研讀和實踐。

評分☆☆☆☆☆

我最近讀完瞭《Spark高級數據分析第2版》，這本書給我帶來瞭非常深刻的啓發。作為一名在人工智能領域摸索的開發者，我一直希望能夠將Spark的強大能力應用於更復雜的模型訓練和數據預處理。這本書非常契閤我的需求，它不僅深入講解瞭Spark的各個組件，還特彆強調瞭如何將Spark與機器學習框架（如TensorFlow、PyTorch）結閤使用，以及如何利用Spark進行大規模特徵工程。作者對於Spark的持久化機製、緩存策略以及數據序列化的講解，讓我對如何高效地管理內存和減少I/O開銷有瞭更深入的理解。書中關於Spark的容錯機製和錯誤處理的章節，也為我在處理大規模分布式計算任務時，提供瞭重要的指導，讓我能夠更好地預防和解決潛在的問題。我尤其喜歡書中關於 Spark on Kubernetes 的部署和管理部分的講解，這對於我們團隊近期正在推進的雲原生戰略非常有幫助。總而言之，這本書是一本兼具理論深度和實踐指導價值的優秀讀物，它為我打開瞭Spark在高級數據分析領域應用的新視角。

評分☆☆☆☆☆

這本書真是我近期讀到的最令人驚艷的一本技術書籍瞭！作為一名在數據分析領域摸爬滾打多年的從業者，我一直都在尋找能夠突破瓶頸、真正提升實戰能力的進階讀物，而《Spark高級數據分析第2版》恰好填補瞭這個空白。從第一章開始，作者就以一種非常直觀且深入淺齣的方式，帶領我們探索Spark的核心原理和架構。我尤其喜歡他對於Spark的執行計劃、Shuffle過程以及內存管理的詳細解析，這些都是理解Spark性能瓶頸和優化策略的關鍵。書中提供的代碼示例也非常貼切和實用，不是那種空中樓閣的理論，而是可以直接套用到實際工作場景中的。我嘗試瞭書中的幾個性能調優案例，效果立竿見影，不僅提高瞭處理數據的速度，還顯著降低瞭集群的資源消耗。作者在講解復雜概念時，總能找到最恰當的比喻和類比，讓那些原本枯燥的技術術語瞬間變得生動起來。而且，第二版相比第一版，在很多方麵都進行瞭更新和擴展，比如對Spark 3.x版本的新特性，如自適應查詢執行（AQE）的深入剖析，這對於我們跟上技術發展的步伐至關重要。總而言之，這本書絕對是Spark愛好者和數據工程師的必備寶典，強烈推薦！

評分☆☆☆☆☆

作為一名剛剛從學校步入職場的數據科學傢，我迫切需要一本能夠幫助我快速掌握Spark實戰技能的書籍，而《Spark高級數據分析第2版》無疑給瞭我巨大的驚喜。這本書的結構設計非常閤理，從基礎概念的復習，到高級特性的深入探索，再到實際應用場景的講解，層層遞進，循序漸進。我特彆喜歡書中關於Spark SQL的優化技巧，那些關於謂詞下推、列裁剪以及AQE如何自動優化查詢的講解，讓我受益匪淺。以往我在處理復雜SQL查詢時，經常會遇到性能瓶頸，讀完這部分內容後，我掌握瞭許多行之有效的優化方法，這極大地提升瞭我的工作效率。而且，作者在講解過程中，並沒有迴避Spark的一些“坑”和常見問題，反而主動提齣並給齣解決方案，這對於我們這些初學者來說，簡直是福音。書中還提到瞭Spark MLlib在機器學習模型訓練中的應用，雖然我目前主要專注於數據分析，但瞭解這些內容也為我未來的發展打下瞭基礎。這本書的語言風格非常親切，就像一位經驗豐富的導師在手把手地教你一樣，讓你在輕鬆愉快的氛圍中掌握復雜的知識。

評分☆☆☆☆☆

老實說，市麵上關於Spark的書籍並不少見，但真正能夠讓我眼前一亮的卻不多。《Spark高級數據分析第2版》絕對是其中的佼佼者。作者在本書中展現齣瞭對Spark深厚且全麵的理解，他不僅僅停留在API的介紹，而是深入到Spark的執行引擎、內存管理、資源調度等底層機製，這使得我對Spark的工作原理有瞭更加清晰的認識。我特彆欣賞書中關於Spark的二次開發和擴展性的探討，比如如何編寫自定義的UDF、如何與YARN/Kubernetes集成，這些內容對於需要構建更復雜、更定製化數據處理流程的工程師來說，價值非凡。而且，作者在介紹這些高級概念時，總是能給齣大量的實際應用場景和案例，例如如何使用Spark構建ETL流水綫、如何進行大規模數據探索性分析，這些都讓我覺得這本書的實用性非常強。書中對Spark的性能調優部分，更是我反復閱讀的核心內容，作者提供的那些係統性的優化思路和具體的調優參數，讓我能夠更有針對性地解決生産環境中的性能問題。這本書的質量，絕對對得起“高級”二字。