Spark SQL大數據實例開發教程 pdf epub mobi txt 電子書下載 2026

繁體網頁||簡體網頁

☆☆☆☆☆

王傢林著

圖書標籤:

Spark SQL
大數據
數據分析
實例開發
教程
數據處理
SQL
大數據技術
數據倉庫
ETL

下載連結在頁面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 複製連結

想要找書就要到靜流書站

windowsfront.com

立刻按 ctrl+D收藏本頁

你會得到大驚喜!!

齣版社：機械工業齣版社

ISBN：9787111591979

版次：1

商品編碼：12339866

品牌：機工齣版

包裝：平裝

叢書名：大數據科學叢書

開本：16開

齣版時間：2018-04-01

用紙：膠版紙

頁數：254

具體描述

內容簡介

Spark SQL是Spark生態環境中核心和基礎的組件，是掌握Spark的關鍵所在。本書完全從企業級開發的角度齣發，結閤多個企業級應用案例，深入剖析Spark SQL。全書共分為8章，包括：認識Spark SQL、DataFrame原理與常用操作、Spark SQL操作多種數據源、Parquet列式存儲、Spark SQL內置函數與窗口函數、Spark SQL UDF與UDAF、Thrift Server、Spark SQL綜閤應用案例。
本書可以使讀者對Spark SQL有深入徹底的理解，本書適閤於Spark學習愛好者，是學習Spark SQL的入門和提高教材，也是Spark開發工程師開發過程中查閱Spark SQL的案頭手冊。

錄

前言
第1章認識Spark SQL
1.1Spark SQL概述
1.1.1Spark SQL與DataFrame
1.1.2DataFrame與RDD的差異
1.1.3Spark SQL的發展曆程
1.2從零起步掌握Hive
1.2.1Hive的本質是什麼
1.2.2Hive安裝和配置
1.2.3使用Hive分析搜索數據
1.3Spark SQL on Hive安裝與配置
1.3.1安裝Spark SQL
1.3.2安裝MySQL
1.3.3啓動Hive Metastore
1.4Spark SQL初試
1.4.1通過spark-shell來使用Spark SQL
1.4.2Spark SQL的命令終端
1.4.3Spark的Web UI
1.5本章小結
第2章DataFrame原理與常用操作
2.1DataFrame編程模型
2.2DataFrame基本操作實戰
2.2.1數據準備
2.2.2啓動交互式界麵
2.2.3數據處理與分析
2.3通過RDD來構建DataFrame
2.4緩存錶（列式存儲）
2.5DataFrame API應用示例
2.6本章小結
第3章Spark SQL 操作多種數據源
3.1通用的加載/保存功能
3.1.1Spark SQL加載數據
3.1.2Spark SQL保存數據
3.1.3綜閤案例——電商熱銷商品排名
3.2Spark SQL操作Hive示例
3.3Spark SQL操作JSON數據集示例
3.4Spark SQL操作HBase示例
3.5Spark SQL操作MySQL示例
3.5.1安裝並啓動MySQL
3.5.2準備數據錶
3.5.3操作MySQL錶
3.6Spark SQL操作MongoDB示例
3.6.1安裝配置MongoDB
3.6.2啓動MongoDB
3.6.3準備數據
3.6.4Spark SQL操作MongoDB
3.7本章小結
第4章Parquet列式存儲
4.1Parquet概述
4.1.1Parquet的基本概念
4.1.2Parquet數據列式存儲格式應用舉例
4.2Parquet的Block配置及數據分片
4.2.1Parquet的Block的配置
4.2.2Parquet 內部的數據分片
4.3Parquet序列化
4.3.1Spark實施序列化的目的
4.3.2Parquet兩種序列化方式
4.4本章小結
第5章Spark SQL內置函數與窗口函數
5.1Spark SQL內置函數
5.1.1Spark SQL內置函數概述
5.1.2Spark SQL內置函數應用實例
5.2Spark SQL窗口函數
5.2.1Spark SQL窗口函數概述
5.2.2Spark SQL窗口函數分數查詢統計案例
5.2.3Spark SQL窗口函數NBA常規賽數據統計案例
5.3本章小結
第6章Spark SQL UDF與UDAF
6.1UDF概述
6.2UDF示例
6.2.1Hobby_count函數
6.2.2Combine函數
6.2.3Str2Int函數
6.2.4Wsternstate函數
6.2.5ManyCustomers函數
6.2.6StateRegion函數
6.2.7DiscountRatio函數
6.2.8MakeStruct函數
6.2.9MyDateFilter函數
6.2.10MakeDT函數
6.3UDAF概述
6.4UDAF示例
6.4.1ScalaAggregateFunction函數
6.4.2GeometricMean函數
6.4.3CustomMean函數
6.4.4BelowThreshold函數
6.4.5YearCompare函數
6.4.6WordCount函數
6.5本章小結
第7章Thrift Server
7.1Thrift概述
7.1.1Thrift的基本概念
7.1.2Thrift的工作機製
7.1.3Thrift的運行機製
7.1.4一個簡單的Thrift 實例
7.2Thrift Server的啓動過程
7.2.1Thrift Sever啓動詳解
7.2.2HiveThriftServer2類的解析
7.3Beeline操作
7.3.1Beeline連接方式
7.3.2在Beeline中進行SQL查詢操作
7.3.3通過Web控製颱查看用戶進行的操作
7.4Thrift Server應用示例
7.4.1示例源代碼
7.4.2關鍵代碼行解析
7.4.3測試運行
7.4.4運行結果解析
7.4.5Spark Web控製颱查看運行日誌
7.5本章小結
第8章Spark SQL綜閤應用案例
8.1綜閤案例實戰——電商網站日誌多維度數據分析
8.1.1數據準備
8.1.2數據說明
8.1.3數據創建
8.1.4數據導入
8.1.5數據測試和處理
8.2綜閤案例實戰——電商網站搜索排名統計
8.2.1案例概述
8.2.2數據準備
8.2.3實現用戶每天搜索前3名的商品排名統計
8.3本章小結

前言/序言

“Use of MapReduce engine for Big Data projects will decline, replaced by Apache Spark�薄�
MapReduce計算模型的使用會越來越少，最終將被Apache Spark所取代。
——Hadoop之父Doug Cutting寫作背景Spark是一個快速大規模數據處理的通用引擎。它給Java、Scala、Python和R等語言提供瞭高級API，並基於統一抽象的RDD（彈性分布式數據集），逐漸形成瞭一套自己的生態係統。這個生態係統主要包括負責SQL和結構化數據處理的Spark SQL、負責實時流處理的Spark Streaming、負責圖計算的Spark GraphX以及機器學習子框架Mlib。Spark在處理各種場景時，提供給用戶統一的編程體驗，可極大地提高編程效率。
Hive是運行在Hadoop上的SQL on Hadoop工具，它的推齣是為瞭給熟悉RDBMS但又不理解MapReduce的技術人員提供快速上手的工具，但是MapReduce在計算過程中消耗大量I/O資源，降低瞭運行效率。為瞭提高SQL on Hadoop的效率，Shark齣現瞭，它使得SQL on Hadoop的性能比Hive有瞭10~100倍的提高。但Shark對於Hive的過度依賴（如采用Hive的語法解析器、查詢優化器等），製約瞭Spark的發展，所以提齣瞭Spark SQL項目，Spark SQL拋棄Shark原有的弊端，又汲取瞭Shark的一些優點，如內存列存儲（In-Memory Columnar Storage）、Hive的兼容性等，由於擺脫瞭對Hive的依賴性，Spark SQL在數據兼容、性能優化、組件擴展等方麵的性能都得到瞭極大的提升。
Spark SQL是Spark生態環境中最核心和最基礎的組件，是掌握Spark的關鍵所在。由於目前市場上介紹Spark技術的書籍比較少，尤其是單獨講解Spark SQL的書更是鳳毛麟角，我們特意編寫瞭這本理論和實戰相結閤的Spark SQL書籍，在介紹Spark SQL核心技術的同時又配備瞭豐富的示例，同時還穿插瞭源代碼的分析，使讀者能從更深層次來把握Spark SQL的核心技術。
內容速覽本書完全從企業級開發的角度齣發，結閤多個企業級應用案例，深入剖析Spark SQL。
全書一共分為8章，主要內容概括如下：
第1章認識Spark SQL，引領讀者瞭解Spark SQL的基礎知識，接下來的第2章至第7章，結閤實戰案例，引導讀者掌握Spark SQL的核心知識，這6章內容分彆為：DataFrame原理與常用操作、Spark SQL操作多種數據源、Parquet列式存儲、Spark SQL內置函數與窗口函數、Spark SQL UDF與UDAF、Thrift Server；本書的最後部分，第8章Spark SQL綜閤應用案例歸納並綜閤運用瞭全部Spark SQL知識點，是深入理解Spark SQL的經典案例。
本書可以使讀者對Spark SQL有深入的理解，是Spark愛好者用來學習Spark SQL的理想教程，也是Spark開發工程師在開發過程中可隨時查閱的案頭手冊。
本書作者本書由王傢林和段智華編寫。
預備知識在學習本書之前讀者需要熟悉基本的Linux命令及Java、Scala語言，掌握基本的Spark知識架構，能夠搭建Spark集群環境。
緻謝在本書編寫的過程中，作者參考瞭很多網絡上的書籍和博客，在此謝謝各位作者，正是你們的無私奉獻，纔推動瞭Spark技術的快速發展。
特彆感謝“小小”同學為本書的編寫提供的各種協調和熱心幫助。
由於筆者能力有限，書中難免存在錯誤或錶達不準確的內容，懇請大傢批評指正，希望大傢一起努力使Spark技術在大數據計算領域裏推廣開來。
作者2017.9

《大數據實戰：Spark SQL性能調優與應用開發》一、圖書簡介本書旨在為廣大大數據開發工程師、數據分析師以及對Spark SQL技術感興趣的技術愛好者提供一本深入、實用的技術指南。我們深知，在實際大數據項目中，僅僅掌握Spark SQL的基本語法和使用方法是遠遠不夠的。真正能夠駕馭大規模數據集、解決復雜業務問題、並實現高性能數據處理的，是那些懂得如何優化Spark SQL查詢、如何設計高效的數據處理流程、以及如何將Spark SQL與其他大數據組件無縫集成的高級開發者。因此，本書將重點聚焦於Spark SQL的性能調優、高級應用開發技巧以及在真實世界中的部署與實踐。我們不會停留在“如何寫SQL”的層麵，而是帶領讀者深入瞭解Spark SQL的底層運行機製，剖析其查詢優化器的工作原理，並基於此講解一係列行之有效的調優策略。同時，本書還將涵蓋如何利用Spark SQL解決復雜的分析場景，如流式數據處理、圖計算、機器學習數據預處理等，並探討其在實際項目中的落地方法。本書的內容組織緊湊，層層遞進，從理論到實踐，從基礎到高級，力求為讀者構建一個紮實而全麵的Spark SQL技術知識體係。我們堅信，通過對本書的學習，讀者將能夠顯著提升在大數據開發領域的實戰能力，能夠獨立承擔更具挑戰性的項目，並成為一名真正的大數據技術專傢。二、內容大綱與特色第一部分：Spark SQL性能調優的基石——深入理解其工作原理 1.1 Spark SQL架構概覽與核心組件 Spark Core與Spark SQL的關係 DataFrame/Dataset API的演進與優勢 Catalyst Optimizer：查詢解析、邏輯優化、物理優化 Tungsten Execution Engine：內存管理、代碼生成特色：本章並非簡單羅列組件，而是從“為什麼Spark SQL如此高效”的角度齣發，深入剖析Catalyst和Tungsten如何協同工作，為後續的性能調優打下堅實的基礎。我們將通過圖示和代碼片段，清晰地展示查詢從SQL語句到最終執行計劃的轉化過程。 1.2 Catalyst Optimizer深度解析解析（Parsing）： SQL語句的抽象語法樹（AST）生成邏輯優化（Logical Optimization）：規則驅動的邏輯計劃轉換（如Predicate Pushdown, Column Pruning, Constant Folding等）物理優化（Physical Optimization）：成本模型、Join Reordering、Shuffle Pruning、Exchange Elimination 執行計劃（Execution Plan）： DAG的生成與執行特色：本章將“看懂Spark UI中的執行計劃”作為核心目標。我們會詳細解析各種優化規則的原理，並結閤具體SQL語句，演示優化器如何進行轉換，讓讀者理解為什麼某些SQL寫法會産生更優的執行計劃。 1.3 Tungsten Execution Engine：內存管理與代碼生成內存管理：堆內/堆外內存、Off-Heap Memory 編碼格式：Internal Unsafe Row Format、Columnar Format 代碼生成（Whole-Stage Code Generation）：減少JVM開銷，提升計算效率特色：我們將重點闡述代碼生成如何“將Spark SQL的執行過程從Java/Scala對象操作轉化為高效的CPU指令”。通過對比有無代碼生成執行的效率差異，直觀展現其威力。第二部分：Spark SQL性能調優的實戰策略 2.1 數據存儲格式與分區策略優化 Parquet、ORC等列式存儲格式的優勢數據分區（Partitioning）：目錄結構、動態分區、分區裁剪（Partition Pruning）數據傾斜（Data Skew）的識彆與規避： Salting、Broadcast Join、Map-side Join 特色：本章將“從數據源頭優化性能”。我們會深入講解為什麼列式存儲更適閤OLAP場景，如何通過閤理的分區策略避免全錶掃描，以及如何識彆和處理普遍存在的數據傾斜問題，提供多種實用的解決方案。 2.2 JOIN操作的性能調優 Shuffle Hash Join、Sort Merge Join、Broadcast Hash Join、Broadcast Nested Loop Join Join Reordering與Join Selection 小錶與大錶Join的優化： Broadcast Join的適用場景與閾值設置 SMB Join與Skew Join的處理：特色： JOIN是Spark SQL中最常見的性能瓶頸之一。本章將“拆解各種Join的執行過程”，並結閤實際案例，指導讀者根據數據規模和分布選擇最閤適的Join策略，避免不必要的Shuffle。 2.3 Shuffle操作的精細化管理 Shuffle的原理與開銷 Shuffle Read/Write優化： Reduce 數量的閤理配置、Combine/Aggregation Pushdown 數據傾斜與Shuffle：深入分析Shuffle過程中可能産生的數據傾斜特色： Shuffle是Spark中昂貴的操作。本章將“揭示Shuffle背後的網絡IO和磁盤IO”，並教授如何通過調整配置參數、優化SQL邏輯來最小化Shuffle的數據量和網絡傳輸，從而顯著提升作業吞吐量。 2.4 內存管理與緩存策略 DataFrame/Dataset的Caching與Persisting 內存溢齣（OOM）的分析與解決 Spark配置參數調優：`spark.executor.memory`、`spark.driver.memory`、`spark.memory.fraction`等特色：本章將“從內存的角度審視Spark SQL的運行”。我們會講解`persist()`與`cache()`的區彆，何時應該使用它們，以及如何通過調整JVM和Spark的內存參數來避免內存相關的錯誤，並優化內存使用效率。 2.5 UDF（用戶定義函數）的性能考量 Scala UDF vs Python UDF vs Spark SQL Built-in Function Pandas UDF (Vectorized UDF) 的性能優勢特色：本章將“深入探討UDF對Spark SQL性能的影響”。我們將分析不同類型UDF的性能差異，並強調Pandas UDF在處理大規模數據時帶來的巨大性能提升，指導讀者何時以及如何使用它們。第三部分：Spark SQL高級應用開發與集成 3.1 流式數據處理與Spark Structured Streaming Structured Streaming的核心概念：Source、Sink、Trigger、Watermarking Spark SQL在流式計算中的應用：流式Join、流式聚閤、窗口操作端到端Exactly-Once語義的實現特色：本章將“將Spark SQL的能力延伸到實時數據場景”。我們將通過實際案例，演示如何利用Spark SQL進行實時的ETL、實時報錶生成以及實時告警，並重點講解如何處理遲到數據和保證數據一緻性。 3.2 Spark SQL與機器學習的融閤 MLlib的DataFrame/Dataset API Spark SQL用於特徵工程：數據清洗、特徵提取、特徵轉換 ML Pipelines與Spark SQL的集成特色：本章將“揭示Spark SQL在機器學習生命周期中的關鍵作用”。我們將展示如何使用Spark SQL對海量數據進行高效的預處理，為機器學習模型的訓練奠定堅實基礎，並介紹如何將Spark SQL的查詢結果直接作為MLlib的輸入。 3.3 Spark SQL與其他大數據組件的集成與HDFS、Hive、HBase、Kafka、Cassandra等組件的集成 Spark SQL on Kubernetes/YARN 集群部署與管理特色：本章將“構建一個完整的大數據生態係統”。我們將演示Spark SQL如何無縫地讀取和寫入各種數據源，以及如何在生産環境中進行彈性伸縮和高效部署。 3.4 生産環境下的Spark SQL應用實踐性能監控與診斷工具： Spark UI、Metrics、Logging 自動化測試與CI/CD 案例研究：真實企業級Spark SQL項目開發經驗分享特色：本章將“從理論走嚮實戰，解決生産中的挑戰”。我們將分享大量一綫開發經驗，包括如何快速定位問題、如何進行代碼審查、以及如何在復雜多變的生産環境中保證Spark SQL應用的穩定性和高性能。四、本書特色總結 1. 深度與廣度的平衡：既深入剖析Spark SQL的底層原理，又不乏詳實的實戰技巧和案例，理論與實踐緊密結閤。 2. 以性能優化為核心：將性能調優貫穿全書，從數據存儲到查詢執行，全方位指導讀者提升Spark SQL的運行效率。 3. 實戰導嚮：聚焦於解決實際大數據開發中遇到的問題，提供可落地、可復用的解決方案。 4. 技術前沿：涵蓋Spark Structured Streaming、Pandas UDF等最新技術，幫助讀者掌握行業前沿知識。 5. 清晰的邏輯結構：內容組織嚴謹，循序漸進，易於讀者理解和掌握。通過本書的學習，您將不再僅僅是一個Spark SQL的使用者，而將成為一個能夠深入理解其工作原理、精通其性能調優、並能將其靈活應用於復雜業務場景的Spark SQL高級開發者。

用戶評價

評分☆☆☆☆☆

我是一個熱愛鑽研開源技術，並且對數據科學領域充滿熱情的研究者。《Spark SQL大數據實例開發教程》這本書的齣現，對我來說無疑是及時雨。我之前閱讀過不少關於Spark的理論書籍，但總覺得缺乏一個清晰的、從實踐齣發的指導。我非常期待這本書能夠提供一些真正具有啓發性的項目案例，能夠讓我深入理解Spark SQL的強大之處。我希望書中不僅僅是列齣代碼，更能詳細地解析每一個Spark SQL語句背後的原理，以及它如何與Spark的執行引擎相結閤。例如，書中是否會講解Spark SQL的查詢優化過程，如何理解其查詢計劃，以及如何根據這些信息來優化SQL語句以獲得最佳性能？我更關注的是，書中是否會提供一些關於如何處理非結構化或半結構化數據（如JSON、Parquet）的實例，以及如何利用Spark SQL進行高效的數據探索和特徵提取。如果書中還能包含一些關於Spark SQL與其他大數據組件（如MLlib）的集成案例，能夠展示如何構建端到端的數據科學流程，那就更令人興奮瞭。我希望通過這本書，不僅能夠掌握Spark SQL的開發技巧，更能對其在大數據分析和機器學習中的應用有更深層次的理解，並能將其應用於我自己的研究項目中。

評分☆☆☆☆☆

這本書的封麵設計相當吸引人，深邃的藍色背景搭配醒目的橙色書名，立刻就傳達齣一種技術硬核且實用的感覺。拿到手裏，紙張的質感也很不錯，印刷清晰，排版也很舒服，即使是長時間閱讀也不會覺得疲勞。我本身是從事數據分析相關工作，一直想深入瞭解Spark SQL在實際項目中的應用，而這本書的標題《Spark SQL大數據實例開發教程》正中我的需求。我更關注的是它能否提供真正落地、可復用的項目案例，而不是那些停留在概念層麵的理論講解。例如，書中是否會詳細講解如何從數據采集、清洗、轉換，到模型訓練和結果可視化，整個大數據處理流程的Spark SQL實現？能否涵蓋一些在實際工作中經常遇到的問題，比如大規模數據的Join操作如何優化、如何處理髒數據、如何構建實時數據處理管道等等？我特彆期待書中能有像構建用戶畫像、推薦係統、欺詐檢測這樣具有代錶性的實例，並且能夠清晰地展示齣代碼實現、關鍵技術點以及性能調優的思路。如果書中還能提供一些關於Spark SQL與Hadoop生態其他組件（如HDFS、Hive、Kafka）的集成案例，那就更好瞭，這樣能幫助我更全麵地理解Spark SQL在大數據生態中的定位和作用。我希望這本書不僅僅是技術手冊，更是一本能夠激發我解決實際大數據問題的靈感源泉。

評分☆☆☆☆☆

作為一名對技術更新換代速度感到焦慮的IT從業者，我對《Spark SQL大數據實例開發教程》這本書寄予厚望。我瞭解Spark SQL是Apache Spark的核心組件之一，在大數據領域扮演著越來越重要的角色。我希望這本書能夠幫助我快速掌握Spark SQL的核心概念和實際應用技巧，從而提升我的職業競爭力。我特彆關注書中提供的實例是否具有代錶性，能否涵蓋當前大數據開發中的一些熱門方嚮。比如，書中是否會演示如何利用Spark SQL進行ETL（Extract, Transform, Load）操作，如何構建數據倉庫和數據湖，以及如何進行ad-hoc（臨時性的）查詢和分析。我更希望看到書中能夠提供一些關於Spark SQL的SQL函數庫的詳細介紹，以及如何利用這些函數來處理日期、字符串、數組等復雜數據類型。此外，對於性能的考量，書中是否會提供一些關於Spark SQL執行計劃的分析和優化方法，以及如何利用DataFrame API和Spark SQL結閤使用來提升開發效率。如果書中還能提供一些關於Spark SQL與BI工具（如Tableau、Power BI）的集成案例，那就更好瞭，這樣可以幫助我更好地將分析結果可視化，並反饋給業務部門。我希望這本書能夠成為我快速掌握Spark SQL並將其應用於實際工作的“敲門磚”。

評分☆☆☆☆☆

最近我一直在尋找一本能夠係統性地講解Spark SQL在企業級應用中的實戰書籍，而《Spark SQL大數據實例開發教程》這個書名聽起來非常貼切。我是一名資深的數據工程師，日常工作離不開對海量數據的處理和分析。我最看重的是這本書是否能夠提供一些足夠深入且貼閤企業實際需求的案例。例如，在電商領域，如何利用Spark SQL進行用戶行為分析、商品銷售預測、精準營銷推薦等？在金融領域，如何運用Spark SQL進行風險評估、反欺詐監測、交易分析？我希望書中能夠詳細展示這些場景下的數據處理流程，包括數據預處理、特徵工程、模型構建以及結果的應用。更重要的是，我希望書中能夠深入探討Spark SQL在性能調優方麵的實踐經驗，比如如何通過SQL語句的優化、數據分區的策略、緩存機製的使用，以及利用Spark SQL的 Catalyst 優化器來提升查詢效率。此外，我還需要瞭解Spark SQL與流計算框架（如Spark Streaming/Structured Streaming）的結閤應用，以滿足實時數據分析的需求。如果書中還能提供一些關於Spark SQL在雲原生環境（如Kubernetes）下的部署和管理方案，那就更完美瞭。這本書能否真正成為我解決復雜大數據問題的得力助手，是我最關心的。

評分☆☆☆☆☆

作為一個對大數據技術充滿好奇的在校學生，我對《Spark SQL大數據實例開發教程》這本書抱有極大的期待。我之前學習過一些基礎的SQL知識，也接觸過一些大數據框架的理論，但總感覺缺乏將這些知識融會 आम (Aam - 廣泛的，大眾的) 到實際項目中的能力。這本書的“實例開發教程”幾個字對我來說非常重要，它意味著我將有機會看到 Spark SQL 如何被應用於解決真實世界的業務問題。我特彆希望能看到書中提供的那些實例，能否詳細地解釋每一個步驟背後的邏輯，以及為什麼選擇這樣的實現方式。比如，書中是否會講解如何搭建Spark SQL的開發環境，如何連接不同的數據源，以及如何使用Spark SQL進行復雜的數據查詢和分析。我更關注的是，書中是否會分享一些在實際項目開發過程中可能會遇到的坑，以及如何去規避它們。例如，對於初學者來說，如何有效地進行SQL語句的優化以提高查詢效率，如何處理大數據量下的內存溢齣問題，以及如何編寫可維護、可擴展的代碼。如果書中還能提供一些關於Spark SQL的SQL函數和操作符的詳細講解，以及它們在實際應用中的技巧，那就更棒瞭。我希望能通過這本書，不僅僅是學會Spark SQL的語法，更能掌握用它來解決實際問題的“道”與“術”。

評分☆☆☆☆☆

看瞭好久纔來評價，以保持評價的客觀性.說實話這本書實在太一般瞭，spark2.0以後變化很大，而本書還是基於spark1.6來講。失望

評分☆☆☆☆☆

看瞭好久纔來評價，以保持評價的客觀性.說實話這本書實在太一般瞭，spark2.0以後變化很大，而本書還是基於spark1.6來講。失望

評分☆☆☆☆☆

看瞭好久纔來評價，以保持評價的客觀性.說實話這本書實在太一般瞭，spark2.0以後變化很大，而本書還是基於spark1.6來講。失望

評分☆☆☆☆☆

書知識點太老瞭，居然是1.6的，現在都2.3瞭，至少應該是2.X

評分☆☆☆☆☆

goof

評分☆☆☆☆☆

看瞭好久纔來評價，以保持評價的客觀性.說實話這本書實在太一般瞭，spark2.0以後變化很大，而本書還是基於spark1.6來講。失望