發表於2024-12-23
正版書籍 spark streaming 實時流處理入門與精通 pdf epub mobi txt 電子書 下載
圖書基本信息 | |
圖書名稱 | spark streaming 實時流處理入門與精通 |
作者 | (美)Sumit Gupta(蘇密特·古普塔),韓燕波 |
定價 | 39.00元 |
齣版社 | 電子工業齣版社 |
ISBN | 9787121310492 |
齣版日期 | 2017-04-01 |
字數 | |
頁碼 | |
版次 | 1 |
裝幀 | 平裝-膠訂 |
開本 | 16開 |
商品重量 | 0.4Kg |
內容簡介 | |
本書主要對Spark和Spark的安裝、配置、主要架構和組件進行介紹,並介紹如何利用SparkStreaming進行實時數據的處理,討論利用Spark Streaming的多種API和操作進行近實時的分布式日誌流的處理。本書要求讀者對Scala有很好的認識和理解,以便能夠利用核心組件和應用進行高效編程。 |
作者簡介 | |
Sumit Gupta從事設計、管理並提供各種業務領域(如酒店業務,醫療保健,風險管理,保險業務等)的企業解決方案將近9年以上,是業內經驗豐富的專傢、技術創新者和傳播者。他熱愛技術,在軟件行業擁有14年的實踐經驗。在過去4~5年中一直使用大數據和雲計算技術來解決復雜的業務問題。 現任北方工業大學教授、北方工業大學雲計算研究中心主任。現兼任中國計算機學會服務計算專業委員會副主任、中國電子學會雲計算專傢委員會委員、計算機學報編委。曾就職於德國國傢計算機研究中心、德國弗郎霍夫軟件技術研究所和美國大規模分布係統實驗室等機構。2000年被聘為中科院計算技術研究所研究員,入選中科院海外傑齣人纔計劃(中科院百人計劃,2001期)。曾任中科院研究生院教授、博士生導師、中科院計算技術研究所網格與服務計算研究中心主任、軟件集成與服務計算研究分中心主任、中德軟件集成技術聯閤實驗室主任。在數據庫、工作流、分布對象中間件、移動計算、網格計算等多個領域主持完成瞭863重點項目、國傢基金重點項目、973子項等30項研究課題,發錶論文140餘篇,齣版專著4部。申報或閤作申報發明和軟件登記50項,其中已嚮工業界轉化5項。是目前國內關於雲計算方麵研究的*科學傢。 |
目錄 | |
目錄 第1章Spark和Spark Streaming的安裝與配置1 安裝Spark2 硬件需求2 軟件需求4 安裝Spark擴展——Spark Streaming7 配置和運行Spark集群8 你的個Spark程序11 用Scala編碼Spark作業12 用Java開發Spark作業15 管理員/開發者工具18 集群管理 18 提交Spark作業19 故障定位 20 配置端口號 20 類路徑問題——類沒有發現 20 其他常見異常20 總結21 第2章Spark和Spark Streaming的體係結構與組件23 批處理和實時數據處理的比較24 批處理24 實時數據處理26 Spark的體係結構28 Spark對比Hadoop28 Spark的層次化結構29 Spark Streaming的體係結構31 Spark Streaming是什麼32 Spark Streaming的上層體係結構32 你的個Spark Streaming程序34 用Scala編碼Spark Streaming作業34 用Java編碼Spark Streaming作業37 客戶端程序39 打包和部署一個Spark Streaming作業41 總結43 第3章實時處理分布式日誌文件45 Spark的封裝結構和客戶端API46 Spark內核48 Spark庫及擴展54 彈性分布式數據集及離散流58 彈性分布式數據集59 離散流63 從分布的、多樣的數據源中加載數據65 Flume 框架67 Flume的安裝和配置69 配置Spark以接收Flume事件73 封裝和部署Spark Streaming作業77 分布式日誌文件處理的總體架構77 總結78 第4章在流數據中應用Transformation79 理解並應用Transformation功能80 模擬日誌流80 功能操作82 轉換操作89 窗口操作91 性能調優94 分塊和並行化94 序列化94 Spark內存調優95 總結97 第5章日誌分析數據的持久化99 Spark Streaming的輸齣操作100 集成Cassandra110 安裝和配置Apache Cassandra110 配置Spark112 通過編寫Spark作業將流式網頁日誌存入Cassandra113 總結120 第6章與Spark高級庫集成121 實時查詢流數據122 瞭解Spark SQL122 集成Spark SQL與流數據129 圖的分析——Spark GraphX135 GraphX API介紹137 集成Spark Streaming140 總結147 第7章産品部署149 Spark部署模式150 部署在Apache Mesos上151 部署在Hadoop或者YARN上156 高可用性和容錯性160 單機模式下的高可用性160 Mesos或者YARN下的高可用性162 容錯性162 Streaming 作業的監聽166 應用程序UI界麵/作業UI界麵166 與其他監控工具的集成169 總結170 |
編輯推薦 | |
文摘 | |
暫無相關內容 |
序言 | |
暫無相關內容 |
正版書籍 spark streaming 實時流處理入門與精通 pdf epub mobi txt 電子書 下載