Storm分布式實時計算模式 [Storm Blueprints Patterns for Distributed Real-Time Computation] pdf epub mobi txt 電子書 下載
産品特色
內容簡介
《Storm分布式實時計算模式》由Apache Storm 項目核心貢獻者吉奧茲、奧尼爾親筆撰 寫,融閤瞭作者豐富的Storm實戰經驗,通過大量 示例,全麵而係統地講解使用Storm進行分布式實 時計算的核心概念及應用,並針對不同的應用場 景,給齣多種基於Storm的設計模式,為讀者快速 掌握Storms分布式實時計算提供係統實踐指南。
《Storm分布式實時計算模式》分為10章:第l章介紹使用storm建立一 個分布式流式計算應用所涉及的核心概念,包括 storm的數據結構、開發環境的搭建,以及Storm 程序的開發和調試技術等;第2章詳細講解storm 集群環境的安裝和搭建,以及如何將topology部署 到分布式環境中;第3章通過傳感器數據實例詳細 介紹Trident topology;第4章講解如何使用Storm 和Tridentj掛行實時趨勢分析;第5章介紹如何使用 Storm進行圖形分析,將數據持久化存儲在圖形數 據庫中,通過查詢數據來發現其中潛在的聯係;第 6章講解如何在Storm上使用遞歸實現一個典型的人 工智能算法;第7章演示集成Storm和非事務型係統 的復雜性,通過集成Storm和開源探索性分析架構 Druid實現一個可配置的實時係統來分析金融事件。
第8章探討Lambda體係結構的實現方法,講解如何 將批處理機製和實時處理引擎結閤起來構建一個可 糾錯的分析係統;第9章講解如何將Pig腳本轉化為 topology,並且使用Storm-YARN部署topology,從 而將批處理係統轉化為實時係統;第10章介紹如 何在雲服務提供商提供的主機環境下部署和運行 Storm。
內頁插圖
目錄
前言
作者簡介
第1章 分布式單詞計數
1.1 Storm topology的組成部分——stream、spout和bolt
1.1.1 Storm
1.1.2 spout
1.1.3 bolt
1.2 單詞計數topology的數據流
1.2.1 語句生成bolt
1.2.2 語句分割bolt
1.2.3 單詞計割bolt
1.2.4 上報bolt
1.3 實現單詞計數top
1.3.1 配置開發環境
1.3.2 實現Sentence
1.3.3 實現語句分割bolt
1.3.4 實現單詞計割bolt
1.3.5 實現上報bolt
1.3.6 實現單詞計數topo
1.4 Storm的並發機製
1.4.1 WordCountTopology的並發機製
1.4.2 給topology增加woker
1.4.3 配置executor和task
1.5 理解數據流分組
1.6 有保障機製的數據處理
1.6.1 spout的可靠性
1.6.2 bolt的可靠性
1.6.3 可靠的單詞計數
總結
第2章 配置Storm集群
2.1 Storm集群的框架
2.1.1 理解nimbus守護進程
2.1.2 supervisor守護進程的工作方式
2.1.3 Apache ZooKeeper簡介
……
第3章 Trident和傳感器數據
第4章 實時趨勢分析
第5章 實時圖形分析
第6章 人工智能
第7章 整閤Druid進行金融分析
第8章 自然語言處理
第9章 在Hadoop上部署Storm進行廣告分析
第10章 雲環境下的S
前言/序言
目前對信息高時效性、可操作性的需求不斷增長,這要求軟件係統在更少的時間內能處理更多的數據。隨著可連接設備數量不斷增加,以及在眾多行業領域廣泛應用,這種信息需求已無處不在。傳統企業的運營係統被迫處理原先隻有互聯網企業纔會遇到的大規模數據。這種重大轉變正不斷瓦解傳統架構和解決方案,傳統上會將在綫事務處理和離綫分析分割開來。與此同時,人們正在重新勾勒從數據中提取信息的意義和價值。軟件框架和基礎設施也在不斷進化,以適應這種新場景。 具體地說,數據的生成可以看作一連串發生的離散事件,這些事件流會伴隨著不同的數據流、操作和分析,都會由一個通用的軟件框架和基礎設施來處理。 Storm正是最流行的實時流計算框架之一,它提供瞭可容錯分布式計算所要求的基本原語和保障機製,可以滿足大容量關鍵業務應用的需求。它不但是一套技術的整閤,也是一種數據流和控製的機製。很多大公司都將Storm作為大數據處理平颱的核心部分。 嘗試使用本書中介紹的設計模式,你將學到開發、部署、運營數據處理的流程,它具有每天或者每小時處理上億次事務的能力。 本書介紹瞭多種分布式計算相關的主題,包括設計和集成的模式,還介紹瞭這些技術常見的適用領域和具體應用。本書通過實際示例,從最簡單的topology齣發,首先嚮用戶介紹瞭Storm基礎,然後通過更復雜的示例,逐步引入Storm的高級概念、更細緻的部署方案以及運營中需要關注的事項。 主要內容 第1章介紹瞭使用Storm進行分布式流式計算的核心概念。分布式單詞計數這個例子中展示的數據結構、技術和設計模式都是後續進行更復雜計算的基礎。在該章中,我們會對Storm計算架構有一個基本瞭解。還將學會搭建Storm開發環境,瞭解開發和調試Storm應用的技術。 第2章進一步介紹Storm技術架構和安裝部署Storm集群的過程。在該章中,我們會通過配置工具Puppet來自動化安裝和部署一個多節點Storm集群。 第3章主要介紹Trident topology。Trident在Storm基礎之上提供瞭高級抽象,抽象瞭事務處理和狀態管理的細節。該章使用Trident框架處理、聚閤、過濾來自傳感器的數據,以檢測傳染病是否爆發。 第4章介紹使用Storm和Trident進行實時趨勢分析。實時趨勢分析引入瞭在數據流中進行識彆的模式。在該章中,你將會整閤Apache Kafka隊列並且通過實現一個滑動窗口來計算移動平均數。 第5章介紹瞭使用Storm進行基於圖的數據分析,首先將數據持久化到圖形數據庫,再通過查詢數據來發現關係。圖形數據庫將數據按照頂點、邊、屬性的圖形結構進行存儲,聚焦於實體間的關係。在該章中,我們將Strom和一種流行的圖形數據庫Titan進行整閤,使用Twitter作為數據源。 第6章介紹在Storm上使用遞歸實現一個典型的人工智能算法。該章展現瞭Strom的局限性,並檢視設計模式來適應這些局限。通過分布式遠程調用(Distributed Remote Procedure Call, DRPC),你會實現一個提供同步查詢服務的Storm topology,用來決定井字棋遊戲下一步怎樣走最好。 第7章演示整閤Storm和非事務型係統的復雜性。為瞭支持這種整閤,介紹一種通過ZooKeeper進行分布式狀態管理的設計模式。該章通過整閤Strom和開源探索性分析架構Druid,實現一個可配置的實時係統來分析金融事件。 第8章介紹Lambda係統架構的概念,結閤實時係統和批處理來構建一個可糾錯的分析係統。在第7章的基礎上,你將會融入Hadoop的基礎設施並且檢視如何使用一個MapReduce job對Druid中可能齣現的主機故障事件進行糾錯。 第9章演示將一個Hadoop上運行的Pig語言編寫的批處理job轉化為一個實時的Storm topology。你可以利用Storm-YARN來實現這個功能,這個工具可以使用戶使用YARN來部署和運行Storm集群。在Hadoop上運行Storm係統,企業可以在同一套基礎設施上同時運行與利用實時和批處理係統。 第10章提供瞭在雲環境下運行和部署Storm係統的最佳實踐。詳細地說,你可利用一套為雲計算服務的庫Apache Whirr,在Amazon Web Services(AWS)Elastic Compute Cloud(EC2)上部署和配置Storm及其相關的支撐組件。此外,你還可以利用Vagrant工具在虛擬機環境下建立開發和測試的集群環境。 ……
Storm分布式實時計算模式 [Storm Blueprints Patterns for Distributed Real-Time Computation] 下載 mobi epub pdf txt 電子書
Storm分布式實時計算模式 [Storm Blueprints Patterns for Distributed Real-Time Computation] pdf epub mobi txt 電子書 下載