Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spar

Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spar pdf epub mobi txt 電子書 下載 2025

想要找書就要到 靜流書站
立刻按 ctrl+D收藏本頁
你會得到大驚喜!!
店鋪: 義博圖書專營店
齣版社: 清華大學齣版社
ISBN:9787302370857
商品編碼:11006663769
齣版時間:2016-10-28
頁數:1
字數:1

具體描述

內容簡介

Hadoop權 指南(第3版)+數據算法:Hadoop/Spark大數據處理技巧+Spark數據分析

YL0014   9787302370857  9787512395947  9787115404749



Spark數據分析(正版H 9787115404749 [美] 裏紮(Sandy Ryza)[美] 萊瑟森(Uri Laserson)[英] 歐文(Sean O*en)[美] 威爾詳細目錄

基本信息

書名:Spark數據分析

原:59元

作者:[美] 裏紮(Sandy Ryza)[美] 萊瑟森(Uri Laserson)[英] 歐文(Sean O*en)[美] 威爾斯(Josh Wills)

齣版社:人民郵電齣版社

齣版日期:2015年11月

ISBN:9787115404749

字數:360000

頁碼:226

版次:1

裝幀:平裝

開本:16開

商品標識:

編輯推薦


這是一本實用手冊,四位作者均是Cloudera公*的數據科學傢,他們聯袂展示瞭利用Spark進行大規模數據分析的若乾模式,而且每個模式都自成一體。他們將Spark、統計學方法和真實數據集結閤起來,通過實例嚮讀者講述瞭怎樣解決分析型問題。
本書先介紹瞭Spark及其生態係統,接著詳細介紹瞭將分類、協同過濾及異常檢查等常用技術應用於基因學、安全和金融領域的若乾模式。如果你對機器學習和統計學有基本的瞭解,並且會用Java、Python或Scala編程,這些模式將有助於你開發自己的數據應用。
本書介紹瞭以下模式:
音樂推薦和Audioscrobbler數據集
用決策樹算法預測森林植被
基於K均值聚類進行網絡流量的異常檢測
基於潛在語義分析技術分析維基*科
用GraphX分析伴生網絡
對紐約齣租車軌跡進行空間和時間數據分析
通過濛特卡羅模擬來評估金融風險
基因數據分析和BDG項目
用PySpark和Thunder分析神經圖像數據

內容提要


本書是使用Spark進行大規模數據分析的實戰寶典,由大數據公*Cloudera的數據科學傢撰寫。四位作者先結閤數據科學和大數據分析的廣闊背景講解瞭Spark,然後介紹瞭用Spark和Scala進行數據處理的基礎知識,接著討論瞭如何將Spark用於機器學習,同時介紹瞭常見應用中幾個常用的算法。此外還收集瞭一些更加新穎的應用,比如通過文本隱含語義關係來查詢Wikipedia或分析基因數據。

目錄


推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章大數據分析 
1.1數據科學麵臨的挑戰 
1.2認識Apache Spark 
1.3關於本書 
第2 章用Scala 和Spark 進行數據分析 
2.1數據科學傢的Scala 
2.2Spark 編程模型 
2.3記錄關聯問題 
2.4小試牛刀:Spark shell 和SparkContext 
2.5把數據從集群上獲取到客戶端 
2.6把代碼從客戶端發送到集群推薦序 ix
譯者序 xi
序 xiii
前言 xv
第1 章大數據分析 
1.1數據科學麵臨的挑戰 
1.2認識Apache Spark 
1.3關於本書 
第2 章用Scala 和Spark 進行數據分析 
2.1數據科學傢的Scala 
2.2Spark 編程模型 
2.3記錄關聯問題 
2.4小試牛刀:Spark shell 和SparkContext 
2.5把數據從集群上獲取到客戶端 
2.6把代碼從客戶端發送到集群 
2.7用元組和case class 對數據進行結構化 
2.8聚閤 
2.9創建直方圖 
2.10連續變量的概要統計 
2.11為計算概要信息創建可重用的代碼 
2.12變量的選擇和評分簡介 
2.13小結 
第3 章音樂推薦和Audioscrobbler 數據集 
3.1數據集 
3.2交替*小二乘推薦算法 
3.3準備數據 
3.4構建**個模型 
3.5逐個檢查推薦結果 
3.6評價推薦質量 
3.7計算AUC 
3.8選擇參數 
3.9産生推薦 
3.10小結 
第4 章 用決策樹算法預測森林植被 
4.1迴歸簡介 
4.2嚮量和特徵 
4.3樣本訓練 
4.4決策樹和決策森林 
4.5Covtype 數據集 
4.6準備數據 
4.7**棵決策樹 
4.8決策樹的參數 
4.9決策樹調優 
4.10重談類彆型特徵 
4.11隨機決策森林 
4.12進行預測 
4.13小結 
第5 章基於K 均值聚類的網絡流量異常檢測 
5.1異常檢測 
5.2K 均值聚類 
5.3網絡入侵 
5.4KDD Cup 1999 數據集 
5.5初步嘗試聚類 
5.6K 的選擇 
5.7基於R 的可視化 
5.8特徵的規範化 
5.9類彆型變量 
5.10利用標號的熵信息 
5.11聚類實戰 
5.12小結 
第6 章基於潛在語義分析算法分析維基*科 
6.1詞項- 文檔矩陣 
6.2獲取數據 
6.3分析和準備數據 
6.4詞形歸並 
6.5計算TF-IDF 
6.6奇異值分解 
6.7找齣重要的概念 
6.8基於低維近似的查詢和評分 
6.9詞項- 詞項相關度 
6.10文檔- 文檔相關度 
6.11詞項- 文檔相關度 
6.12多詞項查詢 
6.13小結 
第7 章用GraphX 分析伴生網絡 
7.1對MEDLINE 文獻引用索引的網絡分析 
7.2獲取數據 
7.3用Scala XML 工具解析XML 文檔 
7.4分析MeSH 主要主題及其伴生關係 
7.5用GraphX 來建立一個伴生網絡 
7.6理解網絡結構 
7.6.1連通組件 
7.6.2度的分布 
7.7過濾噪聲邊 
7.7.1處理EdgeTriplet 
7.7.2分析去掉噪聲邊的子圖 
7.8小世界網絡 
7.8.1係和聚類係數 
7.8.2用Pregel 計算平均路徑長度 
7.9小結 
第8 章紐約齣租車軌跡的空間和時間數據分析 
8.1數據的獲取 
8.2基於Spark 的時間和空間數據分析 
8.3基於JodaTime 和NScalaTime 的時間數據處理 
8.4基於Esri Geometry API 和Spray 的地理空間數據處理 
8.4.1認識Esri Geometry API 
8.4.2GeoJSON 簡介 
8.5紐約市齣租車客運數據的預處理 
8.5.1大規模數據中的*法記錄處理 
8.5.2地理空間分析 
8.6基於Spark 的會話分析 
8.7小結 
第9 章基於濛特卡羅模擬的金融風險評估 
9.1術語 
9.2VaR 計算方法 
9.2.1方差- 協方差法 
9.2.2曆史模擬法 
9.2.3濛特卡羅模擬法 
9.3*模型 
9.4獲取數據 
9.5數據預處理 
9.6確定市場因素的權重 
9.7采樣 
9.8運行試驗 
9.9迴報分布的可視化 
9.10結果的評估 
9.11小結 
第10 章基因數據分析和BDG 項目 
10.1分離存儲與模型 
10.2用ADAM CLI 導入基因學數據 
10.3從ENCODE 數據預測轉錄因子結閤位點 
10.4查詢1000 Genomes 項目中的基因型 
10.5小結 
第11 章基於PySpark 和Thunder 的神經圖像數據分析 
11.1PySpark 簡介 
11.2Thunder 工具*概況和安裝 
11.3用Thunder 加載數據 
11.4用Thunder 對神經元進行分類 
11.5小結 
附錄ASpark 進階 
附錄B即將發布的MLlib Pipelines API 
作者介紹 
封麵介紹

作者介紹


Sandy Ryza是Cloudera公*數據科學傢,Apache Spark項目的活躍代碼貢獻者。領導瞭Cloudera公*的Spark開發工作。他還是Hadoop項目管理委員會委員。
Uri Laserson是Cloudera公*數據科學傢,專注於Hadoop生態係統中的Python部分。
Sean O*en是Cloudera公*EMEA地區的數據科學總監,也是Apache Spark項目的代碼提交者。他創立瞭基於Spark、Spark Streaming和Kafka的Hadoop實時大規模學習項目Oryx(之前稱為Myrrix)。
Josh Wills是Cloudera公*的數據科學總監,Apache Crunch項目的發起者和副總裁。

文摘


暫無

媒體推薦


“四位作者研習Spark已久,他們在本書中跟讀者分享瞭關於Spark的大量精彩內容,而且本書的案例部分同樣齣眾!對於這本書,我鍾愛的是它強調案例,且這些案例都源於現實數據和實際應用..認真研讀此書,你應該可以吸收這些案例中的思想,並直接將其運用在自己的項目中!”
——Matei Zaharia,Databricks公*CTO兼Apache Spark項目副總裁基本信息

書名:數據算法:Hadoop/Spark大數據處理技巧

:128.00元

作者:Mahmoud Parsian(馬哈默德·帕瑞斯安)

齣版社:中國電力齣版社

齣版日期:2016-10-01

ISBN:9787512395947

字數:834000

頁碼:696

版次:1

裝幀:平裝

開本:16開

商品重量:0.4kg

編輯推薦


內容提要


目錄


序 1
前言 3
第1章二次排序:簡介 19
二次排序問題解決方案 21
MapReduce/Hadoop的二次排序解決方案 25
Spark的二次排序解決方案 29
第2章二次排序:詳細示例 42
二次排序技術 43
二次排序的完整示例 46
運行示例——老版本Hadoop API 50
運行示例——新版本Hadoop API 52
第3章 Top 10 列錶 54
Top N 設計模式的形式化描述 55
MapReduce/Hadoop實現:鍵 56序 1
前言 3
第1章二次排序:簡介 19
二次排序問題解決方案 21
MapReduce/Hadoop的二次排序解決方案 25
Spark的二次排序解決方案 29
第2章二次排序:詳細示例 42
二次排序技術 43
二次排序的完整示例 46
運行示例——老版本Hadoop API 50
運行示例——新版本Hadoop API 52
第3章 Top 10 列錶 54
Top N 設計模式的形式化描述 55
MapReduce/Hadoop實現:鍵 56
Spark實現:鍵 62
Spark實現:非鍵 73
使用takeOrdered()的Spark Top 10 解決方案 84
MapReduce/Hadoop Top 10 解決方案:非鍵 91
第4章左外連接 96
左外連接示例 96
MapReduce左外連接實現 99
Spark左外連接實現 105
使用leftOuterJoin()的Spark實現 117
第5章反轉排序 127
反轉排序模式示例 128
反轉排序模式的MapReduce/Hadoop實現 129
運行示例 134
第6章移動平均 137
示例1:時間序列數據(股票價格) 137
示例2:時間序列數據(URL訪問數) 138
形式定義 139
POJO移動平均解決方案 140
MapReduce/Hadoop移動平均解決方案 143
第7章購物籃分析 155
MBA目標 155
MBA的應用領域 157
使用MapReduce的購物籃分析 157
Spark解決方案 166
運行Spark實現的YARN 腳本 179
第8章共同好友 182
輸入 183
POJO共同好友解決方案 183
MapReduce算法 184
解決方案1: 使用文本的Hadoop實現 187
解決方案2: 使用ArrayListOfLongsWritable 的Hadoop實現 189
Spark解決方案 191
第9章使用MapReduce實現推薦引擎 201
購買過該商品的顧客還購買瞭哪些商品 202
經常一起購買的商品 206
推薦連接 210
第10章基於內容的電影推薦 225
輸入 226
MapReduce階段1 226
MapReduce階段2和階段3 227
Spark電影推薦實現 234
第11章使用馬爾可夫模型的智能郵件營銷 .253
馬爾可夫鏈基本原理 254
使用MapReduce的馬爾可夫模型 256
Spark解決方案 269
第12章 K-均值聚類 282
什麼是K-均值聚類? 285
聚類的應用領域 285
K-均值聚類方法非形式化描述:分區方法 286
K-均值距離函數 286
K-均值聚類形式化描述 287
K-均值聚類的MapReduce解決方案 288
K-均值算法Spark實現 292
第13章 k-近鄰 296
kNN分類 297
距離函數 297
kNN示例 298
kNN算法非形式化描述 299
kNN算法形式化描述 299
kNN的類Java非MapReduce 解決方案 299
Spark的kNN算法實現 301
第14章樸素貝葉斯 315
訓練和學習示例 316
條件概率 319
深入分析樸素貝葉斯分類器 319
樸素貝葉斯分類器:符號數據的MapReduce解決方案 322
樸素貝葉斯分類器Spark實現 332
使用Spark和Mahout 347
第15章情感分析 349
情感示例 350
情感分數:正麵或負麵 350
一個簡單的MapReduce情感分析示例 351
真實世界的情感分析 353
第16章查找、統計和列齣大圖中的所有三角形 354
基本的圖概念 355
三角形計數的重要性 356
MapReduce/Hadoop解決方案 357
Spark解決方案 364
第17章 K-mer計數 375
K-mer計數的輸入數據 376
K-mer計數應用 376
K-mer計數MapReduce/Hadoop解決方案 377
K-mer計數Spark解決方案 378
第18章 DNA測序 390
DNA測序的輸入數據 392
輸入數據驗證 393
DNA序列比對 393
DNA測試的MapReduce算法 394
第19章 Cox迴歸 413
Cox模型剖析 414
使用R的Cox迴歸 415
Cox迴歸應用 416
Cox迴歸 POJO解決方案 417
MapReduce輸入 418
使用MapReduce的Cox迴歸 419
第20章 Cochran-Armitage趨勢檢驗 426
Cochran-Armitage算法 427
Cochran-Armitage應用 432
MapReduce解決方案 435
第21章等位基因頻率 443
基本定義 444
形式化問題描述 448
等位基因頻率分析的MapReduce解決方案 449
MapReduce解決方案, 階段1 449
MapReduce解決方案,階段2 459
MapReduce解決方案, 階段3 463
染色體X 和Y的特殊處理 466
第22章 T檢驗 468
對bioset完成T檢驗 469
MapReduce問題描述 472
輸入 472
期望輸齣 473
MapReduce解決方案 473
Spark實現 476
第23章皮爾遜相關係數 488
皮爾遜相關係數公式 489
皮爾遜相關係數示例 491
皮爾遜相關係數數據集 492
皮爾遜相關係數POJO 解決方案 492
皮爾遜相關係數MapReduce解決方案 493
皮爾遜相關係數的Spark 解決方案 496
運行Spark程序的YARN 腳本 516
使用Spark計算斯皮爾曼相關係數 517
第24章 DNA堿基計數 520
FASTA 格式 521
FASTQ 格式 522
MapReduce解決方案:FASTA 格式 522
運行示例 524
MapReduce解決方案: FASTQ 格式 528
Spark 解決方案: FASTA 格式 533
Spark解決方案: FASTQ 格式 537
第25章 RNA測序 543
數據大小和格式 543
MapReduce工作流 544
RNA測序分析概述 544
RNA測序MapReduce算法 548
第26章基因聚閤 553
輸入 554
輸齣 554
MapReduce解決方案(按單個值過濾和按平均值過濾) 555
基因聚閤的Spark解決方案 567
Spark解決方案:按單個值過濾 567
Spark解決方案:按平均值過濾 576
第27章綫性迴歸 586
基本定義 587
簡單示例 587
問題描述 588
輸入數據 589
期望輸齣 590
使用SimpleRegression的MapReduce解決方案 590
Hadoop實現類 593
使用R綫性模型的MapReduce解決方案 593
第28章 MapReduce和幺半群 600
概述 600
幺半群的定義 602
幺半群和非幺半群示例 603
MapReduce示例:非幺半群 606
MapReduce示例:幺半群 608
使用幺半群的Spark示例 612
使用幺半群的結論 618
函子和幺半群 619
第29章小文件問題 622
解決方案1:在客戶端閤並小文件 623
解決方案2:用CombineFileInputFormat解決小文件問題 629
其他解決方案 634
第30章 MapReduce的大容量緩存 635
實現方案 636
緩存問題形式化描述 637
一個精巧、可伸縮的解決方案 637
實現LRUMap緩存 640
使用LRUMap的MapReduce解決方案 646
第31章 Bloom過濾器 651Bloom
過濾器性質 651
一個簡單的Bloom過濾器示例 653href='#' class='section_show_more' dd_name='顯示全部信息'>顯示全部信息

作者介紹


Mahmoud Parsian,計算機科學博士,是一位熱衷於實踐的軟件專傢,作為開發人員、設計人員、架構師和作者,他有30多年的軟件開發經驗。目前領導著Illumina的大數據團隊,在過去15年間,他主要從事Java (服務器端)、數據庫、MapReduce和分布式計算的有關工作。Mahmoud還著有《BC Recipes》和《BC Metadata, MySQL,and Oracle Recipes》等書(均由Apress齣版)。

文摘

書名:   Hadoop 威指南(第3版)
作者:   懷特 (Tom White)
ISBN:   9787302370857
齣版社:   清華大學齣版社
定價:   99.00元

  其他信息( 僅供參考,以實物為準)
  開本:16   裝幀:平裝
  齣版時間:2015-01-01   版次:3
  頁碼:679   字數:


用戶評價

評分

評分

評分

評分

評分

評分

評分

評分

評分

相關圖書

本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度google,bing,sogou

© 2025 windowsfront.com All Rights Reserved. 靜流書站 版權所有