Hadoop权 指南(第3版)+数据算法:Hadoop/Spark大数据处理技巧+Spark数据分析
YL0014 9787302370857 9787512395947 9787115404749
Spark数据分析(正版H 9787115404749 [美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean O*en)[美] 威尔详细目录
基本信息
书名:Spark数据分析
原:59元
作者:[美] 里扎(Sandy Ryza)[美] 莱瑟森(Uri Laserson)[英] 欧文(Sean O*en)[美] 威尔斯(Josh Wills)
出版社:人民邮电出版社
出版日期:2015年11月
ISBN:9787115404749
字数:360000
页码:226
版次:1
装帧:平装
开本:16开
商品标识:
编辑推荐
这是一本实用手册,四位作者均是Cloudera公*的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。
本书先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。
本书介绍了以下模式:
音乐推荐和Audioscrobbler数据集
用决策树算法预测森林植被
基于K均值聚类进行网络流量的异常检测
基于潜在语义分析技术分析维基*科
用GraphX分析伴生网络
对纽约出租车轨迹进行空间和时间数据分析
通过蒙特卡罗模拟来评估金融风险
基因数据分析和BDG项目
用PySpark和Thunder分析神经图像数据
内容提要
本书是使用Spark进行大规模数据分析的实战宝典,由大数据公*Cloudera的数据科学家撰写。四位作者先结合数据科学和大数据分析的广阔背景讲解了Spark,然后介绍了用Spark和Scala进行数据处理的基础知识,接着讨论了如何将Spark用于机器学习,同时介绍了常见应用中几个常用的算法。此外还收集了一些更加新颖的应用,比如通过文本隐含语义关系来查询Wikipedia或分析基因数据。
目录
推荐序 ix
译者序 xi
序 xiii
前言 xv
第1 章大数据分析
1.1数据科学面临的挑战
1.2认识Apache Spark
1.3关于本书
第2 章用Scala 和Spark 进行数据分析
2.1数据科学家的Scala
2.2Spark 编程模型
2.3记录关联问题
2.4小试牛刀:Spark shell 和SparkContext
2.5把数据从集群上获取到客户端
2.6把代码从客户端发送到集群推荐序 ix
译者序 xi
序 xiii
前言 xv
第1 章大数据分析
1.1数据科学面临的挑战
1.2认识Apache Spark
1.3关于本书
第2 章用Scala 和Spark 进行数据分析
2.1数据科学家的Scala
2.2Spark 编程模型
2.3记录关联问题
2.4小试牛刀:Spark shell 和SparkContext
2.5把数据从集群上获取到客户端
2.6把代码从客户端发送到集群
2.7用元组和case class 对数据进行结构化
2.8聚合
2.9创建直方图
2.10连续变量的概要统计
2.11为计算概要信息创建可重用的代码
2.12变量的选择和评分简介
2.13小结
第3 章音乐推荐和Audioscrobbler 数据集
3.1数据集
3.2交替*小二乘推荐算法
3.3准备数据
3.4构建**个模型
3.5逐个检查推荐结果
3.6评价推荐质量
3.7计算AUC
3.8选择参数
3.9产生推荐
3.10小结
第4 章 用决策树算法预测森林植被
4.1回归简介
4.2向量和特征
4.3样本训练
4.4决策树和决策森林
4.5Covtype 数据集
4.6准备数据
4.7**棵决策树
4.8决策树的参数
4.9决策树调优
4.10重谈类别型特征
4.11随机决策森林
4.12进行预测
4.13小结
第5 章基于K 均值聚类的网络流量异常检测
5.1异常检测
5.2K 均值聚类
5.3网络入侵
5.4KDD Cup 1999 数据集
5.5初步尝试聚类
5.6K 的选择
5.7基于R 的可视化
5.8特征的规范化
5.9类别型变量
5.10利用标号的熵信息
5.11聚类实战
5.12小结
第6 章基于潜在语义分析算法分析维基*科
6.1词项- 文档矩阵
6.2获取数据
6.3分析和准备数据
6.4词形归并
6.5计算TF-IDF
6.6奇异值分解
6.7找出重要的概念
6.8基于低维近似的查询和评分
6.9词项- 词项相关度
6.10文档- 文档相关度
6.11词项- 文档相关度
6.12多词项查询
6.13小结
第7 章用GraphX 分析伴生网络
7.1对MEDLINE 文献引用索引的网络分析
7.2获取数据
7.3用Scala XML 工具解析XML 文档
7.4分析MeSH 主要主题及其伴生关系
7.5用GraphX 来建立一个伴生网络
7.6理解网络结构
7.6.1连通组件
7.6.2度的分布
7.7过滤噪声边
7.7.1处理EdgeTriplet
7.7.2分析去掉噪声边的子图
7.8小世界网络
7.8.1系和聚类系数
7.8.2用Pregel 计算平均路径长度
7.9小结
第8 章纽约出租车轨迹的空间和时间数据分析
8.1数据的获取
8.2基于Spark 的时间和空间数据分析
8.3基于JodaTime 和NScalaTime 的时间数据处理
8.4基于Esri Geometry API 和Spray 的地理空间数据处理
8.4.1认识Esri Geometry API
8.4.2GeoJSON 简介
8.5纽约市出租车客运数据的预处理
8.5.1大规模数据中的*法记录处理
8.5.2地理空间分析
8.6基于Spark 的会话分析
8.7小结
第9 章基于蒙特卡罗模拟的金融风险评估
9.1术语
9.2VaR 计算方法
9.2.1方差- 协方差法
9.2.2历史模拟法
9.2.3蒙特卡罗模拟法
9.3*模型
9.4获取数据
9.5数据预处理
9.6确定市场因素的权重
9.7采样
9.8运行试验
9.9回报分布的可视化
9.10结果的评估
9.11小结
第10 章基因数据分析和BDG 项目
10.1分离存储与模型
10.2用ADAM CLI 导入基因学数据
10.3从ENCODE 数据预测转录因子结合位点
10.4查询1000 Genomes 项目中的基因型
10.5小结
第11 章基于PySpark 和Thunder 的神经图像数据分析
11.1PySpark 简介
11.2Thunder 工具*概况和安装
11.3用Thunder 加载数据
11.4用Thunder 对神经元进行分类
11.5小结
附录ASpark 进阶
附录B即将发布的MLlib Pipelines API
作者介绍
封面介绍
作者介绍
Sandy Ryza是Cloudera公*数据科学家,Apache Spark项目的活跃代码贡献者。领导了Cloudera公*的Spark开发工作。他还是Hadoop项目管理委员会委员。
Uri Laserson是Cloudera公*数据科学家,专注于Hadoop生态系统中的Python部分。
Sean O*en是Cloudera公*EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。
Josh Wills是Cloudera公*的数据科学总监,Apache Crunch项目的发起者和副总裁。
文摘
暂无
媒体推荐
“四位作者研习Spark已久,他们在本书中跟读者分享了关于Spark的大量精彩内容,而且本书的案例部分同样出众!对于这本书,我钟爱的是它强调案例,且这些案例都源于现实数据和实际应用..认真研读此书,你应该可以吸收这些案例中的思想,并直接将其运用在自己的项目中!”
——Matei Zaharia,Databricks公*CTO兼Apache Spark项目副总裁基本信息
书名:数据算法:Hadoop/Spark大数据处理技巧
:128.00元
作者:Mahmoud Parsian(马哈默德·帕瑞斯安)
出版社:中国电力出版社
出版日期:2016-10-01
ISBN:9787512395947
字数:834000
页码:696
版次:1
装帧:平装
开本:16开
商品重量:0.4kg
编辑推荐
内容提要
目录
序 1
前言 3
第1章二次排序:简介 19
二次排序问题解决方案 21
MapReduce/Hadoop的二次排序解决方案 25
Spark的二次排序解决方案 29
第2章二次排序:详细示例 42
二次排序技术 43
二次排序的完整示例 46
运行示例——老版本Hadoop API 50
运行示例——新版本Hadoop API 52
第3章 Top 10 列表 54
Top N 设计模式的形式化描述 55
MapReduce/Hadoop实现:键 56序 1
前言 3
第1章二次排序:简介 19
二次排序问题解决方案 21
MapReduce/Hadoop的二次排序解决方案 25
Spark的二次排序解决方案 29
第2章二次排序:详细示例 42
二次排序技术 43
二次排序的完整示例 46
运行示例——老版本Hadoop API 50
运行示例——新版本Hadoop API 52
第3章 Top 10 列表 54
Top N 设计模式的形式化描述 55
MapReduce/Hadoop实现:键 56
Spark实现:键 62
Spark实现:非键 73
使用takeOrdered()的Spark Top 10 解决方案 84
MapReduce/Hadoop Top 10 解决方案:非键 91
第4章左外连接 96
左外连接示例 96
MapReduce左外连接实现 99
Spark左外连接实现 105
使用leftOuterJoin()的Spark实现 117
第5章反转排序 127
反转排序模式示例 128
反转排序模式的MapReduce/Hadoop实现 129
运行示例 134
第6章移动平均 137
示例1:时间序列数据(股票价格) 137
示例2:时间序列数据(URL访问数) 138
形式定义 139
POJO移动平均解决方案 140
MapReduce/Hadoop移动平均解决方案 143
第7章购物篮分析 155
MBA目标 155
MBA的应用领域 157
使用MapReduce的购物篮分析 157
Spark解决方案 166
运行Spark实现的YARN 脚本 179
第8章共同好友 182
输入 183
POJO共同好友解决方案 183
MapReduce算法 184
解决方案1: 使用文本的Hadoop实现 187
解决方案2: 使用ArrayListOfLongsWritable 的Hadoop实现 189
Spark解决方案 191
第9章使用MapReduce实现推荐引擎 201
购买过该商品的顾客还购买了哪些商品 202
经常一起购买的商品 206
推荐连接 210
第10章基于内容的电影推荐 225
输入 226
MapReduce阶段1 226
MapReduce阶段2和阶段3 227
Spark电影推荐实现 234
第11章使用马尔可夫模型的智能邮件营销 .253
马尔可夫链基本原理 254
使用MapReduce的马尔可夫模型 256
Spark解决方案 269
第12章 K-均值聚类 282
什么是K-均值聚类? 285
聚类的应用领域 285
K-均值聚类方法非形式化描述:分区方法 286
K-均值距离函数 286
K-均值聚类形式化描述 287
K-均值聚类的MapReduce解决方案 288
K-均值算法Spark实现 292
第13章 k-近邻 296
kNN分类 297
距离函数 297
kNN示例 298
kNN算法非形式化描述 299
kNN算法形式化描述 299
kNN的类Java非MapReduce 解决方案 299
Spark的kNN算法实现 301
第14章朴素贝叶斯 315
训练和学习示例 316
条件概率 319
深入分析朴素贝叶斯分类器 319
朴素贝叶斯分类器:符号数据的MapReduce解决方案 322
朴素贝叶斯分类器Spark实现 332
使用Spark和Mahout 347
第15章情感分析 349
情感示例 350
情感分数:正面或负面 350
一个简单的MapReduce情感分析示例 351
真实世界的情感分析 353
第16章查找、统计和列出大图中的所有三角形 354
基本的图概念 355
三角形计数的重要性 356
MapReduce/Hadoop解决方案 357
Spark解决方案 364
第17章 K-mer计数 375
K-mer计数的输入数据 376
K-mer计数应用 376
K-mer计数MapReduce/Hadoop解决方案 377
K-mer计数Spark解决方案 378
第18章 DNA测序 390
DNA测序的输入数据 392
输入数据验证 393
DNA序列比对 393
DNA测试的MapReduce算法 394
第19章 Cox回归 413
Cox模型剖析 414
使用R的Cox回归 415
Cox回归应用 416
Cox回归 POJO解决方案 417
MapReduce输入 418
使用MapReduce的Cox回归 419
第20章 Cochran-Armitage趋势检验 426
Cochran-Armitage算法 427
Cochran-Armitage应用 432
MapReduce解决方案 435
第21章等位基因频率 443
基本定义 444
形式化问题描述 448
等位基因频率分析的MapReduce解决方案 449
MapReduce解决方案, 阶段1 449
MapReduce解决方案,阶段2 459
MapReduce解决方案, 阶段3 463
染色体X 和Y的特殊处理 466
第22章 T检验 468
对bioset完成T检验 469
MapReduce问题描述 472
输入 472
期望输出 473
MapReduce解决方案 473
Spark实现 476
第23章皮尔逊相关系数 488
皮尔逊相关系数公式 489
皮尔逊相关系数示例 491
皮尔逊相关系数数据集 492
皮尔逊相关系数POJO 解决方案 492
皮尔逊相关系数MapReduce解决方案 493
皮尔逊相关系数的Spark 解决方案 496
运行Spark程序的YARN 脚本 516
使用Spark计算斯皮尔曼相关系数 517
第24章 DNA碱基计数 520
FASTA 格式 521
FASTQ 格式 522
MapReduce解决方案:FASTA 格式 522
运行示例 524
MapReduce解决方案: FASTQ 格式 528
Spark 解决方案: FASTA 格式 533
Spark解决方案: FASTQ 格式 537
第25章 RNA测序 543
数据大小和格式 543
MapReduce工作流 544
RNA测序分析概述 544
RNA测序MapReduce算法 548
第26章基因聚合 553
输入 554
输出 554
MapReduce解决方案(按单个值过滤和按平均值过滤) 555
基因聚合的Spark解决方案 567
Spark解决方案:按单个值过滤 567
Spark解决方案:按平均值过滤 576
第27章线性回归 586
基本定义 587
简单示例 587
问题描述 588
输入数据 589
期望输出 590
使用SimpleRegression的MapReduce解决方案 590
Hadoop实现类 593
使用R线性模型的MapReduce解决方案 593
第28章 MapReduce和幺半群 600
概述 600
幺半群的定义 602
幺半群和非幺半群示例 603
MapReduce示例:非幺半群 606
MapReduce示例:幺半群 608
使用幺半群的Spark示例 612
使用幺半群的结论 618
函子和幺半群 619
第29章小文件问题 622
解决方案1:在客户端合并小文件 623
解决方案2:用CombineFileInputFormat解决小文件问题 629
其他解决方案 634
第30章 MapReduce的大容量缓存 635
实现方案 636
缓存问题形式化描述 637
一个精巧、可伸缩的解决方案 637
实现LRUMap缓存 640
使用LRUMap的MapReduce解决方案 646
第31章 Bloom过滤器 651Bloom
过滤器性质 651
一个简单的Bloom过滤器示例 653href='#' class='section_show_more' dd_name='显示全部信息'>显示全部信息
作者介绍
Mahmoud Parsian,计算机科学博士,是一位热衷于实践的软件专家,作为开发人员、设计人员、架构师和作者,他有30多年的软件开发经验。目前领导着Illumina的大数据团队,在过去15年间,他主要从事Java (服务器端)、数据库、MapReduce和分布式计算的有关工作。Mahmoud还著有《BC Recipes》和《BC Metadata, MySQL,and Oracle Recipes》等书(均由Apress出版)。
文摘
书名: | Hadoop 威指南(第3版) |
作者: | 怀特 (Tom White) |
ISBN: | 9787302370857 |
出版社: | 清华大学出版社 |
定价: | 99.00元 |
其他信息( 仅供参考,以实物为准) | |
开本:16 | 装帧:平装 |
出版时间:2015-01-01 | 版次:3 |
页码:679 | 字数: |
评分
评分
评分
评分
评分
评分
评分
评分
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等,本站所有链接都为正版商品购买链接。
© 2025 windowsfront.com All Rights Reserved. 静流书站 版权所有