包邮PySpark实战指南 利用Python和Spark+Apache Spark机器学习

包邮PySpark实战指南 利用Python和Spark+Apache Spark机器学习 pdf epub mobi txt 电子书 下载 2025

托马兹·卓巴斯 著
图书标签:
  • PySpark
  • Spark
  • Python
  • 机器学习
  • 数据分析
  • 大数据
  • 数据挖掘
  • 实战
  • 包邮
  • Apache Spark
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
店铺: 义博图书专营店
出版社: 机械工业出版社
ISBN:9787111582380
商品编码:19216467525

具体描述


PySpark实战指南 利用Python和Spark构建数据密集型应用并规模


Apache Spark机器学习

9787111582380 9787111562559

PySpark实战指南:利用Python和Spark构建数据密集型应用并规模化部署

 

基本信息

 

原书名:Learning PySpark

 

作者: (美)托马兹·卓巴斯(Tomasz Drabas)    (美)丹尼·李(Denny Lee)   

 

译者: 栾云杰 陈瑶 刘旭斌

 

丛书名: 大数据技术丛书

 

出版社:机械工业出版社

 

ISBN:9787111582380

 

定价 49元

 

出版日期:2017 年11月

 

开本:16开

 

版次:1-1

 

所属分类:计算机

 

作译者

 

托马兹·卓巴斯(Tomasz Drabas)工作于微软,是一名数据科学家,现居住在西雅图地区。他拥有过13年的数据分析和数据科学经验:在欧洲、澳大利亚和北美洲三大洲期间,工作领域遍及先进技术、航空、电信、金融和咨询。在澳大利亚期间,托马兹一直致力于运筹学博士学位,重点是航空业中的选择建模和收入管理应用。

 

在微软,托马兹每天都和大数据打交道,解决机器学习问题,如异常检测、流失预测和使用Spark的模式识别。

 

托马兹还撰写了《Practical Data Analysis Cookbook》,该书由Packt Publishing于2016年出版。

 

我要感谢我的家人Rachel、Skye 和Albert,你们是我生命中的挚爱,我很珍惜与你们度过的每一天!谢谢你们永远站在我身边,鼓励我一步步接近我的职业目标。另外,感谢所有的亲人们。

 

多年来,还有很多人影响了我,我得再写一本书来感谢他们。你们知道,我从心底谢谢你们!

 

不过,如果不是Czesia Wieruszewska,我不会得到博士学位。还有Krzys Krzysztoszek,你一直相信我!谢谢!

 

丹尼·李(Denny Lee)是微软Azure DocumentDB团队的席项目经理,该团队致力于为微软发展高效性、重量级的托管文档存储服务。他是一名喜欢实践的分布式系统和数据科学工程师,拥有过18年的互联网级别基础架构、数据平台和预测分析系统的开发经验,这些经验可用于内部部署和云环境。

 

他在组建新团队以及促进转型、改革方面拥有丰富的经验。在加入Azure DocumentDB团队之前,丹尼曾担任Databricks的技术传播专员,他从Apache Spark 0.5时就一直在使用Apache Spark。他还是Concur数据科学工程的高级总监,曾就职于构建了微软Windows和Azure服务(目前称为HDInsight)的Hadoop的孵化团队。丹尼还拥有俄勒冈州健康和科学大学的生物医学信息硕士学位,并在过去15年中为企业医疗保健客户构建和实施了强大的数据解决方案。

 

我要感谢我的好妻子Hua-Ping,还有我出色的女儿Isabella和Samantha。是你们让我保持清醒,帮我实现了梦寐以求的愿望! 

 

目录

 

目录

 

译者序 

 

序 

 

前言 

 

关于作者 

 

第1章 了解Spark 1

 

1.1 什么是Apache Spark 1

 

1.2 Spark作业和API 2

 

1.2.1 执行过程 2

 

1.2.2 弹性分布式数据集 3

 

1.2.3 DataFrame 4

 

1.2.4 Dataset 5

 

1.2.5 Catalyst优化器 5

 

1.2.6 钨丝计划 5

 

1.3 Spark 2.0的架构 6

 

1.3.1 统一Dataset和DataFrame 7

 

1.3.2 SparkSession介绍 8

 

1.3.3 Tungsten Phase 2 8

 

1.3.4 结构化流 10

 

1.3.5 连续应用 10

 

1.4 小结 11

 

第2章 弹性分布式数据集 12

 

2.1 RDD的内部运行方式 12

 

2.2 创建RDD 13

 

2.2.1 Schema 14

 

2.2.2 从文件读取 14

 

2.2.3 Lambda表达式 15

 

2.3 全局作用域和局部作用域 16

 

2.4 转换 17

 

2.4.1 .map(...)转换 17

 

2.4.2 .filter(...)转换 18

 

2.4.3 .flatMap(...)转换 18

 

2.4.4 .distinct(...)转换 18

 

2.4.5 .sample(...)转换 19

 

2.4.6 .leftOuterJoin(...)转换 19

 

2.4.7 .repartition(...)转换 20

 

2.5 操作 20

 

2.5.1 .take(...)方法 21

 

2.5.2 .collect(...)方法 21

 

2.5.3 .reduce(...)方法 21

 

2.5.4 .count(...)方法 22

 

2.5.5 .saveAsTextFile(...)方法 22

 

2.5.6 .foreach(...)方法 23

 

2.6 小结 23

 

第3章 DataFrame 24

 

3.1 Python到RDD之间的通信 24

 

3.2 Catalyst优化器刷新 25

 

3.3 利用DataFrame加速PySpark 27

 

3.4 创建DataFrame 28

 

3.4.1 生成自己的JSON数据 29

 

3.4.2 创建一个DataFrame 29

 

3.4.3 创建一个临时表 30

 

3.5 简单的DataFrame查询 31

 

3.5.1 DataFrame API查询 32

 

3.5.2 SQL查询 32

 

3.6 RDD的交互操作 33

 

3.6.1 使用反射来推断模式 33

 

3.6.2 编程指定模式 34

 

3.7 利用DataFrame API查询 35

 

3.7.1 行数 35

 

3.7.2 运行筛选语句 35

 

3.8 利用SQL查询 36

 

3.8.1 行数 36

 

3.8.2 利用where子句运行筛选语句 36

 

3.9 DataFrame场景——实时飞行性能 38

 

3.9.1 准备源数据集 38

 

3.9.2 连接飞行性能和机场 39

 

3.9.3 可视化飞行性能数据 40

 

3.10 Spark数据集(Dataset)API 41

 

3.11 小结 42

 

第4章 准备数据建模 43

 

4.1 检查重复数据、未观测数据和异常数据(离群值) 43

 

4.1.1 重复数据 43

 

4.1.2 未观测数据 46

 

4.1.3 离群值 50

 

4.2 熟悉你的数据 51

 

4.2.1 描述性统计 52

 

4.2.2 相关性 54

 

4.3 可视化 55

 

4.3.1 直方图 55

 

4.3.2 特征之间的交互 58

 

4.4 小结 60

 

第5章 MLlib介绍 61

 

5.1 包概述 61

 

5.2 加载和转换数据 62

 

5.3 了解你的数据 65

 

5.3.1 描述性统计 66

 

5.3.2 相关性 67

 

5.3.3 统计测试 69

 

5.4 创建终数据集 70

 

5.4.1 创建LabeledPoint形式的RDD 70

 

5.4.2 分隔培训和测试数据 71

 

5.5 预测婴儿生存机会 71

 

5.5.1 MLlib中的逻辑回归 71

 

5.5.2 只选择可预测的特征 72

 

5.5.3 MLlib中的随机森林 73

 

5.6 小结 74

 

第6章 ML包介绍 75

 

6.1 包的概述 75

 

6.1.1 转换器 75

 

6.1.2 评估器 78

 

6.1.3 管道 80

 

6.2 使用ML预测婴儿生存几率 80

 

6.2.1 加载数据 80

 

6.2.2 创建转换器 81

 

6.2.3 创建一个评估器 82

 

6.2.4 创建一个管道 82

 

6.2.5 拟合模型 83

 

6.2.6 评估模型的性能 84

 

6.2.7 保存模型 84

 

6.3 参调优 85

 

6.3.1 网格搜索法 85

 

6.3.2 Train-validation 划分 88

 

6.4 使用PySpark ML的其他功能 89

 

6.4.1 特征提取 89

 

6.4.2 分类 93

 

6.4.3 聚类 95

 

6.4.4 回归 98

 

6.5 小结 99

 

第7章 GraphFrames 100

 

7.1 GraphFrames介绍 102

 

7.2 安装GraphFrames 102

 

7.2.1 创建库 103

 

7.3 准备你的航班数据集 105

 

7.4 构建图形 107

 

7.5 执行简单查询 108

 

7.5.1 确定机场和航班的数量 108

 

7.5.2 确定这个数据集中的长延误时间 108

 

7.5.3 确定延误和准点/早到航班的数量对比 109

 

7.5.4 哪一班从西雅图出发的航班有可能出现重大延误 109

 

7.5.5 西雅图出发到哪个州的航班有可能出现重大延误 110

 

7.6 理解节点的度 110

 

7.7 确定大的中转机场 112

 

7.8 理解Motif 113

 

7.9 使用PageRank确定机场排名 114

 

7.10 确定受欢迎的直飞航班 115

 

7.11 使用广度优先搜索 116

 

7.12 使用D3将航班可视化 118

 

7.13 小结 119

 

第8章 TensorFrames 120

 

8.1 深度学习是什么 120

 

8.1.1 神经网络和深度学习的必要性 123

 

8.1.2 特征工程是什么 125

 

8.1.3 桥接数据和算法 125

 

8.2 TensorFlow是什么 127

 

8.2.1 安装PIP 129

 

8.2.2 安装TensorFlow 129

 

8.2.3 使用常量进行矩阵乘法 130

 

8.2.4 使用placeholder进行矩阵乘法 131

 

8.2.5 讨论 132

 

8.3 TensorFrames介绍 133

 

8.4 TensorFrames快速入门 134

 

8.4.1 配置和设置 134

 

8.4.2 使用TensorFlow向已有列添加常量 136

 

8.4.3 Blockwise reducing操作示例 137

 

8.5 小结 139

 

第9章 使用Blaze实现混合持久化 141

 

9.1 安装Blaze 141

 

9.2 混合持久化 142

 

9.3 抽象数据 143

 

9.3.1 使用NumPy 数组 143

 

9.3.2 使用pandas的DataFrame 145

 

9.3.3 使用文件 145

 

9.3.4 使用数据库 147

 

9.4 数据操作 149

 

9.4.1 访问列 150

 

9.4.2 符号转换 150

 

9.4.3 列的操作 151

 

9.4.4 降阶数据 152

 

9.4.5 连接 154

 

9.5 小结 156

 

第10章 结构化流 157

 

10.1 什么是Spark Streaming 157

 

10.2 为什么需要Spark Streaming 159

 

10.3 Spark Streaming应用程序数据流是什么 160

 

10.4 使用DStream简化Streaming应用程序 161

 

10.5 全局聚合快速入门 165

 

10.6 结构化流介绍 168

 

10.7 小结 172

 

第11章 打包Spark应用程序 173

 

11.1 spark-submit命令 173

 

11.2 以编程方式部署应用程序 176

 

11.2.1 配置你的SparkSession 176

 

11.2.2 创建SparkSession 177

 

11.2.3 模块化代码 177

 

11.2.4 提交作业 180

 

11.2.5 监控执行 182

 

11.3 Databricks作业 184

 

11.4 小结 186 

 

↑折 叠

 

Apache Spark机器学习 平装 – 2017年3月1日

刘永川 (Alex Liu) (作者), 闫龙川 (译者), 高德荃 (译者), 李君婷 (译者)

定价59元

出版社: 机械工业出版社; 第1版 (2017年3月1日)

外文书名: Apache Spark Machine Learning Blueprints

丛书名: 大数据技术丛书

平装: 208页

语种: 简体中文

开本: 16

ISBN: 7111562550, 9787111562559

条形码: 9787111562559

商品尺寸: 23.8 x 18.2 x 1.2 cm

商品重量: 381 g

品牌: 机械工业出版社

本书包装了一系列项目“蓝图”,展示了Spark可以帮你解决的一些有趣挑战,读者在将理论知识实践于一些实际项目之前,会了解到如何使用Sparknotebook,以及如何访问、清洗和连接不同的数据集,你将在其中了解Spark机器学习如何帮助你完成从欺诈检测到分析客户流失等各种工作。你还将了解如何使用Spark的并行计算能力构建推荐引擎。

目录

版权信息

译者序

前言

第1章 Spark机器学习简介

1.1 Spark概述和技术优势

1.2 在机器学习中应用Spark计算

1.3 机器学习算法

1.4 MLlib

1.5 Spark RDD和DataFrame

1.6 机器学习工作流和Spark pipeline

1.7 机器学习工作流示例

1.8 Spark notebook简介

1.9 小结

第2章 Spark机器学习的数据准备

2.1 访问和加载数据集

2.2 数据清洗

2.3 一致性匹配

2.4 数据集重组

2.5 数据集连接

2.6 特征提取

2.7 复用性和自动化

2.8 小结

第3章 基于Spark的整体视图

3.1 Spark整体视图

3.2 整体视图的方法

3.3 特征准备

3.4 模型估计

3.5 模型评估

3.6 结果解释

3.7 部署

3.8 小结

第4章 基于Spark的欺诈检测


第10章 基于Spark的电信数据学习

10.1 在Spark平台上使用电信数据

10.2 电信数据机器学习方法

10.3 数据和特征开发

10.4 模型估计

10.5 模型评估

10.6 结果解释

10.7 模型部署

10.8 小结

第11章 基于Spark的开放数据建模

11.1 Spark用于开放数据学习

11.2 数据和特征准备

11.3 模型估计

11.4 结果解释

11.5 部署

11.6 小结




用户评价

评分

评分

评分

评分

评分

评分

评分

评分

评分

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou 等,本站所有链接都为正版商品购买链接。

© 2025 windowsfront.com All Rights Reserved. 静流书站 版权所有