发表于2024-12-26
图解Spark:核心技术与案例实战 郭景瞻 pdf epub mobi txt 电子书 下载
图书基本信息 | |||
图书名称 | 图解Spark:核心技术与案例实战 | 作者 | 郭景瞻著 |
定价 | 99.00元 | 出版社 | 电子工业出版社 |
ISBN | 9787121302367 | 出版日期 | 2017-01-01 |
字数 | 页码 | ||
版次 | 1 | 装帧 | 平装-胶订 |
开本 | 16开 | 商品重量 | 0.4Kg |
内容简介 | |
本书以Spark 2.0 版本为基础进行编写,全面介绍了Spark 核心及其生态圈组件技术。主要内容包括Spark 生态圈、实战环境搭建、编程模型和内部重要模块的分析,重点介绍了消息通信框架、作业调度、容错执行、监控管理、存储管理以及运行框架,同时还介绍了Spark 生态圈相关组件,包括了Spark SQL 的即席查询、Spark Streaming 的实时流处理应用、MLbase/MLlib 的机器学习、GraphX 的图处理、SparkR 的数学计算和Alluxio 的分布式内存文件系统等。本书从Spark 核心技术进行深入分析,重要章节会结合源代码解读其实现原理,围绕着技术原理介绍了相关典型实例,读者通过这些实例可以更加深入地理解Spark 的运行机制。另外本书还应用了大量的图表进行说明,通过这种方式让读者能够更加直观地理解Spark 相关原理。 |
作者简介 | |
郭景瞻,现就职京东商城,开源技术爱好者,对Spark等大数据系统有较为深入的研究,对Spark应用开发、运维和测试有较多的经验,喜欢深入阅读Spark源代码,分析其核心原理和运行机制。个人博客地址为.blogs./shishanyuan,在该博客中提供了本书的附录和勘误。 |
目录 | |
第1章 Spark及其生态圈概述 1.1 Spark简介 1.1.1 什么是Spark 1.1.2 Spark与MapReduce比较 1.1.3 Spark的演进路线图 1.2 Spark生态系统 1.2.1 Spark Core 1.2.2 Spark Streaming 1.2.3 Spark SQL 1.2.4 BlinkDB 1.2.5 MLBase/MLlib 1.2.6 GraphX 1.2.7 SparkR 1.2.8 Alluxio 1.3 小结 第2章 搭建Spark实战环境 2.1 基础环境搭建 2.1.1 搭建集群样板机 2.1.2 配置集群环境 2.2 编译Spark源代码 2.2.1 配置Spark编译环境 2.2.2 使用Maven编译Spark 2.2.3 使用SBT编译Spark 2.2.4 生成Spark部署包 2.3 搭建Spark运行集群 2.3.1 修改配置文件 2.3.2 启动Spark 2.3.3 验证启动 2.3.4 个实例 2.4 搭建Spark实战开发环境 2.4.1 CentOS中部署IDEA 2.4.2 使用IDEA开发程序 2.4.3 使用IDEA阅读源代码 2.5 小结 第二篇 核心篇 第3章 Spark编程模型 3.1 RDD概述 3.1.1 背景 3.1.2 RDD简介 3.1.3 RDD的类型 3.2 RDD的实现 3.2.1 作业调度 3.2.2 解析器集成 3.2.3 内存管理 3.2.4 检查点支持 3.2.5 多用户管理 3.3 编程接口 3.3.1 RDD分区(Partitions) 3.3.2 RDD位置(PreferredLocations) 3.3.3 RDD依赖关系(Dependencies) 3.3.4 RDD分区计算(Iterator) 3.3.5 RDD分区函数(Partitioner) 3.4 创建操作 3.4.1 并行化集合创建操作 3.4.2 外部存储创建操作 3.5 转换操作 3.5.1 基础转换操作 3.5.2 键值转换操作 3.6 控制操作 3.7 行动操作 3.7.1 集合标量行动操作 3.7.2 存储行动操作 3.8 小结 第4章 Spark核心原理 4.1 消息通信原理 4.1.1 Spark消息通信架构 4.1.2 Spark启动消息通信 4.1.3 Spark运行时消息通信 4.2 作业执行原理 4.2.1 概述 4.2.2 提交作业 4.2.3 划分调度阶段 4.2.4 提交调度阶段 4.2.5 提交任务 4.2.6 执行任务 4.2.7 获取执行结果 4.3 调度算法 4.3.1 应用程序之间 4.3.2 作业及调度阶段之间 4.3.3 任务之间 4.4 容错及HA 4.4.1 Executor异常 4.4.2 Worker异常 4.4.3 Master异常 4.5 监控管理 4.5.1 UI监控 4.5.2 Metrics 4.5.3 REST 4.6 实例演示 4.6.1 计算年降水实例 4.6.2 HA配置实例 4.7 小结 第5章 Spark存储原理 5.1 存储分析 5.1.1 整体架构 5.1.2 存储级别 5.1.3 RDD存储调用 5.1.4 读数据过程 5.1.5 写数据过程 5.2 Shuffle分析 5.2.1 Shuffle简介 5.2.2 Shuffle的写操作 5.2.3 Shuffle的读操作 5.3 序列化和压缩 5.3.1 序列化 5.3.2 压缩 5.4 共享变量 5.4.1 广播变量 5.4.2 累加器 5.5 实例演示 5.6 小结 第6章 Spark运行架构 6.1 运行架构总体介绍 6.1.1 总体介绍 6.1.2 重要类介绍 6.2 本地(Local)运行模式 6.2.1 运行模式介绍 6.2.2 实现原理 6.3 伪分布(Local-Cluster)运行模式 6.3.1 运行模式介绍 6.3.2 实现原理 6.4 独立(Standalone)运行模式 6.4.1 运行模式介绍 6.4.2 实现原理 6.5 YARN运行模式 6.5.1 YARN运行框架 6.5.2 YARN-Client运行模式介绍 6.5.3 YARN-Client 运行模式实现原理 6.5.4 YARN-Cluster运行模式介绍 6.5.5 YARN-Cluster 运行模式实现原理 6.5.6 YARN-Client与YARN-Cluster对比 6.6 Mesos运行模式 6.6.1 Mesos介绍 6.6.2 粗粒度运行模式介绍 6.6.3 粗粒度实现原理 6.6.4 细粒度运行模式介绍 6.6.5 细粒度实现原理 6.6.6 Mesos粗粒度和Mesos细粒度对比 6.7 实例演示 6.7.1 独立运行模式实例 6.7.2 YARN-Client实例 6.7.3 YARN-Cluster实例 6.8 小结 第三篇 组件篇 第7章 Spark SQL 7.1 Spark SQL简介 7.1.1 Spark SQL发展历史 7.1.2 DataFrame/Dataset介绍 7.2 Spark SQL运行原理 7.2.1 通用SQL执行原理 7.2.2 SparkSQL运行架构 7.2.3 SQLContext运行原理分析 7.2.4 HiveContext介绍 7.3 使用Hive-Console 7.3.1 编译Hive-Console 7.3.2 查看执行计划 7.3.3 应用Hive-Console 7.4 使用SQLConsole 7.4.1 启动HDFS和Spark Shell 7.4.2 与RDD交互操作 7.4.3 读取JSON格式数据 7.4.4 读取Parquet格式数据 7.4.5 缓存演示 7.4.6 DSL演示 7.5 使用Spark SQL CLI 7.5.1 配置并启动Spark SQL CLI 7.5.2 实战Spark SQL CLI 7.6 使用Thrift Server 7.6.1 配置并启动Thrift Server 7.6.2 基本操作 7.6.3 交易数据实例 7.6.4 使用IDEA开发实例 7.7 实例演示 7.7.1 销售数据分类实例 7.7.2 网店销售数据统计 7.8 小结 第8章 Spark Streaming 8.1 Spark Streaming简介 8.1.1 术语定义 8.1.2 Spark Streaming特点 8.2 Spark Streaming编程模型 8.2.1 DStream的输入源 8.2.2 DSt 图解Spark:核心技术与案例实战 郭景瞻 电子书 下载 mobi epub pdf txt 图解Spark:核心技术与案例实战 郭景瞻 pdf epub mobi txt 电子书 下载 用户评价
评分
评分
评分
评分
评分
评分
评分
评分
评分
类似图书 点击查看全场最低价
图解Spark:核心技术与案例实战 郭景瞻 pdf epub mobi txt 电子书 下载 分享链接
去京东购买
去淘宝购买
去当当购买
去拼多多购买
相关图书
|