| 机工 spark快数数据处理 | ||
| 定价 | 29.00 | |
| 出版社 | 机械工业出版社 | |
| 版次 | 1版1次印刷 | |
| 出版时间 | 2014年05月 | |
| 开本 | 大32开 | |
| 作者 | (美)凯洛 著,余璜 张磊 译 | |
| 装帧 | 平装 | |
| 页数 | 114 | |
| 字数 | --- | |
| ISBN编码 | 9787111463115 | |
Spark是个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持,如阿里巴巴、百度、网易、英特尔等公司。
本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置个Spark集群,如何在交互模式下运行个Spark作业,如何在Spark集群上构建个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。
译者序
作者简介
前言
1章 安装Spark以及构建Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
2章 Sparkshell的使用
2.1 加载个简单的text文件
2.2 用Sparkshell运行逻辑回归
2.3 交互式地从S3加载数据
2.4 小结
3章 构建并运行Spark应用
3.1 用sbt构建Spark作业
3.2 用Maven构建Spark作业
3.3 用其他工具构建Spark作业
3.4 小结
4章 创建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 链接和参考
4.6 小结
5章 加载与保存数据
5.1 RDD
5.2 加载数据到RDD中
5.3 保存数据
5.4 连接和参考
5.5 小结
6章 操作RDD
6.1 用Scala和Java操作RDD
6.2 用Python操作RDD
6.3 链接和参考
6.4 小结
7章 Shark-Hive和Spark的综合运用
7.1 为什么用HiveShark
7.2 安装Shark
7.3 运行Shark
7.4 加载数据
7.5 在Spark程序中运行HiveQL查询
7.6 链接和参考
7.7 小结
8章 测试
8.1 用Java和Scala测试
8.2 用Python测试
8.3 链接和参考
8.4 小结
9章 技巧和窍门
9.1 日志位置
9.2 并发限制
9.3 内存使用与垃圾回收
9.4 序列化
9.5 IDE集成环境
9.6 Spark与其他语言
9.7 安全提示
9.8 邮件列表
9.9 链接和参考
9.10 小结
Holden Karau 资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。
译者简介
余璜 阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。
张磊 Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。
从实用角度系统讲解Spark的数据处理工具及使用方法
手把手教你充分利用Spark提供的各种功能,快速编写高效分布式程序
1章 安装Spark以及构建
Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
本章将详细介绍搭建Spark的常用方法。Spark的单机版便于测试,同时本章也会提到通过SSH用Spark的内置部署脚本搭建Spark集群,使用Mesos、Yarn或者Chef来部署Spark。对于Spark在云环境中的部署,本章将介绍在EC2(基本环境和EC2MR)上的部署。如果你的机器或者集群中已经部署了Spark,可以跳过本章直接开始使用Spark编程。
不管如何部署Spark,首先得获得Spark的个版本,截止到写本书时,Spark的新版本为0.7版。对于熟悉github的程序员,则可以从git://github.com/mesos/spark.git直接复制Spark项目。Spark提供基本源码压缩包,同时也提供已经编译好的压缩包。为了和Hadoop分布式文件系统(HDFS)交互,需要在编译源码前设定相应的集群中所使用的Hadoop版本。对于0.7版本的Spark,已经编译好的压缩包依赖的是1.0.4版本的Hadoop。如果想更深入地学习Spark,推荐自己编译基本源码,因为这样可以灵活地选择HDFS的版本,如果想对Spark源码有所贡献,比如提交补丁,自己编译源码是必须的。你需要安装合适版本的Scala和与之对应的JDK版本。对于Spark的0.7.1版本,需要Scala 2.9.2或者更高的Scala 2.9版本(如2.9.3版)。在写本书时,Linux发行版Ubuntu的LTS版本已经有Scala 2.9.1版,除此之外,近的稳定版本已经有2.9.2版。Fedora 18已经有2.9.2版。Scala官网上的新版在选择Spark支持的Scala版本十分重要,Spark对Scala的版本很敏感。.........
我对Spark技术的学习一直以来都感觉有些碎片化,缺乏一个系统性的指导。这本书的名字,【正版】Spark快速数据处理,系统讲解Spark的数据处理工具及使用方法,给我一种非常直观的感受,它承诺的是一个完整、深入的学习路径。我迫切希望能够通过这本书,建立起对Spark完整的知识体系。这意味着,我需要了解Spark的底层原理,比如它的分布式计算模型,以及它是如何实现内存计算的。同时,我也需要掌握Spark提供的各种数据处理工具,比如RDD API、DataFrame API、Dataset API,并理解它们之间的区别和联系。更重要的是,我希望书中能够提供大量的实战案例,这些案例应该覆盖Spark在批处理、流处理、图计算、机器学习等各个领域的应用。通过学习这些案例,我能够更好地理解Spark的强大之处,并将其应用到我的实际工作中。我希望这本书能够真正帮助我成为一名合格的Spark开发者,能够独立解决复杂的数据处理问题。
评分一直以来,我都在寻找一本能够真正带领我掌握Spark核心技术的书籍。在信息爆炸的时代,能够快速有效地处理数据是核心竞争力。这本书的标题“Spark快速数据处理”以及副标题“系统讲解Spark的数据处理工具及使用方法”让我看到了希望。我希望这本书能够做到内容全面且结构清晰,从Spark的基础概念讲起,逐步深入到其核心组件,如RDD、DataFrame和Dataset,并提供清晰的代码示例。我特别关注书中关于Spark SQL的讲解,因为SQL是许多数据分析师和工程师熟悉的语言,如果能通过Spark SQL高效地进行数据查询和分析,将极大地提高工作效率。同时,对于Spark Streaming在实时数据处理方面的应用,我也充满期待。我希望书中能够提供实际的案例,展示如何构建实时数据管道,以及如何处理各种实时数据场景。
评分作为一个长期从事数据分析工作的技术人员,我深切体会到在大数据时代,拥有一款高效、灵活的数据处理框架是多么重要。Spark以其内存计算的优势,早已在业界声名鹊起,但我一直苦于没有一本真正能够系统化、条理清晰地讲解其核心原理和应用技巧的书籍。当我看到这本书的名字时,我的第一反应就是“终于有救了”。它明确指出了“快速数据处理”和“系统讲解”这两个关键点,这正是我迫切需要的。我尤其关注书中对Spark生态系统的介绍,包括其与其他大数据组件(如Hadoop、Kafka等)的集成方式,以及如何在不同的部署环境中配置和使用Spark。此外,对于Spark的各种API,例如Scala API、Python API,书中是否能够做到深入浅出的讲解,并且提供贴合实际应用场景的代码片段,将是我衡量其价值的重要标准。我希望这本书能够帮助我从零开始,逐步掌握Spark的各项功能,最终能够独立设计和实现复杂的数据处理任务。
评分近期,我对大数据处理技术产生了浓厚的兴趣,而Spark无疑是其中最耀眼的明星之一。市面上关于Spark的书籍不少,但很多要么过于理论化,要么过于零散,难以形成系统性的认知。这本书的出现,让我眼前一亮。它强调“快速数据处理”,这直接点出了Spark的核心优势,也暗示了本书的实用性和时效性。我希望书中能够详细解释Spark的架构设计,比如Driver、Executor、Cluster Manager等关键角色的作用,以及它们之间是如何协同工作的。对于Spark中的RDD、DataFrame、Dataset这三种核心抽象,我期望书中能够提供清晰的演进脉络和各自的适用场景,并辅以丰富的实例来展示如何进行数据转换和操作。此外,Spark在批处理、流处理、机器学习等方面的应用,也是我非常感兴趣的内容。如果书中能提供这方面的实战指南,并讲解一些常用的优化策略,那这本书的价值将大大提升。
评分这本书的出版,对于那些渴望在数据处理领域快速掌握一项强大工具的读者来说,简直是一场及时雨。我一直在寻找一本能够真正带领我进入Spark世界的指南,而不是仅仅停留在概念层面。这本书的副标题“系统讲解Spark的数据处理工具及使用方法”让我看到了希望,因为它承诺的不仅仅是理论,更是实操。从目录来看,它涵盖了Spark的核心组件,比如RDD、DataFrame和Dataset,并且深入到Spark SQL、Spark Streaming以及MLlib等高级功能。这对于我这样需要处理海量数据并且希望构建实时分析系统的开发者来说,至关重要。我特别期待书中关于如何优化Spark作业的章节,因为在实际工作中,性能往往是决定项目成败的关键。能够理解Spark的执行计划,学会如何进行有效的资源调优,避免常见的性能陷阱,这才是真正能提升效率的价值所在。我希望这本书能够提供足够详实的案例和代码示例,让我能够边学边练,快速将学到的知识应用到我的项目中。总而言之,我对这本书的期待非常高,希望它能成为我Spark学习道路上的可靠伙伴。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等,本站所有链接都为正版商品购买链接。
© 2025 windowsfront.com All Rights Reserved. 静流书站 版权所有