内容简介
Impala是 Cloudera公司主导开发的新型查询系统,它提供 SQL语义,能查询存储在 Hadoop的 HDFS和 HBase中的 PB级大数据。Impala 1.0版比原来基于 MapReduce的 Hive SQL查询速度提升 3~90倍,因此, Impala有可能完全取代 Hive。作者基于自己在本职工作中应用 Impala的实践和心得编写了《开源大数据分析引擎Impala实战》。
《开源大数据分析引擎Impala实战》共分 10章,全面介绍开源大数据分析引擎 Impala的技术背景、安装与配置、架构、操作方法、性能优化,以及富技术含量的应用设计原则和应用案例。《开源大数据分析引擎Impala实战》紧扣目前计算技术发展热点,适合所有大数据分析人员、大数据开发人员和大数据管理人员参考使用。
内页插图
精彩书评
★看到将为中国读者发布的这一本中文版的Impala书籍,我非常欣喜,这无疑对中国用户更好地使用Hadoop,解决他们的业务问题有很大帮助。因此,我要感谢所有为发布本书的中文版做出贡献的人们。
——Cloudera副总裁 苗凯翔博士
★Impala是Hadoop生态圈不可或缺的一个环节,它提供SQL语义,能够对HDFS和HBase中的PB级大数据进行交互式实时查询,从而弥补了Hive批处理的不足。本书是国内第1本Impala专业书籍,相信对您有益。
——中国云计算专家咨询委员会副主任、秘书长中国信息协会大数据分会副会长 刘鹏
★这是国内第1本全面讲解Impala的书籍,既可以作为想快速搭建基于Hadoop的数据仓库的原数据库爱好者们的优秀参考书籍,又可以成为对Spark感兴趣的用户的架构理解入门书籍。本书融入作者多年的数据库和分布式工作的经验,可以说是Impala在目前国内全面、完整的技术讲解书籍。
——EasyHadoop社区创始人eXadoop公司创始人 向磊
★作者贾传青执着于技术并乐于分享,他一直想写一本看着舒服的技术书籍。希望本书能够为有兴趣研究Impala的专业人员或学习者有所帮助。
——慧聪网CTO 郭刚
★贾先生与我在多个大数据技术领域有过深入交流,贾先生深厚的技术功底和严谨的钻研精神给我留下深刻印象。非常高兴能看见贾先生的新著。这是我截至目前看到的,阐述Impala技术和应用体系化的中文书籍,本书将带领读者快速地掌握这个技术,打开大数据时代的窗户。
——中信证券 庄伟波
★天下武学,唯快不破,窃以为IT系统亦是如此。本书中详尽地讲解了Hadoop生态系统中的实时分析引擎Impala,相信能帮助每个读者快速地掌握这-技术。
——山西联通 郭瑜敏
★在商业领域,如何发挥“大数据”的商业价值,帮助企业形成核心能力还没有形成-个成熟的框架模式.一些运用“大数据”技术的先行者们开展了积极的尝试,传青就是其中的-位专家.他的努力,所取得的成果和工作精神值得敬佩。
——《实用数据分析》译者中国邮政 刁晓纯博士
目录
第1章 Impala概述、安装与配置
1.1 Impala概述
1.2 Cloudera Manager安装准备
1.3 CM及 CDH安装
1.4 Hive安装
1.5 Impala安装
第2章 Impala入门示例
2.1 数据加载
2.2 数据查询
2.3 分区表
2.4 外部分区表
2.5 笛卡尔连接
2.6 更新元数据
第3章 Impala概念及架构
3.1 Impala服务器组件
3.1.1 Impala Daemon
3.1.2 Impala Statestore
3.1.3 Impala Catalog
3.2 Impala应用编程
3.2.1 Impala SQL方言
3.2.2 Impala编程接口概述
3.3 与Hadoop生态系统集成
3.3.1 与Hive集成
3.3.2 与HDFS集成
3.3.3 使用HBase
第4章 SQL语句
4.1 注释
4.2 数据类型
4.2.1 BIGINT
4.2.2 BOOLEAN
4.2.3 DOUBLE
4.2.4 FLOAT
4.2.5 INT
4.2.6 REAL
4.2.7 SMALLINT
4.2.8 STRING
4.2.9 TIMESTAMP
4.2.10 TINYINT
4.3 常量
4.3.1 数值常量
4.3.2 字符串常量
4.3.3 布尔常量
4.3.4 时间戳常量
4.3.5 NULL
4.4 SQL操作符
4.4.1 BETWEEN操作符
4.4.2 比较操作符
4.4.3 IN操作符
4.4.4 IS NULL操作符
4.4.5 LIKE操作符
4.4.6 REGEXP操作符
4.5 模式对象和对象名称
4.5.1 别名
4.5.2 标示符
4.5.3 数据库
4.5.4 表
4.5.5 视图
4.5.6 函数
4.6 SQL语句
4.6.1 ALTER TABLE
4.6.2 ALTER VIEW
4.6.3 COMPUTE STATS
4.6.4 CREATE DATABASE
4.6.5 CREATE FUNCTION
4.6.6 CREATE TABLE
4.6.7 CREATE VIEW
4.6.8 DESCRIBE
4.6.9 DROP DATABASE
4.6.10 DROP FUNCTION
4.6.11 DROP TABLE
4.6.12 DROP VIEW
4.6.13 EXPLAIN
4.6.14 INSERT
4.6.15 INVALIDATE METADATA
4.6.16 LOAD DATA
4.6.17 REFRESH
4.6.18 SELECT
4.6.19 SHOW
4.6.20 USE
4.7 内嵌函数
4.7.1 数学函数
4.7.2 类型转换函数
4.7.3 时间和日期函数
4.7.4 条件函数
4.7.5 字符串函数
4.7.6 特殊函数
4.8 聚集函数
4.8.1 AVG
4.8.2 COUNT
4.8.3 GROUP_CONCAT
4.8.4 MAX
4.8.5 MIN
4.8.6 NDV
4.8.7 SUM
4.9 用户自定义函数UDF
4.9.1 UDF概念
4.9.2 安装UDF开发包
4.9.3 编写UDF
4.9.4 编写UDAF
4.9.5 编译和部署UDF
4.9.6 UDF性能
4.9.7 创建和使用UDF示例
4.9.8 UDF安全
4.9.9 Impala UDF的限制
4.10 Impala SQL &Hive; QL
4.11 将 SQL移植到Impala上
第5章 Impala shell
5.1 命令行选项
5.2 连接到Impalad
5.3 运行命令
5.4 命令参考
5.5 查询参数设置
第6章 Impala管理
6.1 准入控制和查询队列
6.1.1 准入控制概述
6.1.2 准入控制和YARN
6.1.3 并发查询限制
6.1.4 准入控制和Impala客户端协同工作
6.1.5 配置准入控制
6.1.6 使用准入控制指导原则
6.2 使用YARN资源管理(CDH5)
6.2.1 Llama进程
6.2.2 检查计算的资源和实际使用的资源
6.2.3 资源限制如何生效
6.2.4 启用Impala资源管理
6.2.5 资源管理相关impala-shell参数
6.2.6 Impala资源管理的限制
6.3 为进程,查询,会话设定超时限制
6.4 通过代理实现Impala高可用性
6.5 管理磁盘空间
第7章 Impala存储
7.1 文件格式选择
7.2 Text
7.2.1 查询性能
7.2.2 创建文本表
7.2.3 数据文件
7.2.4 加载数据
7.2.5 LZO压缩
7.3 Parquet
7.3.1 创建Parquet表
7.3.2 加载数据
7.3.3 查询性能
7.3.4 Snappy/Gzip压缩
7.3.5 与其他组件交换 Parquet数据文件
7.3.6 Parquet数据文件组织方式
7.4 Avro
7.4.1 创建Avro表
7.4.2 使用Hive创建的Avro表
7.4.3 通过JSON指定Avro模式
7.4.4 启用压缩
7.4.5 模式进化
7.5 RCFile
7.5.1 创建RCFile表和加载数据
7.5.2 启用压缩
7.6 SequenceFile
7.6.1 创建和加载数据
7.6.2 启用压缩
7.7 HBase
7.7.1 支持的 Hbase列类型
7.7.2 性能问题
7.7.3 适用场景
7.7.4 数据加载
7.7.5 启用压缩
7.7.6 限制
7.7.7 示例
第8章 Impala分区
8.1 分区技术适用场合
8.2 分区表相关 SQL语句
8.3 分区修剪
8.4 分区键列
8.5 使用不同的文件格式
第9章 Impala性能优化
9.1 最佳实践
9.2 连接查询优化
9.3 使用统计信息
9.4 基准测试
9.5 控制资源使用
9.6 性能测试
9.7 使用 EXPLAIN信息
9.8 使用 PROFILE信息
第10章 Impala设计原则与应用案例
10.1 设计原则
10.2 应用案例
前言/序言
开源大数据分析引擎Impala实战 电子书 下载 mobi epub pdf txt