Hadoop构建数据仓库实践 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

王雪迎著

图书标签:

Hadoop
数据仓库
大数据
Hive
Spark
数据建模
ETL
数据分析
存储
实践

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302469803

版次：1

商品编码：12213152

包装：平装

开本：16开

出版时间：2017-06-01

用纸：胶版纸

页数：434

正文语种：中文

具体描述

产品特色

编辑推荐

本书共13章，主要内容包括数据仓库、Hadoop及其生态圈的相关概念，使用Sqoop从关系数据库全量或增量抽取数据，使用Hive进行数据转换和装载处理，使用Oozie调度作业周期性执行，使用Impala进行快速联机数据分析，使用Hue将数据可视化，以及数据仓库中的渐变维（SCD）、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。
本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员，也适合高等院校和培训学校相关专业的师生教学参考。

内容简介

　　本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库，将传统数据仓库建模与SQL开发的简单性与大数据技术相结合，快速、高效地建立可扩展的数据仓库及其应用系统。

　　本书内容包括数据仓库、Hadoop及其生态圈的相关概念，使用Sqoop从关系数据库全量或增量抽取数据，使用HIVE进行数据转换和装载处理，使用Oozie调度作业周期性执行，使用Impala进行快速联机数据分析，使用Hue将数据可视化，以及数据仓库中的渐变维（SCD）、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。

　　本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员，也适合高等院校和培训机构相关专业的师生教学参考。

作者简介

王雪迎，毕业于中国地质大学计算机专业，高级工程师，拥有20年数据库、数据仓库相关技术经验。曾先后供职于北京现代商业信息技术有限公司、北京在线九州信息技术服务有限公司、华北计算技术研究所、北京优贝在线网络科技有限公司，担任DBA、数据架构师等职位。

第1章数据仓库简介
1.1 什么是数据仓库 1
1.1.1 数据仓库的定义 1
1.1.2 建立数据仓库的原因 3
1.2 操作型系统与分析型系统 5
1.2.1 操作型系统 5
1.2.2 分析型系统 8
1.2.3 操作型系统和分析型系统对比 9
1.3 数据仓库架构 10
1.3.1 基本架构 10
1.3.2 主要数据仓库架构 12
1.3.3 操作数据存储 16
1.4 抽取-转换-装载 17
1.4.1 数据抽取 17
1.4.2 数据转换 19
1.4.3 数据装载 20
1.4.4 开发ETL系统的方法 21
1.4.5 常见ETL工具 21
1.5 数据仓库需求 22
1.5.1 基本需求 22
1.5.2 数据需求 23
1.6 小结 24
第2章数据仓库设计基础
2.1 关系数据模型 25
2.1.1 关系数据模型中的结构 25
2.1.2 关系完整性 28
2.1.3 规范化 30
2.1.4 关系数据模型与数据仓库 33
2.2 维度数据模型 34
2.2.1 维度数据模型建模过程 35
2.2.2 维度规范化 36
2.2.3 维度数据模型的特点 37
2.2.4 星型模式 38
2.2.5 雪花模式 40
2.3 Data Vault模型 42
2.3.1 Data Vault模型简介 42
2.3.2 Data Vault模型的组成部分 43
2.3.3 Data Vault模型的特点 44
2.3.4 Data Vault模型的构建 44
2.3.5 Data Vault模型实例 46
2.4 数据集市 49
2.4.1 数据集市的概念 50
2.4.2 数据集市与数据仓库的区别 50
2.4.3 数据集市设计 50
2.5 数据仓库实施步骤 51
2.6 小结 54
第3章 Hadoop生态圈与数据仓库
3.1 大数据定义 55
3.2 Hadoop简介 56
3.2.1 Hadoop的构成 57
3.2.2 Hadoop的主要特点 58
3.2.3 Hadoop架构 58
3.3 Hadoop基本组件 59
3.3.1 HDFS 60
3.3.2 MapReduce 65
3.3.3 YARN 72
3.4 Hadoop生态圈的其他组件 77
3.5 Hadoop与数据仓库 81
3.5.1 关系数据库的可扩展性瓶颈 82
3.5.2 CAP理论 84
3.5.3 Hadoop数据仓库工具 85
3.6 小结 88
第4章安装Hadoop
4.1 Hadoop主要发行版本 89
4.1.1 Cloudera Distribution for Hadoop（CDH） 89
4.1.2 Hortonworks Data Platform（HDP） 90
4.1.3 MapR Hadoop 90
4.2 安装Apache Hadoop 91
4.2.1 安装环境 91
4.2.2 安装前准备 92
4.2.3 安装配置Hadoop 93
4.2.4 安装后配置 97
4.2.5 初始化及运行 97
4.3 配置HDFS Federation 99
4.4 离线安装CDH及其所需的服务 104
4.4.1 CDH安装概述 104
4.4.2 安装环境 106
4.4.3 安装配置 106
4.4.4 Cloudera Manager许可证管理 114
4.5 小结 115
第5章 Kettle与Hadoop
5.1 Kettle概述 117
5.2 Kettle连接Hadoop 119
5.2.1 连接HDFS 119
5.2.2 连接Hive 124
5.3 导出导入Hadoop集群数据 128
5.3.1 把数据从HDFS抽取到RDBMS 128
5.3.2 向Hive表导入数据 132
5.4 执行Hive的HiveQL语句 134
5.5 MapReduce转换示例 135
5.6 Kettle提交Spark作业 143
5.6.1 安装Spark 143
5.6.2 配置Kettle向Spark集群提交作业 146
5.7 小结 149
第6章建立数据仓库示例模型
6.1 业务场景 150
6.2 Hive相关配置 152
6.2.1 选择文件格式 152
6.2.2 支持行级更新 159
6.2.3 Hive事务支持的限制 164
6.3 Hive表分类 164
6.4 向Hive表装载数据 169
6.5 建立数据库表 174
6.6 装载日期维度数据 179
6.7 小结 180

第7章数据抽取
7.1 逻辑数据映射 182
7.2 数据抽取方式 185
7.3 导出成文本文件 191
7.4 分布式查询 196
7.5 使用Sqoop抽取数据 200
7.5.1 Sqoop简介 200
7.5.2 CDH 5.7.0中的Sqoop 203
7.5.3 使用Sqoop抽取数据 203
7.5.4 Sqoop优化 207
7.6 小结 208
第8章数据转换与装载
8.1 数据清洗 210
8.2 Hive简介 214
8.2.1 Hive的体系结构 215
8.2.2 Hive的工作流程 216
8.2.3 Hive服务器 218
8.2.4 Hive客户端 221
8.3 初始装载 231
8.4 定期装载 236
8.5 Hive优化 246
8.6 小结 254
第9章定期自动执行ETL作业
9.1 crontab 256
9.2 Oozie简介 260
9.2.1 Oozie的体系结构 260
9.2.2 CDH 5.7.0中的Oozie 262
9.3 建立定期装载工作流 262
9.4 建立协调器作业定期自动执行工作流 271
9.5 Oozie优化 275
9.6 小结 276
第10章维度表技术
10.1 增加列 278
10.2 维度子集 285
10.3 角色扮演维度 292
10.4 层次维度 298
10.4.1 固定深度的层次 299
10.4.2 递归 302
10.4.3 多路径层次 310
10.4.4 参差不齐的层次 312
10.5 退化维度 313
10.6 杂项维度 316
10.7 维度合并 323
10.8 分段维度 329
10.9 小结 335
第11章事实表技术
11.1 事实表概述 336
11.2 周期快照 337
11.3 累积快照 343
11.4 无事实的事实表 349
11.5 迟到的事实 354
11.6 累积度量 360
11.7 小结 366
第12章联机分析处理
12.1 联机分析处理简介 367
12.1.1 概念 367
12.1.2 分类 368
12.1.3 性能 371
12.2 Impala简介 371
12.3 Hive、SparkSQL、Impala比较 377
12.3.1 Spark SQL简介 377
12.3.2 Hive、Spark SQL、Impala比较 379
12.3.3 Hive、Spark SQL、Impala性能对比 382
12.4 联机分析处理实例 387
12.5 Apache Kylin与OLAP 399
12.5.1 Apache Kylin架构 399
12.5.2 Apache Kylin安装 401
12.6 小结 407
第13章数据可视化
13.1 数据可视化简介 408
13.2 Hue简介 410
13.2.1 Hue功能快速预览 411
13.2.2 配置元数据存储 412
13.3 Zeppelin简介 415
13.3.1 Zeppelin架构 415
13.3.2 Zeppelin安装配置 416
13.3.3 在Zeppelin中添加MySQL翻译器 421
13.4 Hue、Zeppelin比较 425
13.5 数据可视化实例 426
13.6 小结 434

精彩书摘

　　第9章

　　?定期自动执行ETL作业?

　　一旦数据仓库开始使用，就需要不断从源系统给数据仓库提供新数据。为了确保数据流的稳定，需要使用所在平台上可用的任务调度器来调度ETL定期执行。调度模块是ETL系统必不可少的组成部分，它不但是数据仓库的基本需求，也对项目的成功起着举足轻重的作用。

　　操作系统一般都为用户提供调度作业的功能，如Windows的“计划任务”和UNIX/Linux的cron系统服务。绝大多数Hadoop系统都运行在Linux之上，因此本章详细讨论两种Linux上定时自动执行ETL作业的方案。一种是经典的crontab，这是操作系统自带的功能，二是Hadoop生态圈中的Oozie组件。为了演示Hadoop对数据仓库的支持能力，我们的示例将使用后者实现ETL执行自动化。

　　9.1crontab

　　上一章我们已经准备好用于定期装载的regular_etl.shshell脚本文件，可以很容易地用crontab命令创建一个任务，定期运行此脚本。

　　#修改文件属性为可执行

　　chmod755/root/regular_etl.sh

　　#编辑crontab文件内容

　　crontab-e

　　#添加如下一行，指定每天2点执行定期装载作业，然后保存退出

　　02***/root/regular_etl.sh

　　这就可以了，需要用户做的就是如此简单，其他的事情交给cron系统服务去完成。提供cron服务的进程名为crond，这是Linux下一个用来周期性执行某种任务或处理某些事件的守护进程。当安装完操作系统后，会自动启动crond进程，它每分钟会定期检查是否有要执行的任务，如果有则自动执行该任务。

　　Linux下的任务调度分为两类，系统任务调度和用户任务调度。

　　?系统任务调度：系统需要周期性执行的工作，比如写缓存数据到硬盘、日志清理等。在/etc目录下有一个crontab文件，这个就是系统任务调度的配置文件。

　　?用户任务调度：用户要定期执行的工作，比如用户数据备份、定时邮件提醒等。用户可以使用crontab命令来定制自己的计划任务。所有用户定义的crontab文件都被保存在/var/spool/cron目录中，其文件名与用户名一致。

　　1.crontab权限

　　Linux系统使用一对allow/deny文件组合判断用户是否具有执行crontab的权限。如果用户名出现在/etc/cron.allow文件中，则该用户允许执行crontab命令。如果此文件不存在，那么如果用户名没有出现在/etc/cron.deny文件中，则该用户允许执行crontab命令。如果只存在cron.deny文件，并且该文件是空的，则所有用户都可以使用crontab命令。如果这两个文件都不存在，那么只有root用户可以执行crontab命令。allow/deny文件由每行一个用户名构成。

　　2.crontab命令

　　通过crontab命令，我们可以在固定间隔的时间点执行指定的系统指令或shell脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。crontab命令格式如下：

　　crontab[-uuser]file

　　crontab[-uuser][-e|-l|-r]

　　说明：

　　?-uuser：用来设定某个用户的crontab服务，此参数一般由root用户使用。

　　?file：file是命令文件的名字，表示将file作为crontab的任务列表文件并载入crontab。如果在命令行中没有指定这个文件，crontab命令将接受标准输入，通常是键盘上键入的命令，并将它们载入crontab。

　　?-e：编辑某个用户的crontab文件内容。如果不指定用户，则表示编辑当前用户的crontab文件。如果文件不存在，则创建一个。

　　?-l：显示某个用户的crontab文件内容，如果不指定用户，则表示显示当前用户的crontab文件内容。

　　?-r：从/var/spool/cron目录中删除某个用户的crontab文件，如果不指定用户，则默认删除当前用户的crontab文件。

　　注意：如果不经意地输入了不带任何参数的crontab命令，不要使用Control-d退出，因为这会删除用户所对应的crontab文件中的所有条目。代替的方法是用Control-c退出。

　　3.crontab文件

　　用户所建立的crontab文件中，每一行都代表一项任务，每行的每个字段代表一项设置。它的格式共分为六个字段，前五段是时间设定段，第六段是要执行的命令段，格式如下：

　　.----------------分钟（0-59）

　　|.-------------小时（0-23）

　　||.----------日期（1-31）

　　|||.-------月份（1-12）

　　||||.----星期（0-6，代表周日到周一）

　　|||||

　　*****要执行的命令，可以是系统命令，也可以是自己编写的脚本文件。

　　在以上各个时间字段中，还可以使用如下特殊字符：

　　?星号（*）：代表所有可能的值，例如“月份”字段如果是星号，则表示在满足其他字段的制约条件后每月都执行该命令操作。

　　?逗号（,）：可以用逗号隔开的值指定一个列表范围，例如，“1,2,5,7,8,9”。

　　?中杠（-）：可以用整数之间的中杠表示一个整数范围，例如“2-6”表示“2,3,4,5,6”。

　　?正斜线（/）：可以用正斜线指定时间的间隔频率，例如“0-23/2”表示每两小时执行一次。同时正斜线可以和星号一起使用，例如*/10，如果用在“分钟”字段，表示每十分钟执行一次。

　　注意，“日期”和“星期”字段都可以指定哪天执行，如果两个字段都设置了，则执行的日期是两个字段的并集。

　　4.crontab示例

　　#每1分钟执行一次command

　　*****command

　　#每小时的第3和第15分钟执行

　　3,15****command

　　#在上午8点到11点的第3和第15分钟执行

　　3,158-11***command

　　#每隔两天的上午8点到11点的第3和第15分钟执行

　　3,158-11*/2**command

　　#每个星期一的上午8点到11点的第3和第15分钟执行

　　3,158-11**1command

　　#每晚的21:30执行

　　3021***command

　　#每月1、10、22日的4:45执行

　　4541,10,22**command

　　#每周六、周日的1:10执行

　　101**6,0command

　　#每天18:00至23:00之间每隔30分钟执行

　　0,3018-23***command

　　#每星期六的晚上11:00执行

　　023**6command

　　#每一小时执行一次

　　**/1***command

　　#晚上11点到早上7点之间，每隔一小时执行一次

　　*23-7/1***command

　　#每月的4号与每周一到周三的11点执行

　　0114*1-3command

　　#一月一号的4点执行

　　0411*command

　　#每小时执行/etc/cron.hourly目录内的脚本

　　01****rootrun-parts/etc/cron.hourly

　　说明：run-parts会遍历目标文件夹，执行第一层目录下具有可执行权限的文件。

　　5.crontab环境

　　有时我们创建了一个crontab任务，但是这个任务却无法自动执行，而手动执行脚本却没有问题，这种情况一般是由于在crontab文件中没有配置环境变量引起的。cron从用户所在的主目录中使用shell调用需要执行的命令。cron为每个shell提供了一个默认的环境，Linux下的定义如下：

　　SHELL=/bin/bash

　　PATH=/sbin:/bin:/usr/sbin:/usr/bin

　　MAILTO=用户名

　　HOME=用户主目录

　　在crontab文件中定义多个调度任务时，需要特别注意的一个问题就是环境变量的设置，因为我们手动执行某个脚本时，是在当前shell环境下进行的，程序能找到环境变量；而系统自动执行任务调度时，除了默认的环境，是不会加载任何其他环境变量的。因此就需要在crontab文件中指定任务运行所需的所有环境变量。

　　不要假定cron知道所需要的特殊环境，它其实并不知道。所以用户要保证在shell脚本中提供所有必要的路径和环境变量，除了一些自动设置的全局变量。以下三点需要注意：

　　?脚本中涉及文件路径时写绝对路径；

　　?脚本执行要用到环境变量时，通过source命令显式引入，例如：

　　#!/bin/sh

　　source/etc/profile

　　?当手动执行脚本没问题，但是crontab不执行时，可以尝试在crontab中直接引入环境变量解决问题，例如：

　　0****./etc/profile;/bin/sh/path/to/myscript.sh

　　6.重定向输出邮件

　　默认时，每条任务调度执行完毕，系统都会将任务输出信息通过电子邮件的形式发送给当前系统用户。这样日积月累，日志信息会非常大，可能会影响系统的正常运行。因此，将每条任务进行重定向处理非常重要。可以在crontab文件中设置如下形式，忽略日志输出：

　　0*/3***/usr/local/myscript.sh>/dev/null2>&1

　　“>/dev/null2>&1”表示先将标准输出重定向到/dev/null，然后将标准错误重定向到标准输出。由于标准输出已经重定向到了/dev/null，因此标准错误也会重定向到/dev/null，这样日志输出问题就解决了。

　　7.生成日志文件

　　可以将crontab执行任务的输出信息重定向到一个自定义的日志文件中，例如：

　　8***rm/home/someuser/tmp/*>/home/someuser/cronlogs/clean_tmp_dir.log

　　9.2Oozie简介

　　除了利用操作系统提供的功能以外，Hadoop生态圈的工具也可以完成同样的调度任务，而且更灵活，这个组件就是Oozie。

　　Oozie是一个管理Hadoop作业、可伸缩、可扩展、可靠的工作流调度系统，它内部定义了三种作业：工作流作业、协调器作业和Bundle作业。工作流作业是由一系列动作构成的有向无环图（DAGs），协调器作业是按时间频率周期性触发Oozie工作流的作业，Bundle管理协调器作业。Oozie支持的用户作业类型有Javamap-reduce、Streamingmap-reduce、Pig、Hive、Sqoop和Distcp，及其Java程序和shell脚本或命令等特定的系统作业。

　　Oozie项目经历了三个主要阶段。第一版Oozie是一个基于工作流引擎的服务器，通过执行HadoopMapReduce和Pig作业的动作运行工作流作业。第二版Oozie是一个基于协调器引擎的服务器，按时间和数据触发工作流执行。它可以基于时间（如每小时执行一次）或数据可用性（如等待输入数据完成后再执行）连续运行工作流。第三版Oozie是一个基于Bundle引擎的服务器。它提供更高级别的抽象，批量处理一系列协调器应用。用户可以在bundle级别启动、停止、挂起、继续、重做协调器作业，这样可以更好地简化操作控制。

　　使用Oozie主要基于以下两点原因：

　　?在Hadoop中执行的任务有时候需要把多个MapReduce作业连接到一起执行，或者需要多个作业并行处理。Oozie可以把多个MapReduce作业组合到一个逻辑工作单元中，从而完成更大型的任务。

　　?从调度的角度看，如果使用crontab的方式调用多个工作流作业，可能需要编写大量的脚本，还要通过脚本来控制好各个工作流作业的执行时序问题，不但不好维护，而且监控也不方便。基于这样的背景，Oozie提出了Coordinator的概念，它能够将每个工作流作业作为一个动作来运行，相当于工作流定义中的一个执行节点，这样就能够将多个工作流作业组成一个称为CoordinatorJob的作业，并指定触发时间和频率，还可以配置数据集、并发数等。

　　9.2.1Oozie的体系结构

　　Oozie的体系结构如图9-1所示。

　　图9-1Oozie体系结构

　　Oozie是一种JavaWeb应用程序，它运行在JavaServlet容器，即Tomcat中，并使用数据库来存储以下内容：

　　?工作流定义。

　　?当前运行的工作流实例，包括实例的状态和变量。

　　Oozie工作流是放置在DAG（有向无环图DirectAcyclicGraph）中的一组动作，例如，Hadoop的Map/Reduce作业、Pig作业等。DAG控制动作的依赖关系，指定了动作执行的顺序。Oozie使用hPDL这种XML流程定义语言来描述这个图。

　　hPDL是一种很简洁的语言，它只会使用少数流程控制节点和动作节点。控制节点会定义执行的流程，并包含工作流的起点和终点（start、end和fail节点）以及控制工作流执行路径的机制（decision、fork和join节点）。动作节点是实际执行操作的部分，通过它们工作流会触发执行计算或者处理任务。Oozie为以下类型的动作提供支持：HadoopMapReduce、HadoopHDFS、Pig、Java和Oozie的子工作流。而SSH动作已经从Oozieschema0.2之后的版本中移除了。

　　所有由动作节点触发的计算和处理任务都不在Oozie中运行。它们是由Hadoop的MapReduce框架执行的。这种低耦合的设计方法让Oozie可以有效利用Hadoop的负载平衡、灾难恢复等机制。这些任务主要是串行执行的，只有文件系统动作例外，它是并行处理的。这意味着对于大多数工作流动作触发的计算或处理任务类型来说，在工作流操作转换到工作流的下一个节点之前都需要等待，直到前面节点的计算或处理任务结束了之后才能够继续。Oozie可以通过两种不同的方式来检测计算或处理任务是否完成，这就是回调和轮询。当Oozie启动了计算或处理任务时，它会为任务提供唯一的回调URL，然后任务会在完成的时候发送通知给这个特定的URL。在任务无法触发回调URL的情况下（可能是因为任何原因，比方说网络闪断），或者当任务的类型无法在完成时触发回调URL的时候，Oozie有一种机制，可以对计算或处理任务进行轮询，从而能够判断任务是否完成。

　　Oozie工作流可以参数化，例如在工作流定义中使用像${inputDir}之类的变量等。在提交工作流操作的时候，我们必须提供参数值。如果经过合适地参数化，比如使用不同的输出目录，那么多个同样的工作流操作可以并发执行。

　　一些工作流是根据需要触发的，但是大多数情况下，我们有必要基于一定的时间段、数据可用性或外部事件来运行它们。Oozie协调系统（Coordinatorsystem）让用户可以基于这些参数来定义工作流执行计划。Oozie协调程序让我们可以用谓词的方式对工作流执行触发器进行建模，谓词可以是时间条件、数据条件、内部事件或外部事件。工作流作业会在谓词得到满足的时候启动。不难看出，这里的谓词，其作用和SQL语句的WHERE子句中的谓词类似，本质上都是在满足某些条件时触发某种事件。

　　有时，我们还需要连接定时运行、但时间间隔不同的工作流操作。多个以不同频率运行的工作流的输出会成为下一个工作流的输入。把这些工作流连接在一起，会让系统把它作为数据应用的管道来引用。Oozie协调程序支持创建这样的数据应用管道。

　　9.2.2CDH5.7.0中的Oozie

　　CDH5.7.0中，Oozie的版本是4.1.0，其元数据存储使用MySQL（4.4节CDH安装中有相关配置）。关于CDH5.7.0中Oozie的属性，参考以下链接：

　　https://www.cloudera.com/documentation/enterprise/latest/topics/cm_props_cdh570_oozie.html

　　9.3建立定期装载工作流

　　对于刚接触Oozie的用户来说，前面介绍的概念过于抽象，不易理解，那么就让我们一步步创建销售订单示例ETL的工作流，在实例中学习Oozie的特性和用法。

　　1.修改资源配置

　　Oozie运行需要使用较高的内存资源，因此要将以下两个YARN参数的值调大：

　　?yarn.nodemanager.resource.memory-mb：NodeManage总的可用物理内存。

　　?yarn.scheduler.maximum-allocation-mb：一个MapReduce任务可申请的最大内存。

　　如果分配的内存不足，在执行工作流作业时会报类似下面的错误：

　　org.apache.oozie.action.ActionExecutorException:JA009:org.apache.hadoop.yarn.exceptions.InvalidResourceRequestException:Invalidresourcerequest,requestedmemory<0,orrequestedmemory>maxconfigured,requestedMemory=1536,maxMemory=1500

　　我们的实验环境中，每个Hadoop节点所在虚拟机的总物理内存为8GB，所以把这两个参数都设置为2GB。修改的方法有两种，可以编辑yarn-site.xml文件里的属性，如：

　　yarn.nodemanager.resource.memory-mb

　　2000

　　yarn.scheduler.maximum-allocation-mb

　　2000

　　或者在ClouderaManager中修改，yarn.nodemanager.resource.memory-mb参数在YARN服务的NodeManager范围里，yarn.scheduler.maximum-allocation-mb参数在YARN服务的ResourceManager范围里。无论使用哪种方法，修改后都需要保存更改并重启Hadoop集群。

　　2.启用OozieWebConsole

　　默认安装CDH时，OozieWebConsole是禁用的，为了后面方便监控Oozie作业的执行，需要将其改为启用状态。“启用Oozie服务器Web控制台”属性在Oozie服务的“OozieServerDefaultGroup”里。具体的做法是：

　　下载ext-2.2包，解压缩到Oozie服务器实例所在节点的/var/lib/oozie/目录下。

　　登录ClouderaManager管理控制台，进入Oozie服务页面。

　　单击“配置”标签。

　　定位“启用Oozie服务器Web控制台”属性，或者在搜索框中输入该属性名查找。

　　选择“启用Oozie服务器Web控制台”的复选框。

　　单击“保存更改”按钮提交所做的修改。

　　重启Oozie服务。

　　3.启动Sqoop的sharemetastoreservice

　　……

前言/序言

　　前言

　　似乎所有人嘴边都挂着“大数据”这个词。围绕大数据这个主题开展的讨论几乎已经完全压倒了传统数据仓库的风头。某些大数据狂热者甚至大胆预测，在不久的将来，所有企业数据都将由一个基于ApacheHadoop的系统托管，企业数据仓库（EDW）终将消亡。无论如何，传统数据仓库架构仍在不断发展演化，这一点不容置疑。一年来，我一直在撰写相关的文章和博客，但它真的会消亡吗？我认为几率很小。实际上，尽管所有人都在讨论某种技术或者架构可能会胜过另一种技术或架构，但IBM有着不同的观点。在IBM，他们更倾向于从“Hadoop与数据仓库密切结合”这个角度来探讨问题，两者可以说是天作之合。

　　试想一下，对于采用传统数据仓库的企业而言，大数据带来的机会就是能够利用过去无法通过传统仓库架构利用的数据，但传统数据仓库为什么不能承担起这个责任？原因是多方面的。首先，数据仓库的传统架构方式采用业务系统中的结构化数据，用它们来分析有关业务的方方面面，对这些数据进行清理、建模、分布、治理和维护，以便执行历史分析。无论是从结构方面考虑，还是从数据摄取速率方面考虑，我们在数据仓库中存储的数据都是可预测的。相比之下，大数据是不可预测的。大数据的结构多种多样，对于EDW来说数量过于庞大。尤其要考虑的是，我们更习惯于浏览大量数据来查找真正需要的信息。不久之后可能又会决定丢弃这些数据，在某些情况下，这些数据的保存期限可能会更短。如果我们决定保留所有这些数据，则需要使用比EDW更经济的解决方案来存储非结构化数据，以便将来使用这些数据进行历史分析，这也是将Hadoop与数据仓库结合使用的另一个论据。

　　本书通过简单而完整的示例，论述了在Hadoop平台上设计和实现数据仓库的方法。将传统数据仓库建模与SQL开发的简单性与大数据技术相结合，快速、高效地建立可扩展的数据仓库及其应用系统。

　　本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员，也适合高等院校和培训学校相关专业的师生教学参考。

　　最后，感谢清华大学出版社图格事业部的编辑们，他们的辛勤工作使得本书尽早与读者见面。

　　编者

　　2017年6月

《海量数据之道：从零开始构建高可用数据仓库》内容概要：本书并非关于特定技术栈的堆砌，而是深入探讨构建一个健壮、可扩展且易于维护的高可用数据仓库所必须掌握的核心理念、系统设计原则以及实战经验。我们不局限于某一款工具的介绍，而是将目光聚焦于数据仓库的生命周期管理：从数据采集、存储、转换，到数据分析、可视化，以及最终的业务价值释放。全书围绕“高可用”这一核心目标，贯穿了系统的韧性、容错性、弹性和可恢复性设计，旨在帮助读者构建一个能够应对各种突发状况、持续为业务提供可靠数据服务的强大平台。核心内容：第一部分：数据仓库的战略定位与架构设计 1. 数据仓库的价值与挑战：战略价值：深入剖析数据仓库如何从海量原始数据中提炼出洞察，驱动业务决策、优化运营效率、发现新的商业机会。我们将探讨从描述性分析到预测性分析，再到规范性分析的演进路径，以及数据仓库在其中的核心作用。核心挑战：详细分析在处理 PB 级别甚至 EB 级别数据的过程中，会遇到的典型挑战，包括数据增长、数据复杂性、数据质量、性能瓶颈、成本控制、安全合规以及技术选型困境等。我们强调，理解这些挑战是成功构建数据仓库的基石。 2. 经典与现代数据仓库架构：传统数据仓库（EDW）模型：回顾Kimball和Inmon等经典数据仓库设计方法论，理解星型模型、雪花模型的设计思想，以及它们在解决特定业务问题上的优势。数据湖与数据仓库的融合：探讨数据湖（Data Lake）和数据仓库（Data Warehouse）的演进，以及它们如何通过“数据湖仓一体”（Data Lakehouse）等新兴模式实现优势互补，满足不同场景下的数据存储与分析需求。云原生数据仓库架构：介绍现代云平台（如AWS, Azure, GCP）如何通过托管服务（如Redshift, Snowflake, BigQuery）提供弹性、可扩展且成本效益高的数据仓库解决方案。重点分析其计算与存储分离、服务化、智能化等关键特性。 3. 高可用数据仓库的关键原则：冗余与容错：详细阐述数据存储（如RAID, 分布式文件系统）、计算资源（如负载均衡, 故障转移）和网络连接的多重冗余设计。弹性与伸缩性：讨论如何设计能够根据业务需求动态调整资源（计算、存储）的架构，以应对流量高峰和低谷，避免性能瓶颈。可观测性与监控：强调构建完善的监控、日志记录和告警系统的重要性，以便及时发现、定位和解决问题，确保系统稳定运行。数据备份与恢复：详细讲解数据备份策略（全量、增量、差异备份）、备份介质选择以及快速、可靠的数据恢复流程，是保障数据安全和业务连续性的生命线。第二部分：数据采集与集成：构建可靠的数据源 1. 数据采集策略与技术：批处理与流处理：深入分析批处理（ETL/ELT）与流处理（Stream Processing）在数据采集中的应用场景、优缺点。重点介绍CDC（Change Data Capture）技术在实时数据同步中的作用。异构数据源接入：讨论如何从关系型数据库、NoSQL数据库、文件系统（HDFS, S3）、消息队列（Kafka, Pulsar）、API等各种异构数据源采集数据。数据采集工具与框架：介绍常用的数据采集工具和框架（如Sqoop, Flume, Flink CDC, Debezium），并结合实际案例讲解其使用方法与最佳实践。 2. 数据集成模式与最佳实践： ETL vs. ELT：详细比较ETL（Extract, Transform, Load）和ELT（Extract, Load, Transform）的设计模式，并指导读者根据数据量、计算能力和业务需求选择合适的模式。数据清洗与标准化：重点讲解数据清洗（去重、去噪、异常值处理）和标准化（统一格式、编码）的流程与技术。数据校验与质量控制：强调在数据集成过程中引入数据校验机制，确保数据的准确性、完整性和一致性。我们将介绍数据质量指标（DQ Metrics）的定义与度量。 3. 构建高可用的数据采集管道：分布式数据传输：介绍Apache Kafka、Pulsar等分布式消息队列在构建高吞吐量、低延迟数据管道中的作用。容错与重试机制：讨论如何在数据采集过程中设计合理的容错与重试机制，以应对网络瞬断、服务不可用等情况。任务调度与监控：讲解Airflow, Oozie等任务调度工具的应用，以及如何监控采集任务的执行状态，及时发现并处理失败。第三部分：数据存储与管理：构建稳定的数据基石 1. 分布式存储系统： HDFS（Hadoop Distributed File System）：详细介绍HDFS的架构、读写流程、容错机制（NameNode HA, DataNode心跳）、副本策略以及其在PB级数据存储中的应用。对象存储（S3, Ceph）：探讨对象存储在现代数据仓库中的角色，其高扩展性、耐久性和成本效益，以及如何与计算引擎协同工作。 2. 高性能数据仓库存储引擎：列式存储（Parquet, ORC）：深入分析列式存储格式的优势，如更高的压缩比、更快的列裁剪和谓词下推能力，以及它们如何显著提升分析查询性能。 ACID事务与数据一致性：讨论在分布式数据仓库中实现ACID（Atomicity, Consistency, Isolation, Durability）事务的挑战与解决方案，例如使用Apache Hudi, Apache Iceberg, Delta Lake等技术。数据分区与分桶：讲解如何通过合理的数据分区（按日期、地域等）和分桶（按ID等）来优化查询性能，减少扫描数据量。 3. 数据仓库的生命周期管理：数据生命周期策略（ILM）：介绍如何根据数据的价值和访问频率，制定冷热数据分层存储策略，优化存储成本。数据归档与销毁：讨论数据归档的必要性，以及安全、合规的数据销毁流程。元数据管理（Metadata Management）：强调元数据在数据治理中的关键作用，包括数据血缘、数据字典、数据质量报告等，以及如何构建统一的元数据管理平台。第四部分：数据处理与分析：释放数据价值 1. 分布式计算引擎： MapReduce：回顾MapReduce模型，理解其基本原理，并介绍其在批处理场景下的应用。 Apache Spark：详细讲解Spark的RDD、DataFrame、Dataset API，以及其内存计算、DAG调度、容错机制，是现代大数据处理的核心引擎。 SQL on Hadoop/Data Lake：介绍Hive, Impala, Presto/Trino等SQL查询引擎，它们如何让非专业开发人员也能轻松地对海量数据进行交互式分析。 2. ELT与数据转换： Spark SQL与DataFrame API：演示如何利用Spark进行复杂的数据清洗、转换和聚合操作。数据仓库建模进阶：深入讲解维度建模（Dimensional Modeling）的设计原则，如事实表、维度表、退化维度、缓慢变化的维度（SCD Type 1, 2, 3, 6）的处理。数据质量保障：结合数据处理过程，进一步强化数据质量检查和校验，确保分析结果的准确性。 3. 大规模数据分析技术： OLAP（Online Analytical Processing）：介绍OLAP立方体、切片、切块等概念，以及如何通过预聚合、物化视图等技术优化OLAP查询性能。数据挖掘与机器学习集成：探讨如何将数据仓库的数据与数据挖掘算法、机器学习模型相结合，进行更深层次的洞察分析。第五部分：数据治理与安全：保障数据的可信与安全 1. 数据治理框架与实践：数据标准与规范：强调建立统一的数据标准，包括命名规范、数据类型定义、业务口径解释等。数据血缘追踪：讲解如何追踪数据的来源、转换过程和去向，确保数据的透明度和可追溯性。数据安全与隐私保护：详细介绍数据脱敏、访问控制、数据加密、合规性审计等技术手段，确保数据在整个生命周期中的安全性，满足GDPR、CCPA等法规要求。 2. 构建高可用的数据分析服务：性能调优：总结数据仓库从存储、计算到查询的整体性能调优策略，包括硬件选择、参数配置、SQL优化、索引设计等。容量规划与弹性伸缩：讨论如何进行准确的容量规划，以及如何利用云平台的弹性能力应对业务波动。故障排除与应急响应：建立完善的故障排除流程和应急响应机制，快速恢复系统服务。 3. 数据可视化与报表： BI（Business Intelligence）工具集成：探讨如何将数据仓库与Tableau, Power BI, Superset等BI工具集成，实现数据的直观呈现。自助式分析（Self-Service BI）：介绍如何赋能业务用户进行自助式数据探索和分析。本书特色：理念先行，技术为辅：摆脱对单一技术的依赖，聚焦于通用的设计原则和架构思路，确保读者能够掌握构建任何类型数据仓库的核心能力。高可用设计贯穿始终：将“高可用”作为全书的核心主线，从架构设计到具体实施，都围绕如何构建一个稳定、可靠、容错的数据平台展开。实战导向，理论结合：结合大量实际项目经验，深入剖析在海量数据环境下遇到的具体问题，并提供切实可行的解决方案。前瞻性视野：关注数据仓库领域最新的发展趋势，如数据湖仓一体、云原生数据仓库等，帮助读者构建面向未来的数据基础设施。系统性思维：强调数据仓库是一个整体，需要从数据采集、存储、处理、分析到治理的全生命周期进行系统性的设计和管理。目标读者：大数据架构师数据工程师数据仓库工程师 ETL/ELT开发人员数据分析师 IT技术管理者通过阅读本书，您将能够深刻理解构建和管理高可用数据仓库的精髓，掌握从零开始搭建强大、可靠的数据基础设施的能力，从而有效地驱动业务增长，发掘海量数据中的无限可能。

用户评价

评分☆☆☆☆☆

不得不说，《Hadoop构建数据仓库实践》这本书在数据仓库的治理与安全方面，提供了非常详尽且实用的指导。作为一名需要对数据负责的技术人员，数据的质量、可靠性以及合规性是日常工作的重中之重。书中并非泛泛而谈，而是深入到具体的执行层面。关于数据质量，作者详细介绍了诸如数据清洗、去重、验证等关键环节，并列举了如何在Hadoop环境中利用Hive的UDF、Spark的RDD/DataFrame API等技术来实现这些操作。此外，对于数据血缘的追踪和管理，书中也给出了具体的解决方案，这对于理解数据的来源、转换过程以及定位问题根源至关重要。而数据安全方面，从Kerberos认证到Ranger的授权管理，再到HDFS的权限控制和数据加密，书中都提供了清晰的配置指导和最佳实践。特别是对于数据脱敏和合规性审计的探讨，让我在面对日益严格的数据隐私法规时，有了更清晰的操作思路和技术选型依据。读到这里，我不再担心Hadoop在企业级应用中的安全风险，反而觉得它能够提供比传统方案更灵活、更强大的安全保障能力。

评分☆☆☆☆☆

作为一名在数据领域摸爬滚打多年的技术人员，近期有幸接触到了一本令我耳目一新的著作——《Hadoop构建数据仓库实践》。虽然我本身的职业重心不在Hadoop的数据仓库构建上，但阅读这本书的过程，却意外地打开了我的新视野，让我深刻体会到技术深度与广度的结合所能产生的强大能量。书中的第一部分，作者并非直接切入Hadoop的组件，而是花费了相当大的篇幅来阐述数据仓库的演进历程以及其在企业战略中的核心地位。从早期基于关系型数据库的DW，到OLAP技术的兴起，再到大数据时代对传统DW的挑战，作者用一种宏观的视角，为读者勾勒出一幅清晰的、不断发展的图景。这种历史回顾让我不再将Hadoop仅仅视为一个工具，而是理解了它作为一种解决方案，是如何应对数据爆炸式增长和多样化需求而诞生的。特别是关于数据湖与数据仓库的融合探讨，以及Schema-on-read和Schema-on-write的权衡，让我重新审视了我们在实际工作中可能遇到的数据存储和分析的困境，并引发了对如何设计更具弹性和前瞻性数据架构的思考。这种循序渐进的引入方式，对于我这样非Hadoop专业背景的读者来说，无疑是极其友好的，它降低了技术门槛，培养了对整个领域更深层次的理解，而非仅仅停留在技术的皮毛。

评分☆☆☆☆☆

《Hadoop构建数据仓库实践》这本书的最后一章，关于性能优化和运维管理的部分，对于任何一个实际落地Hadoop数据仓库的团队来说，都具有不可估量的价值。很多时候，我们可能成功地搭建了系统，但却面临性能瓶颈，或者在运维过程中捉襟见肘。书中提供了关于HDFS的调优技巧，例如副本数量的设置、块大小的选择、网络配置的优化等，并结合实际案例说明了这些设置如何影响读写性能。在MapReduce和Spark的性能优化方面，作者深入讲解了Shuffle调优、内存配置、算子选择、代码优化策略等，这些都是提升计算效率的关键。此外，对于YARN的资源调度策略，比如队列配置、优先级设置、资源隔离等，也进行了详细的阐述，这有助于在多租户环境下公平有效地分配计算资源。运维方面，书中也涵盖了监控告警体系的搭建，日志管理，以及故障排查的常用方法。让我印象深刻的是，作者还强调了持续集成/持续部署（CI/CD）在Hadoop环境中的应用，以及如何通过自动化运维来提升效率和可靠性。读到这里，我才真正感受到，构建一个稳定、高效、可扩展的Hadoop数据仓库，绝非一蹴而就，而是需要持续的投入和精细的管理，而这本书恰恰提供了宝贵的实践经验。

评分☆☆☆☆☆

《Hadoop构建数据仓库实践》这本书，给我的最大震撼在于它对Hadoop生态系统中那些看似零散的技术点，是如何被巧妙地串联起来，共同支撑起一个庞大而复杂的数据仓库体系的。我一直觉得Hadoop只是一个概念，由HDFS、MapReduce、YARN、Hive、HBase等一堆技术组成，但书中通过一个又一个鲜活的实践案例，将这些组件的功能、优势以及它们之间的协同作用展现得淋漓尽致。例如，在讲述数据采集与存储部分，作者详细剖析了Flume、Kafka等工具在海量实时数据摄取时的不同策略和优劣势，以及HDFS在存储大规模非结构化和半结构化数据时的设计理念。随后，在数据处理与转换环节，Hive的SQL-like查询能力，Impala的快速交互式查询，Spark的内存计算优势，都被作者娓娓道来，并结合具体场景说明了它们在ETL/ELT过程中的适用性。而对于需要低延迟访问的场景，HBase的列族存储和随机读写特性，也得到了深入的讲解。更让我惊喜的是，书中还触及了Sqoop等工具在传统关系型数据库与Hadoop之间数据迁移的细节，以及Oozie、Airflow等工作流调度工具在自动化数据仓库流程中的重要性。读罢此章，我仿佛看到了一个完整的、有机的Hadoop数据仓库生命周期，技术不再是冰冷的命令，而是解决实际问题的有力武器。

评分☆☆☆☆☆

在阅读《Hadoop构建数据仓库实践》的过程中，我对数据分析和可视化的部分尤其感到兴奋。通常，当我们谈论Hadoop时，更多的是关注数据存储和处理，而忽略了如何将这些处理后的数据转化为可理解的信息，并服务于业务决策。这本书在这方面做得相当出色。作者并没有停留在静态的报表层面，而是深入探讨了如何利用Hadoop生态中的分析工具，构建动态、交互式的数据分析平台。比如，书中详细介绍了如何使用Hive配合OLAP技术，进行多维数据分析，这对于理解业务指标的深层含义非常有帮助。更让我眼前一亮的是，作者还介绍了如何将Hadoop数据仓库与现代化的BI（商业智能）工具，如Tableau、Superset等进行集成，通过SQL接口或API的方式，将海量分析结果可视化，生成直观的图表和仪表板。这极大地降低了数据科学家和业务分析师获取洞察的门槛。书中还涉及了机器学习算法在Hadoop平台上的应用，例如利用Mahout或Spark MLlib进行数据挖掘和预测建模，为企业提供更深层次的智能分析能力。这些内容让我看到，Hadoop不仅仅是数据的“仓库”，更是驱动业务智能化的强大引擎。

评分☆☆☆☆☆

赶上活动，非常优惠

评分☆☆☆☆☆

还没看，挺大一本的，不知道内容怎么样

评分☆☆☆☆☆

咯咯啊社区用了鳄鱼皮皮 Joe 了

评分☆☆☆☆☆

好书好书好书好书好书好书好书好书好书好书好书好书

评分☆☆☆☆☆

买回来学习一下，给个好评

评分☆☆☆☆☆

数据挖掘应用层面的圣经，必备工具书！～