Oracle大数据解决方案 [Oracle Big Data Handbook] pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] Tom Plunkett，Brian Macdonald，Bruce Nelson 著，许向东，李园花，杨雷，王欣译

图书标签:

Oracle
大数据
数据仓库
Hadoop
Spark
NoSQL
数据分析
云计算
大数据技术
Oracle技术

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：清华大学出版社

ISBN：9787302385516

版次：1

商品编码：11613643

品牌：清华大学

包装：平装

丛书名：大数据应用与技术丛书

外文名称：Oracle Big Data Handbook

开本：16开

出版时间：2014-12-01

用纸：胶版纸

页数：328

具体描述

内容简介

　　《Oracle大数据解决方案》由Oracle大数据团队成员联袂撰写，全面介绍用于获取、组织、分析和利用非结构化数据的Oracle综合集成化产品。本书讨论成功实现大数据方案必需的策略和技术，包括ApacheHadoop、Oracle大数据机、Oracle大数据连接器、OracleNoSQL数据库、OracleEndeca、Oracle高级分析和Oracle开源R产品，还讲述迁移既有系统并将现有数据仓库和分析解决方案集成到企业大数据基础架构的最佳实践。
　　主要内容
　　●理解综合性大数据战略的价值
　　●最大限度地提高ApacheHadoop平台的分布式处理能力
　　●介绍将Oracle大数据机用作Hadoop和OracleNoSQL数据库工程系统的优势
　　●使用Oracle大数据机来配置、部署、监控Hadoop和OracleNoSQL数据库
　　●将现有数据仓库和分析基础架构集成到大数据架构
　　●使用Oracle数据连接器在Hadoop和关系型数据库之间共享数据
　　●理解如何将OracleNoSQL数据库集成到Oracle大数据架构
　　●使用数据库内分析更快地实现价值
　　●使用Oracle高级分析(OracleR企业版和Oracle数据挖掘)、OracleR分发版、ROracle和OracleRConnectorforHadoop来分析数据
　　●使用OracleEndeca信息发现来分析独立数据
　　●规划和实施大数据管理战略，开发架构和路线图

作者简介

　　TomPlunkett，曾撰写多本Oracle书籍。2009年，Tom带领一个团队为美国国防部办公室实施大数据研究项目；2012年，Tom帮助Frederick癌症研究实验室赢得多项行业大奖，包括政府大数据解决方案奖。Tom在大数据和云计算领域发表过40多次国际演讲。

　　BrianMacdonald，是一位杰出的解决方案顾问，是获得认证的Oracle企业架构师。Brian在架构设计和分析平台实施方面拥有逾20年的经验。Brian曾在InformationResources公司工作，期间用OLAP和数据仓库技术实现了管理贷款组合的复杂数学算法。

　　BruceNelson，是美国西部地区Oracle大数据的负责人，专注于Hadoop和NoSQL。他在IT行业拥有超过24年的高性能数据库系统经验。Bruce曾任Bizrate数据库管理员和工程化总监，期间全面升级了Bizrate.com的数据系统。

第Ⅰ部分引言
第1章大数据简介
1.1大数据
1.2谷歌的MapReduce算法和ApacheHadoop
1.3Oracle的大数据平台
1.4总结
第2章大数据的价值
2.1我是大数据吗？还是大数据是我？
2.2大数据，小数据--仍然是数据
2.2.1什么已经发生了？
2.2.2现在发生了什么？
2.3请看看现实！
2.4你想把它做成什么？
2.5大数据，大数字，大企业？
2.5.1Twitter
2.5.2Facebook
2.5.3内部源
2.5.4ICR：连接
2.5.5ICR：变更
2.6需要：大数据的价值
2.6.1大数据案例1：医疗行业的临床试验研究
2.6.2大数据案例2：在汽车行业的汽车设计中改进驾驶员安全
2.7总结
第II部分大数据平台
第3章ApacheHadoop平台
3.1软件与硬件
3.2Hadoop的软件平台
3.2.1Hadoop的发布与版本
3.2.2HadoopDistributedFileSystem(HDFS)
3.2.3调度、计算和处理
3.3操作系统的选择
3.4Hadoop硬件平台
3.4.1CPU和内存
3.4.2网络
3.4.3磁盘
3.5整合在一起
第4章选择Appliance的理由
4.1Oracle创建大数据机的理由
4.2Appliance的概念
4.3OracleBigDataAppliance的发展目标
4.4Appliance优化
4.5OracleBigDataAppliance第2版软件
4.6Oracle大数据机X3-2硬件
4.7Oracle获取Hadoop知识的地方
4.8配置Hadoop集群
4.8.1选择核心集群组件
4.8.2组装集群
4.9自己组建的集群
4.10集群总成本
4.11时间价值
4.12如何打造更大的集群
4.13Oracle大数据机可否支持其他软件
4.14一体机的缺陷
第5章BDA配置、部署架构和监控
5.1介绍
5.1.1大数据机X3-2满配机架(18个节点)
5.1.2大数据机X3-2入门机架(6个节点)
5.1.3大数据机X3-2扩展机架(6个节点)
5.1.4BDA的硬件修改
5.1.5大数据机X3-2的软件支持
5.2BDA安装和配置过程
5.3关键和非关键节点
5.4NameNode故障自动切换
5.5BDA磁盘存储布局
5.6为Hadoop集群增加存储
5.7仅有Hadoop配置和Hadoop+NoSQL数据库
5.7.1仅有Hadoop的一体机
5.7.2Hadoop和NoSQL数据库
5.8内存选项
5.9部署架构
5.9.1云中的多租户和Hadoop
5.9.2可扩展性
5.9.3BDA多机架的注意事项
5.10在BDA上安装其他软件
5.11数据中心的BDA
5.11.1管理网络
5.11.2客户端访问网络
5.11.3Infiniband私有网络
5.11.4网络需求
5.11.5连接到数据中心的局域网
5.11.6连接架构的例子
5.12Oracle大数据机的使用限制
5.13BDA的管理和监控
5.13.1企业管理器
5.13.2Cloudera管理器
5.13.3Hadoop的监控工具：Web图形用户界面
5.13.4OracleILOM
5.13.5Hue
5.13.6DCLI工具
第6章为大数据集成数据仓库和分析基础架构
6.1数据仓库作为存储历史记录的数据库
6.1.1Oracle数据库作为数据仓库
6.1.2为什么要把数据仓库和Hadoop部署在一起
6.2完成路径：业务分析师工具
6.3扩建基础设施
第7章BDA连接器
7.1OracleBigDataConnectors
7.2OracleLoaderforHadoop
7.2.1在线模式
7.2.2OracleOCIDirectPathOutput
7.2.3JDBCOutput
7.2.4离线模式
7.2.5OracleDataPumpOutput
7.2.6带分隔符的文本输出
7.3安装OracleLoaderforHadoop
7.4调用OracleLoaderforHadoop
7.5输入格式
7.5.1DelimitedTextInputFormat
7.5.2RegexInputFormat
7.5.3AvroInputFormat
7.5.4HiveToAvroInputFormat
7.5.5KVAvroInputFormat
7.5.6自定义输入格式
7.6OracleLoaderforHadoop配置文件
7.6.1LoaderMaps
7.6.2额外的优化
7.6.3利用Infiniband
7.6.4对比ApacheSqoop
7.7OracleSQLConnectorforHDFS
7.8安装OracleSQLConnectorforHDFS
7.9Hive安装
7.10使用OracleSQLConnectorforHDFS创建外部表
7.10.1ExternalTable配置工具
7.10.2数据源类型
7.10.3配置工具语法
7.10.4必需的属性
7.10.5可选属性
7.10.6针对带分隔符的ExternalTable工具
7.10.7在使用--noexecute选项的情况下测试DDL
7.10.8在位置文件里增加一个新的HDFS文件
7.10.9外部表的手动配置
7.11Hive源
7.12OracleDataPump源
7.13配置文件
7.14使用OracleSQLConnectorforHDFS查询
7.15OracleRConnectorforHadoop
7.16OracleDataIntegratorApplicationAdapterforHadoop
第8章OracleNoSQL数据库
8.1NoSQL数据库系统的定义
8.2OracleNoSQL数据库
8.3架构
8.3.1客户端驱动程序
8.3.2键-值对
8.3.3存储节点
8.3.4复制
8.3.5智能拓扑
8.3.6在线的灵活性
8.3.7没有单点故障
8.4数据管理
8.4.1API
8.4.2CRUD操作
8.4.3多种更新操作
8.4.4查找操作
8.4.5事务
8.4.6可预测的性能
8.5集成
8.6安装和管理
8.6.1简单安装
8.6.2管理
8.7OracleNoSQL数据库的特性
8.8有用的链接
第III部分分析信息和制定决策
第9章数据库库内分析：快速交付彰显时间价值
9.1介绍
9.1.1Oracle数据库内分析
9.1.2为什么在数据库内运行如此重要
9.2Oracle数据挖掘和统计分析介绍
9.2.1Oracle库内高级分析
9.2.2Oracle数据挖掘
9.2.3R语言介绍
9.2.4文本挖掘
9.3库内统计函数
9.4空间分析
9.4.1理解空间数据模型
9.4.2查询空间数据模型
9.4.3使用空间分析
9.4.4让BI工具更聪明
9.5基于图形分析
9.5.1图形数据模型
9.5.2查询图形数据
9.6多维分析
9.7库内分析：综合范例
9.7.1在ETL过程中集成分析
9.7.2提供指导浏览
9.7.3提供混搭式分析
9.8总结
第10章使用R分析数据
第11章Endeca信息发现
第12章大数据治理
第13章大数据开发架构和路线图

精彩书摘

　　本书从Oracle的角度，介绍了与大数据相关的很多主题，包括Oracle大数据机(OracleBigDataAppliance)、大数据连接器(BigDataConnectors)、数据库云服务器(Exadata)、商务智能云服务器(Exalytics)、R、OracleNoSQL以及其他一些主题。大数据是一项新兴技术，本章将大篇幅讨论这种技术，特别是将系统集成到大数据的价值。本章是对本书其余部分的一个简单介绍，有关这些主题的更详细描述会贯穿全书。
　　1.1大数据
　　企业组织越来越需要分析信息来做出决策，以提高效率、利润和生产率。由于关系型数据库已经扩大了规模以满足这些要求，因此这些组织也发现可以使用其他技术来存储这些海量的信息。这些新系统通常被冠以“大数据”的帽子。
　　Gartner公司已经明确了大数据的三个主要特点：大数据量(Volume)、数据处理速度(Velocity)和多种数据类型(Variety)。传统的结构化系统在处理大数据量和数据处理速度上是高效的；然而，传统的系统对于处理各种非结构化数据源或半结构化数据源来说不是最有效的解决方案。大数据解决方案能够处理更多种类的不同类型的数据格式，这超出了传统事务型系统的处理能力。尽管大数据量(Volume)、数据处理速度(Velocity)和多种数据类型(Variety)的定义各不相同，但绝大多数对大数据的定义都关心信息的体量，这些信息量对于传统的系统来说很难处理——要么是数据量太大，要么是数据处理速度太快，要么是数据类型太复杂。
　　第4个V(即价值(Value))可能在讨论大数据的特性时也是非常有用的，因为非结构化数据源中的信息在孤立时价值可能是很低的，而传统的结构化系统中的信息在孤立时价值可能是很高的。非结构化信息可能是“低密度”的；也就是说，对它本身的单个的观察可能不会增加价值。然而，当这个数据被聚合时，它的价值趋势可能就体现出来了。
　　当然可以确定其他的V(真实性——Veracity等)，但我们的分析将集中在这四个V上(大数据量、数据处理速度、多种数据类型和价值)。Web日志和应用程序日志经常被描述为大数据。数字视频和音乐、手持设备、互联网不断增长的需求使得被存储的数据量急剧增加。这些示例包括点击流数据、社交网络、基于位置服务的智能手机、Web服务器日志、仪器中的数据流、实时交易数据、博客和社交媒体(如Twitter和Facebook)。
　　我们的社会正变得越来越充斥着数字信息。如今，信息从卫星广播出并且通过无线电波、电缆、光纤网络以及其他方式传送。2004年，每月的上网流量超过1EB(exabyte)，相当于1000PB(petabyte)。2011年，每月的上网流量超过27EB。EB是信息或计算机存储的单位，相当于一百万的三次方个字节。1KB(kilobyte)等于1000个字节。1MB(megabyte)等1000KB(kilobyte)。1GB(gigabyte)等于1000MB(megabyte)。1TB(terabyte)等于1000GB。1PB等于1000TB。1EB等于1000PB。
　　1.2谷歌的MapReduce算法和ApacheHadoop
　　在20世纪90年代后期，市场上有很多搜索引擎：AltaVista、微软Bing的一些前身、DirectHit、Inktomi、Yahoo和很多其他的搜索引擎。甚至还有一些元搜索引擎(如MetaCrawler)，可以结合来自多个搜索引擎的搜索结果。大多数搜索引擎试图分析Web页面的文本意义，然后创建一个Web页面的索引，可以通过使用关键词进行搜索。有些搜索引擎是采用人工分析的目录，如Yahoo。
　　谷歌超越其在搜索引擎市场上的所有竞争对手，并成为搜索引擎的领导者。谷歌通过提供比其竞争对手更好的搜索结果而获得市场份额。世界上有数以百万计的网页，还有更多的网页正在被世界各地人们创建着。谷歌创始人认识到，在万维网上识别相关的文档，基于传统的方法是不够的。基于人工的目录不能随着Web的大小而任意扩展；甚至，雅虎不得不设计使用自动化的搜索引擎，为其目录结果提供
　　附加的搜索结果。然而，传统的自动化算法也是不够的。关注于关键词及一个特定的词在一个文档中出现的频率不足以为该文档提供理想的相关性分析。谷歌的创始人认识到，在20世纪90年代，大多数的超链接是由人工在创建或更新一个网页时创建的。一个超链接中的文本通常用来描述要链接的页面。谷歌创始人意识到这个文本会给他们提供一个网页的描述信息，以至于他们可以在搜索引擎中使用这种文本作为其网页的上下文。他们进一步认识到，由于这个原因他们并不需要在其搜索引擎上处理整个万维网；他们需要处理的全部事情就是超链接以及与超链接相关联的文本，从而可以显著地减少他们需要处理和存储的信息量。
　　谷歌产生的搜索结果比基于人工目录的(如Yahoo)或者是自动化的搜索引擎(如AltaVista)所产生的结果都更好。从某种意义上说，谷歌是第一个Web2.0应用，因为谷歌通过依赖其他
　　人如何描述Web页面的超链接来为他们的搜索引擎有效地建立网页的群包。随后，谷歌为将其搜索引擎扩展到迅猛增长的万维网，在搜索检索领域做了许多其他的创新。他们最重要的一个创新是如何扩展他们的搜索索引，以涵盖万维网上巨大规模的网页。谷歌发明了一项称为MapReduce的技术，他们在2004年发表的论文中描述了这项技术。后续章节将描述谷歌文件系统(GoogleFileSystem)、BigTable、Dremel、Spanner和其他一些先进的技术。
　　2006年，DougCutting正在研究ApacheLucene(一个开源的搜索引擎)，他意识到需要一个与谷歌MapReduce技术提供的相类似的功能。然而，谷歌并没有把它的MapReduce技术提
　　供给其他人使用。因此，DougCutting开始研究一个开源的MapReduce工具，这项工作后来成为ApacheHadoop项目。Yahoo很快就认识到ApacheHadoop的价值，并聘请了DougCutting来引导他们在这个领域继续努力研发。Facebook、政府情报机构和其他组织也采用了ApacheHadoop。
　　在ApacheHadoop成功地作为一个开源项目提供MapReduce功能后，开源社区创建了基于谷歌其他研究论文的开源项目。这些项目包括HBase(基于BigTable)、Pig和Hive(基于
　　Sawzall)和Impala(基于Dremel)。
　　ApacheHadoop是一种技术，它是将在本书中大篇幅讨论的很多大数据技术的基础。目前，ApacheHadoop功能正用于以各种不同的方式来高效地、低成本和快速地存储信息，在
　　此之前这是不可能的。Hadoop不只局限于简单地对网络信息进行分析。现有的数据仓库基础设施能够继续提供分析功能，然而新的技术(如ApacheHadoop)可提
　　供用于处理信息的新功能。
　　ApacheHadoop包含两个主要组件：Hadoop分布式文件系统(HDFS)，它是用于存储信息的分布式文件系统；以及MapReduce编程框架，它用于处理信息。Hadoop能并行处理大数据集，因为HDFS和MapReduce可以扩展到数千个节点。第3章中将对ApacheHadoop进行更详细的描述。
　　……

前言/序言

　　大数据包含很多种技术，因此本书所有的作者都精通各自负责的对应的Oracle大数据产品。该团队在架构设计、大数据、商务智能、Hadoop、Java、MapReduce和平台设计等方面都拥有丰富经验。下面详细介绍每个作者的具体信息。
　　TomPlunkett是多本书的主要作者，包括OracleExalogicElasticCloudHandbook。2009年，Tom带领一个团队为美国国防部办公室实施过一个大数据研究项目。2010年，Tom与其他人合作为弗吉尼亚理工大学的计算机科学系讲授了一学期的MapReduce和其他大数据主题的课程。2012年，Tom帮助Frederick国家癌症研究实验室(FrederickNationalLaboratoryforCancerResearch)凭借Oracle大数据一体机在分析基因与癌症亚型之间的关系上赢得多项行业大奖，包括2012年政府大数据解决方案奖(从80多个提名的大数据项目中脱颖而出)，作为卓越创新者入围2013年政府卓越创新决赛，并获2013计算机世界创新奖。除了为Oracle工作外，Tom还担任弗吉尼亚理工大学计算机科学研究生的兼职讲师，并提供远程学习指导。Tom在大数据和云计算领域发表过40多次国际会议演讲。之前，Tom在IBM工作过并实施了FlieslerMeyer专利法。Tom拥有乔治·梅森大学(GeorgeMasonUniversity)的文学学士和法学博士学位、弗吉尼亚理工大学(VirginiaTech)计算机科学的理学硕士，并且已经参加学习了斯坦福大学(StanfordUniversity)管理科学与工程研究生课程(ManagementScienceandEngineering)。
　　BrianMacdonald是一位卓越的解决方案顾问，是获得Oracle认证的Oracle企业架构师。Brian在架构设计和满足不同客户需求的实施分析平台方面拥有20多年的经验，包括大数据仓库、商务智能、OLAP、Hadoop、主数据管理和ETL技术。Brian曾在数百家公司工作过，包括多家顶级的世界500强公司。Brian参与很多为了提高现有业务应用的新技术研究，并为客户提供创新的解决方案。加盟Oracle之前，Brian在InformationResources公司工作，用OLAP和数据仓库技术实现了针对贷款组合管理的复杂数学算法。Brian还非常喜欢用分析技术来分析各种体育数据。
　　BruceNelson是美国西部地区Oracle大数据的负责人，专注于Hadoop和NoSQL。他在IT行业拥有超过24年的高性能数据库系统经验，包括Oracle、OracleRAC和OracleExadata。作为Bizrate的数据库管理员和工程化总监，他对Bizrate.com的数据系统进行了全方位的重新设计并实施。在加盟Bizrate之前，Bruce是CountrywideFinancial公司数据系统架构的副总裁，他把Oracle和Linux的商用硬件引入了Countrywide公司。他还负责过制定一些围绕早期Hadoop和商用的HPCC计算的举措。在Yahoo时，Bruce带领几个开创性的重新设计和迁移的项目，包括Yahoo的高性能OracleRAC从SAN迁移到NFS上。1993年，Bruce开发了FileNet公司的互联网在线业务，创造了当时全球第一个几千元注册的Web网站之一。他接着创建了第一个数据库驱动的交互式客户网站，该网站支持客户在互联网上开放他们的服务票。
　　HelenSun是一位大数据的理论家、信息架构师，同时还是通过认证的Oracle企业架构师。Helen拥有15年以上的业务和技术管理经验，涉及财务、医疗保健、市场研究和供应链管理。她主要的专业领域是企业数据管理和信息架构，包括主数据(MDM)、数据整合(DataIntegration)、商务智能/数据仓库(BI/DW)和大数据。在Oracle工作期间，Helen协助很多大型企业完成了复杂业务和IT架构的切换。Helen是OracleInformationArchitectureFrameworkandDevelopmentProcess的主要作者，并出版过关于信息管理、数据治理和大数据的白皮书。Helen举办过一些主题研讨会，并曾在在线论坛和甲骨文全球大会(OracleOpenWorld)上担任过发言人。她还曾在全球大数据开放组会议上发表过大数据的公开演讲。
　　MarkF.Hornick是一位Oracle数据库高级分析(OracleDatabaseAdvancedAnalytics)组的总监，专注于OracleREnterprise(ORE)、OracleRConnectorforHadoop(ORCH)和OracleRDistribution(ORD)。他同时为Oracle内部与外部的客户在Oracle数据库、Exadata或大数据一体机(BigDataAppliance)使用R的应用提供技术支持和专业建议，同时也会参与一些针对R与SAS的竞争分析和性能测试。Mark是JavaDataMining:Strategy,Standard,andPractice一书的合著者。他于1999年Oracle收购ThinkingMachinesCorp时加入了Oracle数据挖掘技术组。Mark是IOUG商务智能仓库和分析(BIWA)SIG的创始人之一，目前担任Oracle顾问。他在OracleOpenWorld、Collaborate、BIWASummit和R用户大会useR上做了很多培训。Mark先后获得Rutgers大学(RutgersUniversity)的计算机科学专业学士学位和布朗大学(BrownUniversity)的计算机科学专业硕士学位。
　　KeithLaker在Oracle已经工作了15年以上，现在是数据仓库和大数据的高级产品经理。他拥有丰富的大数据、数据仓库和商务智能经验，而且承担多种工作角色，包括售后咨询、客户支持和产品管理。Keith在全球很多Oracle用户大会上发表过演讲，并且交付了很多演讲稿，涉及数据仓库、数据整合、多维建模和大数据等主题。在加盟Oracle之前，Keith在InformationResources公司工作，并为其实施了涉及全球客户范围的OLAP和数据仓库系统。
　　KhaderMohiuddin是Oracle公司位于北美中部地区的大数据负责人。Khader在Oracle工作了6年时间，然后在SunMicrosystems工作6年时间，在Accenture工作过3年，并于2010年再次加入Oracle。他现在的工作职责是利用他20年的企业软件、硬件和行业咨询经验设计合理的大数据解决方案，从而解决客户复杂的业务问题。Khader是一位信息架构专家，在石油天然气、电力、电信、财务和自动化工业等领域拥有丰富的解决方案开发经验，并开发实现了一个涵盖数据仓库、高级分析和高并发在线系统的创造性解决方案。Khader于1996年第一次加入Oracle，供职于Oracle咨询部门位于纽约的分部，在此期间，他为几大主要电信公司解决了复杂数据库系统的扩展问题。他在1997年转到位于加利福尼亚州RedwoodShores的Oracle数据库研发组，为全球范围的客户设计并赢得了很多基准测试。他在2002年作为高级工程师加入SunMicrosystems，负责在Sun平台的内核上优化Oracle数据库和Oracle企业应用。在最初的Exadata架构设计、整合Sun硬件和Oracle数据库技术理论论证阶段，他扮演了关键角色。Khader在埃森哲工作期间，作为一位业务转型架构人员，为世界100强的客户设计了私有云/公有云、DbaaS和IaaS等。他帮助这些公司运用最新的技术实现了业务的高效运营，从而节省了数百万美元的成本。此外，Khader还写过一些白皮书并在一些当地的Hadoop用户大会上发表过演讲。
　　DebraL.Harding是一位拥有20年以上工作经验的技术专家，她具备丰富的与世界500强一起合作的行业经验，并且这些公司都把他的想法付诸实现。作为Oracle业务架构师和大数据先驱，Debra与决策管理团队一起合作改善情况，降低维护成本和复杂性，从而获得竞争优势。作为一个狂热的旅行家，Debra已经完成了跨悉尼港的大桥攀登，并尽情享受在法国阿尔卑斯山的滑雪时刻，最近她和她的小女儿完成了在阿拉斯加的哈丁冰原上的徒步旅行。然而，Debra最成功的经历却是癌症第4阶段的幸存者，正是这段经历促使她在生命科学行业运用了大数据分析技术来驱动医学的发展。在2008年，仅有2%的人被确诊为患有这种类型的癌症，这就意味着可以被用来收集和研究用于治疗该癌症的信息非常少。Debra认为通过大数据分析技术的能力分析更多的数据集，将会更加事半功倍，科学家们将从那些更小的模式中识别出异常情况，并且大家一起合作来找到更好的办法从而改变生活。
　　DavidSegleau是Oracle的产品总监，负责管理OracleNoSQL数据库、OracleBerkeleyDB和Oracle数据移动服务器(OracleDatabaseMobileServer)。他以SleepycatSoftware(makersofBerkeleyDB)工程学副总裁的身份加入Oracle。他在该行业拥有30年以上的经验，负责和管理技术产品团队。他具备丰富的数据库技术能力，既做过客户，也当过供货商。David做过很多技术公司的管理人员，其中包括Britton-Lee、ShareBase、Teradata、Illustra、Informix、ANTsSoftware、SleepycatSoftware和目前所在的Oracle。David花费了他职业生涯绝大部分时间去开创和创新技术。他非常享受在做产品研发时，会同时考虑客户的业务需求和产品开发的专业知识，因此创造了能解决实际问题的产品和技术。
　　为这个项目大家付出了巨大的努力。在此感谢本书所有的作者，他们在自己本职工作之余付出了宝贵时间。同时感谢Oracle和支持本项目所有大数据邮件列表里的成员。感谢技术编辑JP和Dan，他们提供了很多建议和注解。感谢Oracle出版社、McGraw-Hill编辑和制作团队，尤其感谢PaulCarlstroem和AmandaRussell。感谢DougCutting、MargoSeltzer、MelliyalAnnamalai、PeterJeffcock和许多为此书提供过建议、反馈意见和材料的人。最后，有太多的人需要单独感谢，我们在此就不再一一提及了。
　　来自TomPlunkett的致谢
　　感谢Laura、Daniel、Daphne、我的父母和我其他的家庭成员，因为为写此书而占用了我陪伴他们的时间。同时也感谢与我合作的作者、技术编辑、我的同事、我的管理团队、我的编辑和每一位为此书做过努力和付出的人。特别感谢RizwanJaka、MarkComishock、KenCurrie、PeterDoolan、MarkC.Johnson、LaurenFarese、MarkA.Johnson和FrancoAmalfi，感谢他们对我的支持和鼓励。
　　来自BrianMacdonald的致谢
　　感谢Yvette、Julianna和Jazzy对此书的理解和工作的激情。没有你们的支持，我肯定无法完成本书。着重感谢MelliyalAnnamalai的技术专长，并且乐此不疲地帮助我解决所有细节问题。感谢我所有的同事和合作者，他们提供了很多宝贵的见解，而且作为我的智囊团从大量的建议中筛选有价值的意见；尤其是JimFisher、BruceNelson和MartyGubar。我要感谢NugeAjouz和CraigLockwood多年的支持，促使我仍有机会保持着工作的激情，最终完成了这本书。最后，感谢TomPlunkett在我创作这本书过程中给予的专业指导。
　　来自BruceNelson的致谢
　　我要衷心感谢我的妻子HilaryNelson和我的儿子Zachary，他们大力支持和理解我选择的道路，而且我如此痴迷信息技术的世界。感谢BrianMacdonald和TomPlunkett鼓励我涉足本书的项目。我还要感谢JeffNeedham和EdGasiorowski的帮助和长时间的讨论，他们给予的很多见解和灵感最终都融入到本书里。最后，我们都要感激热衷于Hadoop社区的无名英雄们。
　　来自HelenSun的致谢
　　感谢我丈夫WilliamSmith和儿子NathanielSmith给予的真诚理解，以及我所有家庭成员在我写作本书过程中不断给予的支持和理解。
　　同时也感谢我的父母，我的父亲HuazhiSun和心爱的已故的母亲HongyuanLin，他们始终给我灌输学习的热情和追求成功的精神，这些都不断地推动我追求更高的生活和工作目标。
　　来自KhaderMohiuddin的致谢
　　感谢我的父母和兄弟姐妹，他们的辛勤工作为我提供了良好的基础和指导，使我的生活和事业在这个阶段取得成功。感谢我的妻子和孩子包容我在写作这本书上用了大量假期和业余时间。我同时也感谢JaccoDraaijer、Jean-PierreDijcks、DanMcClary和BrianMacdonald对我所写材料的技术评阅，同时还要感谢一直鼓励我开拓进取的TomPlunkett。还要感谢在CenveoPublishingServices工作的NidhiChopra和在McGraw-HillProfessional的Oracle出版社的所有工作人员，他们负责管理并控制在每个时间点上把Oracle工程化系统中最新的创新产品特征加入到本书中。
　　第Ⅰ部分：引言
　　第1章：大数据简介?描述大数据的重要性，为什么现在是热门技术，什么地方适合用到Oracle的技术。
　　第2章：大数据的价值?描述大数据价值的定义。该章会提到一个深度大数据案例的列表，这些案例在后续章节会被引用。
　　第Ⅱ部分：大数据平台
　　第3章：ApacheHadoop平台?描述Hadoop的软硬件基础和它运行在商用Linux平台上的能力。
　　第4章：选择Appliance的理由?提供运行在Oracle大数据一体机(BigDataAppliance)和自建ApacheHadoop集群(在常用硬件之上)的性能对比。该章节提供总拥有成本的计算(TCO)并讨论不同分析类型的影响。
　　第5章：BDA配置、部署架构和监控?描述配置选项：只选Hadoop、只选NoSQL、选Hadoop和NoSQL、多台BDA以及用BDArack连接Exadata。同时将描述内存选项，按需分配容量、NameNode节点高可用性和多租户。该章还涵盖管理和监控Hadoop集群的工作。
　　第6章：为大数据集成数据仓库和分析基础架构?描述为了扩展访问信息的能力，将大数据环境连接到传统的数据仓库系统。
　　第7章：BDA连接器?描述连接器是什么以及如何使用它们。该章包括代码示例、配置选项和性能对比。该章包含但不仅限于描述OracleSQLConnectorforHDFS和OracleLoaderforHadoop的架构、优点/案例。
　　第8章：OracleNoSQL数据库?概要介绍NoSQL技术和NoSQL应用，也包含NoSQL用例。该章涵盖OracleNoSQLDatabase架构、API、操作功能和选项，还介绍安装、配置和运行。
　　第Ⅲ部分：分析信息和制定决策
　　第9章：数据库库内分析：快速交付彰显时间价值?介绍库内分析和预测分析。涵盖OracleDataMining、OracleDataMiner、文本挖掘和数据挖掘算法、Oracle统计功能；介绍ORE、OracleOLAP、spatial分析、semantic/graph分析以及从库内分析集成到数据转换。
　　第10章：使用R分析数据?介绍OpenSourceR、R工作环境、IDE、来自于ComprehensiveRArchiveNetwork(CRAN)生态系统包、趋势和限制；R脚本的剖析；OracleREnterprise(ORE)和开源R的限制和定位；ORE架构和包；ORE安装和配置步骤(简述)；使用ORE各种特性的示例，包括透明层和运行嵌入式R；OracleRConnectorforHadoop的好处和特性；ORCH的示例。
　　第11章：Endeca信息发现?介绍Endeca的历史、Endeca产品套件以及各种丰富的功能和高级的关键特性；介绍EndecaInformationDiscovery平台；Endeca和商务智能(BusinessIntelligence)互补的技术；Endeca信息发现——Studio的架构、MDEX引擎、InformationIntegration套件；重点针对ApacheHadoop数据的统一内容套件(unifyingdiversecontentsets)。
　　第12章：大数据治理?介绍企业数据治理的概要，讨论大数据的好处，描述大数据给数据治理带来的新挑战，介绍怎么针对大数据来治理数据，并使其成为企业数据治理整体的紧密相连的一部分。
　　第13章：大数据开发架构和路线图?提供切实可行的大数据开发架构，并且采用渐进的方式。主要讲述大数据对企业信息架构的影响，建立稳定的大数据架构的开发流程，新的管理流程，基于新架构的技能要求，以及一些最佳实践。

开启数据驱动的未来：洞察、创新与价值实现在这个信息爆炸的时代，数据已不再仅仅是记录，而是驱动企业决策、加速业务创新、塑造竞争优势的核心引擎。然而，数据的庞大规模、多样性以及急剧增长的速度，给传统的数据处理和分析方式带来了前所未有的挑战。海量数据的背后，隐藏着巨大的价值，等待着有能力的组织去挖掘和释放。本书将带您踏上一段关于如何驾驭数据浪潮，将原始数据转化为战略洞察，并最终实现企业级价值的探索之旅。一、数据时代的挑战与机遇我们身处一个数据驱动的时代。从社交媒体上的用户互动，到物联网设备的传感器读数，再到企业内部的交易记录，数据以指数级的速度增长。这种增长不仅体现在数量上，更体现在其多样性：结构化数据（如数据库中的表格）、半结构化数据（如XML、JSON文件）以及非结构化数据（如文本、图片、视频）。如何有效地存储、管理、处理和分析这些海量、异构的数据，成为摆在企业面前的严峻课题。传统的数据仓库和商业智能工具，虽然在过去发挥了重要作用，但面对PB甚至EB级别的数据量，以及实时分析的需求时，显得力不从心。数据孤岛、处理瓶颈、分析延迟等问题，严重阻碍了企业对数据价值的充分利用。然而，挑战与机遇并存。谁能率先掌握驾驭大数据的能力，谁就能在激烈的市场竞争中赢得先机，实现业务的飞跃式发展。二、构建强大的数据基础设施：基石的构建要实现数据价值的最大化，首先需要构建一套健壮、灵活、可扩展的数据基础设施。这套基础设施是所有后续数据处理和分析活动的基础，其设计和实施至关重要。分布式存储的演进：传统单体存储无法满足大数据量的需求。分布式存储技术应运而生，能够将海量数据分散存储在多台服务器上，实现高可用性和线性扩展。我们将深入探讨各种分布式存储的原理、架构和应用场景，包括但不限于分布式文件系统（如HDFS）以及对象存储解决方案，理解它们如何应对不同类型数据的存储挑战。批处理与流处理的协同：数据的价值往往体现在其时效性。对于历史数据的分析，批处理依然是重要手段；而对于需要实时响应的业务场景，流处理则扮演着关键角色。本书将详细阐述批处理框架（如MapReduce、Spark）和流处理引擎（如Storm、Spark Streaming、Flink）的工作原理，以及如何将两者有机结合，构建既能处理历史深度分析，又能实现实时洞察的统一数据平台。数据仓库与数据湖的融合：随着数据量的激增和多样化，传统的结构化数据仓库已无法满足所有需求。数据湖作为一种更为灵活的数据存储和管理方式，能够存储原始的、未经处理的各种类型数据，为后续的探索性分析和机器学习提供源泉。我们将探讨数据仓库与数据湖在现代数据架构中的角色，以及如何实现两者的有效融合，构建统一的数据管理体系。云原生数据架构的趋势：云计算的普及为大数据解决方案提供了前所未有的弹性、可扩展性和成本效益。我们将审视云原生数据架构的优势，包括按需付费、托管服务、无服务器计算等，以及如何利用云平台提供的丰富大数据服务，加速构建和部署数据解决方案。三、深度数据分析：从数据到洞察基础设施搭建完毕后，接下来的关键在于如何从海量数据中提取有价值的洞察。这需要一系列先进的数据分析技术和方法。 SQL的强大扩展： SQL作为关系型数据库的标准查询语言，其能力在分布式环境中得到了极大的扩展。我们将探讨如何在分布式查询引擎（如Hive、Impala、Presto）上高效地使用SQL进行大数据分析，以及SQL在处理海量结构化和半结构化数据方面的优势。内存计算的加速：传统磁盘I/O成为数据分析的瓶颈。内存计算技术，以Spark为代表，能够将数据集加载到内存中进行计算，极大地提高了数据处理和分析的速度。我们将深入理解Spark的核心组件和优化技巧，使其在各种数据分析任务中发挥最大效用。可视化探索与仪表盘构建：复杂的数据分析结果需要以直观、易懂的方式呈现。数据可视化工具能够帮助分析师和业务用户快速理解数据模式、趋势和异常。本书将介绍如何利用强大的可视化工具，构建交互式仪表盘，让数据故事娓娓道来，赋能决策者。机器学习与人工智能的赋能：机器学习和人工智能技术是大数据分析的终极目标之一。通过构建预测模型、分类模型、聚类模型等，我们可以发现隐藏在数据中的模式，预测未来趋势，甚至实现自动化决策。我们将涵盖常用机器学习算法的原理和应用，以及如何利用大数据平台进行模型训练和部署。图数据分析的兴起：现实世界中，许多关系和关联可以用图结构来表示，例如社交网络、知识图谱、交易关系等。图数据库和图分析技术能够有效地处理和分析这些复杂的关系数据，揭示隐藏的连接和影响力。我们将探讨图数据的建模、查询和分析方法。四、驱动业务创新与价值实现数据分析的最终目的是驱动业务增长和创新。本书将通过案例分析，展示如何将数据分析能力转化为具体的业务价值。精准营销与客户洞察：通过分析用户的行为、偏好和画像，企业可以实现更精准的营销活动，提升客户体验，增加客户忠诚度。风险管理与欺诈检测：在金融、保险等领域，大数据分析能够帮助企业识别潜在的风险，及时发现和防范欺诈行为，降低损失。供应链优化与运营效率提升：对供应链各环节数据的分析，可以识别瓶颈，优化库存，提高物流效率，降低运营成本。产品创新与服务升级：通过分析用户反馈、市场趋势和竞品信息，企业可以更好地理解用户需求，推动产品创新和服务升级，保持市场竞争力。物联网数据价值挖掘：物联网设备产生海量时序数据，通过对这些数据的分析，可以实现设备预测性维护、智能监控、能源优化等，释放物联网的巨大潜能。五、走向数据驱动的组织文化技术和工具固然重要，但更重要的是培养一个数据驱动的组织文化。这需要领导层的支持、团队的协作以及员工的数据素养的提升。数据治理与质量保障：确保数据的准确性、完整性和一致性是数据分析有效性的前提。我们将探讨数据治理的最佳实践，包括元数据管理、数据血缘追踪、数据安全与隐私保护等。跨部门协作与数据共享：打破部门间的数据壁垒，建立通畅的数据共享机制，促进各部门之间的协同分析，能够最大化数据价值。人才培养与技能提升：培养具备数据科学、数据工程、业务分析等复合型人才，是实现数据驱动的关键。我们将探讨如何建立有效的培训和发展机制。数据伦理与合规性：在充分利用数据价值的同时，必须高度重视数据伦理和合规性问题，遵守相关法律法规，保护用户隐私。结语驾驭大数据，不仅仅是技术上的挑战，更是一场深刻的战略转型。本书旨在为您提供一套全面的指导，从基础设施的构建，到分析技术的掌握，再到业务价值的实现，帮助您循序渐进地构建强大的数据能力，引领企业走向数据驱动的未来，在数字化浪潮中乘风破浪，不断创新，创造更辉煌的成就。

用户评价

评分☆☆☆☆☆

我是一名刚入行不久的大数据工程师，在学校里学到的很多基础知识，在实际工作中总觉得不够用，尤其是在面对大型企业复杂的数据架构时。朋友推荐了这本《Oracle大数据解决方案》，说它非常权威，能帮助我建立起更全面的大数据知识体系。我比较关注书中关于Oracle如何利用其成熟的数据库技术，来应对海量数据的存储和查询性能问题。此外，我一直对实时流式数据处理非常感兴趣，不知道书中是否会详细讲解Oracle在这一领域的解决方案，比如如何构建实时的分析平台，以及如何实现数据的高可用性和低延迟。如果书中能有相关的架构设计图和详细的部署指南，那对我来说就太有价值了。这本书的出版，无疑为像我这样的新人提供了一个宝贵的学习资源，希望通过这本书，能够快速提升自己的实战能力，成为一名合格的大数据工程师。

评分☆☆☆☆☆

对于我们这种规模的企业来说，数据的体量和复杂性是呈指数级增长的，如何有效地管理和利用这些数据，已经成为我们业务增长的关键瓶颈。我们一直以来都依赖Oracle数据库，其稳定性和可靠性毋庸置疑，但如何将Oracle的能力扩展到全新的大数据领域，是我们一直在探索的方向。《Oracle大数据解决方案》这本书的出现，恰好解决了我们当前的燃眉之急。我非常期待书中能够详细阐述Oracle在整合Hadoop、Spark等开源大数据技术方面的策略，以及如何通过Oracle的统一平台，实现数据的集中管理和高效分析。此外，书中关于如何利用Oracle的技术来构建数据仓库、数据湖，以及如何进行复杂的OLAP分析，对我来说至关重要。如果书中能提供一些关于成本效益分析的建议，以及企业级大数据项目的实施路线图，那就更完美了。

评分☆☆☆☆☆

说实话，我是一名在传统IT领域摸爬滚打了十多年的老兵，大数据对我来说，既是机遇也是挑战。在看到《Oracle大数据解决方案》这本书的时候，我就觉得这可能是我升级技能、跟上时代步伐的一个绝佳机会。我尤其被书中“解决方案”这三个字所吸引，它意味着不仅仅是理论的堆砌，更是实践的指导。我猜测书中会详细介绍Oracle在Hadoop生态系统、NoSQL数据库、实时数据处理等方面的产品和服务，并且会通过大量的案例分析，展示如何在实际业务场景中应用这些技术。我对书中关于数据治理、数据安全、以及如何从海量数据中挖掘商业价值的部分充满了好奇。很多时候，我们拥有大量数据，但不知道如何有效利用，甚至不知道从何下手，这本书的出现，就像黑暗中的一盏明灯，指引我们前进的方向。迫不及待地想深入学习，看看Oracle是如何将传统数据库的稳定可靠与大数据技术的灵活高效相结合的。

评分☆☆☆☆☆

刚拿到这本《Oracle大数据解决方案》，就被它厚实的体积和精美的装帧所吸引。封面设计简洁大气，散发着专业的气息。虽然我还没有深入研读，但仅仅是翻阅目录和前言，就已经感受到这本书背后蕴含的巨大价值。它似乎囊括了Oracle在处理海量数据方面的种种策略和技术，从数据的采集、存储、处理到分析，再到最终的应用，逻辑清晰，条理分明。我尤其期待书中关于Hadoop、Spark等开源技术与Oracle数据库如何深度融合的部分，这正是我目前工作中最需要解决的痛点。一直以来，Oracle在企业级数据库领域拥有无可匹敌的地位，但随着大数据时代的到来，如何将其强大的数据管理能力延伸至海量、多样化的非结构化数据，一直是业界关注的焦点。我相信这本书会为我们提供一套完整的、可落地的解决方案，帮助企业更好地驾驭大数据带来的机遇与挑战。包装也很严实，物流速度也超乎我想象，这点必须点赞！

评分☆☆☆☆☆

我是一名资深的数据科学家，长期从事数据挖掘和机器学习算法的研究。在工作中，我经常需要处理 TB 甚至 PB 级别的数据，对数据的存储、处理和分析效率有着极高的要求。《Oracle大数据解决方案》这本书，从书名上看，就预示着它将提供一套系统性的方法论，来解决我们在大数据时代面临的诸多挑战。我尤其关注书中关于Oracle如何赋能机器学习和人工智能的篇章，例如如何利用Oracle的技术栈来构建高效的数据预处理流水线，以及如何优化模型训练和部署的性能。我对书中关于如何利用Oracle的分析工具，例如Oracle Analytics Cloud，来进行深度的数据探索和可视化分析也充满了期待。一本好的技术书籍，不仅仅是技术的罗列，更重要的是能够激发读者的思考，提供解决问题的思路。希望这本书能为我带来新的启发，进一步提升我的数据科学研究能力。

评分☆☆☆☆☆

这个书讲的不错，好好学习

评分☆☆☆☆☆

书很早前就到了。忘记评价了。发放开始看。目录规划的还行。具体内容需要仔细研究。好评！

评分☆☆☆☆☆

商品蛮好下次再买

评分☆☆☆☆☆

非常好非常好非常好非常好非常好非常好

评分☆☆☆☆☆

东西挺好的，不错，还可以！

评分☆☆☆☆☆

好好学习，天天向上，努力学习将来找个好工作