编辑推荐
O’Reilly 媒体 总经理 Jim Stogdill 倾情作序推荐
IBM研究院首席科学家 Jeff Jonas
美国家得宝公司主席及CEO Frank Blake
美国凯悦酒店首席信息官 Mike Blake
美国职业棒球大联盟媒体公司首席技术官 Joe Choti
Kaggle公司创始人及CEO Anthony Goldbloom
佩斯大学客户智能硕士工程创始人之一 Tony Branda
联袂诚意推荐
大数据分析的时代来临了,这将是一场真正的变革。《大数据分析:决胜互联网金融时代》着眼于一些利用令人兴奋的大数据思路支持业务分析的新一代新锐企业。这是一个真正的飞跃,也是一个能实现在效率、生产力、收入和盈利能力等方面产生巨大收益的良机。
《大数据分析:决胜互联网金融时代》为企业经理和管理人员所写,使他们可以有效地利用信息资源。本书在艰深的战略理论和通俗易懂的示例之间做到平衡,对技术性很强的话题,通过故事、比喻和类比的方式使读者更容易理解和接受。作者是一位决策科学家和分析专家,通过行业的具体例子来描述大数据相关的技术,并说明大数据的价值。在介绍了大数据领域有成功实践的个人和公司之后,《大数据分析:决胜互联网金融时代》还深入研究了要在大数据领域取得成功所需要的组织和角色的构成。
内容简介
《大数据分析:决胜互联网金融时代》第1章主要介绍了大数据分析的定义和由来、大数据的重要性,以及大数据时代的历史背景和发展趋势。第2章通过对成功企业领导者的采访,详细介绍了大数据分析在信息、金融、传媒、医疗等领域的使用案例,并通过这些案例帮助读者了解如何将大数据分析方法应用到商业活动中。第3章详细介绍了大数据分析采用的一系列技术手段及案例,并指出大数据技术应用到实际生活中的一些关键问题。第4章介绍了承载大数据应用的计算、存储等底层基础设施的关键技术,并讨论了大数据计算的瓶颈及近年来涌现出的新技术。第5章详细介绍了在大数据时代商业分析的方法及涉及的关键技能,以及如何对分析结果进行归纳总结,对企业的决策产生影响。第6章主要介绍了数据科学家的定义,以及数据科学和决策科学人才培养的方法论。第7章讨论了涉及数据隐私及数据安全的相关问题。
《大数据分析:决胜互联网金融时代》可供企业经理和管理人员阅读,通过本书可以使他们学习如何有效地利用信息资源。大数据领域的相关从业者通过本书可以了解如何在大数据方向进行成功的实践。由于《大数据分析:决胜互联网金融时代》在艰深的战略理论和通俗易懂的示例之间做到了平衡,对技术性很强的话题,通过故事、比喻和类比的方式使读者更容易理解和接受,因此对大数据领域感兴趣的读者也可进行阅读。
作者简介
迈克尔·梅内里(MichaelMinelli)是一个市场和销售专家,在商业分析解决方案领域有16年的经验。他是销售和全球联盟的副总裁,万事达卡公司的信息服务顾问。
米歇尔·钱伯斯(MicheleChambers)拥有诺瓦东南大学的计算机工程学士学位和杜克大学的MBA学位。她是一位有25年技术经验的创业高管。钱伯斯女士曾经是负责IBM公司大数据分析的副总裁。
安碧嘉·帝拉吉(AmbigaDhiraj)是MuSigma公司客户交付部的经理,MuSigma是决策科学和分析解决方案的首席供应商。
内页插图
精彩书评
“完美的细节在某种程度上提供了一种洞察方法,它以真实世界的应用来洞察这个千变万化的商业世界,与你的经验背景无关。”
——弗兰克·布莱克(Frank Blake),美国家得宝公司(The Home Depot)主席及CEO
“大数据就像一堆巨大的拼图碎片。一旦从背景出发整体考虑,渐渐展开的画面将指导着更为精准的行动,终得到更好的商业成果。这本书很及时,写得也很好,它可以帮助商界和IT界的管理人士在大数据的世界加速前进。”
——杰夫·乔纳斯(Jeff Jonas),IBM研究院首席科学家
“大数据影响了所有人,而本书是适合初学者的一本与应用有关的好书。迈克尔(Michael)和他的团队通过简单、易消化的风格抓住了大数据的本质,它值得与你的整个管理团队一起分享。”
——迈克·布莱克(Mike Blake),美国凯悦酒店首席信息官(CIO)
“每天企业从各个部门产生大量的数据——网站、销售团队、社交媒体、数字图片及多媒体、交易记录等。对于商界及IT界的管理人员来说,本书是他们拥抱‘大数据世界’的好书,它能帮助他们理解大数据将如何改变商业竞争。”
——乔·焦蒂(Joe Choti),美国职业棒球大联盟媒体公司首席技术官(CTO)
“大数据正在改变现代商业社会。它决定了银行如何授权贷款,对冲基金如何交易……本书向读者清晰地解释了他们需要了解的所有知识,从大数据对于技术的意义到它如何被应用。”
——安东尼·高德布卢姆(Anthony Goldbloom),Kaggle公司创始人及CEO
“作为客户智能方面的教授,本书将帮助我的学生理解大数据的多学科本质,以及如何解决销售问题,如何为客户更好地服务,如何使他们的公司经营地更好。极力推荐阅读此书!”
——托尼·布兰达(Tony Branda),佩斯大学(Pace University)客户智能硕士工程创始人之一
目录
第1章 什么是大数据,它为什么重要?
1.1 创业的大洪水
1.2 大数据不仅仅是“大”
1.3 为什么是现在?
1.4 关键技术的融合
1.5 相对而言……
1.6 更丰富多样的数据
1.7 非结构化数据域的扩张
1.8 高层的声音
参考文献
第2章 大数据的工业实例
2.1 数字营销和离线世界
2.2 数据库营销,大数据的先驱
2.3 大数据和市场营销的新技能
2.4 欺诈和大数据
2.5 风险和大数据
2.6 信用卡风险管理
2.7 大数据和算法交易
2.8 大数据在健康医疗领域的应用
2.9 医药领域的前沿先锋
2.10 广告和大数据:从莎草纸到受众识别
2.11 从消费类产品作为入口
参考文献
第3章 大数据技术
3.1 房间里的大象:Hadoop并行计算世界
3.2 新旧技术对比
3.3 数据发现:沿着人类思维方式而工作
3.4 大数据分析的开源技术
3.5 云计算和大数据
3.6 预测分析崭露头角
3.7 软件即服务(SaaS)BI
3.8 移动商业智能将成为主流
3.9 众包分析
3.10 防火墙外部分析及跨防火墙分析
3.11 R&D;方法帮助吸取新技术
3.12 大数据技术术语
3.13 二进制数据
参考文献
第4章 信息管理
4.1 大数据基础
4.2 大数据计算平台
4.3 大数据计算
4.4 更多关于大数据存储
4.5 大数据计算的局限性
4.6 大数据的新兴技术
第5章 商业分析
5.1 大数据分析的“最后一英里”
5.2 智能地理信息会让你的生活更美好
5.3 听:是信号还是噪声?
5.4 数据分析的实际使用
5.5 从生产到消费
5.6 可视化:如何将数据分析变得可用?
5.7 组织使用数据可视化作为采取即时行动的方法
5.8 从数据采样到数据分析
5.9 跳到盒子外思索
5.10 360°建模
5.11 速度需求
5.12 让我们变得具有竞争性
5.13 什么技术是有效的?
5.14 数据分析已经超越工具本身,并升级为大数据分析应用程序
参考文献
第6章 大数据行业角色
6.1 数据科学家的兴起
6.2 深度使用数学、科学以及计算机科学
6.3 10/90原则和批判性思考
6.4 分析师人才和行政支持
6.5 发展决策科学人才
6.6 数据分析的全局视图
6.7 培养决策科学人才
6.8 创建培养决策科学人才的文化
6.9 建立正确的组织结构进行有组织的分析
第7章 数据隐私与伦理
7.1 隐私涉及的主要领域
7.2 大数据抓取不是新鲜事
7.3 偏好、个性及关系
7.4 权利与义务
7.5 良心与责任意识
7.6 隐私可能是错误的焦点
7.7 数据可以匿名吗?
7.8 用户数据在情报安全部门的平衡
7.9 现在该做些什么?
参考文献
精彩书摘
另一个HDFs成为传统数据仓库的补充的原因是数据库支持的数据类型和数据存储容量的限制。通常,传统的数据库“支持”数据类型但数据一旦被存储对其进行操作则不太现实,因而导致数据仓库技术相当无用。
大数据处理涉及对大数据的操作和计算。各个传统数据库有各自不同的处理大数据的有效方法。除此之外,对于数据库软件如何有效利用底层硬件架构有着广泛的分歧。数据库软件是硬件无关的,因而不能有效利用底层硬件架构的优势。但有一些数据库软件是和硬件架构紧密绑定的,为的就是能充分利用特定硬件的处理能力来获得完全的处理能力。数据仓库专用设备就属于这一类型,由于硬件绑定的关系获得了不同程度的性能优势。
今天,用于HDFs的标准处理软件是上一章介绍过的MapRedtice。MapRedtce是一个被设计用来利用分布式处理能力的容错并行编程框架。MapRedice框架支持使用任意的编程语言(通常是lava语言)通过编程自动把正在处理的工作负载划分为更小的工作负载。
一个“并行计算框架”对大多数人来说是没有意义的,因此我们用其他可以和我们产生关联的事情来类比。例如,一个拥有10条流水线的工厂接到了生产500辆玩具卡车的订单。可以用一条流水线来生产所有的500辆卡车,或者进行任务划分让每条流水线生产50辆玩具卡车。如果每条流水线都同时开工并且全程无故障,那么每条流水线都会同时完成生产50辆卡车。这种有效的任务划分是非常明显的,因为每辆卡车都可以独立生产。但是,如果其中3条流水线只能生产(卡车)引擎,另外7条流水线只能生产卡车的挡板,那么这个任务划分就会变得更加复杂。在这种情况下,计划需要考虑到引擎生产和剩余玩具卡车生产的依赖关系。就像玩具卡车的生产,某些数据操作和计算可以独立完成。为了最大化处理吞吐量,MapReduce假设分布式的工作负载是相互独立的任务,工作负载可以被均分,就像(玩具卡车生产)任务可以被分配到10条流水线上,每条流水线生产50辆玩具卡车。然而,如果处理负载之间存在依赖关系,MapReduce框架是不知道那些依赖关系的。程序开发者需要意识到这种依赖性,然后有针对性地编程划分这些工作负载并且理解MapReduce会自动分配这些任务。这种编程方式被称为并行化编程。就像把任务分配到仅能生产引擎的流水线和剩余其他流水线的流水线生产任务分配规划更加复杂一样,并行化编程同样更加复杂。MapReduce和某些数据仓库专用设备的好处之一是更容易通过框架或数据库专用设备进行自动化处理。
MapReduce是为容错而设计,这是因为使用未知硬件的可靠性是未知的,必须有办法优雅地处理故障。容错软件被设计为可以自动恢复和处理操作故障,这使得容错软件的可靠性很高。仅使用MapReduce和许多专用数据仓库设备就是具备容错性的。
在数据持续增长时会有一些不同的典型处理流程瓶颈。第一个瓶颈就是加载数据的速度,第二个是计算分析处理的速度(或者常被称为“数字运算”),第三个是按需分析和响应业务的速度。
例如,数据可能是机器产生的,无休止的数据创建和数据增长速度可能使得数据很难被消耗。无论是操作或分析这些产生的数据都会很困难。以现实世界中的算法交易为例来说明(处理)瓶颈。对于算法交易,实时分析程序分析和处理线上产生和传输的数据。
比方说你正在使用实时的交易数据,并依据这些交易数据进行新的交易。由于数据是实时变化的,可能会对每一个实时进行的交易进行实时分析。这些分析行为会制定决策并触发诸如购买、抛售或看空。过去,大多数实时交易数据要么没有被捕获或在交易发生很长时间之后捕获用于后续分析并放人某些类型的大数据存储引擎——一个数据仓库设备或HDFS,在那儿,交易数据被以原始格式存储,昼夜连轴分析以助于改进实时的分析和行动。越快越频繁地对交易数据执行上述周而复始的操作,你的组织就能越快地学习和改讲。
……
前言/序言
大数据分析 决胜互联网金融时代 电子书 下载 mobi epub pdf txt