编辑推荐
朝乐门老师的《数据科学理论与实践》是一本值得推荐的优秀教材。
陈国良(中国科学院院士)
朝老师的《数据科学理论与实践》是一本通俗易懂且充满智慧,读了之后有收获与感动的精品教材,让我觉得相见恨晚!
庞艳蓓(哥伦比亚大学硕士研究生/中国人民大学本科生)
Data Science is transforming every sphere of human endeavor. His book is an invaluable resource to anyone who wants to create the future. (数据科学正在改变着人类探索的每一个领域。对于致力于创造未来的人们,朝乐门老师的这本书是无价之宝。)
Leon Katsnelson (IBM全球战略合作总监与数据科学社区首席技术官)
内容简介
本书重点讲解数据科学的核心理论与代表性实践,在编写过程中充分借鉴了国外著名大学设立的相关课程以及全球畅销的外文专著,而且也考虑到了国内相关课程定位与专业人才的培养需求。
全书共包括8个部分: 数据科学的基础理论、理论基础、流程与方法、技术与工具、数据产品及开发、典型案例及实践、R语言学习笔记与参考手册以及数据科学的重要资源。
本书的读者范围广,可以满足数据科学与大数据技术、计算机科学与技术、管理工程、工商管理、数据统计、数据分析、信息管理与信息系统等多个专业的老师、学生(含硕士生和博士生)的教学与自学需要。作者以本教材为基础,将提供MOOC公开课,助力培养数据科学领域的人才。
作者简介
朝乐门,1979年生,中国人民大学数据工程与知识工程教育部重点实验室、信息资源管理学院副教授,博士生导师;章鱼大数据首席数据科学家;中国计算机学会信息系统专委员会委员、ACM高级会员、国际知识管理协会正式委员、全国高校大数据教育联盟大数据教材专家指导委员会委员;主持完成国家自然科学基金、国家社会科学基金等重要科学研究项目10余项;参与完成核高基、973、863、国家自然科学基金重点项目、国家社会科学基金重大项目等国家重大科研项目10余项;获得北京市中青年骨干教师称号、国际知识管理与智力资本杰出成就奖、Emerald/EFMD国际杰出博士论文奖、国家自然科学基金项目优秀项目、中国大数据学术创新奖、中国大数据创新百人榜单、中国人民大学优秀博士论文奖等多种奖励30余项。朝乐门是我国第一部系统阐述数据科学理念、理论、方法、技术和工具的重要专著——《数据科学》(清华大学出版社,2016)的作者,也是数据科学与大数据技术专业*个领域本体“DataScienceOntology”研发团队的总负责人。
目录
第1章基础理论
如何开始学习
1.1术语定义
1.2研究目的
1.3发展简史
1.4理论体系
1.5基本原则
1.6数据科学家
如何继续学习
习题
参考文献
第2章理论基础
如何开始学习
2.1数据科学的学科地位
2.2统计学
2.3机器学习
2.4数据可视化
如何继续学习
习题
参考文献
第3章流程与方法
如何开始学习
3.1基本流程
3.2数据加工
3.3数据审计
3.4数据分析
3.5数据可视化
3.6数据故事化
3.7项目管理
如何继续学习
习题
参考文献
第4章技术与工具
如何开始学习
4.1技术体系
4.2MapReduce
4.3Hadoop
4.4Spark
4.5NoSQL与NewSQL
4.6R与Python
4.7发展趋势
如何继续学习
习题
参考文献
第5章数据产品及开发
如何开始学习
5.1定义
5.2主要特征
5.3关键活动
5.4数据柔术
5.5数据能力
5.6数据战略
5.7数据治理
如何继续学习
习题
参考文献
第6章典型案例及实践
如何开始学习
6.12012年美国总统大选
6.2统计分析
6.3机器学习
6.4数据可视化
6.5SparkR编程
如何继续学习
习题
参考文献
附录AR语言学习笔记与参考手册
学习与参考指南
1. R变量定义方法
2. R语句的写法
3. R中的赋值语句
4. R的文件读写路径——当前工作目录
5. R的变量查找机制——搜索路径
6. R中查看帮助的方法
7. R区分大小写字母
8. R的注释
9. R的语句
10. R中的变量命名规范
11. R中的关键字/保留字
12. R中的默认数据类型
13. R中数据类型的判断与强制类型转换
14. R中的向量
15. R中的列表
16. R中的数据框
17. R中的因子类型
18. R中的循环语句
19. R中的选择语句
20. R中的特殊运算符
21. R中的快速生成数列的方法
22. R中自定义函数
23. R中常用的数学函数
24. R中的字符串处理函数
25. R中的常用统计函数
26. R中的随机数
27. R包的用法
28. R中的矩阵
29. R中的数组
30. R中的面向对象编程
31. R中的S4类
32. R中的数据可视化
33. R的输入输出
34. R中的正则表达式
35. R的数据集
36. R第三方包——R的灵魂
37. 基于R的数据加工
附录B数据科学的重要资源
1. 学术期刊
2. 国际会议
3. 研究机构
4. 课程资源
5. 硕士学位项目
6. 专家学者
7. 相关工具
附录C术语索引
后记
图目录
图1��1DIKW金字塔2
图1��2数据与数值的区别3
图1��3大数据的本质4
图1��4大数据的特征5
图1��5DIKUW模型及应用8
图1��6数据洞见8
图1��7业务数据化与数据业务化9
图1��8常用驱动方式9
图1��9数据的层次性9
图1��10大数据生态系统10
图1��11Gartner技术成熟度曲线11
图1��12数据科学的萌芽期(1974—2009年)11
图1��13数据科学的快速发展期(2010—2013年)12
图1��14数据科学的逐渐成熟期(2014年至今)13
图1��15数据科学的理论体系14
图1��16数据科学的主要内容15
图1��17数据科学的“三世界原则”16
图1��18数据科学的“三个要素”及“3C精神”17
图1��19数据范式与知识范式的区别18
图1��20数据管理范式的变化18
图1��21大数据的资产属性19
图1��22常用驱动方式20
图1��23CAPTCHA项目21
图1��24ReCAPTCHA项目21
图1��25数据与算法之间的关系22
图1��26BellKors Pragmatic Chaos团队获得Netflix奖23
图1��27Netflix奖公测结果23
图1��28RStudio中编辑Markdown的窗口25
图1��29数据科学家团队28
图1��30学习数据科学的四则原则29
图2��1数据科学的理论基础35
图2��2统计方法的分类(目的与思路视角)37
图2��3统计学中的数据推断37
图2��4数据统计方法的类型(方法论视角)38
图2��5数据统计基本方法38
图2��6元分析与基本分析39
图2��7GFT预测与美国疾病控制中心数据的对比40
图2��8GFT估计与实际数据的误差(2013年2月)40
图2��9大数据时代的思维模式的转变41
图2��10西洋双陆棋42
图2��11自动驾驶42
图2��12机器学习的基本思路42
图2��13机器学习的三要素44
图2��14机器学习的类型45
图2��15KNN算法的基本步骤46
图2��16决策树示例——识别鸟类48
图2��17感知器示例50
图2��18前向神经网络50
图2��19归纳学习与分析学习52
图2��20增强学习53
图2��21IBM Watson54
图2��22Pepper机器人54
图2��23机器学习及其应用55
图2��24Anscombe四组数据的可视化57
图2��25John Snow的鬼地图(Ghost Map)58
图3��1数据科学的基本流程62
图3��2量化自我63
图3��3整齐数据与干净数据的区别64
图3��4整齐数据示意图64
图3��5残差67
图3��6数据分析的类型68
图3��7Analytics 1.0~3.069
图3��8数据加工方法70
图3��9数据审计与数据清洗71
图3��10缺失数据的处理步骤72
图3��11冗余数据的处理方法72
图3��12数据分箱处理的步骤与类型73
图3��13均值平滑与边界值平滑74
图3��14内容集成76
图3��15结构集成76
图3��16数据脱敏处理77
图3��17数据连续性的定义及重要性81
图3��18可视化审计82
图3��19Gartner分析学价值扶梯模型83
图3��20冰激凌的销量与谋杀案的发生数量84
图3��21数据分析的类型86
图3��22拿破仑进军俄国惨败而归的历史事件的可视化87
图3��23可视化分析学的相关学科87
图3��24可视化分析学模型88
图3��25数据可视化的方法体系89
图3��26视觉图形元素与视觉通道89
图3��27雷达图示例89
图3��28齐美尔连带89
图3��29视觉隐喻的示例——美国政府机构的设置90
图3��30地铁路线图的创始人Henry Beck91
图3��31Henry Beck的伦敦地铁线路图91
图3��32视觉突出的示例92
图3��33完图法则的示例92
图3��34视觉通道的选择与展示94
图3��35视觉通道的精确度对比94
图3��36视觉通道的可辨认性——某公司产品销售示意图95
图3��37视觉通道的可分离性差95
图3��38上下文导致视觉假象196
图3��39上下文导致视觉假象296
图3��40对亮度和颜色的相对判断容易造成视觉假象的示例96
图3��41数据可视化与数据故事化描述97
图3��42数据的故事化描述及故事的展现98
图3��43项目管理的主要内容101
图3��44数据科学项目的基本流程102
图4��1大数据产业全景图107
图4��2基础设施108
图4��3分析工具109
图4��4企业应用109
图4��5行业应用110
图4��6跨平台基础设施和分析工具110
图4��7开源系统111
图4��8数据源与Apps111
图4��9数据资源111
图4��10MapReduce执行过程113
图4��11MapReduce对中间数据的处理116
图4��12以MapReduce为核心和以YARN为核心的软件栈对比118
图4��13下一代MapReduce框架118
图4��14Apache Hadoop官网119
图4��15Apache Hadoop生态系统119
图4��16Hadoop MapReduce数据处理流程121
图4��17Apache Hive官网122
图4��18Apache Pig官网123
图4��19Apache Mahout官网124
图4��20Apache HBase官网125
图4��21HBase与Hadoop项目125
图4��22HBase逻辑模型126
图4��23Apache Zookeeper官网127
图4��24Apache Flume官网127
图4��25Apache Sqoop官网128
图4��26Spark 技术架构130
图4��27Spark执行流程130
图4��28Spark Scheduler134
图4��29传统关系数据库的优点与缺点136
图4��30关系数据库与NoSQL数据库之间的关系138
图4��31NoSQL数据分布的两个基本途径139
图4��32分片处理140
图4��33主从复制141
图4��34对等复制142
图4��35数据不一致性142
图4��36CAP理论143
图4��37Memcached官网146
图4��38一致性散列的分配方式147
图4��39服务器增加时的变化147
图4��40计算模式的演变150
图4��41数据管理的新变化152
图5��1数据产品开发中的数据与数据柔术157
图5��2数据产品开发与数据柔术160
图5��3数据产品的多样性160
图5��4数据产品的层次性161
图5��5Google全球商机洞察(Global Market Finder)162
图5��6数据产品链162
图5��7传统产品开发与数据产品开发的区别163
精彩书摘
第5章数据产品及开发
如何开始学习
【学习目的】
【掌握】 数据产品的类型、特征及开发方法
【理解】 数据能力评估方法、数据治理的主要内容、数据柔术的基本思想
【了解】 数据战略的制定要求
【学习重点】
数据产品的开发方法
数据能力的评估方法
数据治理的重要内容
数据柔术的基本思想
【学习难点】
数据产品的设计
数据柔术的基本思想
DMM模型的应用
【学习问答】
序号我提出的疑问本章中的答案
1数据产品是什么?与传统产品之间的区别是什么?定义(5.1)、特征(5.2)
2如何开发数据产品?关键活动(5.3)、数据柔术(5.4)、数据能力(5.5)、数据战略(5.6)、数据治理(5.7)
3数据产品开发需要具备哪些基本功?数据柔术(5.4)、数据能力评估(5.5)、数据战略制定(5.6)、数据治理方法(5.7)
4数据管理与数据治理的区别是什么?数据治理与数据管理的区别(5.7)
5数据柔术是什么?如何掌握数据柔术?数据柔术(5.4)
6如何评估一个组织机构的数据管理能力?数据能力(5.5)
7如何制定一个机构的大数据战略?数据战略(5.6)
5.1定义
数据产品(Data Products)是指“能够通过数据来帮助用户实现其某一个(些)目标的产品”。数据产品是在数据科学项目中形成,能够被人、计算机以及其他软硬件系统消费、调用或使用,并满足他们(它们)某种需求的任何东西,包括数据集、文档、知识库、应用系统、硬件系统、服务、洞见、决策及它们的各种组合。需要注意的是:
数据产品开发涉及数据科学项目流程的全部活动,数据产品不仅包括数据科学项目的最终产品,而且也包括其中间产品以及副产品。例如,本书图3��1所示的数据科学的基本流程中的每个活动产生的中间产品均可称之为“数据产品”。
与传统物质产品不同的是,数据产品的消费者不仅限于人类用户,而且还包括计算机以及其他软硬件系统。其实,数据产品被计算机以及其他软/硬件系统调用和“消费”的过程是“数据转换为能源和材料的过程”,进而可以推动信息化和工业化深度融合。
数据产品的存在形式有多种,不仅包括数据集,而且还包括文档、知识库、应用系统、硬件系统、服务、洞见、决策或它们的组合。
从数据流的视角看,“数据产品的开发过程”是一个“数据加工(Data Wrangling或Data Munging)”的过程。通常,数据产品开发需要一种特殊的方法和技术——数据柔术(Data Jujitsu),如图5��1所示。
图5��1数据产品开发中的数据与数据柔术
1. 数据加工(Data Wrangling或Data Munging)
数据产品开发的关键环节是数据加工。从实现方式看,数据加工是一种数据转换过程,可分为单维度转换和多维度转换。
单维度转换。在数据加工过程中,从结构化程度、加工程度和复杂化程度等多个维度(图5��1)中选择某一维度,并在此维度上进行数据转换。例如,将非结构化数据转换为结构化数据。
多维度转换。数据加工的工作中也可以在不同维度之间进行转换,例如将零次半结构化数据转换为二次结构化数据。
需要注意的是,数据科学中的数据加工不完全等同于传统意义上的数据转换。二者的主要区别在于: 数据加工过程更强调的是将数据科学家的3C精神融入到数据转换过程,追求的是数据处理过程的创新与增值,如表5��1所示。
……
前言/序言
序
大数据时代的到来催生了一门新学科——数据科学,并在全球范围内引发了相关课程和专业建设的大讨论。核心教材的开发是课程设计与专业建设的关键环节。作为一门新兴学科,数据科学与大数据技术类课程亟待一批优秀教材来揭示其核心理论体系及代表性实践。为此,全国高校大数据教育联盟于2016年牵头成立数据科学与大数据技术教材专家指导委员会,并特邀中国人民大学朝乐门老师主持《数据科学理论与实践》一书的编写工作。
不负众望,朝乐门老师完成了一本极具特色的、高水平优秀教材。本书的主要特色包括以下四点。
一是坚持系统性与重点突出并重。本书并不是相关知识的简单汇编,不仅给出了数据科学的知识体系,而且还重点讲解了一些关键细节性知识和新知识,如数据产品开发、数据加工、数据故事化描述和数据连续性保障等。
二是重视理论与实践相结合。数据科学是一门实践性很强的课程,不但需要扎实的理论功底,而且还要具备丰富的实战经验。为此,本书吸收了国内外重要的研究进展与实践经验。
三是遵循教与学的规律。每章的开始和结尾之处分别给出了“如何开始学习”和“如何继续学习”,并以图表、小故事形式解读重要知识点,使得原本有所“枯燥”的课程变得“有趣”,不仅提升了教材的可读性,更重要的是培养了学生的学习信心与兴趣。
四是力争继承与创新相结合。本书不仅吸收了国内外相关领域的最新研究成果,而且结合作者自己的研究,有很强的系统性和前瞻性,体现了作者的科学态度、坚实理论功底和独到见解。
继《数据科学》一书出版以来,朝乐门老师专注于数据科学与大数据技术的研究,在数据科学理论与实践方面做出了诸多有益探索。他的认真负责、开拓进取、刻苦钻研的做事态度值得鼓励。在此,也希望更多的专家学者加入数据科学队伍之中,本书将是带您走进数据科学与大数据技术之门的金钥匙。
数据科学理论与实践/全国高校大数据教育联盟系列教材 电子书 下载 mobi epub pdf txt