内容提要
本选题以科普的方式系统地阐述了大数据前沿技术与研究进展,对技术的来源、结论、对比、用途以及开源软件进行了深入浅出的描述,并不过多地涉及数学符号及基础原理。以大数据可视化为切入点,通过自然语言处理、社交网络挖掘、语义网络与知识图谱三方面非结构化数据处理技术,阐述大数据经典应用,利用基于图数据库、内存计算、分布式存储系统的大数据存储与管理作为大数据平台支撑,进而探讨基于众包技术扩充数据来源与提高数据质量,并围绕大数据环境下的隐私保护问题,探讨了大数据安全技术。
目 录
第1章 大数据可视化 1
1.1?可视化基础 2
1.1.1?可视化释义 2
1.1.2?可视化流程 5
1.1.3?可视化对象 6
1.1.4?可视化方法 10
1.2?大数据可视化介绍 36
1.2.1?大数据可视化特点 37
1.2.2?大尺度数据的可视化 38
1.2.3?快速变化数据的可视化 41
1.2.4?多变量数据的可视化 44
1.2.5?非结构化数据的可视化 50
1.2.6?大数据可视分析 53
1.3?可视化与可视分析研发资源 60
1.3.1?代表性开源与商业软件 60
1.3.2?开发工具与编程语言 61
1.3.3?可视化信息资源 62
1.3.4?部分可视化科研机构 63
参考文献 64
第2章 文本大数据处理 67
2.1 文本大数据概述 67
2.2?中文词法分析 70
2.3?句法分析 73
2.4?语义分析 74
2.5?开源项目与共享工具 75
2.6?文本大数据的部分应用 76
2.6.1?概述 76
2.6.2?基于双数组Trie树的面向微博短文本的分词 77
2.6.3?词义消歧 80
2.6.4?未登录词识别 83
2.6.5?文本分类与文本聚类 84
2.6.6?机器翻译 86
2.6.7?其他应用 87
参考文献 89
第3章 社交网络大数据挖掘 91
3.1? 概述 91
3.2?大规模异构网络集成 94
3.2.1?计算模型——COSNET 96
3.2.2?模型求解 98
3.2.3?实验结果 99
3.3?基于交互的网络机器学习 101
3.3.1?网络数据的主动交互学习 101
3.3.2?算法模型——MaxCo 102
3.3.3?网络流数据的主动交互学习 103
3.3.4?算法模型 104
3.4?基于随机路径的高效网络拓扑相似度算法 106
3.4.1?问题定义 107
3.4.2?基于随机路径的网络拓扑相似度算法——Panther 107
3.4.3?实验结果 110
3.4.4?小结 113
3.5?个体行为与网络分布的统一建模框架——M3D 113
3.5.1?研究方案 114
3.5.2?实验验证 115
3.6?总结和展望 117
参考文献 117
第4章 语义大数据——知识图谱 119
4.1?大规模知识图谱技术 119
4.1.1?知识图谱的表示及其在搜索中的展现形式 119
4.1.2?知识图谱的构建 121
4.1.3?知识图谱在搜索中的应用 126
4.1.4?总结 127
4.2?行业知识图谱工具 127
4.2.1?简介 127
4.2.2?常见的行业知识图谱 129
4.2.3?行业知识图谱的构建 131
4.2.4?行业知识图谱的应用 139
4.2.5?应用案例 141
第5章 图数据库——基于图的大数据管理 147
5.1?图数据库简介 147
5.1.1?大图数据 148
5.1.2?OLTP与OLAP 149
5.1.3?图数据模型 151
5.1.4?图查询语言 154
5.2?主流图数据库和图计算引擎 160
5.2.1?最流行的图数据库——Neo4j 160
5.2.2?分布式图数据库——Titan 161
5.2.3?基于RDF三元组库的图数据库——Blazegraph 162
5.2.4?基于Pregel框架的图计算引擎——Giraph、Hama、
GraphLab、GraphX 163
5.3?图数据库关键技术 166
5.3.1?图数据库的存储 166
5.3.2?图数据库的索引 169
5.3.3?图数据库的查询处理 172
5.4?图数据库应用 175
5.4.1?语义万维网 175
5.4.2?社会网络 176
5.4.3?生物信息学 177
第6章 内存计算——高速大数据处理的核心技术 179
6.1?内存计算技术的一个误区 179
6.2?TimesTen的设计思路 180
6.3?Apache Spark的设计思路 182
6.4?SAP HANA的设计思路 184
6.5?YunTable 4.0的产品介绍 186
6.5.1?整体架构与核心技术 186
6.5.2?MPP 188
6.5.3?列存2.0 188
6.5.4?动态数据分发 190
6.5.5?内存计算 191
6.5.6?性能和路线图 191
6.6?总结 192
第7章 分布式存储系统——大数据存储支撑技术 193
7.1?大数据对存储系统带来的挑战及其引发的变革 193
7.2?谷歌文件系统(GFS) 194
7.2.1?支持大数据集存取和离线批处理的分布式存储系统 194
7.2.2?GFS架构分析 195
7.2.3?系统交互 202
7.2.4?主节点的设计 206
7.2.5?容错和诊断 211
7.2.6?小结 214
7.3?支持海量数据和大规模并发访问的分布式对象存储
OpenStack Swift 214
7.3.1?互联网化带来新的存储需求 214
7.3.2?OpenStack Swift的特点 216
7.3.3?Swift的数据模型和架构 219
7.3.4?Swift的API 236
第8章 大数据安全技术 243
8.1?差分隐私保护方法简介 243
8.2?差分隐私研究保护方向——数据发布和数据挖掘 246
8.2.1?基于差分隐私保护的数据发布(DPDR) 246
8.2.2?差分隐私保护数据挖掘(DPDM) 247
8.3?常见隐私保护方法 247
8.3.1?差分隐私保护分类方法 247
8.3.2?差分隐私保护聚类方法 248
8.3.3?差分隐私频繁模式挖掘 249
8.4?应用案例和原型系统 249
参考文献 251
第9章 众包——数据来源与质量保证 255
9.1?众包 255
9.1.1?众包的概念和模型 255
9.1.2?众包的优劣分析 257
9.2?众包的关键技术 257
9.2.1?众包流程 257
9.2.2?任务设计 259
9.2.3?任务分配 260
9.2.4?任务动态优化 261
9.2.5?众包激励机制 261
9.2.6?众包质量保障 263
9.3?众包的成功案例和平台 264
9.3.1?知识百科众包 264
9.3.2?数据众包 264
9.3.3?创新众包 266
9.3.4?软件众包 267
9.3.5?众筹 268
9.3.6?通用智力劳动众包 269
9.3.7?中国的众包平台 269
9.4?众包研究趋势 269
9.5?总结和展望 271
参考文献 271
作者介绍
阮彤,中科院软件所博士,现任华东理工大学计算机技术研究所副所长,自然语言处理与大数据挖掘实验室主任,副教授。中国计算机学会(CCF)大数据专委会委员,中文信息处理学会"CCIR"专委会委员,中关村大数据联盟学术委员会主任委员。
前 言
大数据四个V的定义已经深入人心,然而,有关大数据的探索,无论从大数据科学角度还是应用角度,都处于早期阶段。对于普通的大数据实践者而言,利用较为成熟的大数据基础架构Hadoop、计算引擎Spark,以及诸如Weka3这样的机器学习软件,能够在一定程度上解决数据存储问题、计算与挖掘问题。
然而,对于大量的大数据探索者与实践者而言,还会碰到形形色色的问题。例如,如何合理地可视化大数据,如何实现大数据的隐私保护,如何通过信息检索技术快速在大数据中找到合适的信息等。这些问题也是学术界正在研究的问题。然而,由于产业与学术的分离、学术研究领域细分等现状,大多数从业人员无从了解此类问题的学术界研究现状,也无法判断研究成果是否已经到了可用程度。
在编者主持中关村大数据联盟的线上学术论坛活动中,各行各业的技术主管都希望能了解学术界有关大数据相关的研究方向与成果。然而,由于大数据涉及存储、安全隐私、自然语言处理、可视化等学术研究的方方面面,非编者一人能力可及。因此,在学术论坛中,我们邀请了来自不同院校、不同研究方向的大数据科研工作者,讲解他们与大数据相关的科研工作进展。
本书在论坛报告中选择了部分精华,为了书本的逻辑性与完整性考虑,又邀请了部分知名青年学者增加了部分章节,并对每章内容进行了提炼和扩充。本书综合了多名学者的智慧,使得读者可以高屋建瓴地了解大数据在不同学术研究方向的现状和最新成果。为方便读者阅读,编者与每章作者统一了写作风格,试图以科普的方式系统阐述大数据前沿技术与研究进展,对技术的来源、结论、对比、用途及开源软件进行深入浅出的描述,并不过多地涉及数学符号及基础原理。
全书以大数据可视化(第1章)为切入点,通过自然语言处理(第2章)、社交网络挖掘(第3章)、语义网络与知识图谱(第4章)三方面非结构化数据处理技术,阐述大数据经典应用;利用基于图数据库(第5章)、内存计算(第6章)、分布式存储系统的大数据存储与管理(第7章)作为大数据平台支撑;并围绕大数据环境下的隐私保护(第8章)问题,探讨了大数据安全技术;进而探讨基于众包技术(第9章)扩充数据来源与提高数据质量。通过系统、多方位地总结大数据的技术前沿,使读者可以快速了解大数据在学术方面的最新成果。
阮彤
2015年11月23日
这本书简直是一场思想的盛宴!我一直对人工智能领域充满好奇,而这本书从一个全新的角度切入了我的关注点——AI伦理。它并非直接教授我如何编写AI算法,而是深入探讨了AI在现实世界中可能引发的道德困境,比如算法偏见如何加剧社会不公,以及数据隐私在AI发展中的敏感地位。读完后,我感觉自己对AI的认识不再停留在技术层面,而是上升到了一个更宏观、更具人文关怀的高度。书中列举了大量案例,从招聘中的歧视到刑事司法中的误判,每一个都引人深思,让我不禁开始反思自己在日常生活中,是否也曾无意识地参与或助长了这些不公平。作者的笔触细腻,逻辑清晰,将复杂的技术和社会问题剖析得入木三分。让我印象最深刻的是关于AI决策透明度的讨论,书中提出了“黑箱”问题,并探讨了如何构建可解释的AI系统,这对我理解AI的未来发展方向非常有启发。它没有给我直接的“怎么办”,但却给了我无穷的思考,让我对接下来的学习方向有了更明确的定位,也让我对AI技术的发展抱有更加审慎和负责任的态度。这本书就像一盏明灯,照亮了我对AI技术背后人文价值的探索之路。
评分这本书带来的知识冲击是实实在在的,尤其是在我一直关注的城市规划领域。它并没有直接提供具体的城市建设方案,而是从一个更根本的视角,探讨了“智能城市”的构建逻辑和可持续发展模式。我一直觉得,一个真正“智能”的城市,不应该仅仅是充满了传感器和大数据平台,而更应该是一个能够响应市民需求、优化资源配置、并且真正提升居民生活品质的空间。这本书恰恰抓住了这一点,它详细阐述了如何利用物联网、云计算和人工智能等技术,去感知城市运行的脉搏,比如交通流量的实时监测,能源消耗的智能调控,甚至是垃圾分类的自动化处理。我尤其对书中关于“数字孪生”的概念印象深刻,通过构建城市的数字模型,我们可以模拟各种发展场景,预测潜在的问题,从而做出更明智的决策。它让我看到了技术如何能够真正地赋能城市管理,让城市变得更高效、更环保、更宜居。读完之后,我对于我所在的城市,以及未来城市的发展模式,都有了全新的认识和期待。书中描绘的未来城市蓝图,既充满科技感,又回归了以人为本的初衷,这让我感到非常振奋。
评分这本书的宏大叙事和历史跨度,深深地吸引了我。我一直对人类文明的演进史着迷,而这本书以一种极其广阔的视野,梳理了从农业革命到信息革命的宏大脉络,并试图从中找出贯穿其中的驱动力。它并没有细致地描绘某个时代的具体事件,而是聚焦于那些能够引领历史走向的重大转折点和技术创新。例如,书中对印刷术、蒸汽机、电力以及互联网等关键技术的分析,都让我对人类文明的进步有了更深刻的理解。我印象最深刻的是作者关于“知识传播”和“信息互联”如何加速文明发展的论证,这与我之前的一些认知不谋而合,但书中提供了更丰富的历史证据和理论支撑。它让我意识到,技术的发展并非孤立的事件,而是与社会、经济、文化等多种因素相互作用、螺旋式上升的过程。读完这本书,我感觉自己仿佛站在了一个更高的维度,能够更清晰地看到人类文明发展的宏大图景,以及我们是如何一步步走到今天的。它激发了我对历史和科技之间关系的进一步探索,也让我对人类创造力的无限可能充满了敬畏。
评分对于我这样一个对艺术鉴赏怀有浓厚兴趣但又缺乏专业知识的人来说,这本书简直是一场及时雨!它并没有直接教授我如何去“画”,而是从一个非常独特的视角,引导我去理解“艺术”背后的逻辑和美学原理。书中并没有罗列名家名作,而是通过对色彩、构图、线条以及光影等基本元素的深入解析,让我看到了隐藏在各种艺术形式之下的共通之处。我尤其喜欢书中关于“感知”的探讨,它教我如何去“看”,如何去“感受”,而不是仅仅停留在表面的信息接收。比如,书中对不同色彩搭配如何影响情绪的分析,对不同构图如何引导视线的讲解,都让我豁然开朗。它让我明白,欣赏一件艺术品,不仅仅是看它“是什么”,更重要的是去感受它“如何”呈现,以及它“想”传达什么。这种由点及面、由浅入深的学习方式,让我觉得艺术鉴赏不再是遥不可及的门槛,而是可以被理解和体验的。读完之后,我对很多之前不太理解的艺术作品,都有了新的感悟,也更加期待在未来的生活中,去发现和体验更多隐藏在日常中的美。
评分这本关于“后疫情时代”的社会变革分析,着实让我眼前一亮。我一直对全球化进程的演变充满兴趣,而这本书恰恰提供了一个非常独特的视角,去审视疫情如何重塑了我们的社会结构和生活方式。它并非陈述疫情的统计数据,而是深入剖析了疫情对工作模式、供应链、教育方式甚至人际交往产生的深远影响。书中提出的“远程办公常态化”和“线上教育的普及”等观点,在我自己的工作和生活中就得到了印证,这让我更能体会到作者分析的精准性。它让我意识到,很多疫情期间的“临时措施”,可能已经悄然成为新的常态,并且正在以前所未有的速度改变着社会的游戏规则。我特别喜欢书中关于“韧性供应链”的讨论,疫情暴露了全球供应链的脆弱性,而书中提出的多元化、本地化以及数字化转型等策略,为我们应对未来的不确定性提供了重要的思路。总而言之,这本书不仅仅是对过去两年多事件的总结,更是一份关于如何适应和重塑我们社会未来的行动指南。它让我对未来的社会发展充满了思考,也对接下来的挑战和机遇有了更清晰的认知。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等,本站所有链接都为正版商品购买链接。
© 2025 windowsfront.com All Rights Reserved. 静流书站 版权所有