内容简介
网络将物理世界的自然资源和心理世界的智慧资源联系在一起,拥有无限的数据资源。数据挖掘是目前开发数据资源,探索未知世界的*先进方法。数据挖掘突破了传统数据分析理论的应用局限,利用高性能计算逼近数据规律的真相。R语言则以其开源性、全面性、易用性和可扩充性,成为数据挖掘实践*有效的工具。本书围绕数据预测、揭示数据内在结构、揭示数据关联性、诊断异常数据等数据挖掘核心目标,深入浅出地讨论了众多经典数据挖掘方法、R语言实现以及案例。
本书可作为高等院校相关专业本科生和研究生的数据挖掘教材使用,也适合科研机构、政府和企业经营管理部门等研究人员阅读参考。
作者简介
薛薇,中国人民大学应用统计中心副主任,中国人民大学统计学院副教授。主要研究领域:数据挖掘、文本挖掘、复杂网络建模。关注统计和数据挖掘算法及软件应用,统计数据库系统研发等方面。涉足交通、金融、贸易等复杂网络动态建模,电商数据分析,网络新媒体舆论传播、热点事件主题跟踪和预测建模,政府和官方微博、学科学术热点跟踪等文本挖掘,以及社会网络分析和以数据挖掘为依托的客户关系管理等领域。
目录
第1章数据挖掘与R语言概述
1.1什么是数据挖掘
1.2数据挖掘的结果
1.3数据挖掘能做什么
1.4数据挖掘方法的特点
1.5数据挖掘的典型应用
1.6R语言入门必备
1.7本章函数列表
第2章R的数据组织和整理
2.1R的数据对象
2.2向量的创建和访问
2.3矩阵的创建和访问
2.4数据框的创建和访问
2.5数组和列表的创建和访问
2.6数据对象的相互转换
2.7导入外部数据和保存数据
2.8R语言程序设计基础
2.9R语言数据整理和程序设计综合应用
2.10本章函数列表
第3章R的数据可视化
3.1绘图基础
3.2单变量分布特征的可视化
3.3多变量联合分布特征的可视化
3.4变量间相关性的可视化
3.5GIS数据的可视化
3.6文本词频数据的可视化
3.7本章函数列表
第4章R的近邻分析:数据预测
4.1近邻分析:K近邻法
4.2基于变量重要性的加权K近邻法
4.3基于观测相似性的加权K近邻法
4.4本章函数列表
第5章R的决策树:数据预测
5.1决策树算法概述
5.2分类回归树的生长过程
5.3分类回归树的剪枝
5.4分类回归树的R函数和应用示例
5.5建立分类回归树的组合预测模型
5.6随机森林
5.7本章函数列表
第6章R的人工神经网络:数据预测
6.1人工神经网络概述
6.2B�睵反向传播网络
6.3B�睵反向传播网络的R函数和应用示例
6.4本章函数列表
第7章R的支持向量机:数据预测
7.1支持向量分类概述
7.2线性可分问题下的支持向量分类
7.3广义线性可分问题下的支持向量分类
7.4线性不可分问题下的支持向量分类
7.5多分类的支持向量分类
7.6支持向量回归
7.7R的支持向量机及应用示例
7.8本章函数列表
第8章R的一般聚类:揭示数据内在结构
8.1聚类分析概述
8.2基于质心的聚类模型:K�睲eans聚类
8.3基于质心的聚类模型:PAM聚类
8.4基于联通性的聚类模型:层次聚类
8.5基于统计分布的聚类模型:EM聚类
8.6本章函数列表
第9章R的特色聚类:揭示数据内在结构
9.1BIRCH聚类
9.2SOM网络聚类
9.3基于密度的聚类模型:DBSCAN聚类
9.4本章函数列表
第10章R的关联分析:揭示数据关联性
10.1简单关联规则及其测度
10.2Apriori算法及应用示例
10.3Eclat算法及应用示例
10.4简单关联分析的应用示例
10.5序列关联分析及SPADE算法
10.6本章函数列表
第11章R的模式甄别:诊断异常数据
11.1模式甄别方法和评价概述
11.2模式甄别的无监督侦测方法及应用示例
11.3模式甄别的有监督侦测方法及应用示例
11.4模式甄别的半监督侦测方法及应用示例
11.5本章函数列表
第12章R的网络分析初步
12.1网络的定义表示及构建
12.2网络节点重要性的测度
12.3网络子群构成特征研究
12.4网络整体特征刻画
12.5主要网络类型及特点
12.6本章函数列表
精彩书摘
我们已经步入一个大数据时代。大数据时代不仅仅意味着数据的积累与存储,更意味着对数据的建模与分析。
近年来,数据挖掘不断汲取并集成机器学习、统计学和可视化等学科领域的研究成果,在众多行业获得了可观的应用案例,造就了卓有成效的发展。这一切使得大数据分析不再是一种漂浮在云端、飞翔在风口的奢望,大数据分析已日益成为许多个人、企业和组织进行科学决策的重要方法工具。
由于采取彻底的开放性策略,R语言已成为近年来出类拔萃的数据挖掘工具之一。其特点主要是:开源性,即可以免费下载并升级;全面性,即数据挖掘方法丰富,覆盖面广;操作简便性,即直接采用函数调用相关算法,通过简单编程即可完成复杂的数据处理和方法拓展;可扩展性,即R语言通过网络社区平台吸引越来越多的专家学者和应用人员成为开发者,为R语言不断增添更有效、更前沿的数据挖掘方法。所以,R语言是一款应用前景广阔的数据挖掘工具。
本书以数据挖掘概念和R语言入门开篇,目的是使读者能够快速总览数据挖掘的理论轮廓,厘清相关概念,掌握R语言入门和深入学习的路线。后续,本书以数据挖掘过程为线索,以应用实例为辅助,详细讨论R语言数据挖掘的数据组织和整理、可视化图形、主流数据挖掘方法原理和算法步骤以及应用实现等内容。其间,为使读者快速入门R语言,起步数据挖掘的实践应用,本书首先系统介绍了R语言的数据对象、常用系统函数、流程控制等服务于数据组织和整理的程序设计基础知识,以及R的各种主流可视化图形。然后,围绕数据预测、揭示数据内在结构、揭示数据关联性、诊断异常数据等数据挖掘核心目标,依次讨论了诸多主流数据挖掘方法和R的实现过程,涉及近邻分析、决策树、人工神经网络、支持向量机、聚类算法、关联规则、模式甄别、网络分析等众多经典模型和算法。覆盖内容之广泛,R实现步骤之详尽,数据应用之经典,都是国内外同类书籍中不多见的。这是本书的特点之一。
同时,R语言数据挖掘中的数据挖掘方法是核心,R语言实现是形式,两者是“道”与“术”的关系。我们认为“道”和“术”的结合,无论对数据挖掘的初学者还是应用实践者都是必要的。“道”是原理,此原理不是数学公式的简单罗列,而是给出直观透彻的方法认知。“术”是操作,此操作不是函数命令的简单呈现,而是算法实现和应用的通用模板,是帮助读者实现数据挖掘实践的有效工具。本书力图阐述“道”,利用R语言充分展现“道”,通过有代表性的数据案例,画龙点睛地阐明“术”。每章都配有案例数据和R程序代码,使读者不但知其然,更知其所以然。这是本书的特点之二。
进一步,目前R语言包的数量已多达7000多个,而且还在快速增长。R的开放性决定了可能有诸多包都可以实现相同的数据挖掘算法。对此,本书选择R中主流且被有效验证和广泛使用的包,既保证经典性,也兼顾有效性,同时解决了初学者因陷于众多R的“包”围中而无从下手的问题。这是本书的特点之三。
最后,对R语言数据挖掘的初学者,建议按照本书章节结构,循序渐进地学习,并参照书中示例,边学边做,以加深概念理解和提升R语言熟练度。对有一定R语言基础或数据挖掘应用经验的学习者,因本书各章节具有相对独立性,所以采用“以数据为导向”和“以问题为导向”的有针对性的R语言数据挖掘学习策略均是可行的。
本书努力迎合广大R语言数据挖掘读者的主流需求,适合高等院校相关专业的本科生和研究生学习使用,以及商业企业、科研机构、政府管理部门等相关人员阅读参考。请读者到中国人民大学经管图书在线(http://www.rdjg.com.cn)下载本书案例数据和R程序代码。
特别感谢中国人民大学出版社对本书出版的大力支持,感谢王珏、刘茜、王艳红、周天旺、要卓、陈笑语等同学对本书的贡献。书中不妥和错误之处,望读者不吝指正。
薛薇
前言/序言
R语言数据挖掘(21世纪统计学系列教材) 电子书 下载 mobi epub pdf txt