R语言数据挖掘（21世纪统计学系列教材） pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

薛薇著

图书标签:

R语言
数据挖掘
统计学
机器学习
数据分析
21世纪统计学系列
高等教育
教材
数据科学
统计建模

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：中国人民大学出版社

ISBN：9787300226705

版次：1

商品编码：11930562

包装：平装

丛书名： 21世纪统计学系列教材

开本：16开

出版时间：2016-04-01

用纸：胶版纸

页数：456

具体描述

内容简介

网络将物理世界的自然资源和心理世界的智慧资源联系在一起，拥有无限的数据资源。数据挖掘是目前开发数据资源，探索未知世界的*先进方法。数据挖掘突破了传统数据分析理论的应用局限，利用高性能计算逼近数据规律的真相。R语言则以其开源性、全面性、易用性和可扩充性，成为数据挖掘实践*有效的工具。本书围绕数据预测、揭示数据内在结构、揭示数据关联性、诊断异常数据等数据挖掘核心目标，深入浅出地讨论了众多经典数据挖掘方法、R语言实现以及案例。
本书可作为高等院校相关专业本科生和研究生的数据挖掘教材使用，也适合科研机构、政府和企业经营管理部门等研究人员阅读参考。

作者简介

薛薇，中国人民大学应用统计中心副主任，中国人民大学统计学院副教授。主要研究领域：数据挖掘、文本挖掘、复杂网络建模。关注统计和数据挖掘算法及软件应用，统计数据库系统研发等方面。涉足交通、金融、贸易等复杂网络动态建模，电商数据分析，网络新媒体舆论传播、热点事件主题跟踪和预测建模，政府和官方微博、学科学术热点跟踪等文本挖掘，以及社会网络分析和以数据挖掘为依托的客户关系管理等领域。

第1章数据挖掘与R语言概述
1．1什么是数据挖掘
1．2数据挖掘的结果
1．3数据挖掘能做什么
1．4数据挖掘方法的特点
1．5数据挖掘的典型应用
1．6R语言入门必备
1．7本章函数列表

第2章R的数据组织和整理
2．1R的数据对象
2．2向量的创建和访问
2．3矩阵的创建和访问
2．4数据框的创建和访问
2．5数组和列表的创建和访问
2．6数据对象的相互转换
2．7导入外部数据和保存数据
2．8R语言程序设计基础
2．9R语言数据整理和程序设计综合应用
2．10本章函数列表

第3章R的数据可视化
3．1绘图基础
3．2单变量分布特征的可视化
3．3多变量联合分布特征的可视化
3．4变量间相关性的可视化
3．5GIS数据的可视化
3．6文本词频数据的可视化
3．7本章函数列表

第4章R的近邻分析：数据预测
4．1近邻分析：K近邻法
4．2基于变量重要性的加权K近邻法
4．3基于观测相似性的加权K近邻法
4．4本章函数列表

第5章R的决策树：数据预测
5．1决策树算法概述
5．2分类回归树的生长过程
5．3分类回归树的剪枝
5．4分类回归树的R函数和应用示例
5．5建立分类回归树的组合预测模型
5．6随机森林
5．7本章函数列表

第6章R的人工神经网络：数据预测
6．1人工神经网络概述
6．2B�睵反向传播网络
6．3B�睵反向传播网络的R函数和应用示例
6．4本章函数列表

第7章R的支持向量机：数据预测
7．1支持向量分类概述
7．2线性可分问题下的支持向量分类
7．3广义线性可分问题下的支持向量分类
7．4线性不可分问题下的支持向量分类
7．5多分类的支持向量分类
7．6支持向量回归
7．7R的支持向量机及应用示例
7．8本章函数列表

第8章R的一般聚类：揭示数据内在结构
8．1聚类分析概述
8．2基于质心的聚类模型：K�睲eans聚类
8．3基于质心的聚类模型：PAM聚类
8．4基于联通性的聚类模型：层次聚类
8．5基于统计分布的聚类模型：EM聚类
8．6本章函数列表

第9章R的特色聚类：揭示数据内在结构
9．1BIRCH聚类
9．2SOM网络聚类
9．3基于密度的聚类模型：DBSCAN聚类
9．4本章函数列表

第10章R的关联分析：揭示数据关联性
10．1简单关联规则及其测度
10．2Apriori算法及应用示例
10．3Eclat算法及应用示例
10．4简单关联分析的应用示例
10．5序列关联分析及SPADE算法
10．6本章函数列表

第11章R的模式甄别：诊断异常数据
11．1模式甄别方法和评价概述
11．2模式甄别的无监督侦测方法及应用示例
11．3模式甄别的有监督侦测方法及应用示例
11．4模式甄别的半监督侦测方法及应用示例
11．5本章函数列表

第12章R的网络分析初步
12．1网络的定义表示及构建
12．2网络节点重要性的测度
12．3网络子群构成特征研究
12．4网络整体特征刻画
12．5主要网络类型及特点
12．6本章函数列表

精彩书摘

我们已经步入一个大数据时代。大数据时代不仅仅意味着数据的积累与存储，更意味着对数据的建模与分析。
近年来，数据挖掘不断汲取并集成机器学习、统计学和可视化等学科领域的研究成果，在众多行业获得了可观的应用案例，造就了卓有成效的发展。这一切使得大数据分析不再是一种漂浮在云端、飞翔在风口的奢望，大数据分析已日益成为许多个人、企业和组织进行科学决策的重要方法工具。
由于采取彻底的开放性策略，R语言已成为近年来出类拔萃的数据挖掘工具之一。其特点主要是：开源性，即可以免费下载并升级；全面性，即数据挖掘方法丰富，覆盖面广；操作简便性，即直接采用函数调用相关算法，通过简单编程即可完成复杂的数据处理和方法拓展；可扩展性，即R语言通过网络社区平台吸引越来越多的专家学者和应用人员成为开发者，为R语言不断增添更有效、更前沿的数据挖掘方法。所以，R语言是一款应用前景广阔的数据挖掘工具。
本书以数据挖掘概念和R语言入门开篇，目的是使读者能够快速总览数据挖掘的理论轮廓，厘清相关概念，掌握R语言入门和深入学习的路线。后续，本书以数据挖掘过程为线索，以应用实例为辅助，详细讨论R语言数据挖掘的数据组织和整理、可视化图形、主流数据挖掘方法原理和算法步骤以及应用实现等内容。其间，为使读者快速入门R语言，起步数据挖掘的实践应用，本书首先系统介绍了R语言的数据对象、常用系统函数、流程控制等服务于数据组织和整理的程序设计基础知识，以及R的各种主流可视化图形。然后，围绕数据预测、揭示数据内在结构、揭示数据关联性、诊断异常数据等数据挖掘核心目标，依次讨论了诸多主流数据挖掘方法和R的实现过程，涉及近邻分析、决策树、人工神经网络、支持向量机、聚类算法、关联规则、模式甄别、网络分析等众多经典模型和算法。覆盖内容之广泛，R实现步骤之详尽，数据应用之经典，都是国内外同类书籍中不多见的。这是本书的特点之一。
同时，R语言数据挖掘中的数据挖掘方法是核心，R语言实现是形式，两者是“道”与“术”的关系。我们认为“道”和“术”的结合，无论对数据挖掘的初学者还是应用实践者都是必要的。“道”是原理，此原理不是数学公式的简单罗列，而是给出直观透彻的方法认知。“术”是操作，此操作不是函数命令的简单呈现，而是算法实现和应用的通用模板，是帮助读者实现数据挖掘实践的有效工具。本书力图阐述“道”，利用R语言充分展现“道”，通过有代表性的数据案例，画龙点睛地阐明“术”。每章都配有案例数据和R程序代码，使读者不但知其然，更知其所以然。这是本书的特点之二。
进一步，目前R语言包的数量已多达7000多个，而且还在快速增长。R的开放性决定了可能有诸多包都可以实现相同的数据挖掘算法。对此，本书选择R中主流且被有效验证和广泛使用的包，既保证经典性，也兼顾有效性，同时解决了初学者因陷于众多R的“包”围中而无从下手的问题。这是本书的特点之三。
最后，对R语言数据挖掘的初学者，建议按照本书章节结构，循序渐进地学习，并参照书中示例，边学边做，以加深概念理解和提升R语言熟练度。对有一定R语言基础或数据挖掘应用经验的学习者，因本书各章节具有相对独立性，所以采用“以数据为导向”和“以问题为导向”的有针对性的R语言数据挖掘学习策略均是可行的。
本书努力迎合广大R语言数据挖掘读者的主流需求，适合高等院校相关专业的本科生和研究生学习使用，以及商业企业、科研机构、政府管理部门等相关人员阅读参考。请读者到中国人民大学经管图书在线（http://www.rdjg.com.cn）下载本书案例数据和R程序代码。
特别感谢中国人民大学出版社对本书出版的大力支持，感谢王珏、刘茜、王艳红、周天旺、要卓、陈笑语等同学对本书的贡献。书中不妥和错误之处，望读者不吝指正。

薛薇

前言/序言

《数据科学实战：从理论到应用的Python之路》内容概述：本书旨在为读者提供一个全面而实用的数据科学学习路径，聚焦于当下最流行、功能最强大的Python生态系统。我们不仅仅停留在理论概念的讲解，更强调在真实世界数据集上的实践操作，帮助读者掌握从数据获取、清洗、探索性分析、建模、评估到最终部署的完整流程。本书适合希望进入数据科学领域，或者正在从事相关工作的专业人士，以期提升其在Python环境下进行数据分析和建模的能力。核心内容板块：第一部分：数据科学基础与Python入门 1. 数据科学概览：数据科学的核心概念、流程与职业发展前景。区分数据科学、机器学习、人工智能等相关概念。现代数据科学技术栈的介绍（Python、R、SQL、大数据工具等）。如何构建高效的学习计划和研究方法。 2. Python语言基础回顾与强化： Python语法核心回顾：变量、数据类型、运算符、控制流（条件语句、循环）。函数与模块：函数定义、参数传递、返回值、内置函数、标准库模块的使用。数据结构：列表、元组、字典、集合的深入理解与应用。面向对象编程（OOP）基础：类、对象、继承、多态（侧重于在数据科学库中的应用）。文件I/O：读取与写入各种类型的文件（CSV, JSON, TXT）。 3. 核心数据科学库介绍与安装： NumPy (Numerical Python): ndarray对象：创建、索引、切片、形状操作。向量化运算：理解与应用，提升计算效率。数组广播机制。数值计算函数：统计、线性代数、随机数生成。 Pandas (Python Data Analysis Library): Series和DataFrame：核心数据结构，创建、操作、索引。数据加载与保存：CSV, Excel, SQL数据库等。数据清洗与预处理：缺失值处理（删除、填充）、重复值处理、数据类型转换。数据筛选与排序。数据分组与聚合（groupby）：强大的数据汇总能力。数据合并与连接（merge, join, concat）。时间序列数据处理。 Matplotlib & Seaborn (数据可视化): Matplotlib基础：创建图形、子图、添加标签、图例、自定义样式。 Seaborn高级可视化：基于Matplotlib，提供更美观、更便捷的统计图形（散点图、线图、柱状图、直方图、箱线图、热力图等）。探索性数据分析（EDA）中的可视化应用。第二部分：数据探索、清洗与特征工程 4. 探索性数据分析 (EDA) 实战：理解数据的基本统计特征：均值、中位数、方差、标准差、分位数等。变量分布的可视化：直方图、密度图、箱线图。变量之间的关系分析：散点图、相关系数矩阵、配对图。识别异常值与离群点。探索性数据分析在理解业务问题中的作用。 5. 数据清洗与预处理进阶：处理不同类型的数据：数值型、类别型、文本型、日期型。字符串处理：正则表达式、文本清洗（去除特殊字符、标准化）。数据转换：对数变换、平方根变换、标准化（StandardScaler）、归一化（MinMaxScaler）。处理不平衡数据集（初步介绍）。 6. 特征工程：理解特征工程的重要性：提升模型性能的关键。创建新特征：组合特征、多项式特征、交互特征。编码类别型特征： One-Hot Encoding (独热编码)。 Label Encoding (标签编码)。 Target Encoding (目标编码，介绍)。处理时间序列特征：提取年、月、日、星期、季度等。特征选择方法（初步介绍）：过滤法、包裹法、嵌入法。第三部分：机器学习建模与评估 7. 机器学习基础理论与模型选择：监督学习、无监督学习、半监督学习。回归与分类任务。过拟合与欠拟合的理解。交叉验证（Cross-Validation）的重要性与实现。模型评估指标：回归：MSE, RMSE, MAE, R-squared。分类：Accuracy, Precision, Recall, F1-score, AUC-ROC曲线。 8. 常用监督学习算法实战：线性回归 (Linear Regression): 模型原理与假设。在Python中的实现（Scikit-learn）。模型诊断与解释。逻辑回归 (Logistic Regression): 用于分类任务的原理。 Sigmoid函数与概率输出。在Python中的实现。决策树 (Decision Trees): 构建原理（ID3, C4.5, CART）。剪枝与防止过拟合。在Python中的实现。支持向量机 (Support Vector Machines - SVM): 线性SVM与核技巧（Kernel Trick）。常用核函数（线性、多项式、RBF）。在Python中的实现。 K近邻算法 (K-Nearest Neighbors - KNN): 原理与距离度量。 K值的选择。在Python中的实现。集成学习方法 (Ensemble Methods): 随机森林 (Random Forests): Bagging原理。在Python中的实现。梯度提升树 (Gradient Boosting Machines - GBM): Boosting原理。 XGBoost、LightGBM等常用库的介绍与应用（侧重XGBoost）。 9. 常用无监督学习算法实战： K-Means聚类: 聚类原理与步骤。 K值的选择（肘部法则、轮廓系数）。在Python中的实现。主成分分析 (Principal Component Analysis - PCA): 降维原理与目的。方差最大化思想。在Python中的实现。第四部分：模型部署与项目实战 10. 模型评估与调优：超参数调优：网格搜索（GridSearchCV）、随机搜索（RandomizedSearchCV）。模型选择与比较。防止数据泄露。 11. 文本数据处理与分析 (NLP基础): 文本数据预处理：分词、去除停用词、词干提取/词形还原。文本表示：词袋模型（Bag-of-Words, BoW）、TF-IDF。简单的文本分类（如垃圾邮件检测）。 12. 数据库交互与数据抓取： SQL基础回顾与Python中连接数据库（SQLite, PostgreSQL, MySQL）。 Web抓取基础：BeautifulSoup，Scrapy（介绍）。 13. 数据科学项目流程与最佳实践：端到端数据科学项目案例分析。版本控制（Git）在数据科学项目中的应用。代码规范与文档编写。团队协作。第五部分：进阶主题与未来方向 14. 深度学习入门（选讲）: 神经网络基本原理。 TensorFlow/Keras 或 PyTorch 基础介绍。简单图像识别或文本建模示例。 15. 大数据技术简介: Spark、Hadoop生态系统概述。在Python中与大数据工具交互（如PySpark）。 16. 数据科学伦理与合规: 数据隐私、公平性、可解释性。学习目标：通过本书的学习，读者将能够：熟练掌握Python及其核心数据科学库（NumPy, Pandas, Matplotlib, Seaborn）进行数据处理和分析。深入理解数据科学项目的工作流程，并能在实际项目中应用。独立完成探索性数据分析，发现数据中的洞察。进行有效的数据清洗和特征工程，为模型构建打下坚实基础。理解和应用多种主流机器学习算法，并能根据问题选择合适的模型。评估和调优机器学习模型，以达到最佳性能。初步接触文本数据分析、数据库交互和Web抓取。了解大数据技术和深度学习的入门知识。掌握构建、评估和沟通数据科学解决方案的实战能力。适用读者：对数据科学感兴趣的初学者。希望提升Python数据分析技能的软件工程师、分析师。统计学、数学、计算机科学等相关专业的学生。需要将数据驱动方法应用于业务决策的管理者和产品经理。任何希望掌握数据科学核心技能，并在职业生涯中更进一步的专业人士。本书强调“实战”，每一章都包含丰富的代码示例、练习题和小型项目，旨在帮助读者将理论知识转化为解决实际问题的能力。我们相信，通过系统学习和大量实践，读者将能够自信地迈入数据科学的世界，并在这个快速发展的领域取得成功。

用户评价

评分☆☆☆☆☆

我是一名在读的统计学专业硕士研究生，在学习过程中，数据挖掘是一个非常重要的方向。对于我来说，选择一本好的教材至关重要，因为它会直接影响到我对这个领域的理解深度和未来的研究方向。这本书最大的亮点在于它将理论与实践完美地结合在了一起。书中不仅讲解了各种数据挖掘算法的统计学原理，例如概率模型、统计推断等，还提供了大量可以直接在R语言中实现的范例代码。让我印象深刻的是，书中对一些算法的讲解，会追溯到其统计学的基础，比如逻辑回归、支持向量机等，不是简单地介绍模型，而是解释了其背后的统计假设和优化目标。这对于我们深入理解算法的内在机制非常有帮助。此外，书中对数据挖掘流程的梳理也非常清晰，从数据收集、清洗、探索性分析，到模型构建、评估和部署，每一步都有详细的讲解和相应的R代码示例。这让我对整个数据挖掘的生命周期有了更全面的认识。

评分☆☆☆☆☆

作为一名刚入行的数据分析师，在项目实践中经常会遇到各种各样的数据问题，也尝试过不少工具和书籍。这本书给我的感觉是，它非常贴合实际应用的需求。尤其是在模型评估和选择的部分，它不仅仅是介绍了准确率、召回率等指标，更重要的是讲解了如何根据业务场景选择合适的评估指标，以及如何进行交叉验证来避免过拟合。我在工作中就曾经因为模型评估指标选择不当，导致上线后的效果不尽如人意。这本书里关于混淆矩阵、ROC曲线、AUC值等内容的深入剖析，让我恍然大悟。另外，它还介绍了一些高级的模型，比如集成学习方法，如随机森林和梯度提升树，这些在实际业务中应用非常广泛，并且效果往往比单一模型要好。书中的案例也比较丰富，涵盖了分类、回归、降维等多个方面，让我能够将学到的知识应用到具体的业务场景中去。我特别喜欢它讲解一些模型时，会先从直观的解释开始，然后逐步深入到数学原理，这样学习起来不至于枯燥，也更容易理解。

评分☆☆☆☆☆

这本书我断断续续读了快一个月了，终于算是把前一半内容啃下来了。说实话，刚拿到的时候，就被它厚重的篇幅和“21世纪统计学系列教材”的字样震慑住了。我之前接触过一些数据挖掘的入门书籍，但很多都停留在概念层面，或者代码示例非常简单，难以应对实际工作中的复杂场景。这本书在这方面做得就相当不错。它不仅仅是罗列算法，而是深入地讲解了每种方法的原理、假设以及适用的条件。例如，在讲到聚类分析时，它详细对比了K-means、层次聚类和DBSCAN的优缺点，并且给出了如何在R语言中实现这些算法的详细代码，关键是这些代码是可以直接运行的，并且有清晰的注释，让我这个R语言新手也能看懂。书中对数据预处理的讲解也格外细致，缺失值处理、异常值检测、特征工程等都是实际应用中绕不开的环节，而这本书提供了多种方法和相应的R包，让我对如何“洗干净”数据有了更系统的认识。我现在觉得，理解算法背后的统计学原理，远比死记硬背代码要重要得多，这本书在这方面给了我很大的启发。

评分☆☆☆☆☆

作为一名在业界摸爬滚打多年的数据科学家，我深知理论知识与实战技能缺一不可。这本书恰恰满足了这一需求。它所涵盖的内容非常全面，从基础的数据探索和可视化，到各种监督和无监督学习算法，再到模型评估和优化，几乎涵盖了数据挖掘的整个技术栈。特别值得称赞的是，书中对每一种算法的介绍都不仅仅停留在“是什么”，而是深入探讨了“为什么”和“怎么做”。例如，在讲解关联规则挖掘时，它不仅介绍了Apriori算法，还解释了支持度、置信度、提升度等关键指标的统计学意义，以及如何通过调整这些参数来发现有价值的规则。书中提供的R语言代码，无论是算法实现还是数据处理，都具有很高的可复用性和实用性，能够直接迁移到实际项目中使用。此外，书中还涉及了一些进阶的主题，比如文本挖掘和时间序列分析，这些在实际业务中应用也非常广泛，为我提供了新的思路和方法。

评分☆☆☆☆☆

坦白说，我一开始对这本书的期望值不高，想着是本教材，可能比较枯燥，而且R语言我也不是很熟练。但读了之后，我真的被它“圈粉”了。它的语言风格非常亲切，不像很多技术书籍那样冷冰冰的，反而像一个经验丰富的老师在娓娓道来。即使是像决策树、随机森林这样比较复杂的模型，书里也能用非常形象的比喻来解释，让我这个数学功底不强的读者也能够理解。我最头疼的就是写代码，经常是看到一堆函数名就犯晕。但是这本书的R代码示例非常详细，每个函数的作用、参数的含义都解释得清清楚楚，而且还会告诉你如何在实际中调整这些参数来优化模型。我跟着书里的例子，自己动手敲了很多代码，发现模型效果真的在一点点变好。特别是书中关于模型解释性的讨论，例如如何解读决策树的规则，如何理解随机森林中特征的重要性，这对于我这个需要向业务部门汇报的分析师来说，非常有价值。

评分☆☆☆☆☆

以为第五版会增加新内容，但比较失望。

评分☆☆☆☆☆

t分布临界值表数据错误，人工客服还联系不上?

评分☆☆☆☆☆

经典教材，买来复习统计学用的。

评分☆☆☆☆☆

好哈哈哈哈哈哈哈哈哈哈哈哈哈

评分☆☆☆☆☆

书还是不错的，就是味道有点重……

评分☆☆☆☆☆

书质量很好，内容还没来得及看，努力提高自己?