数据挖掘概念与技术（原书第3版） [Data Mining Concepts and Techniques Third Edition] pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] Jiawei Han，[美] Micheling Kamber，[美] Jian Pei 等著，范明，孟小峰译

图书标签:

数据挖掘
机器学习
数据分析
知识发现
数据库
算法
统计学
人工智能
模式识别
商业智能

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111391401

版次：1

商品编码：11056660

品牌：机工出版

包装：平装

丛书名：计算机科学丛书

外文名称：Data Mining Concepts and Techniques Third Edition

开本：16开

出版时间：2012-08-01

用纸：胶版纸

页数：4

具体描述

编辑推荐

　　◆数据挖掘领域有里程碑意义的经典著作
　　◆完整全面阐述该领域的重要知识和技术创新
　　◆数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书
　　◆适用于数据分析、数据挖掘和知识发现课程的优秀教材，可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。
　　
　
　　
　　

内容简介

　　《数据挖掘：概念与技术（原书第3版）》完整全面地讲述数据挖掘的概念、方法、技术和全新研究进展。本书对前两版做了全面修订，加强和重新组织了全书的技术内容，重点论述了数据预处理、频繁模式挖掘、分类和聚类等的内容，还全面讲述了OLAP和离群点检测，并研讨了挖掘网络、复杂数据类型以及重要应用领域。
　　《数据挖掘：概念与技术（原书第3版）》是数据挖掘和知识发现领域内的所有教师、研究人员、开发人员和用户都必读的参考书，是一本适用于数据分析、数据挖掘和知识发现课程的优秀教材，可以用做高年级本科生或者一年级研究生的数据挖掘导论教材。

作者简介

　　Jiawei Han（韩家炜），是伊利诺伊大学厄巴纳-尚佩恩分校计算机科学系的Bliss教授。他因知识发现和数据挖掘研究方面的贡献而获得许多奖励，包括ACM SIGKDD创新奖（2004）、IEEE计算机学会技术成就奖（2005）和IEEE W.Wallace McDowell奖（2009）。他是ACM和IEEE会士。他还担任《ACM Transactions on Knowledge Discovery from Data》的执行主编（2006—2011）和许多杂志的编委，包括《IEEE Transactions on Knowledge and Data Engineering》和《Data Mining Knowledge Discovery》。

　　Micheline Kamber，由加拿大魁北克蒙特利尔Concordia大学获计算机科学（人工智能专业）硕士学位。她曾是NSERC学者，作为研究者在McGill大学、西蒙-弗雷泽大学和瑞士工作。她的数据挖掘背景和以易于理解的形式写作的热情使得本书更受专业人员、教师和学生的欢迎。

　　Jian Pei（裴健），现在是西蒙-弗雷泽大学计算机科学学院教授。他在Jiawei Han的指导下，于2002年获西蒙-弗雷泽大学计算科学博士学位。他在数据挖掘、数据库、Web搜索和信息检索的主要学术论坛发表了大量文章，并积极服务于学术团体。他的文章被引用数千次，并获多次荣誉奖。他是多种数据挖掘和数据分析杂志的助理编辑。

2016年8月作为首席数据科学家加入华为；2017年调入云BU任AI首席科学家；自2004年起在加拿大Simon Fraser University计算科学学院任教，历任助理教授、副教授、教授，曾任学院主管科研和产业合作的副院长；现兼任统计与精算系及健康科学学院教授，2013-2016年任国际电子电工学会，知识与数据工程学报主编，美国计算机学会会士，国际电子电工学会会士，自2014年起任Canada Research Chair (Tier 1) in Big Data Science 2017年起任美国计算机学会知识发现与数据挖掘专委会（SIGKDD）主席

出版者的话
中文版序
译者序
译者简介
第3版序
第2版序
前言
致谢
作者简介

第1章　引论
1.1　为什么进行数据挖掘
1.1.1　迈向信息时代
1.1.2　数据挖掘是信息技术的进化
1.2　什么是数据挖掘
1.3　可以挖掘什么类型的数据
1.3.1　数据库数据
1.3.2　数据仓库
1.3.3　事务数据
1.3.4　其他类型的数据
1.4　可以挖掘什么类型的模式
1.4.1　类/概念描述：特征化与区分
1.4.2　挖掘频繁模式、关联和相关性
1.4.3　用于预测分析的分类与回归
1.4.4　聚类分析
1.4.5　离群点分析
1.4.6　所有模式都是有趣的吗
1.5　使用什么技术
1.5.1　统计学
1.5.2　机器学习
1.5.3　数据库系统与数据仓库
1.5.4　信息检索
1.6　面向什么类型的应用
1.6.1　商务智能
1.6.2　Web搜索引擎
1.7　数据挖掘的主要问题
1.7.1　挖掘方法
1.7.2　用户界面
1.7.3　有效性和可伸缩性
1.7.4　数据库类型的多样性
1.7.5　数据挖掘与社会
1.8　小结
1.9　习题
1.10　文献注释

第2章　认识数据
2.1　数据对象与属性类型
2.1.1　什么是属性
2.1.2　标称属性
2.1.3　二元属性
2.1.4　序数属性
2.1.5　数值属性
2.1.6　离散属性与连续属性
2.2　数据的基本统计描述
2.2.1　中心趋势度量：均值、中位数和众数
2.2.2　度量数据散布：极差、四分位数、方差、标准差和四分位数极差
2.2.3　数据的基本统计描述的图形显示
2.3　数据可视化
2.3.1　基于像素的可视化技术
2.3.2　几何投影可视化技术
2.3.3　基于图符的可视化技术
2.3.4　层次可视化技术
2.3.5　可视化复杂对象和关系
2.4　度量数据的相似性和相异性
2.4.1　数据矩阵与相异性矩阵
2.4.2　标称属性的邻近性度量
2.4.3　二元属性的邻近性度量
2.4.4　数值属性的相异性：闵可夫斯基距离
2.4.5　序数属性的邻近性度量
2.4.6　混合类型属性的相异性
2.4.7　余弦相似性
2.5　小结
2.6　习题
2.7　文献注释

第3章　数据预处理
3.1　数据预处理：概述
3.1.1　数据质量：为什么要对数据预处理
3.1.2　数据预处理的主要任务
3.2　数据清理
3.2.1　缺失值
3.2.2　噪声数据
3.2.3　数据清理作为一个过程
3.3　数据集成
3.3.1　实体识别问题
3.3.2　冗余和相关分析
3.3.3　元组重复
3.3.4　数据值冲突的检测与处理
3.4　数据归约
3.4.1　数据归约策略概述
3.4.2　小波变换
3.4.3　主成分分析
3.4.4　属性子集选择
3.4.5　回归和对数线性模型：参数化数据归约
3.4.6　直方图
3.4.7　聚类
3.4.8　抽样
3.4.9　数据立方体聚集
3.5　数据变换与数据离散化
3.5.1　数据变换策略概述
3.5.2　通过规范化变换数据
3.5.3　通过分箱离散化
3.5.4　通过直方图分析离散化
3.5.5　通过聚类、决策树和相关分析离散化
3.5.6　标称数据的概念分层产生
3.6　小结
3.7　习题
3.8　文献注释

第4章　数据仓库与联机分析处理
4.1　数据仓库：基本概念
4.1.1　什么是数据仓库
4.1.2　操作数据库系统与数据仓库的区别
4.1.3　为什么需要分离的数据仓库
4.1.4　数据仓库：一种多层体系结构
4.1.5　数据仓库模型：企业仓库、数据集市和虚拟仓库
4.1.6　数据提取、变换和装入
4.1.7　元数据库
4.2　数据仓库建模：数据立方体与OLAP
4.2.1　数据立方体：一种多维数据模型
4.2.2　星形、雪花形和事实星座：多维数据模型的模式
4.2.3　维：概念分层的作用
4.2.4　度量的分类和计算
4.2.5　典型的OLAP操作
4.2.6　查询多维数据库的星网查询模型
4.3　数据仓库的设计与使用
4.3.1　数据仓库的设计的商务分析框架
4.3.2　数据仓库的设计过程
4.3.3　数据仓库用于信息处理
4.3.4　从联机分析处理到多维数据挖掘
4.4　数据仓库的实现
4.4.1　数据立方体的有效计算：概述
4.4.2　索引OLAP数据：位图索引和连接索引
4.4.3　OLAP查询的有效处理
4.4.4　OLAP服务器结构：ROLAP、MOLAP、HOLAP的比较
4.5　数据泛化：面向属性的归纳
4.5.1　数据特征的面向属性的归纳
4.5.2　面向属性归纳的有效实现
4.5.3　类比较的面向属性归纳
4.6　小结
4.7　习题
4.8　文献注释

第5章　数据立方体技术
5.1　数据立方体计算：基本概念
5.1.1　立方体物化：完全立方体、冰山立方体、闭立方体和立方体外壳
5.1.2　数据立方体计算的一般策略
5.2　数据立方体计算方法
5.2.1　完全立方体计算的多路数组聚集
5.2.2　BUC：从顶点方体向下计算冰山立方体
5.2.3　Star-Cubing：使用动态星树结构计算冰山立方体
5.2.4　为快速高维OLAP预计算壳片段
5.3　使用探索立方体技术处理高级查询
5.3.1　抽样立方体：样本数据上基于OLAP的挖掘
5.3.2　排序立方体：top-k查询的有效计算
5.4　数据立方体空间的多维数据分析
5.4.1　预测立方体：立方体空间的预测挖掘
5.4.2　多特征立方体：多粒度上的复杂聚集
5.4.3　基于异常的、发现驱动的立方体空间探查
5.5　小结
5.6　习题
5.7　文献注释

第6章　挖掘频繁模式、关联和相关性：基本概念和方法
6.1　基本概念
6.1.1　购物篮分析：一个诱发例子
6.1.2　频繁项集、闭项集和关联规则
6.2　频繁项集挖掘方法
6.2.1　Apriori算法：通过限制候选产生发现频繁项集
6.2.2　由频繁项集产生关联规则
6.2.3　提高Apriori算法的效率
6.2.4　挖掘频繁项集的模式增长方法
6.2.5　使用垂直数据格式挖掘频繁项集
6.2.6　挖掘闭模式和极大模式
6.3　哪些模式是有趣的：模式评估方法
6.3.1　强规则不一定是有趣的
6.3.2　从关联分析到相关分析
6.3.3　模式评估度量比较
6.4　小结
6.5　习题
6.6　文献注释

第7章　高级模式挖掘
7.1　模式挖掘：一个路线图
7.2　多层、多维空间中的模式挖掘
7.2.1　挖掘多层关联规则
7.2.2　挖掘多维关联规则
7.2.3　挖掘量化关联规则
7.2.4　挖掘稀有模式和负模式
7.3　基于约束的频繁模式挖掘
7.3.1　关联规则的元规则制导挖掘
7.3.2　基于约束的模式产生：模式空间剪枝和数据空间剪枝
7.4　挖掘高维数据和巨型模式
7.5　挖掘压缩或近似模式
7.5.1　通过模式聚类挖掘压缩模式
7.5.2　提取感知冗余的top-k模式
7.6　模式探索与应用
7.6.1　频繁模式的语义注解
7.6.2　模式挖掘的应用
7.7　小结
7.8　习题
7.9　文献注释

第8章　分类：基本概念
8.1　基本概念
8.1.1　什么是分类
8.1.2　分类的一般方法
8.2　决策树归纳
8.2.1　决策树归纳
8.2.2　属性选择度量
8.2.3　树剪枝
8.2.4　可伸缩性与决策树归纳
8.2.5　决策树归纳的可视化挖掘
8.3　贝叶斯分类方法
8.3.1　贝叶斯定理
8.3.2　朴素贝叶斯分类
8.4　基于规则的分类
8.4.1　使用IF-THEN规则分类
8.4.2　由决策树提取规则
8.4.3　使用顺序覆盖算法的规则归纳
8.5　模型评估与选择
8.5.1　评估分类器性能的度量
8.5.2　保持方法和随机二次抽样
8.5.3　交叉验证
8.5.4　自助法
8.5.5　使用统计显著性检验选择模型
8.5.6　基于成本效益和ROC曲线比较分类器
8.6　提高分类准确率的技术
8.6.1　组合分类方法简介
8.6.2　装袋
8.6.3　提升和AdaBoost
8.6.4　随机森林
8.6.5　提高类不平衡数据的分类准确率
8.7　小结
8.8　习题
8.9　文献注释

第9章　分类：高级方法
9.1　贝叶斯信念网络
9.1.1　概念和机制
9.1.2　训练贝叶斯信念网络
9.2　用后向传播分类
9.2.1　多层前馈神经网络
9.2.2　定义网络拓扑
9.2.3　后向传播
9.2.4　黑盒内部：后向传播和可解释性
9.3　支持向量机
9.3.1　数据线性可分的情况
9.3.2　数据非线性可分的情况
9.4　使用频繁模式分类
9.4.1　关联分类
9.4.2　基于有区别力的频繁模式分类
9.5　惰性学习法(或从近邻学习）
9.5.1　k-最近邻分类
9.5.2　基于案例的推理
9.6　其他分类方法
9.6.1　遗传算法
9.6.2　粗糙集方法
9.6.3　模糊集方法
9.7　关于分类的其他问题
9.7.1　多类分类
9.7.2　半监督分类
9.7.3　主动学习
9.7.4　迁移学习
9.8　小结
9.9　习题
9.10　文献注释

第10章　聚类分析：基本概念和方法
10.1　聚类分析
10.1.1　什么是聚类分析
10.1.2　对聚类分析的要求
10.1.3　基本聚类方法概述
10.2　划分方法
10.2.1　k-均值：一种基于形心的技术
10.2.2　k-中心点：一种基于代表对象的技术
10.3　层次方法
10.3.1　凝聚的与分裂的层次聚类
10.3.2　算法方法的距离度量
10.3.3　BIRCH：使用聚类特征树的多阶段聚类
10.3.4　Chameleon：使用动态建模的多阶段层次聚类
10.3.5　概率层次聚类
10.4　基于密度的方法
10.4.1　DBSCAN：一种基于高密度连通区域的基于密度的聚类
10.4.2　OPTICS：通过点排序识别聚类结构
10.4.3　DENCLUE：基于密度分布函数的聚类
10.5　基于网格的方法
10.5.1　STING：统计信息网格
10.5.2　CLIQUE：一种类似于Apriori的子空间聚类方法
10.6　聚类评估
10.6.1　估计聚类趋势
10.6.2　确定簇数
10.6.3　测定聚类质量
10.7　小结
10.8　习题
10.9　文献注释

第11章　高级聚类分析
11.1　基于概率模型的聚类
11.1.1　模糊簇
11.1.2　基于概率模型的聚类
11.1.3　期望最大化算法
11.2　聚类高维数据
11.2.1　聚类高维数据：问题、挑战和主要方法
11.2.2　子空间聚类方法
11.2.3　双聚类
11.2.4　维归约方法和谱聚类
11.3　聚类图和网络数据
11.3.1　应用与挑战
11.3.2　相似性度量
11.3.3　图聚类方法
11.4　具有约束的聚类
11.4.1　约束的分类
11.4.2　具有约束的聚类方法
11.5　小结
11.6　习题
11.7　文献注释

第12章　离群点检测
12.1　离群点和离群点分析
12.1.1　什么是离群点
12.1.2　离群点的类型
12.1.3　离群点检测的挑战
12.2　离群点检测方法
12.2.1　监督、半监督和无监督方法
12.2.2　统计方法、基于邻近性的方法和基于聚类的方法
12.3　统计学方法
12.3.1　参数方法
12.3.2　非参数方法
12.4　基于邻近性的方法
12.4.1　基于距离的离群点检测和嵌套循环方法
12.4.2　基于网格的方法
12.4.3　基于密度的离群点检测
12.5　基于聚类的方法
12.6　基于分类的方法
12.7　挖掘情境离群点和集体离群点
12.7.1　把情境离群点检测转换成传统的离群点检测
12.7.2　关于情境对正常行为建模
12.7.3　挖掘集体离群点
12.8　高维数据中的离群点检测
12.8.1　扩充的传统离群点检测
12.8.2　发现子空间中的离群点
12.8.3　高维离群点建模
12.9　小结
12.10　习题
12.11　文献注释

第13章　数据挖掘的发展趋势和研究前沿
13.1　挖掘复杂的数据类型
13.1.1　挖掘序列数据：时间序列、符号序列和生物学序列
13.1.2　挖掘图和网络
13.1.3　挖掘其他类型的数据
13.2　数据挖掘的其他方法
13.2.1　统计学数据挖掘
13.2.2　关于数据挖掘基础的观点
13.2.3　可视和听觉数据挖掘
13.3　数据挖掘应用
13.3.1　金融数据分析的数据挖掘
13.3.2　零售和电信业的数据挖掘
13.3.3　科学与工程数据挖掘
13.3.4　入侵检测和预防数据挖掘
13.3.5　数据挖掘与推荐系统
13.4　数据挖掘与社会
13.4.1　普适的和无形的数据挖掘
13.4.2　数据挖掘的隐私、安全和社会影响
13.5　数据挖掘的发展趋势
13.6　小结
13.7　习题
13.8　文献注释
参考文献
索引

精彩书摘

　　第1章　引论
　　本书是一个导论，介绍一个年青并且快速成长的领域——数据挖掘（又称从数据中发现知识，简称KDD）。本书关注从各种各样的应用数据中发现有趣数据模式的数据挖掘基本概念和技术，特别是那些开发有效的、可伸缩的数据挖掘工具的卓越技术。
　　本章组织如下：在1.1节，我们将学习为什么需要数据挖掘和数据挖掘如何成为信息技术自然进化的一部分。1.2节从知识发现过程定义数据挖掘。之后，我们将从各种角度学习数据挖掘，如可供挖掘的数据（1.3节），可以发现的模式（1.4节），所使用的技术（1.5节），以及应用（1.6节）。这样，你将获得数据挖掘的多维视图。最后，1.7节概述数据挖掘研究和发展的主要问题。
　　1.1　为什么进行数据挖掘
　　需要是发明之母。——柏拉图
　　我们生活在大量数据日积月累的年代。分析这些数据是一种重要需求。1.1.1节考察数据挖掘如何通过提供从数据中发现知识的工具来满足这种需求。在1.1.2节，我们观察数据挖掘为何被视为信息技术的自然进化的结果。
　　1.1.1　迈向信息时代
　　一种流行的说法是“我们生活在信息时代”。然而，实际上我们生活在数据时代。每天，来自商业、社会、科学和工程、医学以及我们日常生活的方方面面的数兆兆字节（Tera-Byte，TB）或数千兆兆字节（Peta-Byte，PB）�〉氖�据注入我们的计算机网络、万维网和各种数据存储设备。1可用数据的爆炸式增长是我们的社会计算机化和功能强大的数据收集和存储工具快速发展的结果。世界范围的商业活动产生了巨大的数据集，包括销售事务、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈。例如，像沃尔玛这样的大型商场遍及世界各地的数以千计的超市每周都要处理数亿交易。科学和工程实践持续不断地从遥感、过程测量、科学实验、系统实施、工程观测和环境监测中产生多达数千兆兆字节的数据。
　　……

前言/序言

　　社会的计算机化显著地增强了我们产生和收集数据的能力。大量数据从我们生活的每个角落涌出。存储的或瞬态的数据的爆炸性增长已激起对新技术和自动工具的需求，以帮助我们智能地将海量数据转换成有用的信息和知识。这导致称做数据挖掘的一个计算机科学前沿学科的产生，这是一个充满希望和欣欣向荣并具有广泛应用的学科。数据挖掘通常又称为数据中的知识发现（KDD），是自动地或方便地提取代表知识的模式；这些模式隐藏在大型数据库、数据仓库、Web、其他大量信息库或数据流中。
　　本书考察知识发现和数据挖掘的基本概念和技术。作为一个多学科领域，数据挖掘从多个学科汲取营养。这些学科包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术，关注可行性、有用性、有效性和可伸缩性问题。因此，本书不打算作为数据库系统、机器学习、统计学或其他某领域的导论，尽管我们确实提供了这些领域的必要背景材料，以便读者理解它们各自在数据挖掘中的作用。本书是对数据挖掘的全面介绍。对于计算科学的学生、应用开发人员、行业专业人员以及涉及以上列举的学科的研究人员，本书应当是有用的。
　　数据挖掘出现于20世纪80年代后期，20世纪90年代有了突飞猛进的发展，并可望在新千年继续繁荣。本书全面展示该领域，介绍有趣的数据挖掘技术和系统，并讨论数据挖掘的应用和研究方向。写本书的重要动机是需要建立一个学习数据挖掘的有组织的框架——由于这个快速发展领域的多学科特点，这是一项具有挑战性的任务。我们希望本书有助于具有不同背景和经验的人交换关于数据挖掘的见解，为进一步促进这个令人激动的、不断发展的领域的成长做出贡献。
　　本书的组织
　　自本书第1版、第2版出版以来，数据挖掘领域已经取得了重大进展，开发出了许多新的数据挖掘方法、系统和应用，特别是对于处理包括信息网络、图、复杂结构和数据流，以及文本、Web、多媒体、时间序列、时间空间数据在内的新的数据类型。这种快速发展、新技术不断涌现使得在一本书中涵盖整个领域的广泛内容非常困难。因此，我们决定与其继续扩大本书的涵盖面，还不如让本书以足够的广度和深度涵盖该领域的核心内容，而把复杂数据类型的处理留给另一本即将面世的书。
　　第3版对本书的前两版做了全面修订，加强和重新组织了全书的技术内容，显著地扩充和加强处理一般数据类型挖掘的核心技术。第2版中讨论特定主题的章节（例如，数据预处理、频繁模式挖掘、分类和聚类）在这一版都被扩充，每章都分成两章。对于这些主题，一章囊括基本概念和技术，而另一章提供高级概念和方法。
　　第2版关于复杂数据类型的章节（例如，流数据、序列数据、图结构数据、社会网络数据和多重关系数据，以及文本、Web、多媒体和时间空间数据）现在保留给专门介绍数据挖掘的高级课题的新书。为了支持读者学习这些高级课题，我们把第2版的相关章节的电子版放在本书的网站上，作为第3版的配套材料。
　　第3版各章的简要内容如下（重点介绍新的内容）：
　　第1章提供关于数据挖掘的多学科领域的导论。该章讨论导致需要数据挖掘的数据库技术的发展历程和数据挖掘应用的重要性。该章考察挖掘的数据类型，包括关系的、事务的和数据仓库数据，以及复杂的数据类型，如时间序列、序列、数据流、时间空间数据、多媒体数据、文本数据、图、社会网络和Web数据。该章根据所挖掘的知识类型、所使用的技术以及目标应用的类型，对数据挖掘任务进行了一般分类。最后讨论该领域的主要挑战。
　　第2章介绍一般数据特征。该章首先讨论数据对象和属性类型，然后介绍基本统计数据描述的典型度量。该章概述各种类型数据的数据可视化技术。除了数值数据的可视化方法外，还介绍文本、标签、图和多维数据的可视化方法。第2章还介绍度量各种类型数据的相似性和相异性的方法。
　　第3章介绍数据预处理技术。该章首先介绍数据质量的概念，然后讨论数据清理、数据集成、数据归约、数据变换和数据离散化的方法。
　　第4章和第5章是数据仓库、OLAP（联机分析处理）和数据立方体技术的引论。第4章介绍数据仓库和OLAP的基本概念、建模、结构、一般实现，以及数据仓库和其他数据泛化的关系。第5章更深入地考察数据立方体技术，详细地研究数据立方体的计算方法，包括Star-Cubing和高维OLAP方法。该章还讨论数据立方体和OLAP技术的进一步研究，如抽样立方体、排序立方体、预测立方体、用于复杂数据挖掘查询的多特征立方体和发现驱动的数据立方体的探查。
　　第6章和第7章介绍挖掘大型数据集中的频繁模式、关联和相关性的方法。第6章介绍基本概念，如购物篮分析，还有条理地提供了许多频繁项集挖掘技术。这些涵盖从基本Apriori算法和它的变形，到改进性能的更高级的方法，包括频繁模式增长方法，使用数据的垂直形式的频繁模式挖掘，挖掘闭频繁项集和极大频繁项集。该章还讨论模式评估方法并介绍挖掘相关模式的度量。第7章介绍高级模式挖掘方法。该章讨论多层和多维空间中的模式挖掘，挖掘稀有和负模式，挖掘巨型模式和高维空间数据，基于约束的模式挖掘和挖掘压缩或近似模式。该章还介绍模式探查和应用的方法，包括频繁模式的语义注解。
　　第8章和第9章介绍数据分类方法。由于分类方法的重要性和多样性，内容被划分成两章。第8章介绍分类的基本概念和方法，包括决策树归纳、贝叶斯分类和基于规则的分类。该章还讨论模型评估和选择方法，以及提高分类准确率的方法，包括组合方法和处理不平衡数据。第9章讨论分类的高级方法，包括贝叶斯信念网络、后向传播的神经网络技术、支持向量机、使用频繁模式的分类、k-最邻近分类、基于案例的推理、遗传算法、粗糙集理论和模糊集方法。附加的主题包括多类分类、半监督分类、主动学习和迁移学习。
　　聚类分析是第10章和第11章的主题。第10章介绍数据聚类的基本概念和方法，包括基本聚类分析方法的概述、划分方法、层次方法、基于密度的方法和基于网格的方法。该章还介绍聚类评估方法。第11章讨论聚类的高级方法，包括基于概率模型的聚类、聚类高维数据、聚类图和网络数据，以及基于约束的聚类。
　　第12章专门讨论离群点检测。本章介绍离群点的基本概念和离群点分析，并从各种监督力度（监督的、半监督的和无监督的）以及方法角度（统计学方法、基于邻近性的方法、基于聚类的方法和基于分类的方法）讨论离群点检测方法。该章还讨论挖掘情境离群点和集体离群点，以及高维数据中的离群点检测。
　　最后，在第13章我们讨论数据挖掘的趋势、应用和研究前沿。我们简略地介绍挖掘复杂数据类型，包括挖掘序列数据（例如，时间序列、符号序列和生物学序列），挖掘图和网络，以及挖掘空间、多媒体、文本和Web数据。这些数据挖掘方法的深入讨论留给正在撰写的数据挖掘高级课题一书。然后，该章转向讨论其他数据挖掘方法学，包括统计学数据挖掘、数据挖掘基础、可视和听觉数据挖掘，以及数据挖掘的应用。讨论数据挖掘在金融数据分析、零售和电信产业、科学与工程，以及入侵检测和预防方面的应用。该章还讨论数据挖掘与推荐系统的联系。由于数据挖掘出现在我们日常生活的方方面面，所以我们讨论数据挖掘与社会，包括无处不在和无形的数据挖掘，以及隐私、安全和数据挖掘对社会的影响。我们用考察数据挖掘的发展趋势结束本书。
　　书中楷体字用于强调定义的术语，而黑体字用于突出主要思想。
　　本书与其他数据挖掘教材相比具有一些显著特点：它广泛、深入地讨论了数据挖掘原理。各章尽可能是自包含的，使得读者可以按自己感兴趣的次序阅读。高级章节提供了更大的视野，感兴趣的读者可以选读。本书提供了数据挖掘的所有主要方法，还提供了关于多维OLAP分析等数据挖掘的重要主题，这些主题在其他书中常常被忽略或很少提及。本书还维护了一个网站，其中包含大量在线资源，为教师、学生和该领域的专业人员提供支持。这些将在下面介绍。
　　致教师
　　本书旨在提供数据挖掘领域的一个广泛而深入的概览，可以作为高年级本科生或一年级研究生的数据挖掘导论。除了讲稿、教师指南和阅读材料列表等教学资源之外，本书网站还提供了一个样本课程安排。
　　根据授课学时、学生的背景和你的兴趣，你可以选取章节的子集，以不同的顺序进行讲授。例如，如果你只打算给学生讲授数据挖掘入门导论，可以按照图P.1的建议。注意，根据需要，必要时可以省略其中某些节或某些小节。
　　图P.1　入门导论课程的建议章节序列
　　根据学时和讲授范围，你可以有选择地把更多的章节增加到这个基本序列中。例如，对高级分类方法更感兴趣的教师可以首先增加“第9章　分类：高级方法”；对模式挖掘更感兴趣的教师可以选择包括“第7章　高级模式挖掘”；而对OLAP和数据立方体技术感兴趣的教师可以增加“第4章　数据仓库与联机分析处理”和“第5章　数据立方体技术”。
　　或者，你可以选择在两个学期的系列课程中讲授整本书，包括本书的所有章节，时间允许的话，加上图和网络挖掘这样的高级课题。这些高级课题可以从本书网站提供的配套材料选择，辅以挑选的研究论文。
　　本书的每一章都可以用做自学材料，或者用做数据库系统、机器学习、模式识别和数据智能分析等相关课程的专题。
　　每章后面都有一些习题，适合作为家庭作业。这些习题或者是用于测验对内容的掌握情况的小问题，或者是需要分析思考的大问题，或者是实现设计。有些习题也可以用做研究讨论课题。每章后面的文献注释可以用来查找包含正文中提供的概念和方法的来源、相关课题的深入讨论和可能的扩展的研究文献。
　　致学生
　　我们希望本书将激发你对年青，但正在快速发展的数据挖掘领域的兴趣。我们试图以清晰的方式提供材料，仔细地解释所涵盖的主题。每一章后面都附有一个小结，总结要点。全书包含了许多图和解释，以便使本书更加有趣和便于阅读。尽管本书是作为教材编写的，但是我们也试图把它组织成一本有用的参考书或手册，以有助于你今后在数据挖掘方面进行深入研究和求职。
　　为阅读本书，你需要知道什么？
　　·你应当具有关于统计学、数据库系统和机器学习的概念和术语方面的知识。然而，我们尽力提供这些基础知识的足够背景，以便在读者对这些领域不太熟悉或者记忆有些淡忘时，也能够理解本书的讨论。
　　·你应当具有一些程序设计经验。特别是你应当能够阅读伪代码，能够理解像多维数组这样的简单数据结构。

《信息时代的洞察之钥：数据科学的理论与实践》在信息爆炸的时代，数据已成为驱动决策、预测趋势、优化流程的关键要素。理解数据背后的深层含义，并将其转化为可行的商业洞察或科学发现，已经成为各行各业的核心竞争力。《信息时代的洞察之钥：数据科学的理论与实践》正是一本旨在为你解锁数据潜能、掌握数据科学核心能力的著作。本书并非对某一特定领域的照搬，而是深入浅出地解析数据科学这一多学科交叉领域的理论基石、核心方法与实际应用。本书的独特之处在于，它以一种系统性的、由浅入深的方式，带领读者穿越数据科学的广阔天地。我们不再局限于零散的工具或特定算法的介绍，而是着眼于构建一个完整的知识体系。从数据的本质、收集、清洗到模型构建、评估与部署，本书将为你提供一条清晰的学习路径，让你能够融会贯通，触类旁通。第一部分：数据科学的基石——理解数据的本质与获取在任何数据科学项目伊始，对数据的深刻理解是至关重要的。本部分将首先探讨数据的多样性与复杂性，包括结构化数据、半结构化数据和非结构化数据。我们将深入分析不同类型数据的特点、潜在的挑战以及如何对其进行初步的探索性分析（EDA）。这不仅仅是关于“看”数据，更是关于“理解”数据。你将学习如何识别数据中的噪声、缺失值、异常值，以及这些问题对后续分析可能造成的严重影响。接着，本书将聚焦于数据的获取与预处理。在这个数据源日益丰富的时代，掌握从各种渠道收集数据的策略至关重要。我们将介绍数据库查询、API接口、网络爬虫等技术，并强调数据采集过程中的伦理与法律考量。而数据预处理，这一被许多人忽视但至关重要的环节，将在本书中得到重点阐述。你将学习如何进行数据清洗，包括处理缺失值（如插值、删除）、异常值检测与处理（如箱线图、Z-score）、数据平滑、数据规范化与标准化等。同时，我们还将探讨数据转换技术，例如特征缩放、数值编码（如独热编码、标签编码）、离散化等，这些技术能够有效地提升模型的性能和稳定性。第二部分：探索数据间的奥秘——模式识别与关联分析数据的价值在于其隐藏的规律和模式。本部分将带领读者进入数据探索的核心领域，重点关注如何发现数据中的有趣关联和潜在模式。我们将从描述性统计入手，回顾均值、方差、中位数、百分位数等基本统计量，并介绍可视化技术，如散点图、直方图、箱线图、热力图等，它们是揭示数据分布、变量间关系以及异常点的强大工具。更进一步，本书将深入讲解关联规则挖掘。我们将解析支持度、置信度、提升度等关键指标，并介绍Apriori、FP-growth等经典算法。你将学会如何从海量交易数据中挖掘出“购买了A商品的用户也倾向于购买B商品”这类有价值的关联信息，这对于零售业的商品推荐、交叉销售策略制定具有直接的指导意义。此外，我们还将探讨如何发现数据中的有趣模式，例如序列模式挖掘，它能够揭示事件发生的时间顺序规律，在用户行为分析、网页点击流分析中大显身手。第三部分：构建预测模型——机器学习的理论与实践机器学习是数据科学的核心驱动力之一，它赋予了计算机从数据中学习并做出预测或决策的能力。本部分将系统地介绍各类主流的机器学习算法。我们将从监督学习开始，详细讲解回归模型（如线性回归、多项式回归）和分类模型（如逻辑回归、决策树、支持向量机、K近邻）。对于每种算法，我们都将深入剖析其背后的数学原理、工作机制、优缺点以及适用场景。本书不会止步于理论介绍，更会强调实践的重要性。我们将引导读者如何选择合适的模型，如何进行模型训练、参数调优，以及如何评估模型的性能（如准确率、精确率、召回率、F1分数、AUC等）。交叉验证、过拟合与欠拟合的识别与处理等模型评估与改进的关键技术也将得到详细的讲解。在无监督学习方面，本书将重点介绍聚类分析，如K-Means、层次聚类等。你将学会如何将相似的数据点分组，从而发现数据内在的结构，例如客户细分、图像分割等。降维技术，如主成分分析（PCA）、t-SNE等，也将被详细介绍，它们能够帮助我们处理高维数据，减少冗余，并可视化复杂的数据集。第四部分：挖掘数据中的隐藏信息——高级分析技术与应用除了基础的预测模型，数据科学还包含许多能够揭示数据深层洞察的高级技术。本部分将介绍文本挖掘、网络分析以及时间序列分析等领域。文本挖掘是处理和分析非结构化文本数据的关键。你将学习如何进行文本预处理（如分词、去除停用词、词干提取）、特征提取（如词袋模型、TF-IDF）以及情感分析、主题建模等技术，从而从海量文本中提取有价值的信息，例如用户评论的情感倾向、新闻报道的主题分布等。网络分析则专注于研究实体之间的关系。本书将介绍图论的基本概念，以及如何构建和分析网络，如节点中心性、社区检测等。这在社交网络分析、推荐系统、欺诈检测等领域有着广泛的应用。时间序列分析是处理随时间变化的数据的重要方法。你将学习如何识别时间序列的趋势、季节性、周期性，并掌握ARIMA、指数平滑等经典模型，用于预测未来的数值，例如股票价格预测、销售量预测等。第五部分：将数据洞察转化为行动——模型部署与伦理考量构建出优秀的数据模型只是数据科学流程的中间环节，最终的价值体现在将模型部署到实际应用中，并持续监控其表现。本部分将探讨模型部署的策略，包括如何将模型集成到现有的软件系统或业务流程中。我们还将讨论模型的可解释性问题，理解模型做出决策的原因，对于建立信任和进行有效的沟通至关重要。最后，本书将高度重视数据科学实践中的伦理和社会影响。我们将讨论数据隐私保护、算法的公平性与偏见、以及数据驱动决策可能带来的社会责任。掌握数据科学技术的同时，也肩负着负责任地使用这些技术的使命。《信息时代的洞察之钥：数据科学的理论与实践》是一本面向所有希望深入理解数据、掌握数据分析与建模技能的读者。无论你是学生、研究人员，还是希望在工作中应用数据科学的专业人士，本书都将为你提供一套系统、全面、深入的学习体验，助你在数据驱动的时代乘风破浪，发现数据中蕴藏的无限可能。它不仅仅是一本书，更是你通往数据科学世界的指南，是你挖掘信息时代宝藏的得力工具。

用户评价

评分☆☆☆☆☆

在我看来，《数据挖掘：概念与技术》（原书第3版）是一本兼具深度和广度的百科全书式的著作。它系统地梳理了数据挖掘的整个流程，从数据的获取、清洗、预处理，到各种挖掘技术的介绍，再到模型评估和结果的解释，几乎涵盖了数据挖掘领域的方方面面。我非常喜欢书中对“数据预处理”的详细阐述，这部分内容往往在其他教材中被一笔带过，但实际上却是数据挖掘中最耗时也最关键的环节。书中详细介绍了如何处理缺失值、噪声数据、如何进行数据变换和规约，以及如何处理类别型数据和数值型数据，并给出了大量的实用技巧。这对于任何一个从事数据分析工作的人来说，都是极其宝贵的经验。此外，书中对“聚类分析”和“异常检测”的讲解也给我留下了深刻印象。作者并没有简单地介绍 K-means 或 DBSCAN 等算法，而是深入探讨了不同聚类方法的优缺点、适用场景，以及如何选择合适的聚类数量。在异常检测方面，书中也提供了多种方法，并分析了它们在不同类型异常检测任务中的表现。总而言之，这本书为我构建了一个全面而扎实的数据挖掘知识体系，让我能够更有信心地应对实际工作中的各种数据挑战。

评分☆☆☆☆☆

作为一名对人工智能领域充满好奇的非技术背景读者，我一直想找到一本能够帮助我理解数据挖掘核心概念的书。《数据挖掘：概念与技术》（原书第3版）无疑满足了我的需求，而且远超预期。这本书的叙述风格非常引人入胜，它没有使用大量晦涩难懂的专业术语，而是通过清晰的逻辑和生动的比喻，将复杂的概念解释得浅显易懂。我尤其欣赏作者在讲解“关联规则挖掘”时，没有直接抛出算法，而是先从日常生活中“如果你买了啤酒，你可能也会买尿布”这样的例子入手，引出了“啤酒与尿布”的经典案例，然后再逐步引入 Apriori 算法的原理。这种循序渐进的学习路径，让我这个初学者也能轻松理解那些看似高深的算法。书中还特别强调了数据挖掘的“技术”与“概念”之间的联系，它不只是罗列算法，更重要的是解释了这些算法背后的思想和原理。比如，在介绍“分类”这一主题时，书中不仅讲解了各种分类算法，更深入探讨了特征选择、过拟合等关键问题，并给出了相应的解决方案。这本书让我明白，数据挖掘并非一蹴而就，而是需要综合运用多种技术和策略来解决问题。

评分☆☆☆☆☆

说实话，在拿到《数据挖掘：概念与技术》（原书第3版）之前，我对“数据挖掘”这个词的理解还停留在“从大量数据里找出有用的信息”这么一个模糊的层面。这本书彻底改变了我的认知。它不仅仅是关于技术，更是一种思维方式的引导。书中将数据挖掘的过程分解成了一个个清晰的阶段，并且在每个阶段都给出了详实的解释和具体的例子。我特别喜欢作者在讲解“数据探索与可视化”部分时的处理方式，它强调了在正式建模之前，充分理解数据的重要性。书中列举了多种可视化技术，比如散点图、直方图、箱线图等，并且说明了这些图表如何帮助我们发现数据中的趋势、模式、异常值以及变量之间的关系。这让我意识到，数据分析的第一步，绝不是急于套用算法，而是要学会“读懂”你的数据。此外，书中关于“模型评估与选择”的部分也让我大开眼界。我之前一直对各种模型的评估指标感到困惑，比如准确率、精确率、召回率、F1分数等等，不知道在什么情况下应该关注哪个指标。这本书用非常直观的方式解释了这些指标的含义，并且提供了如何根据实际问题来选择最合适的评估指标的指导。这让我明白，一个好的模型，不仅仅是预测准确，更重要的是能够为业务带来价值。

评分☆☆☆☆☆

这本书绝对是我近期阅读中最具启发性的一本。作为一名刚刚接触数据科学领域的学生，我一直对那些看似“神奇”的数据分析方法感到好奇，但又缺乏系统性的理解。《数据挖掘：概念与技术》（原书第3版）恰恰填补了我的知识空白。书中没有直接给我一堆堆枯燥的算法公式，而是从数据挖掘的宏观概念入手，循序渐进地介绍了不同阶段的任务，比如数据预处理、数据集成、数据变换、模式挖掘、分类、聚类、关联规则以及异常检测等等。我尤其喜欢书中对各个概念的生动解释，以及通过大量实际案例来展示这些概念的应用。例如，在讲到关联规则时，作者并非仅仅列出Apriori算法，而是结合超市购物篮分析的经典案例，详细解释了“支持度”、“置信度”和“提升度”这些度量的意义，让我瞬间明白了为什么“买了尿布的顾客往往也会买啤酒”。这种由浅入深、由概念到实践的讲解方式，极大地降低了学习门槛，让我这个新手也能 confidently 地理解那些复杂的原理。此外，书中对数据挖掘过程的整体性描述也让我受益匪浅，它强调了数据挖掘并非孤立的算法应用，而是需要贯穿数据收集、理解、准备、建模、评估和部署的完整流程。这种全局观让我不再拘泥于单一技术，而是开始思考如何将不同的技术融会贯通，解决实际问题。

评分☆☆☆☆☆

这本《数据挖掘：概念与技术》（原书第3版）简直是数据从业者们的“圣经”！作为一名在行业内摸爬滚打多年的数据分析师，我深知理论与实践的脱节是多么令人头疼。市面上很多书要么过于理论化，要么过于案例化，很少有能像这本书这样，将深厚的理论基础与丰富的实践指导完美结合。我非常欣赏作者在介绍各种挖掘算法时，不仅给出了清晰的数学描述，更重要的是，详细阐述了每种算法的优缺点、适用场景以及背后的直观理解。比如，在讲到决策树时，书中不仅提到了ID3、C4.5、CART等经典算法，还深入分析了剪枝技术、多叉决策树等优化方法，并给出了何时选择哪种树形结构的指导。这对于我们这些需要根据具体业务场景选择最合适模型的人来说，简直是金玉良言。更让我惊喜的是，书中并没有止步于算法本身，而是花了大篇幅讨论了数据挖掘过程中的挑战，例如数据不平衡、高维数据处理、模型的可解释性等，并提供了相应的解决方案。例如，在讲到分类问题时，除了介绍常见的分类器，还详细探讨了如何处理类别不平衡的数据集，以及如何评估模型在不平衡数据集上的性能。这种对细节的关注和对实际问题的深入剖析，让这本书的实用性大大提升，我完全可以将书中的很多思路直接应用到我的工作中。

评分☆☆☆☆☆

数据挖掘的基础图书，封面很好看，但是纸很薄哈。还不错的数据挖掘扫盲图书。

评分☆☆☆☆☆

介绍的很全面，属于概论类别。

评分☆☆☆☆☆

铁和闺蜜滴滴听你的哥哥哥哥弟弟哦名你爹的最多

评分☆☆☆☆☆

还没看，纸质印刷不错，要是有英文版还是买英文的吧

评分☆☆☆☆☆

书不错！！！！！！！！！！！

评分☆☆☆☆☆

好书，不错，正版，内容很好