scikit-learn机器学习：常用算法原理及编程实战计算机与互联网…|7436499 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

黄永昌著

图书标签:

机器学习
scikit-learn
Python
算法
数据分析
编程实战
计算机
互联网
人工智能
数据挖掘

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：互动出版网图书专营店

出版社：机械工业出版社

ISBN：9787111590248

商品编码：25605687419

出版时间：2018-03-01

具体描述

书[0名0]：	scikit-learn [1机1] 器[0学0]习：常用算[0法0]原理及编程实战\|7436499
图书定价：	59元
图书作者：	黄永昌
出版社：	[1机1] 械工业出版社
出版日期：	2018/3/1 0:00:00
ISBN号：	9787111590248
开本：	16开
页数：	0
版次：	1-1

内容简介

本书通过通俗易懂的语言、丰富的图示和生动的实例，拨开了笼罩在 [1机1] 器[0学0]习上方复杂的数[0学0]“乌云”，让读者以较低的代价和门槛轻松入门 [1机1] 器[0学0]习。
本书共分为11章，介绍了在Python环境下[0学0]习scikit-learn [1机1] 器[0学0]习框架的相关[0知0]识，涵盖的主要内容有 [1机1] 器[0学0]习概述、Python [1机1] 器[0学0]习软件包、 [1机1] 器[0学0]习理论基础、k-近邻算[0法0]、线性回归算[0法0]、逻辑回归算[0法0]、决策树、支持向量 [1机1] 、朴素贝叶斯算[0法0]、PCA 算[0法0]和k-均值算[0法0]等。
本书适合有一定编程基础的读者阅读，尤其适合想从事 [1机1] 器[0学0]习、人工智能、深度[0学0]习及 [1机1] 器人相关技术的程序员和爱好者阅读。另外，相关院校和培训 [1机1] 构也可以将本书作为教材使用。
scikit-learn [1机1] 器[0学0]习
常用算[0法0]原理及编程实战
出版发行： [1机1] 械工业出版社（北京市西城区百万庄[0大0]街22号邮政编码：100037）
责任编辑：欧振旭李华君责任校对：姚志娟
印刷：中[0国0]电影出版社印刷厂版次：2018年3月[0第0]1版[0第0]1次印刷
开本：186mm×240mm 1/16 印张：13.75
书号：ISBN 978-7-111-59024-8 定价：59.00元
凡购本书，如有缺页、倒页、脱页，由本社发行部调换
客服热线：（010）88379426 88361066 投稿热线：（010）88379604
购书热线：（010）68326294 88379649 68995259 读者信箱：hzit@hzbook.com
版[0权0]所有·侵[0权0]必究
封底无防伪标均为盗版
本书[0法0]律顾问：北京[0大0]成律师事务所韩光/邹晓东

前言
[0第0]1章 [1机1] 器[0学0]习介绍 1
1.1 什么是 [1机1] 器[0学0]习 1
1.2 [1机1] 器[0学0]习有什么用 2
1.3 [1机1] 器[0学0]习的分类 3
1.4 [1机1] 器[0学0]习应用开发的典型步骤 4
1.4.1 数据采集和标记 4
1.4.2 数据清洗 5
1.4.3 特征选择 5
1.4.4 模型选择 5
1.4.5 模型训练和测试 5
1.4.6 模型性能[0评0]估和[0优0]化 5
1.4.7 模型使用 6
1.5 复习题 6
[0第0]2章 Python [1机1] 器[0学0]习软件包 7
2.1 开发环境搭建 7
2.2 IPython简介 8
2.2.1 IPython基础 8
2.2.2 IPython图形界面 13
2.3 Numpy简介 15
2.3.1 Numpy数组 15
2.3.2 Numpy运算 19
2.4 Pandas简介 32
2.4.1 基本数据结构 32
2.4.2 数据排序 34
2.4.3 数据访问 34
2.4.4 时间序列 36
2.4.5 数据可视化 36
2.4.6 文件读写 38
2.5 Matplotlib简介 38
2.5.1 图形样式 38
2.5.2 图形对象 40
2.5.3 画图操作 46
2.6 scikit-learn简介 51
2.6.1 scikit-learn示例 51
2.6.2 scikit-learn一般性原理和通用规则 55
2.7 复习题 56
2.8 拓展[0学0]习资源 57
[0第0]3章 [1机1] 器[0学0]习理论基础 58
3.1 过拟合和欠拟合 58
3.2 成本函数 59
3.3 模型准确性 60
3.3.1 模型性能的不同表述方式 61
3.3.2 交叉验证数据集 61
3.4 [0学0]习曲线 62
3.4.1 实例：画出[0学0]习曲线 62
3.4.2 过拟合和欠拟合的特征 65
3.5 算[0法0]模型性能[0优0]化 65
3.6 查准率和召回率 66
3.7 F1 Score 67
3.8 复习题 67
[0第0]4章 k-近邻算[0法0] 69
4.1 算[0法0]原理 69
4.1.1 算[0法0][0优0]缺点 69
4.1.2 算[0法0]参数 70
4.1.3 算[0法0]的变种 70
4.2 示例：使用k-近邻算[0法0]进行分类 70
4.3 示例：使用k-近邻算[0法0]进行回归拟合 72
4.4 实例：糖尿病预测 74
4.4.1 加载数据 74
4.4.2 模型比较 75
4.4.3 模型训练及分析 77
4.4.4 特征选择及数据可视化 78
4.5 拓展阅读 80
4.5.1 如何提高k-近邻算[0法0]的运算效率 80
4.5.2 相关性测试 80
4.6 复习题 81
[0第0]5章线性回归算[0法0] 83
5.1 算[0法0]原理 83
5.1.1 预测函数 83
5.1.2 成本函数 84
5.1.3 梯度下降算[0法0] 84
5.2 多变量线性回归算[0法0] 86
5.2.1 预测函数 86
5.2.2 成本函数 87
5.2.3 梯度下降算[0法0] 88
5.3 模型[0优0]化 89
5.3.1 多项式与线性回归 89
5.3.2 数据归一化 89
5.4 示例：使用线性回归算[0法0]拟合正弦函数 90
5.5 示例：测算房价 92
5.5.1 输入特征 92
5.5.2 模型训练 93
5.5.3 模型[0优0]化 94
5.5.4 [0学0]习曲线 95
5.6 拓展阅读 96
5.6.1 梯度下降迭代公式推导 96
5.6.2 随 [1机1] 梯度下降算[0法0] 96
5.6.3 标准方程 97
5.7 复习题 97
[0第0]6章逻辑回归算[0法0] 98
6.1 算[0法0]原理 98
6.1.1 预测函数 98
6.1.2 判定边界 99
6.1.3 成本函数 100
6.1.4 梯度下降算[0法0] 102
6.2 多元分类 102
6.3 正则化 103
6.3.1 线性回归模型正则化 103
6.3.2 逻辑回归模型正则化 104
6.4 算[0法0]参数 104
6.5 实例：乳腺癌检测 106
6.5.1 数据采集及特征提取 106
6.5.2 模型训练 108
6.5.3 模型[0优0]化 110
6.5.4 [0学0]习曲线 111
6.6 拓展阅读 113
6.7 复习题 114
[0第0]7章决策树 115
7.1 算[0法0]原理 115
7.1.1 信息增益 116
7.1.2 决策树的创建 119
7.1.3 剪枝算[0法0] 120
7.2 算[0法0]参数 121
7.3 实例：预测泰坦尼克号幸存者 122
7.3.1 数据分析 122
7.3.2 模型训练 123
7.3.3 [0优0]化模型参数 124
7.3.4 模型参数选择工具包 127
7.4 拓展阅读 130
7.4.1 熵和条件熵 130
7.4.2 决策树的构建算[0法0] 130
7.5 集合算[0法0] 131
7.5.1 自助聚合算[0法0]Bagging 131
7.5.2 正向激励算[0法0]boosting 131
7.5.3 随 [1机1] 森林 132
7.5.4 ExtraTrees算[0法0] 133
7.6 复习题 133
[0第0]8章支持向量 [1机1] 134
8.1 算[0法0]原理 134
8.1.1 [0大0]间距分类算[0法0] 134
8.1.2 松弛系数 136
8.2 核函数 138
8.2.1 简单的核函数 138
8.2.2 相似性函数 140
8.2.3 常用的核函数 141
8.2.4 核函数的对比 142
8.3 scikit-learn里的SVM 144
8.4 实例：乳腺癌检测 146
8.5 复习题 149
[0第0]9章朴素贝叶斯算[0法0] 151
9.1 算[0法0]原理 151
9.1.1 贝叶斯定理 151
9.1.2 朴素贝叶斯分类[0法0] 152
9.2 一个简单的例子 153
9.3 概率分布 154
9.3.1 概率统计的基本概念 154
9.3.2 多项式分布 155
9.3.3 高斯分布 158
9.4 连续值的处理 159
9.5 实例：文档分类 160
9.5.1 获取数据集 160
9.5.2 文档的数[0学0]表达 161
9.5.3 模型训练 163
9.5.4 模型[0评0]价 165
9.6 复习题 167
[0第0]10章 PCA算[0法0] 168
10.1 算[0法0]原理 168
10.1.1 数据归一化和缩放 169
10.1.2 计算协方差矩阵的特征向量 169
10.1.3 数据降维和恢复 170
10.2 PCA 算[0法0]示例 171
10.2.1 使用Numpy模拟PCA计算过程 171
10.2.2 使用sklearn进行PCA降维运算 173
10.2.3 PCA的物理含义 174
10.3 PCA 的数据还原率及应用 175
10.3.1 数据还原率 175
10.3.2 加快监督 [1机1] 器[0学0]习算[0法0]的运算速度 176
10.4 实例：人脸识别 176
10.4.1 加载数据集 176
10.4.2 一次失败的尝试 179
10.4.3 使用PCA来处理数据集 182
10.4.4 终结果 185
10.5 拓展阅读 189
10.6 复习题 189
[0第0]11章 k-均值算[0法0] 190
11.1 算[0法0]原理 190
11.1.1 k-均值算[0法0]成本函数 191
11.1.2 随 [1机1] 初始化聚类中心点 191
11.1.3 选择聚类的个数 192
11.2 scikit-learn里的k-均值算[0法0] 192
11.3 使用k-均值对文档进行聚类分析 195
11.3.1 准备数据集 195
11.3.2 加载数据集 196
11.3.3 文本聚类分析 197
11.4 聚类算[0法0]性能[0评0]估 200
11.4.1 Adjust Rand Index 200
11.4.2 齐次性和完整性 201
11.4.3 轮廓系数 203
11.5 复习题 204
后记 205

数据驱动的未来：掌握机器学习的核心力量在这个信息爆炸的时代，数据如同石油，蕴藏着巨大的价值，而机器学习则是挖掘这些价值的利器。它不仅仅是学术界的象牙塔，更是驱动现代科技、商业乃至我们日常生活的强大引擎。从智能推荐系统、精准营销，到自动驾驶汽车、医疗诊断，机器学习的身影无处不在，正在以前所未有的速度重塑我们的世界。本书将带您踏上一段深入探索机器学习奥秘的旅程。我们不仅仅停留在理论的表面，更注重于揭示算法背后的核心思想，理解它们如何从数据中学习，并最终解决现实世界中的复杂问题。我们将以一种系统化、结构化的方式，引导您逐步掌握机器学习的关键技术和实用技巧。一、理解机器学习的基石：数据与算法在开始具体的算法学习之前，清晰地理解机器学习的本质至关重要。我们将从机器学习的基本概念出发，阐述监督学习、无监督学习、半监督学习和强化学习这四大类主要的学习范式。每种范式都有其独特的应用场景和解决问题的方式。监督学习：这是最常见也是最容易理解的学习方式。如同学生跟着老师学习，我们向模型提供带有“正确答案”（标签）的数据，让模型学习输入与输出之间的映射关系。本书将深入探讨监督学习中的两大核心任务：回归（Regression）：预测一个连续的数值，例如股票价格、房价、气温变化等。我们将详细介绍线性回归、多项式回归、岭回归、Lasso回归等模型，并分析它们各自的优缺点和适用条件。分类（Classification）：将数据划分到预定义的类别中，例如垃圾邮件检测、图像识别（猫、狗）、疾病诊断等。我们将重点讲解逻辑回归、支持向量机（SVM）、K近邻（KNN）、决策树、随机森林等经典分类算法，并解释它们是如何实现“投票”或“边界划分”来做出预测的。无监督学习：与监督学习不同，无监督学习在没有预先提供标签的情况下，让模型自己去发现数据中的隐藏结构和模式。它在数据探索、特征工程以及发现未知关联方面发挥着重要作用。本书将重点研究：聚类（Clustering）：将相似的数据点分组，例如客户细分、异常检测、社交网络分析等。我们将深入剖析K-Means、层次聚类、DBSCAN等算法，理解它们如何衡量相似性并形成簇。降维（Dimensionality Reduction）：在高维数据中提取出最重要的特征，减少数据冗余，提高模型效率，同时有助于可视化。主成分分析（PCA）、t-SNE等降维技术将是本书的重点讲解内容。其他学习范式：除了监督学习和无监督学习，我们还将简要介绍半监督学习（结合少量标签和大量无标签数据）和强化学习（通过与环境互动进行学习，如游戏AI、机器人控制）的基本原理和应用前景，为读者拓展更广阔的学习视野。二、深度剖析常用机器学习算法本书将精选并深入讲解一系列在实际应用中表现出色、被广泛使用的机器学习算法。我们力求做到： 1. 原理清晰：用通俗易懂的语言，结合直观的数学公式和几何解释，阐述算法的核心思想、数学推导和工作机制。避免过度复杂的数学推演，而是聚焦于概念的理解。 2. 实战导向：每种算法都将提供相应的编程实现示例，帮助读者将理论知识转化为实际操作能力。我们将使用流行的开源库（如Scikit-learn）来演示算法的构建、训练和预测过程。 3. 应用场景分析：详细分析每种算法最适合解决的问题类型，以及在哪些领域可以发挥最大价值。 4. 参数调优与评估：深入探讨如何选择和调整算法的关键参数，以及如何使用各种评估指标（如准确率、召回率、F1分数、ROC曲线、均方误差等）来客观地衡量模型的性能。部分核心算法讲解示例：线性模型家族（线性回归、逻辑回归）：作为最基础也是最强大的模型之一，我们将详细讲解它们是如何通过线性组合来拟合数据或进行分类的，以及正则化（L1, L2）如何防止过拟合。支持向量机（SVM）：理解其“最大间隔”的思想，以及核技巧如何处理非线性可分问题，掌握寻找最优超平面的过程。决策树与集成学习（随机森林、梯度提升树）：从简单的决策树开始，理解其“分裂”过程。进而深入学习如何通过集成多个弱学习器来构建更强大、更鲁棒的模型，如随机森林的“Bagging”思想和梯度提升树的“Boosting”思想。 K近邻（KNN）：理解基于“邻居”进行预测的直观思想，以及距离度量和K值选择的重要性。主成分分析（PCA）：揭示其如何通过寻找数据方差最大的方向来达到降维的目的，并理解协方差矩阵和特征向量的作用。三、实践出真知：从数据预处理到模型部署机器学习项目远不止选择和训练算法。一个完整、成功的机器学习流程涉及多个关键环节。本书将系统地引导您完成整个流程：数据获取与理解：如何收集、加载和初步探索数据集，了解数据的基本统计特征。数据预处理：这是机器学习中最耗时也最关键的步骤之一。我们将详细讲解：特征工程：如何从原始数据中提取出更有信息量的特征，包括数值型特征处理（归一化、标准化、离散化）、类别型特征处理（独热编码、标签编码）、文本特征提取（TF-IDF, Word2Vec）等。缺失值处理：如何识别和填充数据集中的缺失值，避免对模型产生负面影响。异常值检测与处理：如何识别和处理可能影响模型训练的极端值。特征选择：在海量特征中找出对预测任务最重要的特征子集，减少模型复杂度，提高效率和性能。模型选择与评估：如何根据问题类型和数据特点选择合适的算法，以及如何使用交叉验证等技术来更可靠地评估模型性能。模型调优（超参数优化）：使用网格搜索（Grid Search）、随机搜索（Random Search）等方法寻找最佳的模型参数组合。模型部署与应用：简要介绍如何将训练好的模型集成到实际应用中，使其能够为用户提供服务。四、机器学习在实际中的应用与进阶本书不仅教授您算法本身，更着眼于将这些知识应用于解决实际问题。我们将通过一系列真实世界案例，展示机器学习如何在不同领域发挥巨大作用：推荐系统：揭示“你可能喜欢”背后的算法原理，如协同过滤、基于内容的推荐。自然语言处理（NLP）基础：文本情感分析、文本分类、信息提取等。计算机视觉（CV）入门：图像分类、目标检测等基础任务。金融领域的应用：风险评估、欺诈检测。医疗健康领域的探索：疾病预测、药物发现。在掌握了基础算法和通用流程之后，本书还将为渴望进一步深造的读者提供进阶的方向，例如：深度学习：神经网络、卷积神经网络（CNN）、循环神经网络（RNN）等，它们在处理图像、文本和序列数据方面展现出强大的能力。模型解释性：如何理解模型做出决策的原因，提高模型的可信度和可解释性。模型部署与优化：如何构建高效、可扩展的机器学习服务。本书的特色循序渐进，由浅入深：从基础概念到高级应用，每个主题都经过精心设计，确保读者能够逐步建立起完整的知识体系。理论与实践并重：每一个算法的讲解都伴随着清晰的理论阐述和可执行的编程代码，让学习过程更加生动有趣。聚焦核心，精选算法：专注于当前业界最常用、最有效的机器学习算法，避免碎片化和不必要的知识堆砌。案例驱动，应用导向：通过丰富的实际案例，帮助读者理解机器学习的强大威力，激发解决实际问题的热情。面向广泛读者：无论您是计算机科学的学生、有一定编程基础的开发者、数据分析师，还是希望了解人工智能前沿的商业人士，本书都能为您提供宝贵的知识和技能。掌握机器学习，就是掌握打开数据宝藏的钥匙，就是拥有预测未来、优化决策、创造价值的超能力。这本书将是您在这条激动人心的道路上最可靠的伙伴。让我们一起，用数据驱动的智慧，创造一个更美好的未来！

用户评价

评分☆☆☆☆☆

作为一名对数据科学充满热情但非科班出身的读者，这本书无疑是我学习旅程中的一座灯塔。它在“编程实战”部分给了我极大的帮助。scikit-learn作为机器学习领域的事实标准，其API设计得非常简洁易用，而本书恰恰充分利用了这一点。作者精心挑选了多个具有代表性的数据集，从回归、分类到聚类，几乎涵盖了机器学习的常见任务。对于每个任务，书中都给出了详尽的步骤，包括如何加载数据，如何进行特征工程（比如缺失值处理、特征缩放），如何选择合适的模型，如何进行参数调优，以及如何评估模型的性能。最让我惊喜的是，书中对于一些模型，比如随机森林和梯度提升树，还讲解了如何通过可视化工具（如matplotlib和seaborn）来展示模型的决策过程或者特征重要性，这极大地增强了我的直观理解。我尝试着将书中的代码稍作修改，用在自己收集的一些小数据集上，发现效果也相当不错，这极大地激发了我进一步学习和探索的动力。

评分☆☆☆☆☆

这本书给我的整体感觉是“有料”。它不像市面上很多书那样，仅仅是简单地罗列scikit-learn的函数，而是真正地将算法的背后原理与实际编程应用紧密地结合起来。例如，在讲解无监督学习中的降维技术时，作者不仅仅是介绍了PCA和t-SNE，更深入地分析了它们各自的数学原理，以及它们在可视化和特征提取方面的应用。让我印象深刻的是，书中还讨论了一些更高级的话题，比如模型的可解释性，以及如何处理类别不平衡的数据集。这些都是在实际项目开发中非常常见且重要的问题。本书的语言风格也很适合我，既不显得过于枯燥乏味，也不失严谨性。作者在穿插讲解理论知识时，还会适时地引用一些经典的研究论文，这让我感受到作者的深厚功底，同时也为我指明了进一步深入学习的方向。我真心推荐这本书给所有想要系统学习机器学习，并希望将其应用于实际编程的读者。

评分☆☆☆☆☆

我购买这本书的初衷，是为了深入了解支撑起当下人工智能浪潮的那些核心算法。这本书在“算法原理”这个环节做得尤为出色。它并没有将各种算法罗列出来，而是非常有条理地将它们归类，比如监督学习、无监督学习等，然后层层递进地剖析。对于像支持向量机（SVM）这样在某些书中被描述得极其复杂的算法，作者通过数学的严谨性与直观的几何解释相结合的方式，让我茅塞顿开。它不仅仅是给出了推导公式，更重要的是解释了为什么要有这些公式，背后的思想是什么。我特别喜欢书中对核函数作用的讲解，它不是简单地介绍几种核函数，而是深入探讨了它如何将低维数据映射到高维空间，从而解决线性不可分的问题。这种“知其然，更知其所以然”的学习过程，让我对机器学习的理解不再停留在“调包侠”的层面。而且，书中对于算法的优缺点、适用场景的分析也十分到位，让我能够更好地根据实际问题选择合适的模型。

评分☆☆☆☆☆

这本书的篇幅相当可观，厚重的手感就足以让人感受到内容的扎实。我一直对机器学习领域充满了好奇，但市面上很多教材要么过于理论化，要么过于碎片化，难以形成系统性的认知。这本书恰好填补了我的需求。它从基础的算法原理讲起，比如线性回归、逻辑回归，这些看似简单但却是理解更复杂模型的基础。作者在解释原理时，并没有直接跳到公式推导，而是通过生动的比喻和清晰的逻辑，将抽象的概念具象化，让我这种初学者也能逐渐领会其中的精髓。尤其印象深刻的是关于决策树的部分，图文并茂的解释，让我瞬间明白了“不纯度”和“信息增益”的含义，也理解了它如何通过不断划分来构建模型。更重要的是，这本书非常注重实战，每一章节都配有相应的Python代码示例，并且使用的库是scikit-learn，这个在业界非常流行的库。我跟着书中的代码敲了一遍又一遍，从数据的加载、预处理，到模型的训练、评估，每一步都清晰可见，让我能够快速地将理论知识应用到实践中。这种理论与实践相结合的方式，大大提升了我的学习效率和信心。

评分☆☆☆☆☆

坦白说，在我翻开这本书之前，我对“集成学习”的概念并没有一个清晰的认识。它常常被提及，但具体的实现方式和威力却难以捉摸。而这本书对这一块的讲解，简直是我的福音。它从最基础的“bagging”和“boosting”讲起，通过生动的例子，让我理解了为什么将多个弱学习器组合起来，能够得到一个更强大的模型。特别是对XGBoost和LightGBM这样近年来非常流行的集成算法，书中不仅详细讲解了它们的原理，比如梯度下降、正则化等，更重要的是提供了与scikit-learn统一的接口进行调用。这让我感到非常方便，因为我不需要再去学习一套全新的API。书中对于模型融合的策略，比如投票法、加权平均法等，也有深入的介绍，让我能够根据具体场景来选择最优的融合方式。这种对前沿算法的深入剖析和实战指导，让我觉得这本书不仅仅是一本入门读物，更是一本能够帮助我提升实战能力的进阶指南。