编辑推荐
写给IT工程师看的机器学习入门书
紧紧围绕“机器学习的商业应用”这个主题,从数学原理上解释机器学习的一些基础算法,如*小二乘法、*优推断法、感知器、Logistic回归、K均值算法、EM算法、贝叶斯推断等。
帮助读者理解机器学习的本质,着眼于教会读者使用什么样的思维方式,以及如何进行计算,为读者探索更加复杂的深度学习领域或神经网络算法打下坚实的基础。
第 1章 数据科学和机器学习
第 2章 *小二乘法:机器学习理论第一步
第3章 *优推断法:使用概率的推断理论
第4章 感知器:分类算法的基础
第5章 Logistic回归和ROC曲线:学习模型的评价方法
第6章 K均值算法:无监督学习模型的基础
第7章 EM算法:基于*优推断法的监督学习
第8章 贝叶斯推断:以数据为基础提高置信度的手法
内容简介
人工智能正在形成一股新的浪潮,它将从技术、经济、社会等各个层面改变我们的工作和生活方式。作为实现人工智能的重要技术,机器学习正在受到人工智能专家之外的更广泛人群的关注,想要了解机器学习相关知识和技术的人日益增多。
本书紧紧围绕“机器学习的商业应用”这个主题,从数学原理上解释了机器学习的一些基础算法,如*小二乘法、*优推断法、感知器、Logistic回归、K均值算法、EM算法、贝叶斯推断等。全书的主旨在于帮助读者理解机器学习的本质,因此作者介绍具体的例题时,基本的着眼点是教会读者使用什么样的思维方式,以及如何进行计算,为读者探索更加复杂的深度学习领域或神经网络算法打下坚实的基础。
作者简介
1971年4月生于日本大阪市。现为Linux工程师,任职于知名的Linux发行商Red Hat,主要致力于推动Linux/OSS在企业系统中的应用。从基于Linux/OSS的企业应用开发,到10000余台Linux服务器的运维,再到私有云的设计和构建,他通过各种各样的项目掌握了丰富的Linux编程经验,并积极地将自己的经验传授给年轻的程序员们。著作有《Linux系统网络管理技术》《Linux系统架构和应用技巧》等。
目录
第 1章 数据科学和机器学习 1
1.1 数据科学在商业领域中的作用 2
1.2 机器学习算法的分类 8
1.2.1 分类:产生类判定的算法 8
1.2.2 回归分析:预测数值的算法 9
1.2.3 聚类分析:对数据进行无监督群组化的算法 10
1.2.4 其他算法 12
1.3 本书使用的例题 13
1.3.1 基于回归分析的观测值推断 13
1.3.2 基于线性判别的新数据分类 17
1.3.3 图像文件的褪色处理(提取代表色) 18
1.3.4 识别手写文字 19
1.4 分析工具的准备 20
1.4.1 本书使用的数据分析工具 21
1.4.2 运行环境设置步骤(以CentOS 6为例) 22
1.4.3 运行环境设置步骤(以Mac OS X为例) 25
1.4.4 运行环境设置步骤(以Windows 7/8.1为例) 27
1.4.5 IPython的使用方法 30
第 2章 最小二乘法:机器学习理论第 一步 35
2.1 基于近似多项式和最小二乘法的推断 36
2.1.1 训练集的特征变量和目标变量 36
2.1.2 近似多项式和误差函数的设置 38
2.1.3 误差函数最小化条件 39
2.1.4 示例代码的确认 42
2.1.5 统计模型的最小二乘法 46
2.2 过度拟合检出 49
2.2.1 训练集和测试集 49
2.2.2 测试集的验证结果 50
2.2.3 基于交叉检查的泛化能力验证 52
2.2.4 基于数据的过度拟合变化 54
2.3 附录:Hessian矩阵的特性 56
第3章 最优推断法:使用概率的推断理论 59
3.1 概率模型的利用 60
3.1.1 “数据的产生概率”设置 60
3.1.2 基于似然函数的参数评价 65
3.1.3 示例代码的确认 69
3.2 使用简化示例的解释说明 73
3.2.1 正态分布的参数模型 74
3.2.2 示例代码的确认 76
3.2.3 推断量的评价方法(一致性和无偏性) 78
3.3 附录:样本均值及样本方差一致性和无偏性的证明 80
3.3.1 样本均值及样本方差一致性和无偏性的证明 81
3.3.2 示例代码的确认 85
第4章 感知器:分类算法的基础 89
4.1 概率梯度下降法的算法 91
4.1.1 分割平面的直线方程 91
4.1.2 基于误差函数的分类结果评价 93
4.1.3 基于梯度的参数修正 95
4.1.4 示例代码的确认 99
4.2 感知器的几何学解释 100
4.2.1 对角项的任意性和算法的收敛速度 101
4.2.2 感知器的几何学解释 103
4.2.3 对角项的几何学意义 104
第5章 Logistic回归和ROC曲线:学习模型的评价方法 107
5.1 对分类问题应用最优推断法 108
5.1.1 数据发生概率的设置 108
5.1.2 基于最优推断法的参数确定 112
5.1.3 示例代码的确认 114
5.2 基于ROC曲线的学习模型评价 117
5.2.1 Logistic回归在实际问题中的应用 118
5.2.2 基于ROC曲线的性能评价 120
5.2.3 示例代码的确认 123
5.3 附录:IRLS法的推导 126
第6章 K均值算法:无监督学习模型的基础 133
6.1 基于K均值算法的聚类分析和应用实例 134
6.1.1 无监督学习模型类聚类分析 134
6.1.2 基于K均值算法的聚类分析 135
6.1.3 在图像数据方面的应用 138
6.1.4 示例代码的确认 141
6.1.5 K均值算法的数学依据 143
6.2 “懒惰”学习模型K近邻法 146
6.2.1 基于K近邻法的分类 146
6.2.2 K近邻法的问题 148
第7章 EM算法:基于最优推断法的监督学习 151
7.1 使用伯努利分布的最优推断法 152
7.1.1 手写文字的合成方法 153
7.1.2 基于图像生成器的最优推断法应用 154
7.2 使用混合分布的最优推断法 157
7.2.1 基于混合分布的概率计算 157
7.2.2 EM算法的过程 158
7.2.3 示例代码的确认 161
7.2.4 基于聚类分析的探索性数据解析 165
7.3 附录:手写文字数据的采集方法 167
第8章 贝叶斯推断:以数据为基础提高置信度的手法 169
8.1 贝叶斯推断模型和贝叶斯定理 170
8.1.1 贝叶斯推断的思路 171
8.1.2 贝叶斯定理入门 172
8.1.3 使用贝叶斯推断确定正态分布:推断参数 178
8.1.4 使用贝叶斯推断确定正态分布:推断观测值分布 185
8.1.5 示例代码的确认 188
8.2 贝叶斯推断回归分析的应用 190
8.2.1 参数后期分布的计算 190
8.2.2 观测值分布的推断 194
8.2.3 示例代码的确认 195
8.3 附录:最优推断法和贝叶斯推断的关系 198
后记 201
机器学习入门之道 电子书 下载 mobi epub pdf txt