产品特色
编辑推荐
本书介绍了贝叶斯统计中的主要概念,以及将其应用于数据分析的方法。本书采用编程计算的实用方法介绍了贝叶斯建模的基础,使用一些手工构造的数据和一部分简单的真实数据来解释和探索贝叶斯框架中的核心概念,然后在本书涉及的模型中,抽象出了线性模型用于解决回归和分类问题,此外还详细解释了混合模型和分层模型,并单独用一章讨论了如何做模型选择,还简单介绍了非参模型和高斯过程。
本书所有的贝叶斯模型都用PyMC3实现。PyMC3是一个用于概率编程的Python库,其许多特性都在书中有介绍。在本书和PyMC3的帮助下,读者将学会实现、检查和扩展贝叶斯统计模型,从而解决一系列数据分析的问题。
从本书你将学到:
从实用的角度理解基本的贝叶斯概念;
学习如何用PyMC3构建概率模型;
掌握检查和修改模型的技能;
利用分层模型的优势给模型加入结构;
针对不同的数据分析问题,找到合适的模型;
学会在不确定的情况下做模型选择;
用回归分析预测连续变量,用逻辑回归或softmax做分类;
学习如何从概率的角度思考,释放贝叶斯框架的灵活性与力量。
内容简介
《Python贝叶斯分析》从务实和编程的角度讲解了贝叶斯统计中的主要概念,并介绍了如何使 用流行的 PyMC3 来构建概率模型。阅读本书,读者将掌握实现、检查和扩展贝 叶斯统计模型,从而提升解决一系列数据分析问题的能力。本书不要求读者有任 何统计学方面的基础,但需要读者有使用 Python 编程方面的经验。
作者简介
Osvaldo Martin 是阿根廷国家科学与技术理事会(CONICET)的一名研究员。该理事会是负责阿根廷科技进步的主要组织。Osvaldo Martin 曾从事结构生物信息学和计算生物学方面的研究,此外,他在应用马尔科夫蒙特卡洛方法模拟分子方面有着丰富的经验,尤其喜欢用 Python 解决数据分析问题。他曾讲授结构生物信息学、Python 编程等课程,还开设了贝叶斯数据分析的课程。Python和贝叶斯统计改变了他对科学的认知和对问题的思考方式。他写本书的动力是希望借助 Python 帮助大家理解概率模型,同时,他也是 PyMOL 社区(一个基于C/Python 的分子可视化社区)的活跃成员,他也对PyMC3 社区做了一些贡献。
译者简介
田俊,计算机专业硕士。2016 年毕业于中国科学院自动化研究所,主要研究方向为自然语言处理中的短文本分类,毕业后曾在滴滴出行担任算法工程师,目前在微软从事自然语言处理方面的工作。
中文版审校者简介
劳俊鹏,心理学博士,PyMC团队成员。2014年毕业于英国格拉斯哥大学,主要研究认知神经心理学。2013年至今在瑞士弗里堡大学从事心理学研究,专攻数据建模分析和神经计算模型。
目录
第 1章 概率思维——贝叶斯推断指南 1
1.1 以建模为中心的统计学 1
1.1.1 探索式数据分析 2
1.1.2 统计推断 3
1.2 概率与不确定性 4
1.2.1 概率分布 6
1.2.2 贝叶斯定理与统计推断 9
1.3 单参数推断 11
1.3.1 抛硬币问题 11
1.3.2 报告贝叶斯分析结果 20
1.3.3 模型注释和可视化 20
1.3.4 总结后验 21
1.4 后验预测检查 24
1.5 安装必要的 Python 库 24
1.6 总结 25
1.7 练习 25
第2章 概率编程——PyMC3 编程指南 27
2.1 概率编程 27
2.1.1 推断引擎 28
2.2 PyMC3 介绍 40
2.2.1 用计算的方法解决抛硬币问题 40
2.3 总结后验 47
2.3.1 基于后验的决策 48
2.4 总结 50
2.5 深入阅读 50
2.6 练习 51
第3章 多参和分层模型 53
3.1 冗余参数和边缘概率分布 53
3.2 随处可见的高斯分布 55
3.2.1 高斯推断 56
3.2.2 鲁棒推断 59
3.3 组间比较 64
3.3.1 “小费”数据集 65
3.3.2 Cohen’s d 68
3.3.3 概率优势 69
3.4 分层模型 69
3.4.1 收缩 72
3.5 总结 74
3.6 深入阅读 75
3.7 练习 75
第4章 利用线性回归模型理解并预测数据 77
4.1 一元线性回归 77
4.1.1 与机器学习的联系 78
4.1.2 线性回归模型的核心 78
4.1.3 线性模型与高自相关性 83
4.1.4 对后验进行解释和可视化 86
4.1.5 皮尔逊相关系数 89
4.2 鲁棒线性回归 95
4.3 分层线性回归 98
4.3.1 相关性与因果性 103
4.4 多项式回归 105
4.4.1 解释多项式回归的系数 107
4.4.2 多项式回归——终极模型? 108
4.5 多元线性回归 108
4.5.1 混淆变量和多余变量 112
4.5.2 多重共线性或相关性太高 115
4.5.3 隐藏的有效变量 117
4.5.4 增加相互作用 120
4.6 glm 模块 120
4.7 总结 121
4.8 深入阅读 121
4.9 练习 122
第5章 利用逻辑回归对结果进行分类 123
5.1 逻辑回归 123
5.1.1 逻辑回归模型 125
5.1.2 鸢尾花数据集 125
5.1.3 将逻辑回归模型应用到鸢尾花数据集 128
5.2 多元逻辑回归 131
5.2.1 决策边界 132
5.2.2 模型实现 132
5.2.3 处理相关变量 134
5.2.4 处理类别不平衡数据 135
5.2.5 如何解决类别不平衡的问题 137
5.2.6 解释逻辑回归的系数 137
5.2.7 广义线性模型 138
5.2.8 Softmax 回归或多项逻辑回归 139
5.3 判别式和生成式模型 142
5.4 总结 144
5.5 深入阅读 145
5.6 练习 145
第6章 模型比较 147
6.1 奥卡姆剃刀——简约性与准确性 147
6.1.1 参数太多导致过拟合 149
6.1.2 参数太少导致欠拟合 150
6.1.3 简洁性与准确性之间的平衡 151
6.2 正则先验 152
6.2.1 正则先验和多层模型 153
6.3 衡量预测准确性 153
6.3.1 交叉验证 154
6.3.2 信息量准则 155
6.3.3 用 PyMC3 计算信息量准则 158
6.3.4 解释和使用信息校准 162
6.3.5 后验预测检查 163
6.4 贝叶斯因子 164
6.4.1 类比信息量准则 166
6.4.2 计算贝叶斯因子 166
6.5 贝叶斯因子与信息量准则 169
6.6 总结 171
6.7 深入阅读 171
6.8 练习 171
第7章 混合模型 173
7.1 混合模型 173
7.1.1 如何构建混合模型 174
7.1.2 边缘高斯混合模型 180
7.1.3 混合模型与计数类型变量 181
7.1.4 鲁棒逻辑回归 187
7.2 基于模型的聚类 190
7.2.1 固定成分聚类 191
7.2.2 非固定成分聚类 191
7.3 连续混合模型 192
7.3.1 beta- 二项分布与负二项分布 192
7.3.2 t 分布 193
7.4 总结 193
7.5 深入阅读 194
7.6 练习 194
第8章 高斯过程 195
8.1 非参统计 195
8.2 基于核函数的模型 196
8.2.1 高斯核函数 196
8.2.2 核线性回归 197
8.2.3 过拟合与先验 202
8.3 高斯过程 202
8.3.1 构建协方差矩阵 203
8.3.2 根据高斯过程做预测 207
8.3.3 用 PyMC3 实现高斯过程 211
8.4 总结 215
8.5 深入阅读 216
8.6 练习 216
Python贝叶斯分析 电子书 下载 mobi epub pdf txt