套路！机器学习：北美数据科学家的私房课 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

林荟著

图书标签:

机器学习
数据科学
算法
Python
实战
入门
技巧
北美
干货
套路

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：电子工业出版社

ISBN：9787121326585

版次：1

商品编码：12245200

品牌：Broadview

包装：平装

开本：16开

出版时间：2017-10-01

用纸：胶版纸

页数：332

正文语种：中文

具体描述

产品特色

编辑推荐

亚马孙资深数据科学家里面博士、统计之都创始人谢益辉博士抢先品读

当前关于大数据、人工智能的炒作着实令人眼花缭乱，如大数据平台（如Hadoop、Spark），以及一些黑箱模型，如神经网络，深度学习（实际上就是多层神经网络）。各路媒体和“砖家”深谙吃瓜群众不明觉厉的心态，所以就像个“妓院头牌“似的越发摆谱。作者并没有打算写一本数据科学的圣经，告诉你所有关于数据科学的一切；只想尽可能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息，使得读者们能够少走弯路。

内容简介

数据科学家目前是北美十分热门的职业之一，平均年薪突破10万美元。但数据科学并不是一个低门槛的行业，除了对数学、统计、计算机等相关领域的技术要求以外，还要相关应用领域的知识。《套路！机器学习：北美数据科学家的私房课》的写作对象是那些现在从事数据分析相关行业，或者之后想从事数据分析行业的人，意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学能解决的问题，数据科学家需要的技能，及背后的“分析哲学”。对于新手而言，一开始就直奔艰深的理论，很容易因为困难而失去兴趣然后放弃。因此《套路！机器学习：北美数据科学家的私房课》倡导的是一种循序渐进的启发教学路径，着重在于数据科学的实际应用，让读者能够重复书中的结果，学习数据分析技能实际的方式是实践！为了平衡理论和应用，书中包括了一些选学小节，用来介绍更多的模型数理背景或给出必要的参考资料来源。抽丝剥茧介绍技术内核，帮助大家知其然，同时知其所以然。希望笔者在北美从事数据科学工作多年踏遍大大小小不计其数的坑换来的经验，能够帮助读者更加顺利地成为数据科学家！

作者简介

2013年至今任美国杜邦公司商业数据科学家。北京师范大学数学科学学院本科，爱荷华州立大学统计学院硕士和博士。曾任爱荷华州立大学兽医学院统计咨询师(2009-2013)及商学院分析咨询师(2012-2013)。当选2017-2018美国统计协会市场营销统计项目主席。翻译出版了《应用预测建模》和《R语言市场研究分析》。

第1章白话数据科学 1
1．1 什么是数据科学 3
1．2 什么是数据科学家 5
1．2．1 数据科学家需要的技能 6
1．2．2 数据科学算法总结 10
1．3 数据科学可以解决什么问题 20
1．3．1 前提要求 20
1．3．2 问题种类 22
1．4 小结 25
第2章数据集 26
2．1 服装消费者数据 26
2．2 航空公司满意度调查 33
2．3 生猪疫情风险预测数据 37
第3章数据分析流程 41
3．1 从问题到数据 42
3．2 从数据到信息 44
3．3 从信息到行动 46
第4章数据预处理 47
4．1 介绍 47
4．2 数据清理 50
4．3 缺失值填补 52
4．3．1 中位数或众数填补 53
4．3．2 K-近邻填补 54
4．3．3 装袋树填补 56
4．4 中心化和标量化 56
4．5 有偏分布 59
4．6 处理离群点 63
4．7 共线性 66
4．8 稀疏变量 70
4．9 编码名义变量 71
4．10 小结 73
第5章数据操作 75
5．1 数据读写 76
5．1．1 取代传统数据框的tibble对象 76
5．1．2 高效数据读写：readr包 80
5．1．3 数据表对象读取 83
5．2 数据整合 91
5．2．1 base包：apply() 91
5．2．2 plyr包：ddply()函数 93
5．2．3 dplyr包 96
5．3 数据整形 102
5．3．1 reshape2包 102
5．3．2 tidyr包 105
5．4 小结 107
第6章基础建模技术 109
6．1 有监督和无监督 109
6．2 误差及其来源 111
6．2．1 系统误差和随机误差 111
6．2．2 因变量误差 117
6．2．3 自变量误差 121
6．3 数据划分和再抽样 122
6．3．1 划分训练集和测试集 123
6．3．2 重抽样 131
6．4 小结 135
第7章模型评估度量 136
7．1 回归模型评估度量 136
7．2 分类模型评估度量 139
7．2．1 Kappa统计量 141
7．2．2 ROC曲线 143
7．2．3 提升图 145
7．3 小结 146
第8章特征工程 148
8．1 特征构建 149
8．2 特征提取 152
8．2．1 初步探索特征 153
8．2．2 主成分分析 158
8．2．3 探索性因子分析 163
8．2．4 高维标度化 167
8．2．5 知识扩展：3种降维特征提取方法的理论 171
8．3 特征选择 177
8．3．1 过滤法 178
8．3．2 绕封法 188
8．4 小结 195
第9章线性回归及其衍生 196
9．1 普通线性回归 197
9．1．1 最小二乘线性模型 197
9．1．2 回归诊断 201
9．1．3 离群点、高杠杆点和强影响点 204
9．2 收缩方法 205
9．2．1 岭回归 205
9．2．2 Lasso 209
9．2．3 弹性网络 212
9．3 知识扩展：LASSO的变量选择功能 213
9．4 主成分和偏最小二乘回归 215
9．5 小结 221
第10章广义线性模型压缩方法 222
10．1 初识GLMNET 223
10．2 收缩线性回归 227
10．3 逻辑回归 235
10．3．1 普通逻辑回归 235
10．3．2 收缩逻辑回归 236
10．3．3 知识扩展：群组lasso逻辑回归 239
10．4 收缩多项回归 243
10．5 泊松收缩回归 246
10．6 小结 249
第11章树模型 250
11．1 分裂准则 252
11．2 树的修剪 256
11．3 回归树和决策树 260
11．4 装袋树 268
11．5 随机森林 273
11．6 助推法 277
11．7 知识扩展：助推法的可加模型框架 283
11．8 知识扩展：助推树的数学框架 286
11．8．1 数学表达 286
11．8．2 梯度助推数值优化 289
11．9 小结 290
第12章神经网络 292
12．1 投影寻踪回归（PROJECTION PURSUIT REGRESSION） 293
12．2 神经网络（NEURAL NETWORKS） 296
12．3 神经网络拟合 299
12．4 训练神经网络 300
12．5 用CARET包训练神经网络 302
12．6 小结 311
参考文献 312

精彩书摘

第1章白话数据科学

目前数据科学和数据科学家成为了流行词汇。当有人问你干什么，你回答说数据科学家，对方会恍然大悟，觉得特别高大上，噢，数据科学家啊，听说过。是啊，没听说过数据科学家那就out了。如果接着问，数据科学家具体干什么的？然后就没有然后了。不知道你们有没有听说过这样一则轶事，美国最高法院法官Potter Stewart被问到什么是淫秽时，他回答：“看下才知道。”这和数据科学很类似，很多概念，在大而化之的时候都可以存在，大家口耳相传，聊的不亦乐乎，但一追究细节，立即土崩瓦解。那么什么是数据科学家呢？我从谷歌查询了数据科学家的定义，下面是其中的一些：

1. 住在加州的数据分析师；

2. 数据科学家是商业（数据）分析师的进化版；

3. 比软件学家更懂统计，比统计学家更懂软件科学的人；

4. 拥有出众数据分析能力的BI咨询师，尤其是能用大量数据增加商业竞争力的人；

5. 会编程，懂统计，能通过多种方式从数据中掘金的人。

此外，很多其他职位其职责都和“从数据中获取信息”有关，比如：数据分析师，BI咨询师，统计学家，金融分析师，商业分析师，预测分析师……这些不同职业有什么区别？即便都是数据科学家，教育背景等也是千差万别的。由于媒体的炒作以及对“数据科学家”这个名称的滥用，尽管总的分析行业正在飞速发展，但大家对这个行业从业人员的认识却越来越混乱。现在大部分商业领域所谓的分析都达不到“科学”的程度，而仅仅是加减乘除的游戏，数据科学工作职位比较如图1-1所示。

图1-1

这些不同的职位要求有何不同？在北美总体说来：

l 金融分析师一般有金融方向的MBA学位。他会用电子表格，知道会计软件，分析各部门的预算数据，分析实际经营结果和预测之间的差别，做一些预测，但这里的预测不会涉及复杂的机器学习和统计模型。

l 数据分析师一般有MBA学位，有一些计算机背景，很擅长使用电子表格，会用高阶的电子表格编程功能如VBA、自定义函数、宏。根据情况，会使用一些BI的软件，如Tableau，主要都是用鼠标点拖的方式。会用SQL从数据库中读取数据。我所见的商业分析师拥有很少（或没有）统计知识。所以这部分人有处理数据的知识，但是没有统计学的知识，能做的分析非常有限。

l 统计学家一般多在药厂、生物技术公司，做一些非常传统的混合效应模型、方差分析等生物统计分析。由于行业要求，多用SAS而非开源软件R。

l BI咨询师，一般也是工商管理专业，有MBA学位，受传统的商学院教育（熟悉4Ps或6Ps,4Cs,使用SWOT法分析市场），熟练使用电子表格，很少或没有其他技术背景。

l 数据科学家，多是数学／统计、计算机、工程学专业出身，会使用R, Python等多种编程语言，熟悉数据可视化。大多数在入职前没有太多市场营销知识。掌握高等概率统计，熟悉如下概念：抽样，概率分布，假设检验，方差分析，拟合优度检验，回归，时间序列预测模型，非参数估计，实验设计，决策树，马尔可夫链，贝叶斯统计（很快就能在白板上写下贝叶斯定理）。

数据科学家都分布在哪些行业呢？根据Burtch Works Executive Recruiting在2015年4月发布的“数据科学家薪资调查报告”，科技（包括互联网）公司是数据科学家最大的雇主。其次是一些为其他公司提供如广告、市场调查、市场分析等商业服务的公司。这两者之和超过了50%。2014年创业公司雇佣了29.4%的数据科学家，2015年这个比例降至14.3%，原因不是创业公司招的数据科学家职位少了，而是大公司招入的数据科学家增长迅速，整体基数变大。总体来说，数据科学家就业前景在北美是非常好的。调查还显示，在北美，大部分（70%）数据科学家工作经验还不到10年，因此数据科学还是个很年轻的行业。现在，大家对数据科学领域应该有个大致的感觉了。下面我们对其进一步探讨。

1.1 什么是数据科学

50年前，John Tukey他老人家就预言有个类似今天的数据科学的东西会出现。早在1962年，他在“数据分析的未来（The Future of Data Analysis）”[1] 中就嚷着要对学术统计进行改革。这篇文章当时发表在“数理统计年鉴（The Annals of Mathematical Statistics）”上，他的观点震惊了许多统计界的同事，这都是一群根正苗红的数理统计出身的大神们，那时数理统计年鉴中的文章都是满满的数学公式推导，从定义、定理到证明，逻辑缜密，理论精确。当然牛人最大的特点就是可以随时任性。John推导了大半辈子公式，突然有一天发现统计不是这么玩的，于是他跳出来说：

“很长一段时间我觉得自己是统计学家，对统计推断情有独钟，将从小样本上研究得到的结论推广到更大的群体。但随着数理统计的发展，我越发觉得这个路数不大对……总的来说，我觉得自己感兴趣的是数据分析，它包括：分析数据的过程，解释该过程得到结果的技术，合理计划收集数据的方案，使得之后的分析过程更方便准确，以及所有的分析中需要用到的仪器和数学理论。”

用简短的一句话概括就是：仅仅研究数学理论不是数据科学，数据科学的内容涵盖更广。

美国密歇根大学在2015年9月宣布了一个1亿美金的“数据科学项目（Data Science Initiative）”，计划在未来4年聘请35名新教授，支持与数据相关的跨学科研究。大学媒体大胆地宣称：

“数据科学已经成为第4大科学发现手段，前3个为：实验、模型和计算。”

这里的数据科学指的是什么？该项目的网站上有如下对数据科学的描述：

“数据科学是科学发现和实践的结合，其包括对大量类型各异的数据进行收集、管理、清理、分析、可视化和结果解释。其应用遍及各种科学、平移和交叉领域。”

如前所述，数据科学是一个新兴领域。在美国，对数据分析类专业人才的需求不断上升。研究估计[2]，从2015到2018年，美国预计有400～500万个工作岗位要求数据分析技能，大部分这些岗位的人才需要经过特殊训练。前面已经介绍过各种和数据分析相关的行业，这些行业对专业训练的要求参差不齐。其中数据科学家的门槛是最高的。成为一个数据科学家不是件容易的事。不可否认，即使是数据科学家这个职业名称，当前也被滥用了。这些工作的本质都是从数据中获取信息。

我是这样定义数据科学的：

数据科学=数据+科学=从数据中获取信息的科学

这是一门新的科学，有各种因素推动了这门科学的产生。John提到了如下的4个驱动因素：

1. 正统统计学理论；

2. 计算机和电子显示设备的高速发展；

3. 很多领域内更多更大的数据提出的挑战；

4. 定量分析在更广的领域受到重视。

很难想象这些观点是在1962年提出的，现在看来一点也不过时。当前这4个推动力都已经存在，这也是数据科学兴起的原因。

7年之后，Tukey和Wilk在1969年又将这门科学和已经存在的科学进行对比，进一步限定了统计学在数据科学中所扮演的角色：

“……数据科学是一个困难的领域。它需要和人们能用数据做什么和想用数据做什么这样的外在条件相适应。从某种意义上说，生物比物理困难，行为科学比这两者都难，很可能总体数据科学的问题比这三者还要难。无论在现在还是短期的将来，要建立一个正式的能够给数据分析实践提供高效指导的数据科学的结构还有很长的路要走。数据科学可以从正规正统统计学那里获得很多，但它们之间也需要保持适当的距离。”

数据科学不仅是个科学领域，而且和其他已经存在很久的科学领域一样困难。统计理论只在数据科学中扮演了部分角色。

但数据科学是纯科学吗？

什么样的东西能够称为科学？我们看看John Tukey在50年前是怎么说的[1]：

怎样才能称为科学呢？回答因人而异。但下面3点大多数人都同意：

1. 智力内容（intellectual content）；

2. 用能让人理解的方式组织起来；

3. 实践是检验其结果的最终标准。

第1条没有提供太多的信息，毕竟太多东西都有智力的内容，这个没有区分度。第2条也没有办法将科学和艺术区别开来。第3条我觉得才真正是区分科学和艺术的硬标准，也就是可证伪性。数据科学符合前2条，但是不总是可以证伪的。对于预测消费者是否会再次购买这样的问题，可以用真实发生的行为来评估模型表现。以及很多交互校验（cross-validation）的过程也能够用来评估模型。但对于很多市场调查数据的分析，就难以严格地科学证伪，比如分析消费者的品牌认知。对于人类心理学和行为学的研究本身就是有艺术的成分，因此相关的数据科学也同时是一门艺术。但是这和瞎猜并不一样，或许可以这样描述：这是在当前信息下能得到的最好猜测。

计算机科学之父高德纳（Donald Knuth）在他1974年出版的图书《计算机程序设计的艺术》中如此定义科学：

“能够教给计算机的知识就是科学。”

从这个角度上看，数据科学的艺术部分就更高了。计算机是数据科学不可或缺的一部分，可以说是最重要的一部分，但绝对不是全部。我们能完全依赖计算机取代数据科学家吗？很难。因为计算机不能和客户交流，将一个现实的商业问题转化成数据问题。计算机本身并不能决定什么数据应该收集，什么不需要。计算机无法对数据的质量做出评估。计算机无法向人解释模型结果，更无法将模型结果转化成商业决策建议。

因此数据科学还有艺术的一面，艺术部分的发挥就需要数据科学家啦！

前言/序言

作者自序

首先，感谢你翻开这本书！

这是一本什么书？

这是一本关于数据的科学和艺术的书。书中介绍了数据科学这个行业、数据科学家需要的技能，以及“分析哲学”。书中对最常用、最有效的模型进行了展开。数据科学这个行业的本质是通过分析数据解决实际问题，所以本书很看重读者能够真正将书中介绍的知识付诸实践。书中的数据全部都是公开的，书中的代码，建模过程都可以重复。一切不能重复的分析都是耍流氓！

l 为什么写这本书？

当前关于大数据、人工智能的炒作着实令人眼花缭乱，如大数据平台（如Hadoop、Spark），以及一些黑箱模型（如神经网络，深度学习“实际上就是多层神经网络”）。各路媒体和“砖家”深谙吃瓜群众不明觉厉的心态，所以就像个妓院头牌似的越发摆谱。曾经的我也是吃瓜群众中的一员，妥妥地迷失在这信息时代造成的漫天泡沫中，仿佛卡在一扇旋转门里，转了很久不知道去哪。了解一件事情最有效的方法就是实践。很幸运的是，在过去的4年里，我主导了大大小小各种分析项目。正是这些实践经验造就了这本书。我并没有打算写一本数据科学的圣经，告诉你所有关于数据科学的一切。只想尽我所能地给大家还原一个真实的数据科学和数据科学家。希望能为后来者提供一些信息，使得你们能够少走弯路。

l 为什么学习数据科学？

这个问题的答案因人而异。从事某个行业和同某人结婚一样，都有很大的随机性和主观性。所以下面只是我个人喜欢这个行业的理由。

1. 我把数据科学家定义为匠人。个人很享受作为一个匠人，统帅三军之能不如薄技在身。当你相信自己在某些领域有专长并且因此产生自我价值感时，就会有激情。激情是有吸引力的，就像爱一样，这是一种值得为之奋斗的感觉。

2. 这个世界上的手艺很多，为什么我做的是数据科学？因为我觉得数据科学这门手艺能够帮你培养在当今信息海啸中独善其身的技能——独立思考的能力。用数据进行决策能够让你看问题更清晰，有逻辑，理性客观。这种能力不是只有数据分析师才需要掌握的，理性思考是贯穿很多人一生的必修课，尤其是在互联网时代，通过理性思考甄别过滤信息比之前任何时候都重要。此外，人的大脑是有连贯性的，已经习得某项技能的人，再学另外一项技能的时候，学得会比上一次快一些，因为学习经验在起作用。而若是习得的基础知识是可积累、可扩展的，那么随后可能习得的技能可变现价值就会越来越高。通过数据分析进行决策就是一门可扩展性极高的技能，几乎可以扩展到这个数据时代的方方面面，而且随着社会的数据化趋势，这种可扩展性产生的“复利效应”将越来越大——有着可怕的潜力。

3. 数据科学是美的，美只有爱知道，所以热爱是选择这个行业的主要理由。不知道从什么时候开始，中国互联网上开始流传一句话：生活不止眼前的苟且，还有诗和远方。其实问题不在于缺少诗和远方，而在于你以为眼前的是苟且。如果你热爱自己当前所做的事情，那就是诗，就是远方。如果你不热爱自己所做的事情，在你找到自己真正热爱的事情之前，到哪里都是苟且。我希望阅读这本书的所有人都能够在数据分析中找到乐趣。归根结底，快乐并不是什么深奥的事情，无非是猫吃鱼，狗吃肉，奥特曼打小怪兽。

最后，感谢父母的爱和支持，感谢你们帮助我找到自己热爱的东西。感谢Scott Iverson，他是我在市场营销领域的导师，没有他，我无法将数据科学很好地应用于市场营销。感谢王正林以及所有为本书出版做出努力的人，没有你们就没有本书的问世。再次感谢你选择本书！

前言

数据科学家目前是北美最热门的职业之一，平均年薪突破10万美元。但数据科学并不是一个低门槛的行业，除了对数学、统计、计算机等相关学科技术的要求以外，还需要相关应用领域的知识。这个职业听起来很酷，但如果你对数据分析没有兴趣的话，你也会觉得这个行业很苦。这里我默认本书的读者都至少是对这个行业有兴趣和激情的。本书的写作对象是那些现在从事数据分析相关行业，或者之后想从事数据分析行业的人，意在为实践者提供数据科学家这门职业的相关信息。读者可以从阅读中了解到数据科学家需要的技能，及背后的“分析哲学”。书中会对部分最常用，有效的模型加以展开。关于模型技术部分，我希望读者有初步统计知识，最好知道线性回归。

数据科学家这个行业的本质是应用。市面上有很多文章、出版物介绍各种数据模型，大多数此类书籍并不能让读者重复书中所述的分析过程，对于书中介绍的知识，读者真正实践起来会遇到很多困难。本书着重在于数据科学的实际应用，让读者能够重复书中的结果，这也用到了统计软件R的自动化报告功能。可能有读者会问，为什么要可重复？根据个人经验，学习数据分析技能最好的方式是实践：动手重复分析的过程，检查分析结果，发现问题后再去查询相关模型的背景技术知识。这一过程得到的学习效果远远超过死磕一本大部头的技术理论书籍，但磕了一年之后发现碰到实际问题不知道该用什么工具实践这些书中讲到的模型方法。而且对于新手而言，一开始就直奔艰深的理论，很容易因为困难而失去兴趣最终放弃。本书倡导的是一种循序渐进的启发性教学路径，从实际问题入手，抽丝剥茧进入技术内核。

本书主要部分将避免过多的数学公式，但难免有例外。我们在一些地方提到方法背后的技术细节是为了帮助读者理解模型的长处和弱点，而非单纯地介绍数理统计知识。这并不意味着这些数理背景知识不重要，相反尽可能多地了解模型背后的数学很重要且有意义，为了平衡理论和应用，我们会在有的章中加一些选学小节，用来介绍更多的模型数理背景或给出必要的参考资料来源，如果不感兴趣的读者可以跳过这些小节，不会影响本书主要部分的阅读。书中的每一章都只是冰山一角，我并不试图彻底地介绍模型，而是选择性地解释其中部分我觉得重要的地方。我会尽量将想要强调的概念和内容在分析数据的过程中体现出来，而不仅仅是数学公式符号表达。想要成为数据科学家，仅靠阅读本书是远远不够的，读者需要进一步查阅书中提到的参考资料，或者选修相关课程。

随着计算机科学的发展，不仅收集存储的数据增加了，分析数据的软件包也不断推陈出新，这极大地降低了应用统计学习方法的壁垒。现在不管会建模的不会建模的，大都听过线性回归，这个经典统计模型可追根溯源至19世纪Legendre和Gauss发表的若干关于最小二乘的论文。现在你要通过最小二乘拟合一个线性模型那是就动动指头两秒钟的事情。可在那个计算器都没有的时代，能优化误差平方和这样的东西的大牛都会被认为是火星人。那个年代美国宪法规定每十年必须进行一次人口普查，1880年排山倒海的普查资料花了8年时间处理分析，一个名叫Herman Hollerith的品学兼优的美国少年跳出来，在1890年发明了一种排序机，利用打孔卡储存资料，再由机器感测卡片，协助人口调查局对统计资料进行自动化制表，结果不出3年就完成了人口普查工作，Herman同学也顺带用这个发明拿个了工程学博士学位。你可能要问，计算能力这么落后那这伙数学家捣鼓出来的方法谁用？天文学家用。线性模型最早用在天文学研究中。研究中使用统计方法的，那时绝对是小众边缘群体，全都可以贴上火星制造的标签。然后盼星星盼月亮我们终于在1912年6月等到了图灵，如图1所示这个天才的降临。

图1

若不是图灵这个孩子被性取向拖了后腿，数据科学家这个行业早几十年可能就火了。当然，统计泰斗们也没有闲着，Fisher在1936年提出了线性判别分析。在20世纪40年代，又一家喻户晓的经典统计模型——逻辑回归——问世了！在20世纪70年代早期，Nelder和Wedderburn发明了广义线性模型这个词，这是一个更大的统计模型框架，它将随机分布函数和系统效应（非随机效应）通过一个连接函数（link function）连起来，之前的线性模型和逻辑回归都是该框架下的特例。到70年代末，可以用来分析数据的方法已经有好些了，但这些方法几乎都是线性模型，因为在那时，拟合非线性关系的计算量相对当时的计算机水平来说还是太大了。等到80年代，计算机技术终于发展到可以使用非线性模型了。Breiman, Fridman, Olshen和Stone提出了分类回归树。随后的一些机器学习方法进一步丰富了数据科学家可以使用的工具集。计算机软件的飞速发展使得这些方法模型得以应用在更加广泛的领域，应用涵盖了商业、健康、基因、社会心理学研究和政策分析，等等。数据科学家这个行业随着数据量的增加和分析软件的进步不断地向前发展。

关于分析软件，本书使用R。选择R语言的原因如下：

1. R免费，且可以在不同操作系统上使用。

2. R开源、可扩展：它在通用公共许可（General Public License）下发行，在此构架下任何人可以检查修改源程序。并且R语言含有很多最新的模型。

3. R有强大图形可视化和自动化报告功能。

4. 笔者10年使用R的经验证明：无论在学术还是业界，这都是非常有效的工具。

网上有大量的R入门教程，关于用R进行数据分析的书也有好些，所以这里就不重复造轮子了，不熟悉R语言的读者可以先学习相关资料，这里我假设读者已经有一定的R语言基础。

本书布局如下，先介绍数据科学家这个行业的“分析哲学”和数据分析的一般流程。这是非技术的部分，但对于从业者来说非常重要，它帮助你对这个职业设定一个合理的预期。其中会讨论数据科学家需要的技能。之后的章节会对这里提到的部分我觉得重要的技能进一步展开讨论，由于篇幅所限，不可能详细讨论开始这几章中提到的所有技能。随后开始进入技术部分，讲分析环节的第一步——数据预处理，这一步虽然不是正式建模，但却是整个分析过程中最耗时的一个环节。这步没有到位将严重影响模型质量。也正是因为预处理重要，所以单独作为一个章节，没有和章其他建模技术合并起来。第6章“基础建模技术”介绍的是一些在建模过程中需要的辅助性的技术以及建模需要注意的问题。之后正式介绍各种笔者在从业过程中经常用到的模型。

本书用来展示模型的数据大部分是通过R得到的模拟数据集。为什么用模拟数据而不是真实数据呢？原因如下：

1. 你可以控制数据生成过程，免去了传输下载数据的麻烦。

2. 你可以根据需要改变生成数据的代码，得到新的数据，观察数据变化对模型结果的影响。

3. 对于自己创建的数据，我们知道数据要表达的真实信息，那么就可以评估分析使用的模型的准确性，然后再用于真实数据。

4. 可以通过使用模拟数据在拿到真实数据前准备好代码模板，这样，当你有真实数据时就可以迅速进行分析。

5. 通过重复数据模拟的过程可以加深对模型假设的理解。

同一章后面的代码通常建立在之前代码上，但每章的代码自成系统，也就是说你不需要以其他章节代码运行结果为前提重复某章的代码。有一定R语言基础的读者可以通过学习生成数据的代码了解数据的结构以及模型假设。R语言的新手学习这些代码可能会觉得太困难，没有关系，你们可以跳过生成数据的细节，只需要了解数据的语境，都有哪些变量以及变量类型。你可以直接从网站上读取这些数据。书中的代码和数据可以在这个github页面上找到：

现在开始我们的旅程吧！

《图解机器学习：从零到一，玩转数据智能》开启你的数据探索之旅，释放智能的无限潜能在这个数据爆炸的时代，机器学习早已不再是遥不可及的尖端技术，而是驱动各行各业变革的关键力量。从智能推荐系统到自动驾驶，从精准医疗到金融风控，机器学习的应用无处不在，深刻地改变着我们的生活和工作方式。然而，对于许多初学者而言，机器学习的入门门槛似乎并不低，各种复杂的数学公式、晦涩的算法理论常常让人望而却步。《图解机器学习：从零到一，玩转数据智能》正是为这样的你而生。本书旨在打破机器学习的神秘感，以一种更直观、更易于理解的方式，带你踏入数据科学的奇妙世界。我们坚信，学习机器学习不应仅仅是死记硬背公式，而是要通过生动的图示、形象的比喻和贴近实际的应用场景，让你真正“看懂”机器学习，并能融会贯通，将其应用于解决实际问题。本书的独特之处：告别枯燥，图文并茂：我们将复杂的概念转化为精美的插图和流程图，让抽象的算法变得具体可见。你无需被密密麻麻的公式淹没，取而代之的是清晰直观的视觉引导，帮助你构建对机器学习原理的深刻理解。每一张图都承载着知识的精华，每一处讲解都力求用最简洁明了的方式阐述核心思想。循序渐进，夯实基础：本书从最基础的数据科学概念讲起，包括数据类型、数据预处理、特征工程等，为后续的学习打下坚实的基础。我们不跳过任何关键步骤，力求让每一个环节都清晰明了，让你在掌握核心算法之前，对数据的本质有全面的认识。核心算法，深度解析：覆盖机器学习中最常用、最核心的算法，包括但不限于：监督学习：回归算法：线性回归、多项式回归，理解如何预测连续数值。分类算法：逻辑回归、K近邻（KNN）、支持向量机（SVM）、决策树、随机森林、朴素贝叶斯，掌握如何对数据进行分类。集成学习： Bagging（装袋）、Boosting（提升），探索如何通过组合多个模型来提升预测精度。无监督学习：聚类算法： K-Means、层次聚类，学习如何发现数据中的隐藏模式和分组。降维算法：主成分分析（PCA）、t-SNE，理解如何简化数据维度，保留关键信息。深度学习基础：神经网络：感知机、多层感知机，揭示神经网络的基本结构和工作原理。卷积神经网络（CNN）：图像识别的基石，理解其在图像处理领域的强大能力。循环神经网络（RNN）：处理序列数据的利器，探索其在自然语言处理等领域的应用。对于每一种算法，我们都将深入浅出地讲解其背后的数学原理（用最易懂的方式呈现），并结合直观的图示来解释其工作机制。你将了解算法的优点、缺点以及适用的场景，从而能够灵活选择和运用。实战案例，学以致用：理论的学习离不开实践的检验。本书精选了多个贴近生活和工业应用的实际案例，涵盖了数据分析、预测建模、图像识别、文本分类等多个领域。通过动手实践，你将学会如何将学到的算法应用于解决真实世界的问题，体验从数据到洞察、从模型到智能的完整过程。每个案例都配有详细的代码讲解和运行指导，让你能够轻松复现和扩展。数据科学工具箱：除了算法讲解，本书还将介绍常用的数据科学工具和库，如Python语言、NumPy、Pandas、Matplotlib、Scikit-learn等。你将学会如何使用这些强大的工具来收集、清洗、分析和可视化数据，以及如何利用它们来构建和评估机器学习模型。本书适合哪些读者？零基础的学习者：对机器学习感到好奇，但不知道如何开始的初学者。想要系统学习的开发者：希望将机器学习能力融入到现有技术栈的程序员。渴望转型的职场人士：希望进入数据科学领域，或者提升自己在现有岗位上数据分析和建模能力的职场人。对数据充满兴趣的学生：计算机科学、统计学、数学等相关专业的学生。任何想要理解智能背后原理的探索者：对人工智能和机器学习的兴趣，渴望了解其工作机制的读者。你将从本书中学到什么？建立坚实的机器学习理论基础，摆脱对数学的恐惧。掌握从数据预处理到模型评估的完整机器学习流程。深刻理解主流机器学习算法的原理、优缺点及应用场景。学会运用Python及常用库进行数据科学实践。通过真实案例，将理论知识转化为解决实际问题的能力。培养独立思考和解决复杂数据问题的能力。构建起通向更高级机器学习和人工智能领域的大门。加入《图解机器学习：从零到一，玩转数据智能》，你将不仅仅是阅读一本书，更是踏上一段激动人心的探索之旅。我们将一步步引导你，让你在轻松愉快的氛围中，掌握数据智能的核心技术， unlock 你的数据潜能，成为那个能够驾驭数据、创造价值的数据科学家。立即开始，用图解的方式，玩转机器学习，拥抱智能未来！

用户评价

评分☆☆☆☆☆

“北美数据科学家的私房课”，这个副标题让我感觉这本书的含金量应该不低。北美，尤其是美国，一直是人工智能和数据科学领域的前沿阵地，汇聚了大量的顶尖人才和领先的研究机构。能够从中“私房”出来的课程，必然是经过实践检验、久经考验的精华。我设想，这本书可能包含了一些在北美数据科学领域非常流行的、但国内教材可能相对较少提及的技术或者理念。或许是在模型构建、特征工程、评估指标选择，甚至是在项目管理和团队协作方面，都有一些独特的“北美视角”的分享。我非常期待书中能够讲解一些目前最前沿的机器学习模型，或者是一些能够显著提升模型性能的技巧。更重要的是，我希望这本书能传递一种“数据科学思维”，不仅仅是学习算法，更重要的是理解如何通过数据来驱动决策，如何构建端到方的解决方案。如果书中能包含一些关于如何与非技术背景的人沟通、如何解释模型结果、以及如何将机器学习成果转化为商业价值的经验分享，那将是极大的加分项。我希望能从中学习到一些“内行”的门道，提升自己的技术深度和广度。

评分☆☆☆☆☆

“套路！机器学习：北美数据科学家的私房课”，这个书名组合起来，给我一种非常实用的感觉，好像是直接把最精华、最实用的知识提炼出来了。我一直觉得，学习机器学习，最怕的就是那些“纸上谈兵”的内容，看完之后还是不知道怎么落地。这本书的“套路”二字，让我觉得它一定是以解决实际问题为导向的。我猜想，它会跳过那些过于理论化的数学推导，而是直接告诉读者如何应用这些机器学习方法来解决问题。比如，在预测方面，有哪些常用的模型和技巧？在分类任务中，如何选择合适的评估指标？在处理不平衡数据时，有哪些有效的策略？我期望书中能够涵盖一些我在实际工作中经常会遇到的场景，并提供切实可行的解决方案。同时，作为一本“私房课”，它应该还会包含一些作者在长期实践中积累的宝贵经验，可能是关于数据采集的注意事项，可能是关于模型调优的“秘籍”，甚至是关于如何有效沟通和展示成果的技巧。我特别期待它能够分享一些能够快速提升模型性能或者项目效率的“小技巧”，让我在工作中能够脱颖而出。这本书给我的感觉，就是一本可以直接拿来用的“工具箱”，里面的每一个“套路”都能帮我解决一个实际问题。

评分☆☆☆☆☆

这本书的名字实在太有意思了，“套路！机器学习”，第一眼就吸引了我。我一直对机器学习充满了好奇，但又常常被那些动辄上百页的理论书吓退。总觉得学习机器学习需要非常深厚的数学功底和大量的抽象概念，而这本书的名字则暗示了一种更接地气、更易于理解的学习方式。我猜想，这本书可能不会像传统的教材那样，一开始就摆出一堆公式和定理，而是会通过一些实用的“套路”或者说是“技巧”，带领读者一步步进入机器学习的世界。这种“私房课”的定位也让我觉得很亲切，仿佛一位经验丰富的前辈，愿意把自己多年的心得体会毫无保留地传授给我。我期待书中能够分享一些在实际项目中常用的模型和方法，而不是仅仅停留在理论层面。最好能有大量的代码示例，让我能够边学边练，快速上手。同时，我也希望这本书能够解释清楚这些“套路”背后的原理，虽然不深究数学细节，但至少能让我明白为什么这么做是有效的。总而言之，我被这本书的名字勾起了极大的兴趣，它给我一种“原来机器学习可以这样学”的希望，非常期待它带来的惊喜。

评分☆☆☆☆☆

这本书的名字真是让人眼前一亮，特别是“套路”这个词，瞬间就击中了我的痛点。我之前尝试过一些机器学习的书籍，但常常发现自己学了半天，还是不知道怎么把学到的东西用到实际项目里。感觉就像是学了一堆零散的招式，却不知道怎么组合成一套完整的拳法。我猜想，这本书可能就是来解决这个问题的！它不会把机器学习拆解成一个个孤立的算法，而是会从实际问题的角度出发，告诉你解决这个问题需要哪些“套路”，然后再一步步地讲解这些“套路”背后的原理和实现细节。我特别希望书中能够包含一些“从零到一”的项目案例，从数据的获取和清洗开始，一直到模型的部署和评估，能让我完整地体验一个机器学习项目的全过程。这样我就能明白，原来机器学习的学习不仅仅是看书，更重要的是“做”出来。而且，如果书中还能分享一些数据科学家在实际工作中遇到的常见问题，以及如何巧妙地绕过或解决它们，那真是太棒了。我希望这本书能让我觉得，学习机器学习不是一项艰巨的任务，而是可以通过掌握一套行之有效的“套路”就能轻松实现的目标。

评分☆☆☆☆☆

我一直觉得，学习编程或者任何技术，如果能有一个清晰的“路径图”，会事半功倍。尤其是在机器学习这样一个庞大的领域，各种算法、框架、工具层出不穷，很容易让人迷失方向，不知道从何学起，也不知道学到什么程度才算入门。这本书的“套路”二字，恰恰点燃了我对这种“捷径”的向往。我猜想，这本书可能不是按照“从基础到高级”的传统线性结构来展开，而是会选择一些最常用、最有效的机器学习任务，然后针对这些任务，提供一套完整的解决方案，包括数据预处理、特征工程、模型选择、训练调优等一系列步骤。这种“任务导向”的学习方式，对于我这种想要快速应用机器学习解决实际问题的人来说，简直是福音。我希望书中能够包含一些实际案例的分析，例如如何用机器学习来预测用户行为、如何进行图像识别、如何实现自然语言处理等等。能够看到这些“套路”如何在真实场景中发挥作用，远比枯燥的理论更能激发我的学习热情。当然，如果书中还能指导我如何选择合适的工具和库，例如TensorFlow、PyTorch、Scikit-learn等，那更是再好不过了，毕竟实践出真知，了解并熟练掌握这些工具是迈向成功的重要一步。

评分☆☆☆☆☆

不错，价格实惠，下次还会再来买，书比想象的薄

评分☆☆☆☆☆

满200-100买的，活动力度之大，非常满意。京东速度特别快，前一天晚上买的，第二天中午就到。快递员的态度特别好，送上楼的。

评分☆☆☆☆☆

机器学习的实战参考书

评分☆☆☆☆☆

学姐的书，强烈推荐

评分☆☆☆☆☆

不错不错，段子很多，数据分析整个流程都有了，深度的理解也是有的，但是大多数涉及到的是传统模型，对于神经网络这种不了解释的模型，看得出作者是不懈的，最后的几张也是硬加上的，但是目前这趋势来看，基于统计基于概率的模型越来越火了，还是不要有偏见的好，黑猫白猫抓着耗子的都是好喵

评分☆☆☆☆☆

而且也是面向初学者！