应用预测建模 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

[美] 马克斯·库恩（Max Kuhn），谢尔·约翰逊（Kjell Johnson）著，林荟，邱怡轩，马恩驰，肖楠，张尚轩译

图书标签:

预测建模
机器学习
数据挖掘
统计建模
R语言
Python
商业分析
数据科学
时间序列
回归分析

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

出版社：机械工业出版社

ISBN：9787111533429

版次：1

商品编码：11918006

品牌：机工出版

包装：平装

丛书名：数据科学与工程技术丛书

开本：16开

出版时间：2016-04-01

用纸：胶版纸

页数：409

具体描述

编辑推荐

这本关于数据分析的优秀图书广受好评，荣获2014年Ziegel奖，还被很多教师选为“数据科学”课程的教材。本书专注于预测建模的实际应用，介绍了从数据预处理到建模再到模型评估和选择的整个过程，以及背后的统计思想，涉及各种回归技术和分类技术。从解决实际问题延伸到模型拟合，以及随之出现的主题，如处理类不平衡、选择预测因子等在实践中经常出现的问题，作者意在为读者提供预测建模过程的指导，并结合开源软件R语言来求解实际问题，详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含了书中例题和习题使用的数据，以及用于重复书中每一章分析的R代码。

内容简介

　　这是一本专注于预测建模的数据分析书，意在为实践者提供预测建模过程的指导，比如如何进行数据预处理、模型调优、预测变量重要性度量、变量选择等。读者可以从中学到许多建模方法以及提高对许多常用的、现代的有效模型的认识，如线性回归、非线性回归和分类模型，涉及树方法、支持向量机等。第10章和第17章分别研究混凝土混合物的抗压强度和作业调度两个案例。
　　作者重实际应用，轻数学理论，从实际数据出发，结合开源软件R语言来求解实际问题，详细给出R代码和处理的步骤。R包AppliedPredictiveModeling包含书中使用的数据，以及可以用于重复书中每一章分析的R代码，让读者能在一定精度范围内重复本书的结果，并自然地将书中的预测建模方法应用到自己的数据上。章后附有习题，方便读者巩固所学。
　　这本业界互相推荐的好书，适合所有数据分析人员阅读。

作者简介

马克斯·库恩（Max Kuhn）
康涅狄格州格罗顿市辉瑞全球研发非临床统计部主任，在制药和诊断行业已有近20年应用预测模型的经验，他还是很多R包的作者。
谢尔·约翰逊（Kjell Johnson）
博士，在药物研发和其他行业有近20年统计咨询和预测建模经验，曾任辉瑞全球研发统计部主任。

精彩书评

关于预测分析和数据建模，网络上有各种各样的图书……根据关联性、流行性、线上排名以及为你的业务增值的能力，我们选出了《应用预测建模》……
— Timothy King　Business Intelligence Solutions Review, solutions-review.com

我曾用这本书作为数据科学课程的辅助教材，因为数据科学需要涵盖处理数据、模型评估和机器学习方法等方面的内容，所以我使用了一系列不同的资料。如果下次我还教授数据科学课程，我将只用这本书，因为它包含了这个领域所有方面的内容。
— Louis Luangkesorn　lugerpitt.blogspot.com

关于回归和分类模型的预测技术，这部著作提供了非常有用的实践课程……两位作者不仅是建模和预测领域公认的专家，也是R包开发者和统计方法领域公认的专家……对于在应用复杂统计技术时需要直接帮助的学生和实践者，这本书是非常有益的。
— Stan Lipovetsky　Technometrics

译者序
前言
第1章导论
1.1预测与解释
1.2预测模型的关键部分
1.3专业术语
1.4实例数据集和典型数据场景
1.5概述
1.6符号
第一部分一般策略
第2章预测建模过程简介
2.1案例分析：预测燃油效能
2.2主题
2.3总结
第3章数据预处理
3.1案例分析：高内涵筛选中的细胞分组
3.2单个预测变量数据变换
3.3多个预测变量数据变换
3.4处理缺失值
3.5移除预测变量
3.6增加预测变量
3.7区间化预测变量
3.8计算
习题
第4章过度拟合与模型调优
4.1过度拟合的问题
4.2模型调优
4.3数据分割
4.4重抽样技术
4.5案例分析：信用评分
4.6选择调优参数值
4.7数据划分建议
4.8不同模型间的选择
4.9计算
习题
第二部分回归模型
第5章衡量回归模型的效果
5.1模型效果的定量度量
5.2方差偏差的权衡
5.3计算
第6章线性回归及其扩展
6.1案例分析：定量构效关系建模
6.2线性回归
6.3偏最小二乘法
6.4惩罚模型
6.5计算
习题
第7章非线性回归模型
7.1神经网络
7.2多元自适应回归样条
7.3支持向量机
7.4K近邻
7.5计算
习题
第8章回归树与基于规则的模型
8.1简单回归树
8.2回归模型树
8.3基于规则的模型
8.4装袋树
8.5随机森林
8.6助推法
8.7Cubist
8.8计算
习题
第9章溶解度模型总结
第10章案例研究：混凝土混合物的抗压强度
10.1模型构建策略
10.2模型性能
10.3优化抗压强度
10.4计算
第三部分分类模型
第11章分类模型的效果度量
11.1类预测
11.2评估预测类
11.3评估类概率
11.4计算
第12章判别分析和其他线性分类模型
12.1案例分析：预测是否成功申请经费
12.2逻辑回归
12.3线性判别分析
12.4偏最小二乘判别分析
12.5惩罚模型
12.6最近收缩质心
12.7计算
习题
第13章非线性分类模型
13.1非线性判别分析
13.2神经网络
13.3灵活判别分析
13.4支持向量机
13.5K近邻
13.6朴素贝叶斯
13.7计算
习题
第14章分类树与基于规则的模型
14.1基本的分类树
14.2基于规则的模型
14.3装袋决策树
14.4随机森林
14.5助推法
14.6C5.0
14.7比较两种分类预测变量编码方式
14.8计算
习题
第15章经费申请模型的总结
第16章对严重类失衡的补救方法
16.1案例分析: 预测房车保险所有权
16.2类失衡的影响
16.3模型调优
16.4选择截点
16.5调整先验概率
16.6不等案例权重
16.7抽样方法
16.8成本敏感度训练
16.9计算
习题
第17章案例研究：作业调度
17.1数据切分和模型策略
17.2结果
17.3计算
第18章衡量预测变量重要性
18.1数值结果变量
18.2分类结果变量
18.3其他方法
18.4计算
习题
第19章特征选择介绍
19.1使用无信息预测变量的结果
19.2减少预测变量个数的方法
19.3绕封法
19.4过滤法
19.5选择偏差
19.6案例分析：预测认知损伤
19.7计算
习题
第20章影响模型表现的因素
20.1第Ⅲ类错误
20.2结果变量的测量误差
20.3预测变量的测量误差
20.4连续变量离散化
20.5模型预测何时是可信的
20.6大样本的影响
20.7计算
习题
附录
附录A各种模型的总结
附录BR语言介绍
附录C值得关注的网站
参考文献

前言/序言

　　这是一本关于数据分析的书，专注于预测建模的实际应用。“预测建模”一词可能让人联想起诸如机器学习、模式识别和数据挖掘。事实上，这样的联想是很自然的，这些专业名词指代的方法是预测建模整体过程的一部分。但是预测建模所涵盖的范围远大于发现数据模式的工具和技术。应用预测建模定义了这样一个建立模型的过程，我们能理解和量化模型对未来即将看到的数据的预测准确度。本书的核心内容就是其中的整个过程。
　　本书意在为实践者提供预测建模过程的指导，读者可以从阅读中学到许多（建模）方法以及提高对许多常用的、现代的有效模型的认识。我们会介绍许多统计和数学技术，但在任何情况下我们描述技术细节的动机都是帮助读者理解模型的优缺点，而非（单纯）数理统计知识。我们极力避免复杂的公式，但是有少数例外。关于预测模型的理论知识，推荐这两本书，即Hastie等(2008)和Bishop (2006)。本书的读者需要有一些基本的统计学知识，包括方差、相关性、简单线性回归以及基本的统计假设检验（如p值和检验统计量）。
　　预测建模的过程本质上具有很强的应用实践性。但我们研究发现，很多文章、出版物不能让读者再现（他们的）建模结果，因为数据不公开，或读者无法使用相应软件，又或软件需付费。Buckheit和Donoho(1995)对传统学术界提出了相似的批评：
　　一篇发表于科学刊物上关于计算机科学的文章本身不是学术，仅是关于学术的广告。真正的学术是完整的软件开发环境和能够生成那些图的所有指令集。
　　因此，我们的目标是尽可能地具有实践应用性，让读者能在一定精度范围内重复本书的结果，且可以自然地将书中的预测建模方法应用到他们自己的数据上。再者，对于整个建模过程，我们使用R语言(Ihaka和Gentleman 1996; R Development Core Team 2010),这是一个用于数学和统计计算的免费软件。几乎所有例子中的数据集都可以在相应R包中找到。R包AppliedPredictiveModeling包含了书中使用的很多数据，以及可以用于再现书中每一章分析结果的R代码。
　　我们选择R作为计算引擎有如下几个原因。首先R是免费的（虽然也有商业版的R），可以在不同的操作系统上使用。其次，它在通用公共许可（General Public License）下发行(免费软件基金2007年6月)，该许可阐明程序再次发布的规则。在此构架下，任何人可以任意检查、修改源程序。由于开源特性，很多预测模型已经由R包可以实现。再者R有进行预测建模的大量强大的功能。不熟悉R的读者可以在网上找到大量的入门教程（见附录）。
　　由于篇幅所限，本书没有涵盖广义加性模型、模型集成、网络模型、时间序列等内容。
　　本书还有一个配套网站：
　　http://appliedpredictivemodeling.com/其中含有一些相关内容。
　　没有如下这些人的指导和帮助不会有本书的问世：Walter H Carter, Jim Garrett,Chris Gennings, Paul Harms, Chris Keefer, William Klinger, Daijin Ko, Rich Moore, David Neuhouser, David Potter, David Pyne, William Rayens, Arnold Stromberg和Thomas Vidmar。我们还要感谢Ross Quinlan对Cubist和 C5��0部分的帮助，他们帮我们修正了这两部分的一些描述。我们还要感谢Springer出版社的Marc Strauss和Hannah Bracken以及审阅者Vini Bonato、Thomas Miller、Ross Quinlan、Eric Siegel、Stan Young和一位匿名审阅者。最后我们要感谢家人的支持：Miranda Kuhn, Stefan Kuhn, Bobby Kuhn, Robert Kuhn, Karen Kuhn 和Mary Ann Kuhn; Warren和Kay Johnson，Valerie和Truman Johnson。
　　Max KuhnKjell Johnson

《现代应用预测建模》拥抱数据驱动的未来，洞悉先机，决胜千里。在信息爆炸的时代，数据已成为企业最宝贵的资产。然而，仅仅拥有海量数据是远远不够的，如何从纷繁复杂的数据中提炼出有价值的洞察，预测未来的趋势，并据此做出最优决策，才是驱动业务增长和保持竞争优势的关键。《现代应用预测建模》正是为应对这一挑战而生，它是一本系统性、实践性兼具的著作，旨在帮助读者掌握从数据到 actionable insights 的全流程，构建强大且高效的预测模型，赋能各行各业的决策者和技术实践者。本书并非一本理论堆砌的学术专著，而是以解决实际问题为导向，深入浅出地剖析了预测建模的精髓。它不会纠缠于过于晦涩的数学公式，而是侧重于模型构建的逻辑、算法的选择、参数的调优以及结果的解释与应用。无论您是渴望提升业务预测能力的市场营销人员、追求更精准风险评估的金融分析师、致力于优化运营效率的生产管理者，还是希望深入理解数据科学的初学者，本书都将成为您不可或缺的指南。本书的独特之处在于其前瞻性的视野和对“应用”二字的深刻理解。我们不仅仅教授如何建立一个模型，更强调如何将模型有效地“应用”到实际业务场景中，解决真实世界的问题，创造切实的价值。这意味着本书将涵盖从问题定义、数据准备、特征工程、模型选择与训练、模型评估与验证，到模型部署与监控的完整生命周期。您将学到如何将抽象的统计理论转化为具体可执行的商业策略，如何用数据说话，让预测模型成为您洞察未来、优化决策的强大工具。第一部分：预测建模的基石与思维在正式进入建模之前，本书将首先为读者奠定坚实的理论基础和培养正确的预测建模思维。预测建模概览与价值：深入探讨预测建模的核心概念，理解其在不同领域的应用潜力，以及为何它是现代企业不可或缺的竞争力。我们将讨论预测模型如何帮助企业识别潜在客户、预测销售额、管理风险、优化资源分配、改善用户体验等。从业务问题到预测任务：强调理解业务问题是构建有效预测模型的第一步。本书将指导您如何将模糊的业务需求转化为清晰、可衡量的预测任务，例如预测客户流失率、预测设备故障时间、预测股票价格波动等。我们将教授系统性的问题分解和需求分析方法。数据驱动决策的哲学：介绍数据驱动决策的核心理念，以及预测建模在这一过程中的关键作用。我们将讨论如何克服数据孤岛、建立数据文化，以及如何利用预测模型来支持科学、客观的决策制定，而非依赖直觉或经验。预测建模的伦理与责任：随着预测模型应用的深入，模型可能带来的伦理和社会影响也日益凸显。本书将引导读者思考模型偏见、隐私保护、公平性等问题，并提供相应的应对策略，确保预测模型的应用是负责任且可持续的。第二部分：数据的预处理与特征工程模型的效果很大程度上取决于数据的质量和特征的有效性。本部分将聚焦于如何从原始数据中提取出对模型最有价值的信息。数据收集与理解：探讨不同类型数据的来源、收集方法以及在理解数据时需要注意的关键点。我们将介绍如何探索性数据分析（EDA）来发现数据中的模式、异常和潜在问题。数据清洗与处理：讲解处理缺失值、异常值、重复数据等常见数据质量问题的策略和技巧。本书将提供多种数据清洗方法的实际操作指南，并讨论不同场景下应选择何种方法。特征工程的艺术与科学：这是预测建模中至关重要的环节。我们将详细介绍如何从原始数据中创建新的、更有预测能力的特征。内容包括：数值特征转换：对数变换、平方根变换、多项式特征、分箱（离散化）等。类别特征编码： One-hot编码、标签编码、目标编码（Target Encoding）、频率编码等，并分析其优劣。时间序列特征提取：滞后特征、滚动统计量、日期/时间相关特征（如星期几、月份、节假日）等。文本特征处理： TF-IDF、词袋模型（Bag-of-Words）、词嵌入（Word Embeddings）等。高维数据处理：特征选择（Filter, Wrapper, Embedded methods）与特征降维（PCA, t-SNE）。特征选择与降维：讲解为何以及如何选择最相关的特征，以及如何通过降维技术来减少模型的复杂度，提高训练速度和泛化能力。第三部分：核心预测模型算法详解本部分将系统性地介绍当前最主流、最有效的预测建模算法，并深入剖析其工作原理、适用场景及优缺点。线性模型：线性回归（Linear Regression）：基础但强大的预测模型，讲解其原理、正则化（L1, L2）以及多重共线性问题。逻辑回归（Logistic Regression）：用于二分类和多分类问题的经典模型，深入理解其概率输出与决策边界。树模型：决策树（Decision Trees）：易于理解和解释，讲解其分裂准则（Gini impurity, Entropy）。集成学习（Ensemble Learning）：随机森林（Random Forests）：通过构建多个决策树并集成预测来提高鲁棒性和准确性。梯度提升（Gradient Boosting Machines, GBM）：如XGBoost、LightGBM、CatBoost等，讲解其逐层迭代优化损失函数的思想，以及在各种竞赛和工业界取得成功的秘诀。支持向量机（Support Vector Machines, SVM）：讲解其核技巧（Kernel Trick）处理非线性问题，以及在分类和回归中的应用。神经网络与深度学习基础：多层感知机（Multilayer Perceptrons, MLP）：介绍深度学习的基础结构，以及如何构建简单的神经网络。卷积神经网络（Convolutional Neural Networks, CNN）：介绍其在图像和序列数据处理上的优势。循环神经网络（Recurrent Neural Networks, RNN）及其变体（LSTM, GRU）：讲解其在处理时间序列数据和自然语言处理上的强大能力。其他重要模型： K近邻（K-Nearest Neighbors, KNN）：简单的非参数模型，用于分类和回归。朴素贝叶斯（Naive Bayes）：基于概率的分类器，在文本分类等领域表现优异。第四部分：模型评估、优化与部署建立模型只是第一步，如何确保模型的性能、进行有效的调优并将其成功地投入实际应用，同样至关重要。模型评估指标：回归模型： MSE, RMSE, MAE, R-squared 等。分类模型： Accuracy, Precision, Recall, F1-score, ROC曲线, AUC值, Confusion Matrix 等。排名与推荐系统： Precision@K, Recall@K, NDCG 等。交叉验证（Cross-Validation）：讲解K折交叉验证、留一法等，确保模型泛化能力。模型过拟合与欠拟合：理解其原因，并学习如何检测和解决这些问题，例如通过正则化、特征选择、调整模型复杂度等。超参数调优：网格搜索（Grid Search）随机搜索（Random Search）贝叶斯优化（Bayesian Optimization）自动化机器学习（AutoML）概念介绍模型解释性（Model Interpretability）：讲解SHAP, LIME等技术，理解模型为何做出特定预测，增强模型的透明度和可信度。模型部署策略：批量预测（Batch Prediction）：实时预测（Real-time Prediction）： API服务、边缘部署等。模型监控与维护：讲解如何跟踪模型性能，检测模型漂移（Data Drift, Concept Drift），并进行模型更新。第五部分：特定应用场景的预测建模实践本书最后一部分将结合具体的业务场景，演示如何将前述的理论与技术落地，帮助读者快速掌握在实际工作中应用预测建模的技巧。客户流失预测：如何构建模型来识别可能流失的客户，并制定相应的挽留策略。销售额预测：预测未来的销售情况，以优化库存管理、资源规划和营销活动。信用风险评估：预测借款人的还款能力，降低金融风险。欺诈检测：识别交易中的异常行为，防止金融损失。推荐系统：为用户提供个性化的产品或内容推荐，提升用户体验和转化率。时间序列预测：深入探讨天气预测、股票价格预测、能耗预测等场景。《现代应用预测建模》是一本集理论指导、算法详解、实践案例于一体的权威著作。它将帮助您系统地掌握预测建模的知识体系，提升数据分析和模型构建的能力，从而在快速变化的市场环境中抓住机遇，规避风险，实现可持续的业务增长。本书的目标是让预测建模不再是遥不可及的技术，而是人人皆可掌握、人人皆可受益的强大工具。立即翻开本书，开启您的预测建模之旅，用数据洞察未来，用模型引领变革！

用户评价

评分☆☆☆☆☆

拿到这本《应用预测建模》之后，我最直接的感受是它在讲解过程中，应该会非常注重实际操作的细节。我之前尝试阅读过一些关于预测建模的文献，虽然理论讲解很深入，但往往在实际操作层面就变得模糊不清，或者只给出了很概括性的建议。我个人认为，对于一门技术书籍来说，提供清晰、可执行的代码示例，以及详细的步骤指导，是至关重要的。例如，在进行数据可视化时，如何选择合适的图表类型来清晰地呈现数据规律；在构建模型时，如何一步步地进行特征选择和特征工程，并解释为什么要这样做；在模型评估时，如何准确地理解各种评估指标的含义，并根据实际业务需求来选择最合适的评估标准。如果这本书能够在这方面做得出色，我相信它一定会成为我学习和应用预测建模过程中不可多得的宝贵资源，能让我少走弯路，更快地掌握核心技能。

评分☆☆☆☆☆

这本书的排版和设计风格倒是挺简洁明了的，封面色彩比较沉稳，给人一种专业、可靠的感觉。拿到书后，我迫不及待地翻阅了一下目录，看到了很多我感兴趣的章节，比如数据预处理、特征工程、模型选择、评估与调优等等，这些都是在实际建模过程中必不可少的环节。我一直觉得，很多时候影响模型效果的关键因素，反而不是模型本身的复杂程度，而是在这些基础的、细节的处理上。比如，数据的清洗是否到位，特征的选择是否恰当，都会直接影响模型的泛化能力。所以，我特别期待这本书能在这些方面给予我深刻的指导，让我不再盲目地尝试各种模型，而是能有条理、有策略地进行预测建模。而且，我注意到书里提到了一些经典的预测模型，比如回归分析、时间序列分析，还有一些更现代的机器学习算法，这让我觉得它既有深度又不失广度，能够满足不同层次读者的需求。

评分☆☆☆☆☆

说实话，我选择这本书，很大程度上是被它“应用”这个词所吸引。我不是一个纯粹的理论研究者，我更希望我的学习能够直接服务于工作，解决实际问题。我曾经在一些项目里遇到过需要对未来趋势进行预测的情况，但往往因为缺乏系统的方法和工具，导致预测结果不够准确，甚至误导了决策。所以，我期望这本《应用预测建模》能够提供一套完整的、实用的预测建模流程，从数据的获取和清洗，到特征工程，再到模型选择、训练、评估和部署，都能有清晰的指导。我希望它能够教会我如何根据不同的业务场景，选择最适合的预测模型，并提供一些实用的技巧和最佳实践。如果书里能包含一些真实案例的分析，那就更好了，这样我就可以看到书中讲解的理论和方法是如何在实际中发挥作用的，也能从中获得很多灵感。

评分☆☆☆☆☆

拿到这本书，我最先关注的还是它讲解问题的深度和广度。我理解预测建模是一个非常庞大且精深的领域，从基础的统计学模型，到复杂的机器学习算法，再到最新的深度学习应用，都属于它的范畴。我希望这本书能够在一个合理的范围内，覆盖到预测建模中的一些核心和常用的技术。比如，它是否会深入讲解一些关键的模型算法，例如线性回归、逻辑回归、决策树、随机森林、梯度提升树等，并且解释它们的优缺点以及适用场景？它是否会涉及到一些时间序列预测的方法，例如ARIMA、LSTM等？更重要的是，它是否会强调模型的可解释性，以及如何平衡模型的准确性和可解释性？作为一个读者，我期待能够在这本书中，建立起一个比较全面、系统的预测建模知识体系，为我未来在实际工作中应用这些技术打下坚实的基础，避免我只掌握一些孤立的技巧，而缺乏全局的理解。

评分☆☆☆☆☆

哇，拿到这本《应用预测建模》，光看名字就觉得它是一本硬核技术书。我一直对数据分析和机器学习领域充满好奇，但又觉得很多理论性的东西读起来有些枯燥，总是希望有那种能直接上手，解决实际问题的指导。所以，当看到这本书的封面时，我内心就涌起一股期待，希望它能成为我进入这个领域的敲门砖。尤其是我平时接触的很多工作场景，都越来越离不开对未来趋势的预测，无论是市场营销的活动效果预测，还是生产制造的库存需求预测，甚至是金融领域的风险评估，都需要强大的预测能力作为支撑。我理想中的技术书，不仅仅是介绍各种算法的原理，更重要的是能展示这些算法在真实世界中是如何应用的，有哪些坑需要避开，有哪些技巧可以提高效率。这本书的名字就透露出一种“应用”导向，这让我对它充满了信心，相信它能带领我从理论走向实践，让我真正掌握预测建模这项关键技能。我迫切地想翻开它，看看它究竟能为我打开怎样一扇通往数据驱动决策的大门。

评分☆☆☆☆☆

囤货用的，还没有开始看

评分☆☆☆☆☆

很好的书，还需要慢慢琢磨

评分☆☆☆☆☆

这本书讲的预测方法很实用！

评分☆☆☆☆☆

还没看怎么评价！

评分☆☆☆☆☆

这本书是预测建模的数据分析书，重实践，书中许多对数据及变量的处理过程都很有价值

评分☆☆☆☆☆

相信京东，送货特别及时，物流太厉害