发表于2024-12-22
应用回归及分类:基于R pdf epub mobi txt 电子书 下载
在任何国家及任何制度下都能够生存和发展的知识和能力,就是科学,是人们在生命的历程中应该获得的。
吴喜之
1 纠正了传统教材只重视回归而忽视分类的偏见
2 实际工作中,分类的需求并不比回归少,在分类领域, 机器学习方法在应用范围及预测精度上都普遍超过传统的诸如判别分析和二元时的logistic回归等参数方法。
3 本书以数据为导向,对应不同的数据介绍尽可能多的方法, 并且说明各种方法的优点、缺点及适用范围. 对于不同模型的比较, 本书将主要采用客观的交叉验证的方法.
本书包括的内容有: 经典线性回归、广义线性模型、纵向数据(分层模型), 机器学习回归方法(决策树、bagging、随机森林、mboost、人工神经网络、支持向量机、k最近邻方法)、生存分析及Cox模型、经典判别分析与logistic回归分类、机器学习分类方法(决策树、bagging、随机森林、adaboost、人工神经网络、支持向量机、k最近邻方法). 其中, 纵向数据(分层模型)及生存分析及Cox模型的内容可根据需要选用, 所有其他的内容都应该在教学中涉及, 可以简化甚至忽略的内容为一些数学推导和某些不那么优秀的模型, 不可以忽略的是各种方法的直观意义及理念.
吴喜之,北京大学数学力学系本科,美国北卡罗来纳大学统计博士。中国人民大学统计学院教授,博士生导师。曾在美国加利福尼亚大学、北卡罗来纳大学以及南开大学、北京大学等多所著名学府执教。
第一章 引言
第二章 经典线性回归
第三章 广义线性模型
第四章 纵向数据及分层模型
第五章 机器学习回归方法
第六章 生存分析及Cox模型
第七章 经典分类:判别分析
第八章 机器学习分类方法
附录 练习:熟练使用R软件
参考文献
本书不像很多教科书那样只讲80年之前的以数学假定和推导为主的内容, 而要强调最近20年最新和最有效的统计方法. 本书还冠以``分类''二字, 是为了纠正由于只有``回归''而鲜有(如果不是没有)``分类''教科书而造成的人们以为回归比分类更重要的偏见. 实际上, ``分类''一词很少出现在教科书的书名中的主要原因恐怕是长期以来数学主导的统计界缺乏除了判别分析之外的数学式的分类方法, 而引入近年来新发展的机器学习方法似乎又不合那些只认数学公式的一些统计学家的胃口.
回归和分类的问题是相同的, 仅区别于因变量的形式. 在统计应用中, 最常见的是根据数据建立从自变量来预测因变量的模型, 也就是说, 用包含自变量和因变量的数据来训练一个模型, 然后用这个模型拟合新的自变量的数据来预测新的因变量的值.
目前有很多关于回归教科书和课程, 但鲜有关于分类的教科书和课程. 而在回归中又以通常称为线性模型的线性最小二乘回归为主, 其原因是在前计算机时代, 线性模型是数学上最方便也最容易研究的模型, 关于线性模型的大量数学结果使其成为硕果累累的一大领域. 从线性模型又引申出非线性模型、广义线性模型、随机效应混合模型等新的建模方向, 使得回归领域不断扩大. 而在分类方面, 仅有在多元分析名下的``判别分析''可以做分类. 分类方面的研究在计算机出现前的很长一段时间远远不如回归那么普遍.
然而在实际工作中, 分类的需求并不比回归少, 但是, 由数学家所发明的经典方法无力解决如此多种多样的分类问题, 而又没有多少人愿意在文献中介绍他们不能解决的问题. 除此之外, 传统的回归方法也由于其对数据所限定的种种无法验证的假定而受到极大限制和挑战. 计算机时代的到来彻底改变了这种局面. 各种机器学习方法的出现全面更新了传统回归领域的面貌和格局. 机器学习方法充分显示出回归预测上的优越性能. 在分类领域, 机器学习方法在应用范围及预测精度上都普遍超过传统的诸如判别分析和二元时的logistic回归等参数方法.
本书的宗旨就是既要介绍传统的回归和分类方法, 又要引入机器学习的方法, 并且通过实际例子, 运用R软件来让读者能够理解各种方法的意义和实践, 能够自主做数据分析并得到结论.
传统的回归分析教科书, 通常只讲所述方法能够做什么, 不讲其缺点和局限性, 并很少涉及其他可用的方法, 而本书以数据为导向, 对应不同的数据介绍尽可能多的方法, 并且说明各种方法的优点、缺点及适用范围. 对于不同模型的比较, 本书将主要采用客观的交叉验证的方法. 对于每一个数据以及通过数据所要达到的目的, 都有许多不同的方法可用, 但具体哪种方法或模型最适合, 则依数据及目标而定, 绝不事先决定.
本书所有的分析都通过免费的自由软件R来实现.读者可以毫不困难地重复本书所有的计算. R网站拥有世界各地统计学家贡献的大量最新软件包(package), 这些程序包以飞快的速度增加和更新, 已从2009年底的不到1000个增加到2015年8月中旬的7000多个. 它们代表了统计学家创造的针对各个统计方向及不同应用领域的崭新统计方法. 这些程序包的代码大多是公开的. 与此相对比, 所有商业软件远没有如此多的资源, 也不会更新得如此之快, 而且商业软件的代码都是保密的昂贵``黑匣子''.
在发达国家, 不能想象一个统计研究生不会使用R软件. 那里很多学校都开设了R软件的课程. 今天, 任何一个统计学家想要介绍和推广其创造的统计方法, 都必须提供相应的计算程序, 而发表该程序的最佳地点就是R网站. 由于方法和代码是公开的, 这些方法很容易引起有关学者的关注, 这些关注对研究相应方法形成群体效应, 推动其发展. 不会编程的统计学家在今天是很难生存的.
在学校中讲授任何一种商业软件都是为该公司做义务广告, 如果没有相关软件公司的资助, 就没有学校愿意花钱讲授商业软件. 在教学中使用盗版软件是违法行为, 绝对不应该或明或暗地鼓励师生使用盗版商业软件, 使得师生通过盗版软件对其产生依赖性, 并抑制人们自由编程能力的发展.
对R软件编程的熟悉还有助于学习其他快速计算的语言, 比如C++, FORTRAN, Python, Java, Hadoop, Spark, NoSQL, SQL等, 这是因为编程理念的相似性, 这对于应对因快速处理庞大的数据集而面临的巨大的计算量有所裨益. 而熟悉一些傻瓜式商业软件, 对学习这些语言没有任何好处.
本书试图让读者理解世界是复杂的, 数据形式是多种多样的, 必须有超越书本、超越所谓权威的智慧和勇气, 才能充满自信地面对世界上出现的各种挑战.
由于统计正以前所未有的速度发展, R网站及其各个程序包也在不断更新, 因此, 笔者希望读者通过对本书的学习, 学会如何通过R不断学习新的知识和方法. ``授人以鱼, 不如授之以渔'', 成功的教师不是像百科全书那样告诉学生一些现成的知识, 而是让学生产生疑问和兴趣, 以促进其做进一步的探索.
本书所有的数据例子都可以从网上找到并且下载. 这些例子背后都有一些理论和应用的故事. 笔者并没有刻意挑选例子所在的领域, 统计方法对于各个实际领域是相通的. 我们想要得到的是到任何领域都能施展的能力, 而不是有限的行业培训. 如果你能够处理具有挑战性的数据, 那么无论该数据来自何领域, 你的感觉都会很好.
本书包括的内容有: 经典线性回归、广义线性模型、纵向数据(分层模型), 机器学习回归方法(决策树、bagging、随机森林、mboost、人工神经网络、支持向量机、k最近邻方法)、生存分析及Cox模型、经典判别分析与logistic回归分类、机器学习分类方法(决策树、bagging、随机森林、adaboost、人工神经网络、支持向量机、k最近邻方法). 其中, 纵向数据(分层模型)及生存分析及Cox模型的内容可根据需要选用, 所有其他的内容都应该在教学中涉及, 可以简化甚至忽略的内容为一些数学推导和某些不那么优秀的模型, 不可以忽略的是各种方法的直观意义及理念.
本书的适用范围很广, 其内容曾经在中国人民大学、首都经贸大学、中央财经大学、西南财经大学、云南财经大学, 四川大学、哈尔滨理工大学、新疆财经大学、中山大学、内蒙古科技大学、云南师范大学及大理大学讲授过, 对象包括数学、应用数学、金融数学、统计、精算、经济、旅游、环境等专业的本科生以及数学、应用数学、统计、计量经济学、生物医学、应用统计、经济学等专业的硕士和博士研究生. 作为成绩评定, 给每个学生分配若干网站上的实际数据, 并且要求他们在学期末将分析处理这些数据的结果形成报告. 这些数据如何处理, 没有标准答案, 甚至有些必要的方法还超出了授课的范围, 需要学生做进一步的探索和学习.
笔者认为, 这本书可以作为本科生的回归分析及分类课程的教科书, 应用统计硕士的知识应该包括本书的全部内容. 希望本书对于各个领域的教师以及实际工作者都有参考价值.
本书的排版是笔者通过LaTeX软件实现的.
在任何国家及任何制度下都能够生存和发展的知识和能力, 就是科学, 是人们在生命的历程中应该获得的.
非常不错,很有用,点个赞赞
评分非常专业的一本书,要想读懂,还是需要一定基础的。
评分内容还可以,适合浏览一下吧,很多公式符号跟我教材不一致,不影响理解就是了
评分经常在京东商城上买各种东西,在乌鲁木齐也有自己的库房,有时当天下单当天发货~很方便,速度也很快~这本书是关于多元统计的,还有R软件的应用,理论和实例相结合,这次买了不少有关统计的书,希望对我有所帮助
评分还是之前的那本 贾俊平老师的 统计学经典, 改动不大
评分好
评分书很好,应该是正版~好评!
评分好
评分发货物流快,包装完好,质量还不错,推荐一下
应用回归及分类:基于R pdf epub mobi txt 电子书 下载