内容简介
第一版面世以来,得到了广大读者的支持和鼓励。第二版根据需要做了一些修正、改动及增补,在第七章补充了Granger因果检验,增加了非线性时间序列一节。《高等院校研究生用书·复杂数据统计方法:基于R的应用(第2版)》特点:(1)以数据为导向;(2)介绍新的方法(附有传统方法回顾);(3)提供R软件入门及全部例子计算的R代码及数据的网址;(4)各章独立。本书读者对象包括统计学、应用统计学、经济学、数学、应用数学、精算、环境、计量经济学、生物医学等专业的本科生、硕士及博士生,各领域的教师和实际工作者。
作者简介
吴喜之,北京大学数学力学系本科,美国北卡罗来纳大学统计博士。中国人民大学统计学院教授,博士生导师。曾在美国加利福尼亚大学、北卡罗来纳大学以及南开大学、北京大学等多所著名学府执教。
目录
第一章 引言
1.1 作为科学的统计
1.2 数据分析的实践
1.3 数据的形式以及可能用到的模型
1.3.1 横截面数据:因变量为实轴上的数量变量
1.3.2 横截面数据:因变量为分类(定性)变量或者频数
1.3.3纵向数据,多水平数据,面板数据,重复观测数据
1.3.4 多元数据各变量之间的关系:多元分析
1.3.5 路径模型/结构方程模型
1.3.6 多元时间序列数据
1.4 R 软件入门
1.4.1 简介
1.4.2 动手
第二章 横截面数据: 因变量为实数轴上的数量变量
2.1 简单回归回顾
2.1.1 对例2.1数据的简单拟合
2.1.2 对例2.1数据的进一步分析
2.1.3 对简单线性回归的一些讨论
2.1.4 损失函数及分位数回归简介
2.2 简单线性模型不易处理的横截面数据
2.2.1 标准线性回归中的指数变换
2.2.2 生存分析数据的Cox回归模型
2.2.3 数据出现多重共线性情况:岭回归,lasso回归,适应性lasso回归, 偏最小二乘回归
2.2.4 无法做任何假定的数据:机器学习回归方法
2.2.5 决策树回归(回归树)
2.2.6 Boosting回归
2.2.7 Bagging 回归
2.2.8 随机森林回归
2.2.9 人工神经网络回归
2.2.10 支持向量机回归
2.2.11 几种回归方法五折交叉验证结果
2.2.12 方法的稳定性及过拟合
第三章 横截面数据:因变量为分类变量及因变量为频数(计数)变量的情况
3.1经典logistic回归,probit回归和仅适用于数量自变量的判别分析回顾
3.1.1 Logistic回归和probit回归
3.1.2 广义线性模型简介
3.1.3 经典判别分析
3.2 因变量为分类变量, 自变量含有分类变量: 机器学习分类方法
3.2.1 决策树分类(分类树)
3.2.2 Adaboost分类
3.2.3 Bagging 分类
3.2.4 随机森林分类
3.2.5 支持向量机分类
3.2.6 最近邻方法分类
3.2.7 分类方法五折交叉验证结果
3.3因变量为频数(计数)的情况
3.3.1 经典的Poisson对数线性模型回顾
3.3.2 使用Poisson对数线性模型时的散布问题
3.3.3 零膨胀计数数据的Poisson回归
3.3.4 机器学习的算法模型拟合计数数据
3.3.5 关于模型驱动还是数据驱动的简单讨论
3.3.5 多项logit模型及多项分布对数线性模型回顾
第四章 纵向数据(多水平数据,面板数据)
4.1 纵向数据: 线性随机效应混合模型
4.2 纵向数据: 广义线性随机效应混合模型
4.3 纵向数据: 决策树及随机效应模型
4.4 纵向数据: 纵向生存数据
4.4.1 Cox 随机效应混合模型
4.4.2 分步联合建模
§4.5 计量经济学家的视角: 面板数据
第五章 多元分析
5.1 实数轴上的数据: 经典多元分析内容回顾
5.1.1 主成分分析及因子分析
5.1.2 分层聚类及k均值聚类
5.1.3 典型相关分析
5.1.4 对应分析
5.2 非经典多元数据分析: 可视化
5.2.1 主成分分析
5.2.2 对应分析
5.2.3 多重对应分析
5.2.4 多重因子分析
5.2.5 分层多重因子分析
5.2.6 基于主成分分析的聚类
5.3 多元数据的关联规则分析
第六章 路径建模(结构方程建模)数据的PLS分析
6.1 路径模型概述
6.1.1 路径模型
6.1.2 路径模型的两种主要方法
6.2 PLS 方法:顾客满意度的例子
6.3 协方差方法简介
6.4 结构方程模型的一些问题
第七章 多元时间序列数据
7.1 时间序列的基本概念及单变量时间序列方法回顾
7.1.1 时间序列的一些定义和基本概念
7.1.2 常用的一元时间序列方法
7.2 单位根,协整检验及Granger因果检验
7.2.1 概述
7.2.2 单位根检验
7.2.3 协整检验
7.2.4 Granger因果检验
7.3 VAR 模型,VARX 模型与状态空间模型
7.3.1 VAR模型的拟合与预测
7.3.2 VARX模型的拟合与预测
7.3.3 状态空间模型的拟合与预测
7.3.4模型的比较
7.4 非线性时间序列
7.4.1 引言
7.4.2 线性AR模型
7.4.3 自门限自回归模型(SETAR)
7.4.4 Logistic平滑过渡自回归模型(LSTAR)
7.4.5 神经网络模型
7.4.6可加AR模型
7.4.7 模型的比较
7.4.8 门限协整
附录练习:熟练使用R 软件
参考文献
精彩书摘
什么是复杂数据?没有人能够确切定义.本书将通常统计基本教科书中的例子所代表的数据称为简单数据,例如通常最小二乘线性回归所能够完满处理的独立同正态分布数据、用标准多元分析方法能够处理的服从多元正态分布的数据等.其他本科教科书中能够相对完满处理的数据应该不算复杂数据.显然,现实世界中遇到的绝大多数数据都不是标准教科书中所介绍的方法能够完满处理的,因此都应该被认为是复杂数据.按照这个含义,绝大多数真实数据是复杂数据.
对于一个实际工作者来说,拿到一个真实数据以后,很可能需要查阅不少文献来寻找适合这个数据的几种可能模型(假定知道用什么模型可能解决问题),再翻阅若干种软件手册来查阅这些文献所使用软件的计算方法(假定购买了这些软件).造成这种情况的原因是,多数统计教科书是以模型或方法为导向的,内容也多是按照数学思维展开的.
以模型或方法为导向的教科书通常以介绍某种数学模型和方法为主,同时说明这种模型适用于满足某些数学假定的数据,最后说明该模型对于这些满足假定的数据拟合的优越性.实际上,任何一种真实数据是否满足某种数学假定几乎无法证明,每一类数据都可能有不止一种现成的统计方法来处理,还有无数的未知方法等待人们去开发.以模型或方法为主导的方式往往让读者忽略了其他有关的方法,而那些被忽略的方法在某种意义下很可能更有效,或者更优越.
笔者认为, 现在需要一本具有以下特点的书:
用实际数据做案例.
. – 介绍的数据种类尽可能广泛;
– 这些数据必须是真实的;
– 这些数据必须不是简单平凡的教科书例子;
– 每个数据都有理论及应用方面的背景;
– 所有数据都能从网上下载.
对每种数据都介绍可能的方法.
. – 这些方法尽可能新;
– 对各种方法进行比较;
– 所有方法必须有计算支持.
全书使用一种软件.
. – 该软件必须是免费的, 可以从网上下载的;
– 该软件必须能够包含尽可能多的最新统计方法;
– 该软件必须不断更新;
– 书中所有结论都可以通过运行该软件程序而得出, 并给出所有代码. 篇幅不能太大.
. 必须由浅入深, 对经典知识和模型进行必要的回顾.
. 不能有太多数学公式, 但至少必须让读者能直观理解各种方法的含义.
. 其宗旨是训练动手的能力, 而不是面面俱到地告诉人们所有细节.
. 不仅提供各种方法, 而且提醒人们使用各种方法存在的风险.
.
本书以数据形式为导向,对应不同的数据形式介绍可能使用的一些方法.首先引入某些感兴趣类型的数据,再介绍并且对比可能适合这些数据的一些统计方法.这些统计方法可能属于许多不同的模型,属于不同的统计方向,但只要适用于同一类数据,我们就尽量将它们都予以介绍.笔者觉得这种以数据为主导的学习方式有助于理解统计作为数据科学的本质,有助于实际工作者通过数据学习多种统计方法的应用.我们列举了可能用于同类数据的若干方法,希望对创造新的数据分析方法有所启发并促使进一步探索,同时也让读者免受查阅大量不同文献之苦.本书不可能介绍所有的方法,大量新方法在你阅读本书的时候正在诞生.
本书所有的分析都通过免费的自由软件R来实现.读者可以毫不困难地
··
重复本书所有的计算.R网站①拥有世界各地统计学家贡献的大量最新软件包(package),这些软件包以飞快的速度增加和更新,已从2009年年底的大约1000个增加到2012年8月底的4009个,仅2012年8月就增加了449个.它们代表了统计学家创造的崭新的统计方法.这些软件包的代码都是公开的②.与此相对比,所有商业软件远没有如此多的资源,也不会更新得如此之快,而且商业软件的代码都是保密的昂贵“黑匣子”.在发达国家,不能想象一个统计专业的研究生不会使用R软件.那里很多学校都开设了R软件的课程.今天,任何一个统计学家想要介绍和推广其创造的统计方法,都必须提供相应的计算程序,而发表该程序的最佳地点就是R网站.由于方法和代码是公开的,这些方法很容易引起有关学者的关注,这些关注对研究相应方法形成群体效应,推动其发展.不会编程的统计学家在今天是很难生存的.
在学校讲授任何一种商业软件都是为该公司做义务广告,如果没有相关软件公司的资助,就没有学校愿意花钱讲授商业软件.在教学中使用盗版软件是违法行为,绝对不应该或明或暗地鼓励师生使用盗版商业软件.
对R软件编程的熟悉还有助于学习其他快速计算的语言,比如C++和FORTRAN,这对于应对因快速处理庞大的数据集而面临的巨大的计算量有所裨益.
本书首先通过一些简单的统计和数学内容介绍R软件的基本知识,然后介绍数据分析的一些基本逻辑和常识.本书的主体则是根据不同数据形式介绍相应的方法.本书以数据为主导,各章都是完全独立的.有一些统计基本知识的读者可以选读本书的任何一个完整的部分.虽然本书介绍的方法涉及应用统计的各个方面,但不可能介绍所有的数学和统计细节,否则将会是一部巨型的百科全书.笔者尽量用文字和少量数学公式对各种方法的原理予以直观介绍,并且引导读者做进一步的阅读.
由于本书没有按照数学模型的分类来编排,因此对各种方法的介绍不可能满足数学上的系统、整洁和完美的要求,但这正是对现实数据和现实世界的反映.如果现实数据都像标准教科书例子那样“规范”,统计就没有存在和发展的必要了.本书试图让读者理解世界是复杂的,数据形式是多种多样的.必须有超越书本、超越所谓权威的智慧和勇气,才能充满自信地面对世界上出现的各
①网址:http://www.r-project.org/.
②除了极个别并非秘密的子程序之外,因为它们很费时间,用机器代码实行.
··
种挑战.
由于统计正以前所未有的速度发展,R网站及其各个软件包也在不断更新,因此,笔者希望读者通过对本书的学习,学会如何通过R不断学习新的知识和方法.“授人以鱼不如授之以渔”,成功的教师不是像百科全书那样告诉学生一些现成的知识,而是让学生产生疑问和兴趣,以促进其做进一步的探索.
本书所有的数据例子都可以在网上找到并且下载.这些例子背后都有一些理论和应用的故事.笔者并没有刻意挑选例子所在的领域,这没有关系.你学会了一加一等于二,也就学会了一个苹果加一个苹果等于两个苹果,或一个梨加一个梨等于两个梨这样的计算.那个把作为科学的统计按照工种来划分(诸如工业统计,农业统计,劳动统计)的时代早已一去不复返了.统计是为各个领域服务的,我们想要得到的是到任何领域都能施展的能力,而不是有限的行业培训.如果你能够处理具有挑战性的数据,那么无论该数据来自何领域,你的感觉都会很好.
虽然本书冠以“复杂数据统计方法”之名,但对处理“非复杂”数据的方法都有较完整的回顾,并给出了相应的运算程序,只不过没有像标准教科书那样详细地解释细节而已.
本书的适用范围很广,其内容曾经在中国人民大学、首都经贸大学、中央财经大学、西南财经大学、云南财经大学、四川大学、哈尔滨理工大学、新疆财经大学、中山大学讲授过,对象包括数学、应用数学、统计、精算、经济、旅游、环境等专业的本科生以及数学、应用数学、统计、计量经济学、生物医学、经济学等专业的硕士和博士研究生.作为成绩评定,给每个学生分配两个国外网站上的实际数据,并且要求他们在学期末将他们分析处理这些数据的结果形成报告.这些数据如何处理,没有标准答案,甚至有些必要的方法还超出了授课的范围,需要学生做进一步探索和学习.笔者认为,应用统计硕士所学的内容应该包括本书的大部分内容.希望本书对于各个领域的教师以及实际工作者都有参考价值.第一版面世以来, 得到了广大读者的支持和鼓励. 第二版根据需要做了一些修正、改动及增补. 各个部分或多或少都有所改动. 在第七章补充了Granger因果检验,
增加了非线性时间序列一节. 第二版的排版是笔者通过LaTeX软件实现的.
在任何国家及任何制度下都能够生存和发展的知识和能力,就是科学,是人们在生命的历程中应该获得的.
吴喜之
前言/序言
高等院校研究生用书·复杂数据统计方法:基于R的应用(第2版) 电子书 下载 mobi epub pdf txt