发表于2024-11-22
应用统计工程前沿丛书:多元统计分析 pdf epub mobi txt 电子书 下载
本书注意将复杂方法溯源至常理、常识,对一个方法要解决的问题与解决问题的逻辑思路、前提条件,存在的障碍进行全面介绍,引导读者进入每种方法实际应用时的情景想定:比较重视教材方法的适用场景、变量类型和量纲、数据基础,后续动作;尤其重视不同方法间以及同一类方法内部的子方法间的逻辑联系,以及在介绍经典方法的同时,自然平滑地引入适合处理大数据分析的方法。
本书内容广泛,通俗易懂,对数学和数理统计的要求很低,是一本极具特色的统计学教科书和工具书,既适合那些学习统计学课程的经济学、社会学、管理学和统计学专业的大学高年级本科生与研究生,也适合那些从事数据分析工作需正确理解各种多元统计方法的原理,掌握基本操作技巧的数据工程师,对于那些备考研究生的考生更不失为一本深入浅出、简明扼要的参考书。作者拥有多年授课经历和丰富的实际经验,力求说理透彻,应用地道,注意将复杂方法溯源至常理、常识,对一个方法要解决的问题与解决问题的逻辑思路、前提条件,存在的障碍进行全面介绍,引导读者进入每种方法实际应用时的情景设定: 比较重视交代方法的适用场合、变量类型和量纲、数据基础,后续动作;尤其重视不同方法间以及同一类方法内部的子方法间的逻辑联系,以及在介绍经典方法的同时,自然、平滑地引入适合处理大数据分析的方法。本书封面贴有清华大学出版社防伪标签,无标签者不得销售。
第1章多元统计描述1
1.1多元统计分析的内容2
1.2数据及其来源4
1.3统计学的若干基本概念8
1.4变量与变量值12
1.5随机变量与随机变量值16
1.6随机变量的分布及其特征20
1.7多元统计的分布图与散点图31
1.7.1分布图系列32
1.7.2散点图系列44
1.7.3混合图系列55
第2章多元统计推断58
2.1统计推断概述59
2.2简单随机抽样与简单估计理论63
2.3多元的点估计及其优良性71
2.3.1矩估计法71
2.3.2极大似然估计法72
2.3.3最小二乘估计74
2.3.4估计量的优良性76
2.4区间估计77
2.4.1使用t分布的单一置信区间82
2.4.2庞弗罗尼多重置信区间83
2.4.3威沙特分布87
2.5缺失值的处理94
2.5.1EM算法95
2.5.2比估计与回归估计97
2.6总体方差的估计101
第3章多元相关分析103
3.1多元相关分析概述104
3.2一对一的类型105
3.2.1一个分类变量对一个分类变量的情形105
3.2.2一个分类变量对一个数值变量的情形108
3.2.3一个数值变量与另一个数值变量的情形111
3.3多对多类型111
|多元统计分析目录第4章列联分析与对数线性分析121
4.1分类型数据的表示122
4.2高维列联表的独立性检验124
4.2.1压缩: 基于部分自变量的边缘分布的独立性检验126
4.2.2分层: 基于部分自变量的条件分布的独立性检验127
4.2.3“综合”条件独立性检验128
4.3对数线性模型131
4.4分类树135
第5章方差分析与联合分析138
5.1方差分析基本理论139
5.2单因素多变量方差分析142
5.3双因素方差分析148
5.3.1双因素单变量方差分析148
5.3.2双因素多变量方差分析152
5.4多因素方差分析155
5.5联合分析160
5.5.1联合分析基本理论161
5.5.2联合分析的步骤165
5.5.3联合分析与方差分析的联系168
5.5.4联合分析与方差分析的实证比较171
第6章判别分析与logistic回归分析179
6.1数据基础180
6.2判别的准则181
6.2.1概率最大准则181
6.2.2判别损失最小准则183
6.3判别的方法185
第7章聚类分析207
7.1聚类分析的基本思想208
7.2类的定义209
7.3数据基础213
7.4类间距离的度量216
7.5几种聚类方法220
7.5.1谱系聚类220
7.5.2分解聚类220
7.5.3动态聚类222
7.5.4最优聚类问题的探索228
7.6对变量的聚类236
第8章主成分分析与因子分析239
8.1主成分分析概论240
8.1.1数据基础240
8.1.2主成分分析的思想241
8.1.3模型的假设与求解244
8.1.4主成分的性质245
8.1.5主成分的选取标准246
8.1.6样本主成分分析247
8.1.7相关问题讨论252
8.2因子分析259
8.2.1因子分析概述259
8.2.2因子分析基础259
8.2.3因子分析模型262
8.2.4模型的求解与评价263
8.2.5因子旋转266
8.2.6因子得分268
8.2.7因子分析案例269
第9章多元回归分析280
9.1多元回归思想概述281
9.2多元回归模型282
9.2.1参数的区间估计与检验284
9.2.2模型的预测287
9.2.3常见问题的讨论293
9.3与其他统计方法的比较296
9.3.1与方差分析的比较296
9.3.2与路径分析的比较299
参考文献307
公元2009年,受时任教育部应用统计科学研究中心主任赵彦云教授的鼓励,作者作为第一负责人申请了一个名为“多元统计分析及其应用的统计理论研究”的教育部人文社会科学重点研究基地重大项目,并幸运地获得了批准,项目编号为2009JJD910240,研究成果约定为一本专著。本书就是这一项目的主要成果之一,这其中还凝结了近20余年教学与应用等方面的经验: 其中大部分内容在中国人民大学的本科生和研究生课堂讲授过,涉及的所有方法都在研究课题或咨询项目中有过实际应用。
经过几年的努力,期间几次延宕,现在这部专著终于要出版了。值此付梓之际,感慨良多。作者志大才疏,兼生性疏懒,倘若不是受到一些专家朋友的鼓励(如暨南大学的刘建平教授对多元统计框架给予了肯定;首都经贸大学的纪宏教授2000年前后与本人的讨论启发了本书聚类分析部分的研究;北方工业大学的李从珠教授则把他的判别分析的著作供我参考;中国科学院的冯士雍研究员和中国标准化研究院的肖惠总工程师在20世纪80年代中国人体尺寸数据案例上极具价值的慷慨相助;而北京航空航天大学的王惠文教授对本书部分内容的称许令我受宠若惊)和我的学生尤其是硕士、博士们的帮助(刘东硕士最早、杨进硕士继之帮我验证了方差分析与联合分析结论一致的想法;刘亚文博士、郑坤硕士验证了判别分析与logistic回归结果的一致;徐一丁博士验证了聚类距离计算的不一致;硕士生王维和于焕杰演算了大部分例题),成书恐怕遥遥无期,而那些已毕业的学生关于“何时见到书”的追问更是极其有力的鞭策,往往使我羞愧万分,不得不暗下决心,务必有个交代。学生之中,刘亚文和于焕杰两位出力最多,前者缜密细致,每每发现许多学理细节方面的意外错误;后者聪明勤奋,常常能够以令人吃惊的速度完成许多计算、绘图、编辑、排版等繁琐无比的工作。此外,我们项目组的主要成员广东商学院林海明教授,在项目研究过程中发表了许多很好的论文,但由于本书定位为专著,出于尊重知识产权的考虑,在此领域其诸多贡献并未体现于本书。借此机会,作者要向所有贡献者致以最诚挚的谢意!
本书的内容在招标申请书已经列明,除个别的如对应分析限于篇幅未予介绍外,令人欣慰的是其余的都完全兑现了,有些不在计划的如某些适用于大数据的分析与挖掘的内容也有涉猎,尽管作者认为,大数据的统计分析方法既不复杂,也不高级,但有关算法相对说实居于关键地位。敝帚自珍,高明不敢轻言,但学术上差不多毕生的心力融会于此,独到处是有些的,相信会对读者在透彻的理解与地道的应用方面有所裨益。现将项目申请书中关于内容的说明转录如下,兹以为序。
“由于现实问题往往比较复杂,并非一两个变量所能概括反映,多元统计分析本应是统计数据处理的最适合的手段,但以往因没有计算机或计算机不够普及,极大限制了多元统计分析的应用,以至于多元统计分析长时期内被束之高阁,虽然有些多元统计分析方法如因子分析早在1904年就已提出,而真正被广泛应用却是20世纪80年代以后的事情。在我国,多元统计分析的普及年代更晚。有记载许宝禄先生20世纪50年代中期曾说当时从事数理统计专业的连他本人在内不超过12人;从研究生课程里抽出一部分多元统计分析内容纳入本科生课程在中国人民大学统计学院其历史也仅有10年左右;时至今日,在国内的大多数高校里,作为三大多元统计之一的回归分析仍在多元统计分析课程之外独立地充当一门课程。
改革开放以后,伴随着我国整个教育的进步,统计教育的改善也堪称突飞猛进,大学里设置统计学院系的越来越多,开出统计课程的越来越多;中小学里统计知识介绍甚至超越概率论进入了抽样与推断统计的领域。一方面得益于这样的大环境和计算机与统计软件如SPSS、SAS和STATSTICA等的普及,多元统计分析中纳入教学内容的方法日益增加。另一方面,多元统计分析的应用领域,统计科学对科研经济社会建设的全面渗透而日趋扩展,从地质学、生物学、医学、心理学迅速扩展到经济学、社会学、营销学、管理学和教育学等诸多领域;应用频率也大幅地日渐增加,发表在期刊上的多元统计分析文章明显增多,具体信息见表1。|多元统计分析前言续表表1部分多元方法在CPCI(原ISI proceedings)检索的文献数及学科分类判别logistic联合方差因子主成分聚类对应合计26668806591706100000+100000+1737985660 14469数学38.7 47.3 17.8 64.4 17.3 28.8 26.4 18.7 行为科学21.2 22.9 22.7 32.1 10.8 18.4 7.6 9.7 心理学19.7 20.7 24.2 28.6 8.7 17.3 7.2 8.5 神经科学12.7 12.1 5.3 26.5 10.8 10.4 6.6 7.4 生物化学14.3 15.5 26.2 47.8 12.9 35.5 15.5 生理学6.8 15.4 10.1 6.6 遗传学9.9 8.2 14.3 33.2 9.4 35.2 11.2 老年病学12.2 31.9 6.8 14.2 12.9 5.1 儿科学11.7 22.7 5.2 13.5 7.5 6.4 心血管学7.4 18.1 11.9 12.5 免疫学5.1 11.3 3.3 8.6 22.4 9.4 健康护理5.8 20.1 15.2 7.4 环境生态学9.0 7.3 14.4 10.1 26.1 细胞生物学6.6 21.5 9.1 肿瘤学7.2 11.8 16.2 计算机科学15.9 11.8 6.6 12.6 9.5 13.0 人口学19.4 商业与经济43.0 工程学6.2 11.1 8.4 0.0 10.1 化学6.4 7.3 11.9 13.0 6.4 农学4.9 6.2 0.0 8.5 6.5 7.4 微生物学6.4 17.4 4.4 传染病学12.9 6.4 9.3 生物多样性11.5 海洋及淡水生物学10.2 植物科学10.1 然而,由于多元统计方法的出现与实际应用间隔太久,在我国其大规模应用也就是近几年的事情,对内容的掌握尚属生疏与实用场合的明显增多同时交汇,客观上难免造成一些生吞活剥与误用滥用现象的出现。除此之外,多元统计分析的很多方法都是其他学科而非统计学科的人士所提出,例如回归分析是遗传学家所发现,因子分析是心理学家所开创,联合分析拥有心理学和营销学的血缘,而分层分析则有教育学的基因,这些外来‘物种’极大丰富了统计学的内容,促进了统计学的应用。但众多原本起于其他学科的方法在融入统计学大冶炉的过程中,难免因带有浓厚的原来学科的色彩而有些水土不服,术语庞杂混乱,原理的统计学基础薄弱,因此当我们今天从统计学的视角重新审视多元统计分析的构成时,可以发现其中存在着一些明显的问题,以下是几例。
1. 聚类分析、回归分析和判别分析并称三大多元统计方法,其使用价值之大可见一斑,但迄今仍未解决其理论基础问题,致使这一方法是否应归到统计学科尚有疑问。
2. 距离判别、费歇判别和贝叶斯判别三种判别之间原理上存在怎样的联系?孰优孰劣?各自的使用场合是什么?
3. 联合分析与方差分析同属自变量为分类型变量而因变量为数值型变量的分析方法,同样使用F统计量作为判定依据,要达到的目标——衡量因素的重要性和优选因素的水平,也是一样的。两者之间原理上存在怎样的联系?孰优孰劣?各自的使用场合是什么?
4. logistic 回归分析与判别分析同属自变量为数值型变量而因变量为分类型变量的分析方法,要达到的目标也是一致的,但logistic 回归分析多被看成回归分析的推广,这一方法与判别分析更近的‘亲缘’却不被公认,两者之间原理上存在怎样的联系?孰优孰劣?各自的使用场合是什么?
5. 主成分分析被认为是求得因子的方法之一,与其他求取因子方法相比孰优孰劣?使用场合上有何区别?
6. 对应分析原本属于列联分析的复杂情形(因素水平较多),又被看做因子分析的深入,但列联分析的‘自变量’和‘因变量’都是分类型变量,而因子限于处理数值型变量,一个数据如何既是数值型的又是分类型的?显然存在着明显的矛盾。
所有这些问题国内外文献均无完整明确的叙述,教科书里对此也不提及。但毫无疑问,这些问题的解决将有助于明确上述方法本身的统计学理论背景,廓清方法间的联系是包含的还是并列的、抑或是递进的,使学生和使用者从数学上的‘在这些条件下,方法甲与方法乙等价’的模糊叙述中解脱出来,以清晰的逻辑和语言阐明在特定条件下究竟何种方法更优,或者倒过来说各个方法的适用场合怎样,从而促进对多元统计分析的理论推广,防止对各种多元统计分析方法的误用滥用。鉴于多元统计分析是统计数据处理最重要的工具,同时是统计学应用最为广泛的一个分支,因此这项研究的理论意义与实际价值都是不难理解的,在降低多元统计分析的学习成本和误用概率方面尤其具有明显的、巨大的促进作用。
本项研究的目标定为完成一篇对上述问题有很好答案的、确有新意的专著,期待可以成为全国统计学科发展与研究生培养的核心参考文献之一。根据我们对有关课题的兴趣与经验的多年积淀,我们有信心使这项研究成功完成,也有信心这项研究结果可对多元统计分析的教学与科研有所助益。”
限于作者水平,本书难免存在一孔之见或错漏舛误,敬希同行不吝赐教,哪怕是严厉的理性批判,以使本书日后能够渐臻完善,以飨读者。
杜子芳2016年5月
应用统计工程前沿丛书:多元统计分析 pdf epub mobi txt 电子书 下载