内容简介
《近代回归分析方法》结合SAS软件的应用介绍了从线性回归分析到近三十多年来迅速发展起来的非参数回归分析中几类具有代表性的回归模型的估计和统计推断方法,具体内容包括线性回归模型的*小二乘估计、广义线性模型的似然估计、非参数回归模型的核光滑方法、变系数模型的局部线性估计、广义变系数模型的局部似然估计以及空间变系数模型的地理加权回归估计,并简要介绍了SAS软件的基础知识和相关的SAS过程。
《近代回归分析方法》可作为高等院校统计、经济、医学及相关专业的研究生教材,也可供科研人员及数据分析应用工作者参考。
内页插图
目录
前言
第1章 线性回归模型
1.1 引言
1.2 线性回归模型及其最小二乘估计
1.2.1 线性回归模型及其矩阵表示
1.2.2 参数的最小二乘估计
1.2.3 最小二乘估计的性质
1.2.4 参数的线性约束最小二乘估计
1.3 离差平方和的分解与参数的假设检验
1.3.1 离差平方和的分解与复决定系数
1.3.2 参数线性约束关系的检验
1.3.3 回归关系的显著性检验
1.3.4 回归系数的显著性检验
1.4 回归诊断与改进措施
1.4.1 残差分析
1.4.2 因变量的Box-Cox变换
1.4.3 自变量复共线性诊断
1.4.4 参数的岭估计及其性质
1.5 因变量的预测
第2章 广义线性模型
2.1 引言
2.2 指数族分布与广义线性模型
2.2.1 指数族分布
2.2.2 连接函数
2.2.3 广义线性模型
2.3 广义线性模型的最大似然估计
2.3.1 参数的似然方程
2.3.2 似然方程的迭代加权最小二乘解法
2.3.3 似然方程的Newton-Raphson迭代法和Fisher标分法
2.4 广义线性模型的统计推断
2.4.1 参数的最大似然估计的渐近分布
2.4.2 参数的假设检验
2.5 广义线性模型应用举例
第3章 非参数回归模型
3.1 非参数回归模型及其局部拟合思想
3.2 局部常数拟合方法
3.2.1 Nadaraya-Watson估计及其性质
3.2.2 Gasser-Muller估计及其性质
3.3 局部多项式拟合方法
3.3.1 局部多项式估计
3.3.2 局部多项式估计的性质
3.3.3 等价核及局部多项式估计的偏与方差的等价核表示
3.3.4 局部多项式光滑中多项式阶的选取
3.3.5 均方误差准则下局部多项式拟合的最优光滑参数
3.4 光滑参数的确定
3.4.1 局部多项式拟合中光滑参数确定的一个经验方法
3.4.2 交叉确认及其相关方法
3.5 误差方差的估计
3.5.1 误差方差为常数时的估计
3.5.2 误差方差为自变量函数时的估计
3.6 局部拟合在线性回归模型残差分析中的应用举例
3.6.1 残差趋势性分析的假设检验
3.6.2 模拟试验
3.6.3 实例分析
3.7 多元非参数回归模型及其维数灾难问题
第4章 变系数模型与广义变系数模型
4.1 变系数模型与其他相关模型
4.2 变系数模型的拟合及其推断
4.2.1 变系数模型的局部线性估计
4.2.2 局部线性估计的渐近偏与方差
4.2.3 变系数模型的二步估计
4.2.4 系数函数的置信带与假设检验
4.3 半变系数模型及其拟合方法
4.3.1 半变系数模型的二阶段估计及其渐近偏和方差
4.3.2 半变系数模型的轮廓最小二乘估计
4.3.3 半变系数模型的统计推断
4.4 广义变系数模型及其局部似然估计
4.4.1 广义变系数模型
4.4.2 广义变系数模型的局部线性似然估计
4.4.3 广义变系数模型的一步Newton-Raphson估计
……
第5章 空间变系数模型与地理加权回归估计
第6章 SAS软件基础知识与有关分析过程简介
参考文献
前言/序言
回归分析方法是统计数据分析的强有力工具之一,被广泛应用于自然科学及社会科学的各个领域,同时也一直是统计学的一个热门研究方向,从经典的线性回归模型到最近三十多年来借助电子计算机的强大计算能力而迅速发展起来的非参数回归模型及相关模型,从参数回归模型的最小二乘估计、最大似然估计到非参数回归模型的基函数逼近、局部光滑方法,回归模型种类繁多,拟合方法丰富多彩。
本书结合SAS软件,以线性回归模型为切入点,以广义线性模型为导引,介绍了近期迅速发展起来的非参数回归分析中有代表性的几类模型及其局部拟合方法。全书共分为6章:第1章介绍了线性回归模型的最小二乘估计方法、约束最小二乘方法、回归诊断与改进措施等内容;第2章介绍了一类重要的非线性回归模型,即广义线性模型及其最大似然估计方法,这两章内容属于参数回归分析方法;第3~5章介绍了几类非参数回归模型及其局部拟合方法,包括一元非参数回归模型的局部常数和局部多项式拟合、变系数模型的局部线性估计以及广义变系数模型的局部似然估计方法、空间变系数模型的地理加权回归拟合方法;最后一章介绍了被誉为当今数据分析的国际标准软件-SAS系统的一些基础知识以及与本书内容密切相关的可直接调用的几个描述性数据分析的SAS过程、线性回归模型和广义线性模型的SAS过程,进一步介绍了交互式矩阵语言的PROCIML程序设计模块。本书内容是在西安交通大学研究生数据分析课程讲义的基础上,经过多年试用、修改、增删后形成的,考虑到学时数限制,对非参数回归模型及变系数模型的整体型逼近方法(如样条估计、小波估计)本书未作涉及。
作为研究生教材,本书所期望达到的目的有两个方面:一方面,通过对几类有代表性的参数和非参数回归模型的估计及统计推断方法的学习,了解回归分析发展的主线以及当前一些新的研究方向和相关研究成果,掌握回归模型的一些基本的拟合方法尤其是非参数局部光滑方法的基本思想和原理,以有助于科研思想的培养以及新模型、新方法的应用;另一方面,书中介绍的各类模型的拟合方法的实现离不开计算机的应用,我们认为先进软件包的使用以及在相应软件系统下的编程能力是实现科研中新方法的研究和应用的一条行之有效的途径。结合本书内容的学习,期望读者了解SAS软件基础知识和有关的分析过程,结合非参数局部拟合方法的学习,具备一定的在SAS系统下的编程能力。为此目的,我们在书中不仅有利用SAS软件实现实际数据分析的例子,也结合一些模型及其拟合方法给出了几个具体模拟试验的设计、实现以及对试验结果的分析,并在最后一章给出了几个模拟试验和实例分析的SAS程序供读者参考。
根据我们的教学实践,全书内容可在40~50学时内完成。一个可供参考的教学方法是与多媒体教学相结合,首先介绍第6章中SAS软件的基础知识(6。1节)和几个基本统计分析的SAS过程(6。2节),掌握SAS软件的基本操作和一些简单的分析功能;再结合各章内容的讲授,有针对性地介绍第6章中相应的SAS过程,通过SAS软件的多媒体演示,讲解有关实例分析及模拟试验。尤其对于3。5节内容,可在介绍基本内容的基础上,就书中的模拟试验让学生在课外自行编程,在课堂上演示,实现教师与学生的互动。
本书的编写得到“西安交通大学研究生教育系列教材”专项基金的资助。编者的博士研究生沈思连和张辉国做了部分模拟试验的编程以及部分内容的录人工作。中国科学院大气物理研究所东亚区域气候与环境国家重点实验室为我们提供了我国区域降水量及相关数据,本书的出版倾注了科学出版社责任编辑的辛勤劳动。在此一并致以深深的谢意。
限于编者水平,加之许多内容,尤其是后几章内容,多是编者通过阅读近期的期刊文献资料整理而成,对某些方法的理解可能不够深刻甚至不到位,因此错误和纰漏在所难免,恳请同行和读者批评指正。
深入浅出:当代计量经济学模型与数据驱动决策 内容简介 本书旨在为读者提供一个全面、深入且极具实践指导意义的当代计量经济学模型构建与应用框架。我们摒弃了对基础统计学原理的冗余回顾,直接切入现代经济学研究中最核心、最具挑战性的数据分析与因果推断前沿。全书结构紧凑,逻辑严谨,旨在培养读者将复杂经济理论转化为可量化检验、可指导政策制定的数据驱动型思维模式。 本书不关注传统时间序列分析中基于平稳性假设的经典回归模型,而是聚焦于结构性冲击、异质性效应、高维数据处理以及非线性动态系统的识别与估计。 第一部分:理论基础与现代计量范式转型 本部分首先界定现代计量经济学的核心目标:超越相关性,探寻可靠的因果机制。我们详细阐述了从“假设检验驱动”向“数据驱动与机制识别驱动”的范式转变。 因果推断的哲学基础与应用场景: 深入探讨了潜在结果框架(Potential Outcomes Framework)和结构模型(Structural Models)在不同研究领域的适用性边界。重点分析了在宏观经济学、劳动经济学和发展经济学中,如何定义和识别“处理效应”(Treatment Effect)在异质性个体间的分布。 识别策略的演进: 区别于经典的工具变量法(IV)在弱工具变量和内生性模型识别上的局限性,本书详尽介绍了双重差分(Difference-in-Differences, DiD)的现代扩展,包括多期DiD、平行趋势假设的检验与敏感性分析(如Placebo Tests和Asymptotic Balance Tests)。同时,对断点回归设计(Regression Discontinuity Design, RDD)进行了精细化处理,涵盖了清晰断点(Sharp RDD)和模糊断点(Fuzzy RDD)下的最优带宽选择、核函数应用以及非线性效应的局部多项式估计。 高维数据与模型选择: 在“大P,小N”的研究背景下,本书系统介绍了正则化估计方法。我们不仅涵盖了基础的Lasso和Ridge回归,更深入探讨了Elastic Net在处理高度共线性和变量选择冲突时的表现。重点解析了信息准则(AIC、BIC)在现代模型选择中的局限性,并引入了基于预测性能的交叉验证(Cross-Validation)技术,以评估模型的泛化能力。 第二部分:复杂数据结构的建模与处理 本部分专注于处理现实世界数据中常见的复杂结构,这些结构往往是传统线性模型无法有效捕捉的。 面板数据模型的深度挖掘: 摒弃对固定效应(FE)和随机效应(RE)的简单介绍,本书着重于动态面板模型的识别与估计。详细阐述了广义矩估计(GMM),特别是Arellano-Bond和Blundell-Bond估计器,如何有效解决序列相关和序列异方差问题,以及在处理滞后被解释变量作为内生解释变量时的优势。同时,对比了LSDV(Least Squares Dummy Variable)模型与FE模型在处理大规模个体效应时的计算效率差异。 非线性与半参数模型: 当参数化假设难以成立时,半参数方法成为关键。本书探讨了局部加权回归(Loess/Lowess)在平滑处理噪声数据和估计非参数函数形式上的应用。此外,对广义可加模型(Generalized Additive Models, GAMs)进行了深入的介绍,展示了如何通过光滑样条(Spline)灵活地捕捉变量间的非线性关系,同时保持模型的可解释性。 时间序列的非线性结构: 针对金融与宏观经济数据中常见的波动率聚集现象,本书侧重于条件异方差模型。详细介绍了ARCH、GARCH及其多元(Multivariate)扩展,以及EGARCH和GJR-GARCH模型在捕捉“杠杆效应”和非对称冲击反应方面的性能比较。同时,引入了状态空间模型(State-Space Models)和卡尔曼滤波(Kalman Filtering)作为处理不可观测状态变量的强大工具。 第三部分:高级推断与机器学习的融合 本部分是本书的前沿阵地,探讨了如何利用计算经济学和机器学习的最新进展,来解决传统计量方法在处理高维、大规模、非线性数据时的计算瓶颈和估计偏差问题。 双重机器学习(Double Machine Learning, DML): 这是一个革命性的框架,用于在存在大量协变量干扰项(Confounders)的情况下,准确估计因果效应。我们详细剖析了DML如何通过正交化残差(Orthogonalization)的方法,实现对处理效应估计量的稳健性,即使在基础模型(如随机森林、梯度提升树)选择不当时,也能保持渐近正态性。 工具变量的新范式: 针对经典IV无法解决的“局部平均处理效应”(LATE)估计问题,本书详细介绍了深度学习工具变量(Deep IV)和基于神经网络的工具变量选择方法。重点讲解了如何使用深度学习架构来近似处理效应函数,从而在更广泛的异质性框架下识别因果效应。 因果发现与网络分析: 探讨了在复杂相互作用系统(如供应链、社交网络)中,如何利用格兰杰因果关系检验的非线性扩展和结构方程模型(SEM)的最新发展来识别变量间的直接和间接影响路径。引入了贝叶斯网络结构学习算法在经济系统建模中的应用潜力。 适用读者 本书适合已具备扎实计量经济学和统计学基础的研究生、博士后研究人员、以及需要运用前沿数据分析技术解决实际经济问题的政策分析师和高级数据科学家。阅读本书,读者将能够自信地设计出严谨的实证研究方案,选择最适合的估计技术,并对复杂的计量结果进行审慎的经济解释和政策含义的推导。全书强调方法论的批判性思考与实际软件操作(如R和Python的专业包应用)的结合。