编辑推荐
近些年来,越来越多的社会科学领域学者应用社会调查的方法来探讨中国政治、经济、社会发展过程中的理论和实践问题。但是在社会调查的数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况越来越多,前者称为单元无回答/单元无应答,后者称为项目无回答/题目无应答。由无回答引起的数据缺失对于后期的数据分析造成很大的影响,为此,在使用统计分析方法进行描述和推断之前,需要考虑缺失值的处理问题。
对于缺失值的处理有多种方法,其中多重插补(multiple imputation)是近些年来广泛接受的一种方法。
内容简介
简单地说,多重插补就是给每个缺失单元插补上多个值。主要包括插补、分析、综合三大步骤。对于多重插补,通常会有如下一系列疑问:
1.一个缺失的单元为什么可以给出多个插补值?
2.这些插补值是怎么计算来的?
3.既然要插补多个值,那么需要插补多少个比较合适?
4.插补后的数据集该怎么用?
5.什么情况下可以用多重插补?
6.怎样借助统计软件来做多重插补?
《缺失数据的多重插补:应用案例与软件操作》这本书的主要目的就在于借助实例来解答这些问题。本书包括三个部分,在第一部分主要介绍多重插补的基本原理和方法、步骤;第二部分则借助4篇精心挑选出来的文章,通过对文章的评析来进一步解答有关多重插补方法的细节问题和相应的注意事项;第三部分则讲解和示例如何用SPSS、STATA这两种统计软件来实现多重插补。
作者简介
严洁(女),北京大学政府管理学院副教授,政治学定量研究方向博士生导师。主要从事社会科学定量研究方法研究。兼任北京大学中国国情研究中心副主任、北京大学中国社会科学调查中心执行团队负责人。自1995年以来设计并组织实施了近百项大规模抽样调查。作为主要执行者参与了4波《世界价值观调查-中国》,4波《中国家庭追踪调查》,2波《世界精神健康调查-中国》等世界知名大型抽样调查。与沈明明教授、PierreF.Landry教授共同创立了“GPS辅助区域抽样方法”。在《社会学研究》、《社会》等核心刊物上发表多篇文章。曾主持国家自然科学基金项目“并行数据与数据质量管理”,并作为主要参与者参与了多项国家社科基金项目。
精彩书评
调查数据的缺损,是任何调查活动都无法避免、也无法回避的议题,在现有中文文献中,教材大多只是介绍处理缺损值的原则性方法,如删除、用平均值插补、用数值平滑方法插补等,期刊论文大多只讨论某一类缺损值插补的专门方法,缺乏对缺损值插补进行系统探讨的文献。《缺失数据的多重插补:应用案例与软件操作》正是填补这一空白的作品。
这本书不仅对调查数据插补的发展历史做了介绍,也系统地探讨了适用于不同缺损值情景的插补方法,对实际操作而言,更有价值的是为运用既有的统计软件进行缺损值插补提供了操作指南,是清理调查数据、运用调查数据进行研究者难得的一份案头文献。
——邱泽奇,北京大学社会学系教授,北京大学中国社会与发展研究中心主任
多重插补是个非常繁复细致的工作,它不单单是数据处理的一种技术方法,更要求联系研究项目本身的方方面面,而严洁这本书有两个突出的特点,为读者深入系统地了解和掌握它提供了可能。她为缺乏实际经验的学生和读者提供了大量而具体的实例,使他们得以理解这种方法的意义并学会如何运用;她详细地介绍了运用现有计算机软件完成这项工作的方法,使琐细繁复的工作变得易于操作,从而能够在教学和实际工作中给学生和研究者提供针对无回答问题的解决办法和很好用的工具。我希望,也相信,这本书能够为更多学生和研究者所用,成为案头工具书。
——沈明明,北京大学政府管理学院教授,北京大学中国国情研究中心主任
在当今以准确信息进行决策的时代,在医学领域进行人群研究,多数以抽样调查的方法,并采用医学问卷对受访者进行访谈或自评,在这个互动的过程中,受访者的单元无回答和项目无回答,以及访员调查差错等诸多原因造成调查数据缺失,无法保证数据齐全。以往的研究在资料分析阶段,因为无法重新调查而只能分析有缺失值的数据,影响结果的真实性。
《缺失数据的多重插补:应用案例与软件操作》针对上述有缺失值但却不能弥补的常见缺陷,提供了实用性的改善方法。通过对缺失值数据插补,可以科学地避免因缺失数据而影响统计分析的质量。本书详细介绍了多重插补方法的发展历程,提供了统计软件的操作指南,并用案例加以说明,是医学科研进行高质量数据分析的理想工具书。
——黄悦勤,中国疾病预防控制中心精神卫生中心主任、教授,中国心理卫生杂志社社长,北京大学精神卫生研究所社会精神病学与行为医学研究室主任
目录
导言 社会调查、无回答与缺失数据
第1章 删除法和单一插补法
1.1删除法
1.1.1 列表删除
1.1.2 成对删除
1.2单一插补法
1.2.1 均值插补
1.2.2回归插补
1.2.3 热平台插补
1.2.4 冷平台插补
1.2.5 LOCF与BOCF法
第2章 多重插补法概述
2.1多重插补的基本原理
2.1.1 什么是多重插补?
2.1.2 为什么一个缺失单元可以有多个插补值?
2.1.3 缺失类型
2.1.4 多重插补的方法
2.1.5 进行多少次插补才有效?
2.1.6 多个插补值怎样使用?
2.1.7 什么情况下用多重插补?
2.2 多重插补的发展简史
2.2.1 起始阶段(1977-1987年)
2.2.2 第二阶段(1988-1997年)
2.2.3 第三阶段(1998年至今)
第3章 多重插补的方法、步骤
3.1准备插补变量
3.1.1初步设定分析模型
3.1.2初选插补模型的变量
3.2检验和确定插补模型
3.2.1选择插补方法
3.2.2变量转换
3.2.3多重共线性诊断
3.2.4确定插补次数
3.2.5执行多重插补,并诊断插补模型
3.3 多重插补后的统计分析
3.3.1 插补后进行简单随机抽样下的统计分析
3.3.2 插补后进行复杂抽样下的统计分析
3.4 小结
第4章 应用案例分析
4.1政治学应用案例
4.2教育学应用案例
4.3经济学应用案例
4.4管理学应用案例
第5章 使用SPSS、STATA软件做多重插补
5.1使用SPSS软件做多重插补
5.2使用STATA软件做多重插补
5.2.1 多重插补前的准备工作
5.2.2 多重插补
5.2.3 多重插补后的统计分析
5.3 SPSS、STATA、SAS、R软件做多重插补的异同
参考文献
精彩书摘
1.什么是无回答
无回答是指在数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况,前者称为单元无回答(unit nonresponse),后者称为项目无回答(item nonresponse)。
单元无回答包括“无法接触到样本单位(no contact)”,“拒访(refusal)”,“无能力回答(incapacity)”等几种情况。根据美国“民意调查研究协会(The American Association for Public Opinion Research)”确定的电话调查、入户调查、邮寄问卷调查回答率的计算标准中的相关定义(APPOR,2011):“无法接触到样本”包括这样一些情况:(a)不能进入这个建筑物;(b)住户内没有人;(c)受访人不在或者找不到。判断一个样本是否属于“无法接触到样本”,研究者必须确定样本单位是一个非空的、有符合资格的受访人居住的、并且没有接触到的住户成员是可完成的这三个必要条件。“拒访”包括住户单位或者住户内的成员拒绝访问的情况,有时也包括采访中断的情况。“无能力回答”则包括受访人尽管符合被采访的资格,而且他/她也愿意接受访问,但是由于语言或者身体、精神不适等原因没有能力完成访问的情况。
以上这几种情况占单元无回答总数的比例因调查内容和调查方式而不同。概率抽样调查相对于非概率抽样调查会遇到较多的单元无回答的情况。在多数概率抽样调查中,“无能力回答”(例如:身体、语言障碍,不识字等)的情况相对较少,“无法接触到样本单位”的情况较多。近些年,在中国城市范围内,如果进行以个人为样本单位的概率抽样调查,并且以居民的户籍资料为抽样框的话,那么“无法接触到样本单位”的比例会比较高,主要原因在于中国社会中处于流动中的人群正在扩大,人户分离的情况越来越多。这些人多数人因无法联系上而成为单元无回答的样本。“拒访”的比例受调查方式(例如:入户调查和电话调查)、问卷内容(例如:敏感性问题)、调查地点(例如:城市和农村)、采访员素质以及被调查人群的特征等诸多方面的影响。在抽样调查中,如何降低拒访率一直是调查者所必须关注的问题。
项目无回答一般包括“不知道”(don’t know)、“拒绝回答”(refuse to answer)、“没有观点(no opinion)” 、“不适用”(no applicable)、“没有答案”(no answer)等多种情况。其中,不知道、拒绝回答、没有观点比较容易理解,都是受访人给出的直接的答案。“不适用”通常是因为问卷中的跳问而自动赋值的,例如,对于询问受访人“是否参加了工会”这道题,如果是从事农业生产的受访人,就应该属于不适用回答这道题目的情况,该题目会被跳过去,系统自动产生的数值就是代表“不适用”。“没有答案”通常是指那些应该回答而没有回答的情况,例如,有可能是访问员漏问了,也有可能询问之后忘记记录答案。
2.什么是缺失值
缺失值(missing value)简单地概括就是缺失的观测值。缺失值的型态有两种(吴明隆,2010),一为系统自定义的缺失值,二为使用者自定义的缺失值。
所谓系统自定义的缺失值,是指本来就不适用,并且也没有采集到观测数据的情形,在社会调查中通常发生在一些应该进行跳问的题目中,例如,需要询问职级的时候,对于从事农业生产的人,就不再询问职级了,那么在职级的变量中,凡是回答从事农业生产的样本,就会由系统自定义为缺失值。在本书中称之为“不适用”,对于这种情形导致的缺失值,不用进行插补或其他处理,因为在分析多变量之间关系的时候,这些样本在某种情况下不适于纳入分析,例如,分析职级对人们工作满意度的影响,那些从事农业生产的样本不应该被纳入分析。
第二类是研究者自定义的缺失值,是指本来已经采集到了数据,但是这个数据根据研究者的判断被定义为缺失值。例如,在一次调查中,对于职业变量,受访人回答“不知道”,研究者根据一些条件最终将其定义为缺失值;也有一种情况是合理的一些值,但是研究者认为这些值属于特异个案,不满足其研究需求,也会将其定义为缺失值,例如,在询问受访人个人一个月的文化消费时,如果有1个样本回答“20万元”,研究者可能就会将其定义为缺失值。
对于那些需要研究者来自定义的缺失值,研究者首先要进行判断工作。即,哪些值应该或需要被定义为缺失值。这些值里面,最常见的就是项目无回答。在项目无回答中,“没有答案”通常是由于访员漏问、漏记或者造成的,一般情况下都属于“缺失值”。
但是“不知道”、“拒绝回答”、“没有观点”则需要根据题目本身的含义、研究者的测量目标和受访人的实际情况而定,很难简单地制定统一的判定标准。例如,当询问受访人是否满意现在的生活时,受访人应该有能力或者有信息帮助他能够回答,如果选择了“没有观点”,则可以视为“缺失值”。但是当问到受访人对于“政府应该规定个人收入的最高限额”这种说法的态度时,如果选择了“没有观点”,则可以视为有效回答,因为他提供了有效的信息,可能真的是没有任何观点。
对于知识、信息类的题目,“不知道”通常是有效的答案,会参与统计分析的过程,例如:询问政治知识的题目“您知道美国现任总统是谁吗?”,如果回答不知道,则可以视为有效回答,这部分人要作为一类人来进行统计分析,而不能直接视作缺失值。
在项目无回答的几种类型中,受访人回答“不知道”的情况通常相对比较多一些,因此,如果把“不知道”视为缺失值的话,更有可能对样本估计产生影响,但是缺失值的比例到多大时会成为问题,目前还没有一个标准,要依据研究目的、研究内容,以及缺失值的分布特征而定。有些学者认为,通常情况下,小于5%的缺失值应该不会产生什么问题(Gilljam and Granberg,1993)。
如果缺失值存在,研究者必须首先对缺失值进行处理,然后才能进行统计分析。
……
缺失数据的多重插补:应用案例与软件操作 电子书 下载 mobi epub pdf txt