缺失数据的多重插补:应用案例与软件操作

缺失数据的多重插补:应用案例与软件操作 pdf epub mobi txt 电子书 下载 2025

严洁 著
图书标签:
  • 多重插补
  • 缺失数据
  • 数据分析
  • 统计建模
  • R语言
  • Python
  • 应用案例
  • 数据处理
  • 统计推断
  • 软件操作
想要找书就要到 静流书站
立刻按 ctrl+D收藏本页
你会得到大惊喜!!
出版社: 重庆大学出版社
ISBN:9787562496359
版次:1
商品编码:12046015
包装:平装
丛书名: 万卷方法/社会科学研究方法·前沿与应用丛书
开本:32开
出版时间:2017-02-01
用纸:胶版纸
页数:300
字数:185000

具体描述

编辑推荐

  近些年来,越来越多的社会科学领域学者应用社会调查的方法来探讨中国政治、经济、社会发展过程中的理论和实践问题。但是在社会调查的数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况越来越多,前者称为单元无回答/单元无应答,后者称为项目无回答/题目无应答。由无回答引起的数据缺失对于后期的数据分析造成很大的影响,为此,在使用统计分析方法进行描述和推断之前,需要考虑缺失值的处理问题。
  对于缺失值的处理有多种方法,其中多重插补(multiple imputation)是近些年来广泛接受的一种方法。

内容简介

  简单地说,多重插补就是给每个缺失单元插补上多个值。主要包括插补、分析、综合三大步骤。对于多重插补,通常会有如下一系列疑问:
  1.一个缺失的单元为什么可以给出多个插补值?
  2.这些插补值是怎么计算来的?
  3.既然要插补多个值,那么需要插补多少个比较合适?
  4.插补后的数据集该怎么用?
  5.什么情况下可以用多重插补?
  6.怎样借助统计软件来做多重插补?
  《缺失数据的多重插补:应用案例与软件操作》这本书的主要目的就在于借助实例来解答这些问题。本书包括三个部分,在第一部分主要介绍多重插补的基本原理和方法、步骤;第二部分则借助4篇精心挑选出来的文章,通过对文章的评析来进一步解答有关多重插补方法的细节问题和相应的注意事项;第三部分则讲解和示例如何用SPSS、STATA这两种统计软件来实现多重插补。

作者简介

  严洁(女),北京大学政府管理学院副教授,政治学定量研究方向博士生导师。主要从事社会科学定量研究方法研究。兼任北京大学中国国情研究中心副主任、北京大学中国社会科学调查中心执行团队负责人。自1995年以来设计并组织实施了近百项大规模抽样调查。作为主要执行者参与了4波《世界价值观调查-中国》,4波《中国家庭追踪调查》,2波《世界精神健康调查-中国》等世界知名大型抽样调查。与沈明明教授、PierreF.Landry教授共同创立了“GPS辅助区域抽样方法”。在《社会学研究》、《社会》等核心刊物上发表多篇文章。曾主持国家自然科学基金项目“并行数据与数据质量管理”,并作为主要参与者参与了多项国家社科基金项目。

精彩书评

  调查数据的缺损,是任何调查活动都无法避免、也无法回避的议题,在现有中文文献中,教材大多只是介绍处理缺损值的原则性方法,如删除、用平均值插补、用数值平滑方法插补等,期刊论文大多只讨论某一类缺损值插补的专门方法,缺乏对缺损值插补进行系统探讨的文献。《缺失数据的多重插补:应用案例与软件操作》正是填补这一空白的作品。
  这本书不仅对调查数据插补的发展历史做了介绍,也系统地探讨了适用于不同缺损值情景的插补方法,对实际操作而言,更有价值的是为运用既有的统计软件进行缺损值插补提供了操作指南,是清理调查数据、运用调查数据进行研究者难得的一份案头文献。
  ——邱泽奇,北京大学社会学系教授,北京大学中国社会与发展研究中心主任

  多重插补是个非常繁复细致的工作,它不单单是数据处理的一种技术方法,更要求联系研究项目本身的方方面面,而严洁这本书有两个突出的特点,为读者深入系统地了解和掌握它提供了可能。她为缺乏实际经验的学生和读者提供了大量而具体的实例,使他们得以理解这种方法的意义并学会如何运用;她详细地介绍了运用现有计算机软件完成这项工作的方法,使琐细繁复的工作变得易于操作,从而能够在教学和实际工作中给学生和研究者提供针对无回答问题的解决办法和很好用的工具。我希望,也相信,这本书能够为更多学生和研究者所用,成为案头工具书。
  ——沈明明,北京大学政府管理学院教授,北京大学中国国情研究中心主任

  在当今以准确信息进行决策的时代,在医学领域进行人群研究,多数以抽样调查的方法,并采用医学问卷对受访者进行访谈或自评,在这个互动的过程中,受访者的单元无回答和项目无回答,以及访员调查差错等诸多原因造成调查数据缺失,无法保证数据齐全。以往的研究在资料分析阶段,因为无法重新调查而只能分析有缺失值的数据,影响结果的真实性。
  《缺失数据的多重插补:应用案例与软件操作》针对上述有缺失值但却不能弥补的常见缺陷,提供了实用性的改善方法。通过对缺失值数据插补,可以科学地避免因缺失数据而影响统计分析的质量。本书详细介绍了多重插补方法的发展历程,提供了统计软件的操作指南,并用案例加以说明,是医学科研进行高质量数据分析的理想工具书。
  ——黄悦勤,中国疾病预防控制中心精神卫生中心主任、教授,中国心理卫生杂志社社长,北京大学精神卫生研究所社会精神病学与行为医学研究室主任

目录

导言 社会调查、无回答与缺失数据
第1章 删除法和单一插补法
1.1删除法
1.1.1 列表删除
1.1.2 成对删除
1.2单一插补法
1.2.1 均值插补
1.2.2回归插补
1.2.3 热平台插补
1.2.4 冷平台插补
1.2.5 LOCF与BOCF法
第2章 多重插补法概述
2.1多重插补的基本原理
2.1.1 什么是多重插补?
2.1.2 为什么一个缺失单元可以有多个插补值?
2.1.3 缺失类型
2.1.4 多重插补的方法
2.1.5 进行多少次插补才有效?
2.1.6 多个插补值怎样使用?
2.1.7 什么情况下用多重插补?
2.2 多重插补的发展简史
2.2.1 起始阶段(1977-1987年)
2.2.2 第二阶段(1988-1997年)
2.2.3 第三阶段(1998年至今)
第3章 多重插补的方法、步骤
3.1准备插补变量
3.1.1初步设定分析模型
3.1.2初选插补模型的变量
3.2检验和确定插补模型
3.2.1选择插补方法
3.2.2变量转换
3.2.3多重共线性诊断
3.2.4确定插补次数
3.2.5执行多重插补,并诊断插补模型
3.3 多重插补后的统计分析
3.3.1 插补后进行简单随机抽样下的统计分析
3.3.2 插补后进行复杂抽样下的统计分析
3.4 小结
第4章 应用案例分析
4.1政治学应用案例
4.2教育学应用案例
4.3经济学应用案例
4.4管理学应用案例
第5章 使用SPSS、STATA软件做多重插补
5.1使用SPSS软件做多重插补
5.2使用STATA软件做多重插补
5.2.1 多重插补前的准备工作
5.2.2 多重插补
5.2.3 多重插补后的统计分析
5.3 SPSS、STATA、SAS、R软件做多重插补的异同
参考文献

精彩书摘

  1.什么是无回答
  无回答是指在数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况,前者称为单元无回答(unit nonresponse),后者称为项目无回答(item nonresponse)。
  单元无回答包括“无法接触到样本单位(no contact)”,“拒访(refusal)”,“无能力回答(incapacity)”等几种情况。根据美国“民意调查研究协会(The American Association for Public Opinion Research)”确定的电话调查、入户调查、邮寄问卷调查回答率的计算标准中的相关定义(APPOR,2011):“无法接触到样本”包括这样一些情况:(a)不能进入这个建筑物;(b)住户内没有人;(c)受访人不在或者找不到。判断一个样本是否属于“无法接触到样本”,研究者必须确定样本单位是一个非空的、有符合资格的受访人居住的、并且没有接触到的住户成员是可完成的这三个必要条件。“拒访”包括住户单位或者住户内的成员拒绝访问的情况,有时也包括采访中断的情况。“无能力回答”则包括受访人尽管符合被采访的资格,而且他/她也愿意接受访问,但是由于语言或者身体、精神不适等原因没有能力完成访问的情况。
  以上这几种情况占单元无回答总数的比例因调查内容和调查方式而不同。概率抽样调查相对于非概率抽样调查会遇到较多的单元无回答的情况。在多数概率抽样调查中,“无能力回答”(例如:身体、语言障碍,不识字等)的情况相对较少,“无法接触到样本单位”的情况较多。近些年,在中国城市范围内,如果进行以个人为样本单位的概率抽样调查,并且以居民的户籍资料为抽样框的话,那么“无法接触到样本单位”的比例会比较高,主要原因在于中国社会中处于流动中的人群正在扩大,人户分离的情况越来越多。这些人多数人因无法联系上而成为单元无回答的样本。“拒访”的比例受调查方式(例如:入户调查和电话调查)、问卷内容(例如:敏感性问题)、调查地点(例如:城市和农村)、采访员素质以及被调查人群的特征等诸多方面的影响。在抽样调查中,如何降低拒访率一直是调查者所必须关注的问题。
  项目无回答一般包括“不知道”(don’t know)、“拒绝回答”(refuse to answer)、“没有观点(no opinion)” 、“不适用”(no applicable)、“没有答案”(no answer)等多种情况。其中,不知道、拒绝回答、没有观点比较容易理解,都是受访人给出的直接的答案。“不适用”通常是因为问卷中的跳问而自动赋值的,例如,对于询问受访人“是否参加了工会”这道题,如果是从事农业生产的受访人,就应该属于不适用回答这道题目的情况,该题目会被跳过去,系统自动产生的数值就是代表“不适用”。“没有答案”通常是指那些应该回答而没有回答的情况,例如,有可能是访问员漏问了,也有可能询问之后忘记记录答案。
  2.什么是缺失值
  缺失值(missing value)简单地概括就是缺失的观测值。缺失值的型态有两种(吴明隆,2010),一为系统自定义的缺失值,二为使用者自定义的缺失值。
  所谓系统自定义的缺失值,是指本来就不适用,并且也没有采集到观测数据的情形,在社会调查中通常发生在一些应该进行跳问的题目中,例如,需要询问职级的时候,对于从事农业生产的人,就不再询问职级了,那么在职级的变量中,凡是回答从事农业生产的样本,就会由系统自定义为缺失值。在本书中称之为“不适用”,对于这种情形导致的缺失值,不用进行插补或其他处理,因为在分析多变量之间关系的时候,这些样本在某种情况下不适于纳入分析,例如,分析职级对人们工作满意度的影响,那些从事农业生产的样本不应该被纳入分析。
  第二类是研究者自定义的缺失值,是指本来已经采集到了数据,但是这个数据根据研究者的判断被定义为缺失值。例如,在一次调查中,对于职业变量,受访人回答“不知道”,研究者根据一些条件最终将其定义为缺失值;也有一种情况是合理的一些值,但是研究者认为这些值属于特异个案,不满足其研究需求,也会将其定义为缺失值,例如,在询问受访人个人一个月的文化消费时,如果有1个样本回答“20万元”,研究者可能就会将其定义为缺失值。
  对于那些需要研究者来自定义的缺失值,研究者首先要进行判断工作。即,哪些值应该或需要被定义为缺失值。这些值里面,最常见的就是项目无回答。在项目无回答中,“没有答案”通常是由于访员漏问、漏记或者造成的,一般情况下都属于“缺失值”。
  但是“不知道”、“拒绝回答”、“没有观点”则需要根据题目本身的含义、研究者的测量目标和受访人的实际情况而定,很难简单地制定统一的判定标准。例如,当询问受访人是否满意现在的生活时,受访人应该有能力或者有信息帮助他能够回答,如果选择了“没有观点”,则可以视为“缺失值”。但是当问到受访人对于“政府应该规定个人收入的最高限额”这种说法的态度时,如果选择了“没有观点”,则可以视为有效回答,因为他提供了有效的信息,可能真的是没有任何观点。
  对于知识、信息类的题目,“不知道”通常是有效的答案,会参与统计分析的过程,例如:询问政治知识的题目“您知道美国现任总统是谁吗?”,如果回答不知道,则可以视为有效回答,这部分人要作为一类人来进行统计分析,而不能直接视作缺失值。
  在项目无回答的几种类型中,受访人回答“不知道”的情况通常相对比较多一些,因此,如果把“不知道”视为缺失值的话,更有可能对样本估计产生影响,但是缺失值的比例到多大时会成为问题,目前还没有一个标准,要依据研究目的、研究内容,以及缺失值的分布特征而定。有些学者认为,通常情况下,小于5%的缺失值应该不会产生什么问题(Gilljam and Granberg,1993)。
  如果缺失值存在,研究者必须首先对缺失值进行处理,然后才能进行统计分析。
  ……

《探索未知的边界:复杂数据时代的洞察与决策》 在这信息爆炸、数据无处不在的时代,我们常常面临一个普遍而棘手的挑战:数据并非完美。正如宇宙中存在黑洞,我们的数据集中也充斥着“缺失”的信号。这些缺失值,或因记录错误、设备故障,或因样本丢失、设计缺陷,如同一张蒙着面纱的地图,阻碍着我们准确地描绘现实的全貌。它们不仅影响着数据的完整性,更可能误导我们的分析,导致错误的结论,进而影响关键决策的制定。《探索未知的边界:复杂数据时代的洞察与决策》正是为了应对这一挑战而生,它将带领读者深入理解和掌握处理复杂、不完整数据集的强大方法,从根本上提升数据分析的深度与可靠性。 本书并非专注于某一种特定领域的数据问题,而是放眼于大数据分析、统计建模、机器学习乃至科学研究的通用性需求。我们生活在一个多维度的世界,每一个变量都可能承载着重要的信息。然而,在实际收集过程中,总有一些关键的维度会留下空白。这些空白并非无关紧要的“小瑕疵”,它们可能隐藏着关键的模式,也可能扭曲我们对整体趋势的认知。例如,在社会科学研究中,缺失的问卷条目可能代表着被访者的顾虑或难以回答的敏感问题;在生物医学领域,基因表达数据的缺失可能与特定疾病的发生发展紧密相关;在金融风控中,部分客户的交易记录缺失可能隐藏着欺诈的风险信号。因此,如何有效地“填补”这些空白,让数据重新焕发生机,成为现代数据科学家、统计学家、研究人员乃至决策者必须掌握的核心技能。 本书的核心思想在于,我们不能简单地将缺失值视为“0”或“平均值”,这种粗暴的处理方式往往会引入偏差,夸大数据的变异性,甚至完全颠覆我们对变量之间关系的理解。相反,我们需要采取一种更加精细、数据驱动的方法来推断这些缺失的值。这正是本书将要深入探讨的“探索性数据重构”理念。它强调在不引入过多假设的前提下,利用已有的信息来合理地预测和填充缺失的部分。这种方法如同精密的侦探工作,从现有的线索中推断出未知的真相。 本书的章节设计充分考虑了读者从理论到实践的逐步深入。首先,我们将从宏观层面,深入剖析数据缺失现象的成因、类型及其可能带来的影响。理解“为什么会缺失”是解决“如何填补”的第一步。我们会讨论随机缺失(MCAR)、机制依赖性缺失(MAR)和机制不可依赖性缺失(MNAR)等不同缺失机制,并分析不同机制下选择何种处理方法的关键考量。在此基础上,我们将逐步引入各种数据重构的经典方法和前沿技术。 本书将详细阐述诸如期望最大化(EM)算法、最近邻(k-NN)插补、回归插补、多项式插补等经典但依然高效的数据填补策略。我们将逐一解析这些方法的原理、适用场景、优缺点以及在实际应用中可能遇到的挑战。例如,回归插补在利用变量间线性关系进行预测方面表现出色,但如果变量间关系复杂,其效果就会大打折扣。而k-NN插补则能捕捉到局部相似性,但对于高维数据可能面临“维度灾难”的困扰。 更重要的是,本书将目光投向了更具前瞻性的复杂数据插补技术。在处理包含非线性关系、高维度、异质性甚至复杂依赖结构的数据时,简单的线性模型往往难以胜任。因此,我们还将深入探讨如何利用机器学习模型来进行更精准的数据重构。这包括但不限于决策树模型(如随机森林、梯度提升树)、支持向量机(SVM)以及神经网络模型在插补任务中的应用。这些模型能够捕捉到数据中更隐蔽、更复杂的模式,从而生成更加逼真且与真实数据分布更为接近的插补值。 除了单一模型的应用,本书还将重点介绍多重插补(Multiple Imputation, MI)的强大框架。我们认识到,任何单一的插补方法都可能引入不确定性。多重插补的核心思想是生成多个“完整”的数据集,每个数据集都包含对缺失值的一组合理推断。然后,我们对这多个数据集分别进行分析,最后将结果进行汇总。这种方法不仅能更准确地估计不确定性(例如,计算出更可靠的标准误),还能在很大程度上减轻因单一插补方法带来的偏差。本书将详细讲解多重插补的三个核心步骤:生成插补值、独立分析各插补数据集、以及汇总分析结果,并提供实际操作的指导。 本书的价值并不仅仅在于理论的阐述,更在于其丰富的应用案例。我们将通过横跨多个学科和行业的数据集,生动地展示如何将上述理论知识应用于解决实际问题。例如,在医学研究中,我们可能需要插补缺失的患者生理指标,以更准确地评估治疗效果;在经济学领域,缺失的宏观经济数据可能影响政策评估的准确性;在市场营销中,用户画像中缺失的行为数据会阻碍精准的个性化推荐。本书中的每一个案例都将经过精心设计,力求真实反映现实数据分析的挑战,并展示如何通过合理的数据重构技术,化挑战为机遇,从中挖掘出宝贵的洞察。 此外,本书还将提供实用的软件操作指南。我们深知,理论的掌握离不开工具的支持。因此,本书将涵盖当前数据分析领域主流软件和编程语言在处理缺失数据方面的应用。我们将以R语言和Python为主要平台,详细介绍其丰富的包和库,如R中的`mice`、`VIM`、`Amelia`等包,以及Python中的`fancyimpute`、`sklearn.impute`等模块。通过清晰的代码示例和操作步骤,读者将能够一步步地学会如何在实际工作中应用这些强大的工具,将理论知识转化为可执行的分析流程。从数据的导入、缺失值的识别,到各种插补方法的实现,再到多重插补结果的汇总,本书都将提供细致入微的指导,帮助读者克服技术障碍,自信地处理实际数据。 本书面向的读者群体广泛,包括但不限于: 统计学家和数据科学家: 想要深入理解和掌握复杂数据处理技术,提升模型鲁棒性和分析可靠性的专业人士。 各领域的科研人员: 在进行实证研究时,需要处理实验数据、调查数据中存在的缺失值,并希望获得更准确研究结果的研究者。 市场分析师和商业智能专家: 需要从不完整的数据中提取市场趋势、用户行为洞察,以支持商业决策的从业者。 金融风险管理人员: 在评估信用风险、交易欺诈时,需要处理缺失的金融数据,以提高模型的预测能力。 以及所有对数据分析感兴趣,希望提升数据处理能力的学习者。 《探索未知的边界:复杂数据时代的洞察与决策》旨在成为您在处理复杂、不完整数据集时的得力助手。它将帮助您超越表面的数据缺失,深入挖掘数据的内在价值,做出更明智、更科学的决策。本书将带领您穿越数据世界的迷雾,抵达清晰、可靠的洞察之岸。

用户评价

评分

作为一名资深数据科学家,我追求的是效率和模型的鲁棒性。这本书最吸引我的地方在于它对“软件操作”的精细化指导。很多教材会告诉你理论,但实际操作中,参数设置、收敛诊断、结果的合并与解释往往是最大的陷阱。这本书对这些“脏活累活”进行了极其细致的梳理,它不是简单地罗列命令,而是深入探讨了不同软件实现背后的逻辑差异。例如,在处理非正态分布数据或复杂结构方程模型时,不同插补方法的推荐设置和注意事项,书中都有非常清晰的“注意事项”或“高级技巧”标注出来。这使得我能够快速地将理论知识转化为生产力代码,避免了大量试错的时间,显著提升了我报告结果的说服力和准确性。

评分

这本关于缺失数据多重插补的书简直是统计分析者的福音,尤其是像我这样在实际操作中经常与各种“不完美”数据打交道的科研人员。书的结构编排得非常扎实,开篇就奠定了坚实的理论基础,把为什么要做多重插补,它相比简单插补方法的优越性讲得透彻明白。作者没有停留在枯燥的公式堆砌,而是巧妙地结合了生动的案例,让那些看似高深的统计学概念变得触手可及。我特别欣赏书中对不同插补方法——比如MCMC、FCS等——的适用场景和技术细节的深入剖析,这对于选择最适合自己研究数据的方案至关重要。读完前几章,我仿佛有了一个专业的向导,带领我穿梭在复杂的数据清洗和预处理环节,极大地增强了我的数据处理信心。它不仅仅是一本“教你如何做”的书,更是一本“告诉你为什么这么做”的深度指南,让人在实际应用时心中有数,能够做出更科学的决策。

评分

坦白说,我之前对“多重插补”的概念一直停留在“听说过但没用过”的阶段,总觉得它太复杂,不如直接删除缺失行来得快。这本书彻底扭转了我的看法。它的叙述语言非常平实、逻辑清晰,成功地将一个复杂的统计概念解构成了可理解的步骤。它用非常直观的方式解释了为什么重复插补和整合结果比单一插补要科学得多,这种渐进式的讲解,让我这个“理论基础薄弱”的读者也能心领神会。书中对“插补模型的选择”这一关键步骤的讨论尤其精彩,它不预设任何单一的最佳方案,而是强调根据数据结构和研究目标进行定制化选择。读完后,我不仅学会了操作,更重要的是理解了其背后的统计哲学,这才是最有价值的收获。

评分

我是一个刚接触高级统计建模的学生,面对“缺失值”这个老生常谈却又让人头疼的问题时,常常感到无从下手。这本书的“应用案例”部分简直是我的救星。它没有采用那种高高在上的理论说教,而是直接切入了我们日常会遇到的各种数据场景:医学队列研究中的患者失访、社会调查中的问卷遗漏、金融数据中的时间序列断点等等。每一个案例都配有详尽的软件操作步骤截图和代码演示,我可以直接跟着敲,看着结果一步步生成,这种沉浸式的学习体验非常棒。特别是书中对R语言包如`mice`或`Amelia`的详尽介绍和实践,让我感觉自己不再是孤军奋战,而是有了一个随时待命的编程导师在身边指导。对于初学者来说,这种“做中学”的模式远比纯理论学习来得有效得多。

评分

这本书的排版和图表质量也值得一提。在处理大量数据输出和代码片段时,清晰的视觉呈现至关重要。这本书在这方面做得非常到位,关键代码块加粗、重要结论用醒目的颜色或方框突出显示,使得在复习或者快速查阅特定操作时,眼睛能迅速定位到重点信息。而且,作者在案例分析中选择的都是具有现实意义的、非理想化的数据样本,这保证了学习到的方法在真实世界中是可用的,而不是仅仅在教科书的完美数据集上有效。对于希望提升自己数据分析严谨性的专业人士来说,这本书提供的不仅仅是技术,更是一种对数据完整性负责任的专业态度。

评分

书写的挺好的,值得一读。

评分

此用户未填写评价内容

评分

好书,值得一购!

评分

书写的挺好的,值得一读。

评分

此用户未填写评价内容

评分

书写的挺好的,值得一读。

评分

2

评分

此用户未填写评价内容

评分

此用户未填写评价内容

相关图书

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou 等,本站所有链接都为正版商品购买链接。

© 2025 windowsfront.com All Rights Reserved. 静流书站 版权所有