产品特色
编辑推荐
想知道为什么不能赌博吗——学统计吧!
想知道为什么淘宝总能“猜透你的心”吗——学统计吧!
想知道怎样才能获得升职加薪的捷径吗——学统计吧!
内容简介
大数据时代,每个人都要懂一点统计学,我们缺的不是数据,而是正确分析数据的路径,从海量数据中撷取有用信息、产生新价值,甚至用以推估未知的事物,并且已经成为个人和企业的关键竞争力。这是一本关于统计轻知识的书,作者希望借助轻松幽默的语言来激发读者对统计学的学习热情。内容从描述性统计到推断性统计,通过将生活中有趣的事件一一展开,了解统计雪学中的核心知识点,最后是常见疑问的答疑汇编。本书偏重于对案例和图表的引用,不会过多关注于数学推导。
本书主要针对未曾学习过统计学或初学统计学并对此有兴趣的读者,以及希望通过学习相关知识补充数据分析技能的在职人员。
作者简介
归璐,毕业于立信会计学院,2011-2013上海浦东统计调查所,担任数据统计及分析报告撰写;2013至今人大经济论坛兼职编辑。
能静能动,能严肃能无厘头。长期混迹于经管之家(原人大经济论坛)的计量经济与统计板块,也曾舞文弄墨整理并发布过统计知识的入门贴,致力于将枯燥无味的统计知识用通俗易懂的方式来做普及。擅长统计学及数据分析,以及利用Eviews和SPSS软件对行业数据进行分析研究。曾多次参与区县级经济发展情况研究课题。
目录
第0章 入门阶段——带你迈入统计学的大门 1
0.1 我和统计学的从零开始 1
0.2 统计学的从零开始 4
第1章 你的数据从何而来 10
1.1 “不可能完成的任务”——普查 11
1.2 “四两拨千斤”——事半功倍的抽样调查 13
☆本章重点归纳: 20
第2章 掌握指标学会数据分析 21
2.1 被误解还是“被平均” 21
2.1.1 数值平均数——最熟悉的陌生人 23
2.1.2 位置平均数——关键的排序 28
2.2 均值的好朋友——方差(标准差) 34
2.3 峰度&偏度——打造风度翩翩的数据分布 38
☆本章重点归纳: 40
第3章 图表的世界 42
必备技能1——频数分布表 42
必备技能2——频数分布图 46
必备技能3——茎叶图 48
必备技能4——箱线图 52
必备技能5:散点图 54
☆本章重点归纳: 61
第4章 当小“正太”遇上“大叔”——正太分布篇 63
4.1 小“正太”的基本情况 64
4.2 小“正太”的性格和优点——正态分布的定义和特征 65
4.3 小“正太”的可爱之处——正态分布的作用 68
☆本章知识点补充: 75
第5章 当小“正太”遇上“大叔”——大数定律和中心极限篇 77
5.1 正态分布的“左膀”——大数定律 77
5.2 正态分布的“右臂”——中心极限定理 80
5.3 如何牵手“大叔”和“正太” 83
☆本章重点归纳: 85
第6章 相关和因果切莫傻傻分不清楚 86
6.1 为了“不确定”的确定 86
6.1.1 散点图 87
6.1.2 相关系数 89
6.2 上帝掷骰子?! 94
☆本章知识拓展: 96
第7章 “小”亦可为,“大”而佐之 99
7.1 这个“小二”一点都不“二” 99
7.2 另辟蹊径的最大似然估计 102
7.3 他山之石,或可攻玉 106
☆本章知识拓展: 107
第8章 从先放牛奶or先放热茶说起 109
8.1 掀开假设检验的面纱 111
8.1.1 原假设VS备择假设 112
8.1.2 统计检验量和拒绝域 115
8.1.3 P值 117
8.2 几种常用假设检验简介 120
8.3 手把手教你做检验 123
☆本章知识拓展 126
第9章 回归分析——科学研究的“万金油” 128
9.2 释放“回归”的超能力 131
9.3 规避“回归”的误区(伪回归问题) 136
☆本章知识拓展 139
第10章 物以类聚,人以群分 142
10.1 分久必合——聚类分析 142
10.2 合久必分——判别分析 147
第11章 独辟蹊径,曲径通幽 152
精彩书摘
9.3 规避“回归”的误区(伪回归问题)
在回归分析中,如果稍有失误,就可能会陷入误区。
误区1:样本量过小——你的样本有代表性吗
在上一节的回归分析中,样本量是多少?在整个回归模型建立的过程中,笔者都未对此加以说明。事实上,笔者的这批数据是27个儿童身高和体重的样本,用27个儿童来代替整体并不可靠。随之而来的疑问就是:样本能代表总体吗?是的,无论是假设检验还是回归分析,我们都希望透过样本来发现总体规律。
我们知道,某些临床实验会采用小样本(或者对于一些罕见病来说,只能获得小样本),而这就增加了随机偏离的数据在统计中起到的作用,使得研究结果有偏,而这只是一种客观上的小样本。另一种则是有意无意地缩减样本。比如观察某类药物的摄取量对该疾病的治疗效果,如果选择观测时间为三个月,通过回归分析可能得到的是随着药物摄取量的增加,疾病治疗效果越为显著。如果不进行更长时间的监测,那么或许就无法发现当药物摄取量达到某一值后对疾病治疗已无明显作用,甚至继续增加药物摄取量将会导致其他不良症状,这时候,“小样本”就失效了。
为此,我们需要尽可能地获得大样本(一般N大于30),或者保证数据的正态性,这样才能得到真正有价值的结论。
误区2:未对回归分析的前提假设进行检验
虽然我们已经知道了回归分析的假设条件,但对于有些假设,如果不事先建立模型,是无法对它做出检验的,如随机误差项是否不存在自相关、随机误差项是否是同方差等。所以在完成了上文所说的主要检验后,还需要对模型的随机误差项做一系列检验,包括误差项的正态性检验——QQ图/PP图、误差项的异方差检验——White检验、误差项的自相关检验——DW/LM检验等。
同样,针对解释变量,我们也要对其是否具有完全共线性进行检验。共线性检验其实可以从相关系数T检验中事先获得一些信息。比如,在做多元回归分析时发现,如果将每个解释变量分别与被解释变量做一元回归,则回归系数都是显著有效的;而放在一起做多元回归时,却总有几个变量的T检验无法拒绝原假设,此时就意味着解释变量极有可能存在严重的共线性问题。
当完全共线性发生时,会对回归分析造成以下影响:
(1)完全共线性下参数估计量不存在。
(2)参数估计量的经济含义不合理。
(3)变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外。
(4)模型的预测功能失效:变大的方差容易使区间预测的“区间”变大,使预测失去意义。
那么,可以通过什么方法进行检验和规避呢?常用的检验方法是通过VIF(方差膨胀因子)是否大于10来进行简单判断;如果需要规避修正的话,也有很多方法,比如可以选择用逐步回归、岭回归、主成分法提取变量等来代替普通的线性回归。
误区3:“伪回归”——真真假假分不清
“伪回归”中的“伪”指的是虚假相关关系。我们在衡量两组数据是否有相关关系的时候,无非就是将它们放在一起画一张散点图,计算相关系数,然后得出是否有线性相关关系。其实我们并没有告知软件这两组数据的定义。换句话说,如果我们将树木高度与中国GDP放在一起进行相关分析,那么也能得到一个很高的相关系数,但事实是,二者之间没有任何关系。
但在有些时候,“伪回归”的存在是由于思维的定式和逻辑的漏洞引起的,并非故意而为,所以“伪回归”不仅考量我们的科学道德,而且还考量我们的逻辑思维能力。
当然,并非避开了这三大误区我们就能大步向前了,在回归分析的过程中,还会出现诸多小误区,比如遗漏了重要的解释变量,从而造成回归结果的严重偏差。举例来说,当我们研究与疾病相关的影响因素时,性别、年龄这两个变量就不能遗漏。因为它们对于人体的各类疾病都存在大大小小的影响,一旦遗漏,就会造成其他解释变量的回归系数出现偏差。如果只是系数的数值大小偏差那么还可以挽回,但如果直接造成系数正负颠倒,就会成为致命的错误。
所以,“回归”这个武器用得好,能让分析工作事半功倍;一旦失误,就会成为伤人的利器。因此,我们在进行回归分析的过程中需认真加以识别、确认、检验、修正。
☆本章知识拓展
首先来明确一个基本前提,那就是回归分析与相关分析的联系和区别。
区别:
(1)相关分析中的两个变量的地位是相等的,而回归分析中的变量则需要分为解释变量和被解释变量。
(2)相关分析中的两个变量都是随机变量,而回归分析中只有被解释变量是随机变量。
(3)相关分析适用于判定相关程度和方向,而回归分析则可以进一步地进行模型预测和控制。
联系:
(1)相关分析是回归分析的基础和前提,没有相关则无法进行回归。而且对于线性模型来说,相关程度越高,回归效果越好。
(2)相关分析和回归分析的理论方法具有一致性,一般来说,相关系数和回归系数的方向一致,可以互相推算。
(3)回归分析是相关分析的继续和深化。
按照不同的划分规则,回归也可以分为几个类别。下面介绍几个典型的回归模型。
(1)Logistic回归:它是除线性回归外应用范围最广的。Logistic回归与线性回归不同,它要求被解释变量必须是分类变量,不可能是连续变量。分类变量既可以是二分类;也可以是多分类,多分类中既可以是有序,也可以是无序。Logistic回归有个近邻叫Probit回归,二者不仅函数模式十分接近,而且分析结果也类似。不过Probit回归的实际含义不如Logistic回归容易理解。
(2)cox回归:cox回归是回归家族里的一个另类,因为cox回归的被解释变量有些特殊:它的被解释变量必须同时有两个,一个代表状态,所以是分类变量;另一个代表时间,所以是连续变量。只有同时具有这两个变量,才能使用cox回归分析。cox回归主要用于生存资料的分析。
(3)主成分回归:主成分回归其实是将主成分分析与线性回归结合在一起。所谓的主成分分析就是把多个具有高度相关的变量所包含的信息用一个或两三个变量来表示,我们称这个变量为主成分。
(4)岭回归:又称脊回归,由于模型的解与正则化参数λ之间的图像类似于山脊,因此得名。岭回归作为修正变量完全共线性的方法,其思路为:既然线性模型在解释变量完全共线的时候估计值会不稳定,那么岭回归在最小二乘估计里加个k值,改变它的估计值,使估计结果变稳定。至于k值的确定,可以先选很多个k值,然后作出岭迹图,看看这个图在k取哪个值的时候较为稳定,选取该k值即可。
(5)偏最小二乘回归:该回归可以用于解决解释变量之间高度相关的问题,其优势是可以用于样本量很少的情形。它的原理其实跟主成分回归类似,即用被解释变量和解释变量的综合变量来进行分析,所以它也可以用于多个解释变量的回归。这么说来,偏最小二乘法集主成分分析、典型相关分析和多元线性回归分析三种分析方法的优点于一身,成为分析领域的“新贵”。
……
前言/序言
学统计的理由
Hi,亲。很高兴遇见你,虽然你看不到我,我也无法目睹你的容颜,但当你翻开这本书的时候,我们就已经通过文字这个载体见面了!
我猜你应该是被本书的标题吸引才会翻开它的吧?那么聪明的你应该知道,这是一本关于统计学的图书。统计学是一门有趣而实用的学科,它将会成为你生活、工作中的好帮手(别告诉我你不炒股、不玩微博、不买彩票,甚至不逛淘宝,你以为我会告诉你这些都和统计有关吗)。
想知道为什么不能赌博吗——学统计吧!
想知道为什么淘宝总能“猜透你的心”吗——学统计吧!
想知道怎样才能获得升职加薪的捷径吗——学统计吧!
你有没有想过买一张福利彩票,然后被五百万元大奖砸中?我就有过,那通常发生在大白天,我两眼呆滞且目光涣散,幻想自己抱着一堆红色的人民币傻乐……但是当我回过神来后,我就清楚地意识到中大奖的机会微乎其微——这是概率论教会我的。
你也许会想:这是我小时候就懂的道理,你还要读了概率论才知道。
要知道,概率论诞生于赌博游戏。一次两次的小赢,甚至接连几次都赢是有可能发生的,这属于概率的正常波动。其实,如果在完全公平的情况下,输赢概率应该各为50%。但为什么总感觉赌的时间越长,越容易输呢?这是因为我们忽视了一个重要的因素,那就是输赢各半的前提是可以进行无限多次的赌博,但事实是我们根本不可能有那么多的资金和精力。要知道,得出抛硬币正反面出现概率各为50%的结论,是建立在上万次试验结果之上的。所以,你若知道概率还蕴涵积分的数学思想,就不难理解为何“十赌九输”了。
你有没有想过,“万能”的淘宝为何总能在你搜索宝贝的时候顺便推送一些名为“猜你喜欢”的产品,而且这些推送有时还能被你成功加入购物车?其中就用到了推荐算法。推荐算法不仅涉及文本挖掘技术,而且与统计学中频率的计算和关联性知识有紧密联系。
在我们的日常工作中,如果你从事的是销售、财务工作,或者你是某项目的策划者,当领导询问你对即将上架的产品,或者要削减某项开支,或者某项目的推广方案的看法时,你该如何回答?
如果你对自己所做的工作有过翔实的数据采集,例如,对需要销售的产品做过统计,就可以得出一系列图表来证明该产品在某个时间段或针对某些特殊人群有明显的销量提升(这通常涉及方差分析);再如,你对公司的财务数据做了详细的台账记录,则可以清楚地知道缩减哪些开支既不影响生产销售又可以提高营业利润(这时可以运用相关分析);又如,你使用定量方法将推广方案的定性数据量化,通过分析得出最佳方案。试着使用数据来说话,慢慢培养统计思维,你会发现,你的工作将会事半功倍。
生命和统计息息相关
如果上述例子无法给你学习统计的充分理由,那么,当数据和生命联系在一起时,会是怎样呢?
手术中,麻醉师的用药剂量与病人的个体情况有着严格的匹配要求;新药物上市前,必须经过无数次试验检验;用药说明书上的剂量指导,更是建立在海量试验检验基础之上的。其中就涉及抽样调查、假设检验和实验设计等多种统计学的理论知识。
不久前,“雾霾致癌吗”这个话题异常火爆。关于这个命题的真伪,在此不做评述,但众所周知,吸烟是有害健康的,吸烟致癌也被大家广为接受。但你知不知道,“吸烟是否是引起肺癌的原因”这个论题曾经在统计学界掀起了轩然大波?当时,费希尔(统计学界的泰斗级人物)极力反对这个观点,其实,在证明吸烟与肺癌关系的过程中,更值得讨论的是对于试验的设计和流行病医学里的因果关系的论证。直到目前,仍然没有一种有效的方法能够证明统计和哲学双层面的因果关系。但随着统计学的飞速发展,医学统计逐渐流行起来,并发展成为一门热门学科。
生活中的每一部分都和统计密切相关
当一门学科发展到可以通过量化数据来解密人体科学的时候,还能说它不值得去学习了解吗?比如,在大数据时代,如果你不会两个统计名词,怎能充分利用大数据的价值?从事金融行业的不会数据分析,不能跑代码,怎么体现你的专业素养?如果没听说过什么是Hadoop/R/SAS,你怎么做合格的程序员?还有机器学习、词频分析、文本挖掘、数据挖掘……所有这些都离不开统计理论的支撑。所以,如果你想走在时代的前沿,就抓紧时间学统计吧!
当然,即使有千万个学习统计的理由,但总有一个理由会让你拒绝学习,那就是数学!你不热爱数学,所以你拒绝学习和数字有关的学科。但是,这并不能成为你不学习统计的理由,因为统计和数学并不相同。笔者认为,统计学就是“高冷”数学和深奥哲学的平衡点。
其实,笔者天生对数学没有兴趣,丝毫看不出那些积分符号优美在何处。但是这并不能阻碍笔者对统计学的热爱。诚然,统计理论是完全建立在数学基础上的,数理统计对数学的要求很高,但是统计学里还有一个分支叫应用统计,本书就是为了应用而生。
本书不会有繁冗的数学公式推导,不过在有些时候,为了说清楚问题,数学公式和定理是不可或缺的,笔者水平有限,力争通过通俗易懂的语言让大家明白统计是怎么回事、统计可以用来做些什么。
你不用惧怕巨大的计算量,这些都可以通过软件来完成。喜欢编程并想深入研究理论知识的,可以使用Stata、SAS、R;想要快速解决问题的,可以使用SPSS;甚至可以使用Excel完成绝大多数统计分析工作。
至此,你应该找不到不学统计的理由了吧?
欢迎大家和笔者一起进入奇妙的统计学世界!
计对数学的要求很高,但是统计学里还有一个分支叫应用统计,本书就是为了应用而生。
本书不会有繁冗的数学公式推导,不过在有些时候,为了说清楚问题,数学公式和定理是不可或缺的,笔者水平有限,力争通过通俗易懂的语言让大家明白统计是怎么回事、统计可以用来做些什么。
你不用惧怕巨大的计算量,这些都可以通过软件来完成。喜欢编程并想深入研究理论知识的,可以使用Stata、SAS、R;想要快速解决问题的,可以使用SPSS;甚至可以使用Excel完成绝大多数统计分析工作。
至此,你应该找不到不学统计的理由了吧?
欢迎大家和笔者一起进入奇妙的统计学世界!
从零开始学统计 电子书 下载 mobi epub pdf txt