发表于2025-01-23
世界是随机的 大数据时代的概率统计学 pdf epub mobi txt 电子书 下载
初学者必读,趣味学习统计学,大数据背景下应用导向,生活中的统计学入门读物,工作应用中统计学的学习利刃
《世界是随机的 大数据时代的概率统计学》共有9章,第1章和第2章介绍概率和随机变量的基础知识;第3章和第4章介绍统计和分布的基础知识;第5章是专门介绍赌博中的概率统计的一章,前四章的知识在这里得到了应用;第6、7、8章分别介绍了概率统计的三个重要方法——假设检验、贝叶斯定理和线性回归;第9章是漫谈概率统计。《世界是随机的 大数据时代的概率统计学》努力避开说教式的言辞,把知识融入故事中,在讲解知识的同时,带给读者阅读的乐趣。是一本难得的适合所有对概率统计感兴趣或者学习有需求的读者阅读。希望《世界是随机的 大数据时代的概率统计学》可以帮助读者快速、更深刻地理解和应用大数据。
李帅,大学本科和硕士均就读于清华大学电子工程系,现就职于国内某网络技术研究所,任网络工程师。硕士和工作期间曾参与云计算、大数据、网络流量分析等多个科研和工程项目,在云计算和数据分析等技术领域富有一定经验。
第1章 概率
1.1 生还是死:这是一个概率问题
1.2 随机事件:翻飞的硬币
1.3 条件概率:门后的老山羊与豪车
1.4 独立事件:反复抛起的硬币
1.5 全概率法则:英超冠军争夺战
第2章 随机变量
2.1 随机变量:骰子游戏
2.2 期望与方差:百变骰子
2.3 大数定理:庄家的信条
第3章 统计
3.1 从样本到总体:管中窥豹
3.2 频数、均值与中位数:致敬“黑曼巴”
3.3 方差与标准差:致敬马刺
3.4 均值与方差估计:近射与狙击
第4章 分布
4.1 分布:统计学的“小九九”
4.2 等概率分布:硬币的两面
4.3 几何分布:一次就好
4.4 二项分布:反复掷骰子
4.5 泊松分布:神奇的e
4.6 正态分布:完美曲线
4.7 指数分布:“二八”与“长尾”
第5章 赌博中的概率统计
5.1 赌博:激情与理性
5.2 双色球:千年等一回
5.3 足彩:爱足球,更爱足彩
5.4 得州扑克:我不是教你诈
5.5 21点:保守未必是坏事
第6章 假设检验
6.1 主场优势:规律还是假象?
6.2 假设检验:主场真的有优势吗?
6.3 反证法:无罪推定
第7章 贝叶斯定理
7.1 牧师贝叶斯:深藏功与名
7.2 赌神贝叶斯:一赌定终身
7.3 死神贝叶斯:连环恐怖袭击
7.4 神探贝叶斯:嫌疑人X的献身
7.5 朴素贝叶斯:智能分类
第8章 线性回归
8.1 预测未来:以数据之名
8.2 线性回归:奇准的票房预测
8.3 拟合评估:拟合优度与分区段拟合
第9章 漫谈概率统计
9.1 正三观:概率统计常识
9.2 元认知:概率统计之“道”
9.3 兵器谱:统计软件大盘点
9.4 大数据:创新与挑战
参考文献
/ / / / 第1章
概率导语: 我们生活的世界,是确定的还是不确定的?自古至今,人们一直试图回答这个哲学命题。一方面我们确信,苹果熟透后会从树上掉下来;另一方面我们又无法确信,抛起的硬币落到地上时,哪一面会朝上。
1.1生还是死: 这是一个概率问题
2012年7月21日,北京大雨倾盆,事后这一天被称为“北京7·21特大暴雨”。下午两点,我接到父亲的电话,要我赶快回东北老家。家中病危的爷爷快挺不住了。
我抓起外套出了门,冒着大雨疯狂地跑进地铁,奔向北京站。
第二天傍晚五点半,我下了火车,直奔医院。病床前,我看到瘦骨嶙峋的爷爷蜷缩在那里,已经没了意识,奄奄一息。八点整,爷爷血压骤降,医生对父亲点了点头,时辰到了。我终究没能和爷爷说上最后一句话。
后来,我常会梦到爷爷。在梦中,爷爷坐在青绿色的老式沙发上,戴着折叠式老花镜,饶有兴致地看《城市晚报》。我似乎记得爷爷已经去世了,但又分明看到爷爷就坐在那里。那一刻,梦中的那一刻,我真的分不清爷爷是生还是死。
世界是随机的——大数据时代的概率统计学第1章概率 00 00 生死与有无、对错一样,都是鲜明对立的东西,它们看似是两条平行的直线,永不相交。然而,梦中的我却分不清爷爷是生还是死。生与死真的永无相交的可能吗?
鹰溪桥上的法克尔
下面是美国小说家安布鲁斯·布尔斯的小说《鹰溪桥上》的片段节选,故事发生在美国南北战争期间,讲述的是农场主法克尔被处以绞刑的故事。
亚拉巴马州北部的铁路桥上,一个男人站在那里,俯视着桥下二十米处那湍急的流水。这人的双手被人用绳子绑在身后,一根绳索紧紧地套在他的颈部,绳索的另一端被系在他头顶上方交叉着的架子上,一段绳子松松垮垮地垂在他的膝盖处。铁轨枕木上铺着几块木板,他和要对他行刑的一名中士和两名列兵就站在上面。
那个即将被施以绞刑的男人看起来大约35岁,一副平民的装扮。如果从他的举止行为来看,他像是一位庄园的农场主。他五官端正——鼻子高挺,嘴唇坚毅,额头饱满,长长的黑发顺直地披在脑后,他的眼睛大而乌黑,面目和善,人们很难想象到这人即将被施以绞刑而死。
他索性睁开了眼睛,看到了他身下的流水。“如果我能把双手挣脱,”他心里这样想着,“我就能摆脱颈上的绳索,跳到河里去,然后潜到水下躲避那些子弹,拼命地游到河岸边,钻进那里的森林,就能跑回家了。谢天谢地,我家不在他们的封锁线里,我的妻子和孩子们离他们的先头部队还有些距离。”正当这些想法在犯人脑中闪过时,上尉对中士点头示意。中士从那块木板上跨到了一边。
当法克尔从桥上径直地向下坠落时,他已经没有了意识,就像是死了一样。仿佛过了很久,颈部剧烈地挤压所带来的疼痛使他从这种状态中清醒了过来,接着就感到了窒息。他知道那条绳索已经断了,他坠入了河中,那种窒息的感觉没有加剧。他在黑暗中睁开了眼睛,看到了他上方的一道亮光。他的两只手快速的向下拍水,使身体上浮,他感觉自己的脑袋已经浮出了水面,炫目的阳光使得他睁不开眼睛。他看到了那座桥,以及给他施以绞刑的执行者,他们正大喊着用手指向这边,子弹射到水里,离他的头只有几英寸的距离,溅起的水花打在他的脸上。
法克尔猛地向水下潜去,尽量钻到水的深处。法克尔在湍急的流水中奋力地划水,他思维清晰,四肢越发有力,心里想着: “上帝保佑我,保佑我能躲过所有的子弹!”
突然,他感觉自己开始一圈圈地旋转起来,像陀螺一样。水面、河岸、树林,已经离得很远的桥,还有那军事堡垒和那些士兵,都搅到了一起,变得模糊不清。水中的一处漩涡将他卷了起来,没过一会儿,他就被水流抛到了左岸边的一堆砾石上。他喜极而泣,两手抓起泥沙,一把把的往上扬,落到自己身上,喃喃地说着一些祝福的词句。他跃身而起,迅速地往坡上的岸边跑去,钻进了那片树林。
那一天,他都依照着太阳往前走,那片树林太过茂密,像是永无尽头,他到处都找不到一个可以休息的地方,甚至都找不到一条樵夫走过的小道。夜幕降临时,他已经走得精疲力竭,可是一想到他的妻子和孩子们,他又竭力地继续向前走。最后,他终于找到了一条通往他家的路。那条路像城市里的街道那样笔直而宽阔,可却像是无人从此处通行过,路的两边没有田野,也没有房屋。他的眼睛有些肿胀,没法闭眼,口中干渴,舌头也发胀起来,他把舌头伸出口外去接触空气,感受丝丝的凉意。这条没人走过的路上全是草,这些草多么柔软,软得让他没法儿感觉到脚下的路!
他站在自己家门口,所有的一切都和他离开时一模一样。当他推开门,他看到了女人的衣裙在飘动;他的妻子还是那么的清新甜美,正从门廊中走出来迎接他。她走下了台阶,脸上带着不可言喻的笑容,那种气质简直无与伦比!啊,她是多么的美丽!他伸开双臂冲过去……
——节选自《鹰溪桥上》
读到这里,我们的心中难免会有一个疑问: 法克尔究竟是死了还是逃跑了?
读到法克尔掉入水中,拼命挣扎着爬上岸时,我们相信法克尔真的逃脱了。可是,怪异的树林、无人走过的路、无法感觉脚下的路,又让人心生怀疑: 难道这些是法克尔的幻觉?我们希望法克尔成功逃脱,回到家中与妻子团圆,又担心一切都是法克尔的幻觉。法克尔在我们心中仿佛是一个既可能“生”又可能“死”的人!
薛定谔的猫
要测试你是否真的了解“量子物理”,只需要问你两个问题。
第一个问题: 你知道“薛定谔的猫”吗?
(我猜你会点头。)
第二个问题: 你知道哥本哈根学派吗?
(别皱眉了,赶快承认不知道吧。)
大多数人都知道这只著名的猫,却不知道这只猫到底是怎么来的,没错,这只猫与哥本哈根学派有莫大的关系。
哥本哈根学派于20世纪20年代初期建立,对量子物理的创立和发展做出了很多重要贡献。学派的创始人是著名量子物理学家玻尔,主要成员包括玻恩、海森堡等知名物理学家。薛定谔也是量子物理学界的鼻祖,他提出的“薛定谔方程”为量子力学奠定了坚实的基础,至今折磨着一代又一代的大学工科男。不过,薛定谔并不是哥本哈根学派的成员,这是因为他对哥本哈根学派的理论存在质疑。为了有的放矢地提出自己的质疑,他脑洞大开地想到了一个实验——“薛定谔的猫”。
“薛定谔的猫”是一个思想实验,实验的过程是,把一只可怜的雌性小猫关在一个密室里,密室里有食物也有毒药,毒药装在瓶子里,瓶子上有一个锤子,锤子由一个电子开关控制,如果电子开关被触动,锤子就会落下,砸碎瓶子,瓶子里的有毒氰化物会毒死小猫。问题是: 小猫到底是活着还是死了?
实验的关键在于,电子开关是否被触动是一个随机发生的事件,发生的概率是50%。这里的50%不是“抛硬币50%出现正面”这么简单,要产生真正的随机事件,需要使用放射性元素。在微观世界里,放射性元素的衰变是宇宙都无法预知的随机事件,一个真正的有50%概率发生的随机事件。控制电子开关的正是放射性元素,如果放射性元素发生衰变,则开关被触动,锤子砸碎毒瓶,小猫必死。
这个问题要分两种情况讨论。
情况一: 我们打开密室观察,可以确切地知道小猫是生还是死。如果放射性元素发生了衰变,那么可怜的小猫一定已经中毒身亡;如果没发生衰变,那么可爱的小猫依然活着。
情况二: 我们不打开密室,由于放射性元素的衰变完全无法预测,所以小猫既可能生,也可能死,我们只能认为小猫处于“生与死”的叠加状态!
用量子物理的语言来说,当我们没有观察小猫时,小猫是被“概率云”包裹的,生与死两种状态互相叠加,形成了一个“叠加态”,当我们进入密室观察小猫时,“概率云”瞬间塌缩了,于是我们只能观察到某一种状态的小猫。
一只“既生又死”的猫?这明显违背常识。薛定谔把微观世界的叠加状态平行的移植到宏观世界中,以此质疑量子物理的“完备性”,也就是说,量子物理中的“叠加态”在宏观世界中不成立。
量子物理学家玻尔曾说: “谁要是第一次听到量子理论时没有感到困惑,那他一定没听懂。”亲爱的读者朋友,你是听懂了还是没听懂呢?
我们活在当下,感知当下,环顾四周,仿佛一切都是确定无疑的。可是,此时此刻,还有很多人、很多事是你感知不到的,对你而言,它们是“不确定的”。鹰溪桥上的法克尔和薛定谔的猫到底是生还是死?这不再是一个非此即彼的问题,在谜底揭开之前,它们既可能生,也可能死,这是一个概率问题,专门研究概率问题的学科就是——概率论。
最后,我要公布《鹰溪桥上》的结局了。
他伸开双臂冲过去,正要和那美丽的女人拥抱时,他感觉到自己的颈后遭到了重重的一击,随着一声大炮的轰鸣,他的四周亮起了炫目的白光——接着,一切都陷入了黑暗和静寂。
法克尔死了,他那折断了颈部的尸体正悬在鹰溪桥后面的横木下轻轻地摆动。
——节选自《鹰溪桥上》
1.2随机事件: 翻飞的硬币
我的家乡邻近长白山,那一年,我终于登上了长白山,见到了传说中的天池。站在山顶向下望,天池宛若一面蓝色的魔镜,静如止水,莫过如此。上山之前,很多人说,想看到天池要靠运气,没多一会儿,我就明白了此言不虚。刚刚还晴空万里、阳光普照,转瞬间就是大雾弥漫,我和父亲母亲只能手拉着手站在原地,生怕在白茫茫的雾气中走失。再过一会儿,雾气缓缓消散,正当大家拿出相机要继续拍照时,乌云袭来,风雨大作,我们纷纷披上雨衣,站在寒风中瑟瑟发抖。那是我第一次感到大自然的风云变幻。
自古至今,人们都在试图回答一个哲学命题: 我们生活在一个确定的世界还是不确定的世界?我们很确信,苹果熟透了,会从树上掉下来,但我们又不能确定,抛起的硬币落到地上时,哪一面会朝上。对此,哲学领域有两种不同的论断。
决定论: 它是指自然界和人类社会普遍存在着客观规律和必然的因果联系,也就是说,如果我们能够发现和理解所有的客观规律和因果联系,自然界和人类社会的任何变化都是可以预知的,我们之所以还做不到,是因为我们对客观规律的认识还不够。
非决定论: 与决定论相对,非决定论否认自然界和人类社会普遍存在着客观规律和必然的因果联系,认为事物的发展变化是没有客观规律的,是由事物内在的“自由意志”决定的,也就是说,人们可以自由支配自己的行为,却无法预言客观事物的发展变化和其他人的行为。
我们似乎更容易认同非决定论,毕竟世界如此纷繁复杂,我们只能控制自己,很难预知未来。但我们不能轻易否定决定论,抛开两个论断的对错之争,决定论为我们认识世界提供了新的思路。下面,我们就来做一个“抛硬币”的思想实验。
思想实验: 抛硬币
抛硬币是大家十分熟悉的小把戏,足球比赛前,裁判会用抛硬币的方式让双方挑边,大家似乎默认抛出的硬币落到手上或地上时,正面和反面朝上的可能性是相同的。但是,决定论的支持者们对此表示怀疑,他们提出了如下的思想实验。
实验1.0
假定有一台超高速摄像机和一台超级力学计算器,摄像机自带摇臂,可以跟拍动态画面,并对拍摄到的画面进行实时分析,分辨画面中的物体,提取物体的运动参数,这些参数又被实时的传输到力学计算器,力学计算器可以根据此前的数据计算出物体下一时刻的运动状态。
我们用超高速摄像机对准手上的硬币,然后,抛起硬币!超高速摄像机与硬币一起向上升,又一起向下降,最后,在硬币即将落到手上时,力学计算器输出了计算结果: 正面向上。你展开手掌,露出了硬币,果然是正面。
我们在实验中加入了一位超级观察员——由超高速摄像机和超级力学计算器组合而成。只要你不是魔术师,也不刻意作弊,在硬币即将落到手上时,超级观察员一定可以准确地告诉你硬币的哪一面向上。请问: 抛硬币的结果是随机的吗?
我的回答依然是: 随机的。原因是,硬币在运动过程中,可能受到各种因素的干扰,力学计算器只能做出短时间的预测,所以,超级观察员只能在硬币即将落到手上时,才能计算出硬币哪一面向上,因此,在硬币抛起时,即使是超级观察员也无法预测硬币的哪一面向上。为了反驳这两点,我们将思想实验升级为2.0版。
实验2.0
在实验1.0的基础上,我们加入如下条件: 一是每次硬币抛掷的周围环境都一样;二是你的手升级为超级机器手,内置力学传感器,你抛起硬币时对硬币施加的力全部会被记录在传感器的芯片中,同时,超级机器手还可以自由设定抛硬币使用的力,也就是说,你可以复现曾经出现过的硬币抛掷过程。再次请问: 抛硬币的结果是随机的吗?
这时,我有些语塞了,在这样的条件下,如果我们利用超级机器手重复此前的某一次抛掷,那就意味着,在硬币刚刚抛出时,我们就知道了结果,这时,抛硬币的结果是确定的!如果我们利用这套装置不断进行抛硬币练习,就会收集越来越多的硬币抛掷结果,然后,这只超级机器手就会成为一个开关,它既可以再现过去的抛掷过程,准确预言抛掷结果,也可以进行一次新的抛掷,让结果随机出现。这只超级机器手掌控着一切,仿佛“造物主”一样!
决定论的极限表达是“造物主”,造物主知晓一切,造物主决定一切,造物主预知一切。这种宗教化的解释自然不在我们的讨论范围内,但“决定论”赋予我们一个很有价值的思想: 不断探索自然,不断寻找客观规律。试想,在牛顿发现万有引力之前,已有千千万万个苹果落到了地上,难道我们该认为,这些苹果拥有“自由意志”,竟然不约而同地冲向地面吗?这个看似必然发生的事件,正是万有引力定律引起的,对这个确定性事件的解释,让我们对大自然的认识更加深刻,也正是“决定论”指引我们不断探索下去。
度量随机事件
我们从思想实验中跳脱出来,回到现实世界。在现实世界中,每时每刻都在发生各种各样的事情,有的事像苹果落地一样,有确凿无疑的结果,而有的事却像抛硬币一样,无法预知结果。数学家们既不是决定论者,也不是非决定论者,他们从数学的角度审视万事万物,概率论由此而来。
抽象地讲,概率论站在无知者和造物主之间审视世界,力图从现实世界中发现客观规律,帮助我们更深刻的认识现实世界。
在概率论的世界里,抛硬币、掷骰子等被统称为随机试验,每一个随机试验都会有一个或多个可能的结果,一个结果或某些结果的组合称为随机事件。
0 0 举例来说,抛硬币是一个随机试验,抛硬币可能的结果有两个: 正面和反面。我们用一个大写字母来代表随机事件,那么,我们可以得到如下的四个随机事件。
A: 抛硬币出现正面
B: 抛硬币出现反面
C: 抛硬币出现正面或反面
D: 抛硬币既不出现正面也不出现反面
随机事件C和随机事件D往往会给初学概率论的人带来困扰,随机事件C根本就不是“随机”事件,分明就是一定会发生的确定性事件,随机事件D正相反,是一定不会发生的事件,自然也不是“随机”事件。概率论是一门完备的科学,它要涵盖所有的事件,而不是只研究那些“随机”事件,为此,我们需要一个度量随机事件的工具——概率。
概率,用于度量随机事件发生的可能性,是个定量指标,用大写字母P来表示。例如,随机事件A发生的概率是50%,可以写成: P(A)=50%概率有以下两个特性:
(1) 概率是非负的,即对于任意随机事件A,P(A)≥0;
(2) 对于任一随机试验,我们假定所有可能的结果有n种(n>0),分别记为A1,A2,…,An,如果这些结果两两之间都不可能同时出现,则P(A1)+P(A2)+…+P(An)=1。
事实上,在概率论所描述的数学世界中,所有的事件都是随机事件,如果一个事件不可能发生,我们认为它发生的概率是0,如果一个事件必然发生,我们认为它发生的概率是1。下面我们举两个有争议的例子。
随机事件A: 公鸡下蛋。
这违背常识,不可能发生,P(A)=0。
随机事件B: 人终有一死。
这是个客观事实,必然发生,P(B)=1。
就大多数人的认知,这两个概率是正确的。可是,生物学家或许会质疑这两个概率,甚至罗列一长串的生物新技术来反驳这两个概率。没错,我承认这两个概率可能是错误的,正如崔健唱的那样: “不是我不明白,这世界变化快。”世界在变化,概率也在变化,唯一不变的是: 所有的事件都是随机事件。
1.3条件概率: 门后的老山羊与豪车
一个囚犯站在法官面前听候判决。法官严肃地说: “我不得不做出最严厉、最残酷的判决,这就是绞刑。这个严酷的刑罚必须执行,不可更改。除此之外,我唯一的决定权是安排你的行刑日期,对此,我一直在两个方案之间犹疑。”
“最简单、最直接的方案是判决即刻生效,马上执行,但这个判决对你太仁慈了,你完全没有感受到惊恐害怕。因此,我现在决定: 在下周7天中的某一天,我会在日出时安排执行绞刑。我绝不会提前告诉任何人,我会在哪一天安排绞刑,所以,我保证你不可能事先知道,自己将在哪一天被绞死。每个夜晚,你都将在担惊受怕中入睡,这是对你最大的惩罚。”
法官宣判完后,囚犯绝望了,他转过头去,居然看到他的律师露出了微笑。走出法庭后,律师对囚犯说: “他们不能绞死你了,”他解释道,“按照法官的安排,下周7天中的某一天,他会在日出时分执行绞刑,而且他们保证不会提前让你知道。因此,他们不能在星期六绞死你,因为星期六是一周的最后一天,如果星期五的早晨,你还没有被绞死,你就知道了行刑日期必然是星期六。这与法官的安排是矛盾的,因为他的计划是不让你知道行刑日期。”
“所以,他们最晚只能在星期五绞死你,这一点没问题吧。”囚犯对此表示赞同。“既然星期六已经排除了,星期五就成了可以绞死你的最后一天,按照同样的逻辑,如果你星期四早上还没被绞死,
世界是随机的 大数据时代的概率统计学 电子书 下载 mobi epub pdf txt
对理解统计学原理和应用领域有帮助
评分东西很好非常的喜欢棒极了
评分对理解统计学原理和应用领域有帮助
评分好好好好好好好好好好好好
评分很有用的入门书
评分好
评分好
评分很有用的入门书
评分好
世界是随机的 大数据时代的概率统计学 pdf epub mobi txt 电子书 下载