發表於2025-01-24
白話統計 pdf epub mobi txt 電子書 下載
《小白學統計》公眾號主理人馮國雙博士作品
馮國雙博士另著有《小白學SAS一書》
行傢張文彤博士帶頭點贊
涉及Excel、SPSS、R、SAS、JMP等常用工具軟件
在《白話統計》中你可以解決很多簡單的網絡搜索所不能解決的問題。在當前網絡發達的時代,幾乎任何概念和知識點都可以從網絡上查到。但是有一點你很難查到,那就是統計分析的思路和觀點。比如,你可以很容易地在網上查到什麼是綫性迴歸,但你卻查不到怎麼“做”綫性迴歸分析,在你遇到實際數據時仍然不知道如何分析。在《白話統計》中你可以獲得這些思路和觀點。盡管這些觀點未必是所有人都認可的,但根據筆者多年的分析經驗,它們在實踐中通常是奏效的。《白話統計》凝結瞭作者十多年來對統計分析的理解,對各種方法的介紹采用全新的理念和思路,不再是介紹方法本身,而是試圖將各種方法之間的聯係闡述清楚;不再是介紹方法如何計算齣結果,而是盡量說明方法背後的思想。當然,本書同時提供瞭如何實現結果的軟件(涉及Excel、SAS、R、JMP、SPSS 等)操作。
馮國雙,北京大學醫學部博士,具有十多年的數據統計分析經驗,知名統計學平颱“小白學統計”的創始者與維護者。已主編多部統計學專著,齣版《小白學SAS》,同時兼任多個與統計有關的學術委員會委員。興趣愛好:在熱愛統計分析之餘,還對古玩奇石、盆景製作和詩詞鑒賞略有心得。
統計並不難,難的是怎樣學起來不頭疼。我一直都想寫一本平易近人的統計入門書,奈何俗務纏身,未能如願。《白話統計》在這方麵做瞭很有意義的嘗試,有觀點的書,值得有觀點的您來讀!
——張文彤 博士
統計是動態的曆史,曆史是靜態的統計。隻有瞭解統計學,你我或許纔能真正窺見“雲計算”和“大數據”時代的精彩……
——陳曉峰 中國移動在綫服務公司
我在審稿中經常為一些統計學問題而煩惱。在試讀瞭本書後,我發現,絕大多數發錶文章中遇到的關於統計學的睏惑都可以從本書中找到答案。
——呂相徵 中華預防醫學雜誌編輯部主任
推薦序
宋代禪宗大師青原行思曾提齣參禪的三重境界:參禪之初,看山是山,看水是水;禪有悟時,看山不是山,看水不是水;禪中徹悟,看山仍是山,看水仍是水。統計學的學習過程何嘗不是這樣:初學統計時,看到一種方法,覺得就是這種方法,如學到t檢驗,覺得t 檢驗就是用於兩組均值比較的方法;經過一段時間的學習,突然發現原來看過的方法並不是所想的那樣,如在綫性迴歸中也看到瞭t 檢驗的身影,這時覺得t 檢驗不再是自己想象中的t 檢驗瞭;再經過一段時間的學習,就會明白方法還是原來的方法,所謂的疑惑隻是自己心動而已,這時就真正理解瞭t 檢驗的含義,而不再把它當作一種固定於特定場閤的檢驗方法。
對於統計學初學者而言,通過課堂老師的講授,不難達到第一種境界;然後通過接觸各種資料,慢慢就會發現各種方法跟課堂上所講可能有所不同,剪不斷,理還亂,逐漸進入第二種境界;此時,如果不能厘清思路,則很容易陷入迷惑和混亂,想達到第三種境界就難上加難瞭。當然,你可以充分利用網絡資源查找各種信息,從而為自己解惑。然而這種資源雖然多,但較為零散,而且可能會看到眾說紛紜的情況,使得你更加淩亂。幸運的是,馮國雙博士的這本《白話統計》以通俗、幽默的語言深入淺齣地介紹瞭統計學中的各種概念和思想,為很多人消除瞭留在心中多年的存疑,可以在這一階段幫助讀者答疑解惑。其中有些內容曾經發布在微信公眾號“小白學統計”中,也因此受到瞭很多網友的好評。
目前,歐美有不少類似白話介紹統計方法之類的書籍,這類書的特點是:不像教材那樣用沉重、拘謹的語言來介紹統計學方法,而是以風趣、淺顯的話語來解釋說明;內容不一定多,但盡量深入。相比之下,國內的這類書籍並不多見,在生物統計學領域尤其缺乏。這就導緻很多非統計學專業人士覺得統計學“麵目可憎”,始終無法真正喜歡上統計學。可喜的是,目前逐漸成長起來的年輕的統計學傢已經意識到這一問題,馮博士的這本《白話統計》正是讓統計學盡量接地氣的一種有益嘗試。
《白話統計》凝結瞭作者十多年來對統計學的理解,采用彆具一格的編寫理念和思路,對各種方法的介紹不再是介紹方法本身,而是試圖將各種方法之間的聯係闡述清楚;不再是介紹方法如何計算齣結果,而是盡量說明方法背後的思想。本書對基本概念和方法的介紹沒有采用教材中非常嚴謹的語言,而是盡可能用白話來解釋說明。例如,在介紹纍積分布和概率密度時,用到瞭《神雕俠侶》中的情節;在介紹假設檢驗思想時,用到瞭“女士品茶”的故事;在介紹中心極限定理時,采用瞭裏約奧運會期間的一則虛擬故事。這不僅使得抽象理論形象化、復雜問題簡單化,也增加瞭本書的趣味性和可讀性,體現瞭作者深厚的理論功底和豐富的實踐經驗。
在此,我把《白話統計》這本著作推薦給各位讀者,無論是初學者、統計學專業人士,還是統計學應用工作者,相信都能從中獲益。
陳 峰
南京醫科大學教授
第 1 篇 基礎篇
第1 章 為什麼要學統計 2
1.1 統計學有什麼用 3
1.2 生活世事皆統計 4
1.3 如何學統計 4
第 2 章 變異――統計學存在的基礎 6
2.1 隨機與變異 6
2.2 特朗普與羅斯福的勝齣――抽樣調查到底可不可靠 8
2.3 什麼是抽樣誤差 9
第 3 章 郭靖的內力能支撐多久――談概率分布 11
3.1 纍積分布與概率密度的通俗理解 12
3.2 是生存還是死亡?這是一個問題――用Weibull 分布尋找生存規律 16
3.3 2003 年的那場SARS――用Logistic 分布探索疾病流行規律 20
3.4 “普通”的正態分布 23
3.5 幾個常用分布――t 分布、χ2 分布、F 分布 28
第 4 章 關於統計資料類型的思考 35
4.1 計數資料等於分類資料嗎 36
4.2 計數資料可否采用連續資料的方法進行分析 37
4.3 分類資料中的無序和有序是如何確定的 38
4.4 連續資料什麼時候需要轉換為分類資料 39
4.5 連續資料如何分組――尋找cut-off 值的多種方法 41
4.6 什麼是虛擬變量/啞變量 47
第 5 章 如何正確展示你的數據 52
5.1 均數和中位數――你被平均瞭嗎 53
5.2 方差與標準差――變異的度量 54
5.3 自由度――你有多少自由活動的範圍 56
5.4 百分位數――利用百分數度量相對位置 57
5.5 如何比較蘋果和橘子――利用Z 值度量相對位置 59
5.6 某百歲老人調查報告說:少運動纔能活得久――談一下比例和率 61
5.7 在文章中如何正確展示百分比 63
第 6 章 尋找失蹤的運動員――中心極限定理 64
6.1 中心極限定理針對的是樣本統計量而非原始數據 65
6.2 樣本量大於30 就可以認為是正態分布瞭嗎 67
第 7 章 從“女士品茶”中領會假設檢驗的思想 70
7.1 女士品茶的故事 70
7.2 零假設和備擇假設 . 72
7.3 假設檢驗中的兩類錯誤 73
7.4 P 值的含義 76
7.5 為什麼P 值小於0.05(而不是0.02)纔算有統計學意義 78
7.6 為什麼零假設要設定兩組相等而不是兩組不等 79
第 8 章 參數估計――一葉落而知鞦 81
8.1 點估計 81
8.2 最小二乘估計 82
8.3 最大似然估計 84
8.4 貝葉斯估計 86
第 9 章 置信區間估計――給估計留點餘地 88
9.1 置信區間的理論與實際含義 88
9.2 置信區間與P 值的關係 90
9.3 利用標準誤計算置信區間 91
9.4 利用Bootstrap 法估計置信區間 92
第 2 篇 實用篇
第10 章 常用統計方法大串講 98
10.1 一般綫性模型――方差分析與綫性迴歸的統一 99
10.2 廣義綫性模型――綫性迴歸與Logistic 迴歸的統一 103
10.3 廣義可加模型――脫離“綫性”束縛 107
10.4 多水平模型――打破“獨立”條件 112
10.5 結構方程模型――從單因單果到多因多果 119
第 11 章 正態性與方差齊性 127
11.1 用統計檢驗方法判斷正態性 127
11.2 用描述的方法判斷正態性 130
11.3 方差分析中的方差齊性判斷 133
11.4 理解綫性迴歸中的方差齊性 135
第 12 章 t 檢驗――不僅是兩組比較 138
12.1 從另一個角度來理解t 檢驗 138
12.2 如何正確應用t 檢驗 140
12.3 t 檢驗用於迴歸係數的檢驗 141
12.4 t 檢驗的替代――Wilcoxon 秩和檢驗 142
第 13 章 方差分析與變異分解 145
13.1 方差分析中變異分解的思想 145
13.2 為什麼迴歸分析中也有方差分析 147
13.3 鐵打的方差分析,流水的實驗設計 148
13.4 方差分析後為什麼要進行兩兩比較 152
13.5 多重比較方法的選擇建議 154
13.6 所有的多組都需要做兩兩比較嗎――兼談固定效應和隨機效應 164
13.7 重復測量方差分析詳解 166
13.8 方差分析的替代――Kruskal-Wallis 秩和檢驗 176
13.9 多組秩和檢驗後的兩兩比較方法 178
第 14 章 卡方檢驗――有“卡”未必走遍天下 181
14.1 卡方檢驗用於分類資料組間比較的思想 181
14.2 卡方用於擬閤優度評價――從Hardy-Weinberg 定律談起 184
14.3 似然比χ2、M-H χ2、校正χ2 與Fisher 精確檢驗 186
14.4 等級資料到底可不可以用卡方檢驗 191
14.5 卡方檢驗的兩兩比較 193
14.6 Cochran-Armitage 趨勢檢驗 194
14.7 分類變量的賦值是如何影響分析結果的 196
第 15 章 相關分析與一緻性檢驗 200
15.1 從協方差到綫性相關係數 200
15.2 綫性相關係數及其置信區間 203
15.3 如何比較兩個綫性相關係數有無差異 206
15.4 分類資料的相關係數 207
15.5 基於秩次的相關係數 210
15.6 相關分析中的幾個陷阱 213
15.7 用ICC 和CCC 指標判斷一緻性 215
15.8 用Bland-Altman 圖判斷一緻性 218
15.9 Kappa 檢驗在一緻性分析中的應用 219
第 16 章 綫性迴歸及其分析思路 222
16.1 殘差――識彆迴歸模型好壞的關鍵 223
16.2 迴歸係數的正確理解 226
16.3 迴歸係數檢驗VS 模型檢驗 227
16.4 均值的置信區間VS 個體的預測區間 228
16.5 逐步迴歸篩選變量到底可不可靠――談變量篩選策略 230
16.6 如何評價模型是好還是壞――交叉驗證思路 237
16.7 綫性迴歸的應用條件――你的數據能用綫性迴歸嗎 240
16.8 如何處理非正態――Box-Cox 變換 247
16.9 如何處理非綫性――Box-Tidwell 變換 248
16.10 方差不齊怎麼辦――加權最小二乘法 250
16.11 當共綫性導緻結果異常時怎麼辦――嶺迴歸、Lasso 迴歸 254
16.12 發現異常值應該刪除嗎――談幾種處理異常值的方法 260
16.13 如何處理缺失值――是刪除還是填補 268
16.14 一個非教材的非典型案例――綫性迴歸的綜閤分析 276
前 言
在一本書中如果沒有自己的觀點,而隻是各種已知知識的堆疊,那這本書還有什麼意義呢?
——作者
時光飛逝,從我的第一本書齣版到現在,轉眼已經過去瞭7 年。期間,我的統計分析經驗在不斷積纍,對統計學方法也有瞭更深一步的認識。但有一點始終未變,那就是我對統計學的熱愛以及推廣統計學的理念。從我的第一本書開始,我的理念就是,盡量寫一本讓非統計學專業人員也能看懂的統計書。直到本書的麵世,盡管每本書的風格不一,但我始終遵循這一理念。
推廣和普及統計學並不是一件容易的事情。由於各種原因,不少人在初學統計學時有點抵觸,所以我盡量通過各種方式努力使統計學“平易近人”,寫書便是其中之一。多年前我曾在百度空間創建瞭自己的“衛生統計空間”,閱讀量達到近百萬次,後來由於百度空間關閉而結束。後來我又在微信公眾平颱上創建瞭“小白學統計”公眾號。在本書齣版之際,該公眾號恰好滿兩歲,粉絲也剛好滿2 萬人。不少人在公眾號上留言,建議我將內容整理成冊並齣版。因此,在後期我就一邊寫新的文章,一邊將其整理修訂。雖然本書脫胎於“小白學統計”公眾號,但內容其實和公眾號裏的文章並不相同。
事實上,我幾乎重寫瞭所有內容,因為正式齣版的書籍不能像公眾號裏的文章那樣隨意。所以,盡管你會看到書中的內容有與公眾號相似之處,但本書更為係統和詳細。
關於本書的名字,我曾在公眾號上徵集各位讀者的意見,很多人建議直接用《小白學統計》這一書名。但經過仔細考慮,以及幾位試讀朋友的建議,最終還是命名為《白話統計》。因為本書並沒有像教材一樣係統地介紹各種統計方法,而更像隨筆或補充讀物。如果用武俠小說來類比,則更像梁羽生筆下的《玄功要訣》或金庸小說中的《易筋經》,雖然並不側重教你具體招式,但卻可以讓你在學其他招數的時候事半功倍。
這是一本怎樣的書
第一,你可以把本書看作一本“翻譯”書。我在盡力把統計學中的公式“翻譯”成白話文。比如,你在很多統計學書中看到正態分布的公式,而在本書中,你看到的是正態分布公式的解釋及其實際含義;再如,你在統計學書中看到最大似然估計的公式時可能會有點睏惑,本書則通過例子通俗地解釋最大似然估計的計算思想。
第二,你還可以把本書看作統計學教材的補充內容。本書並不是簡單地介紹各種統計方法,而是盡量把各種方法串聯起來,從思路上理解方法本身。例如,教材中都會介紹如何用t 檢驗進行兩組比較,本書則重在闡述t 檢驗的思想本身,這樣你在任何場閤(如綫性迴歸、相關分析)看到t 檢驗都不會覺得陌生;而且本書還專門用瞭一章的篇幅對常見的各種統計學方法進行瞭串講,從一般綫性模型到廣義可加模型,盡量讓你明白它們之間的關係。
第三,如果你願意,則也可以把本書看作一本打發時間的消遣讀物。本書對所有概念和方法都盡量以通俗的語言而非官方語言來闡釋。例如,在介紹分布時,通過大傢熟知的郭靖如何消耗內力來進行說明,從而避免瞭不少人對“分布”這一概念完全摸不著頭腦的尷尬;在介紹假設檢驗思想時,用瞭“女士品茶”這一淺顯的例子來說明其思路。
從這本書中你能學到的和不能學到的
本書分為兩大部分:基礎篇和實用篇。其中,基礎篇介紹瞭統計學中常見的概念及初學者容易存在的疑惑。例如,很多人都頭疼的分布(第3 章)、初學者不易理解的假設檢驗(第7 章)、比較重要的中心極限定理(第6 章)、參數估計和置信區間(第8 章和第9 章)等。
實用篇則側重介紹各種方法的思路及實現,先對各種常見方法進行瞭串講(第10章),然後分彆介紹瞭t 檢驗(第12 章)、方差分析(第13 章)、卡方檢驗(第14 章)、相關分析(第15 章)、迴歸分析(第16 章)。但是韆萬不要被我列舉的錶麵現象所迷惑,這些方法可能你覺得都“會”,但如果你打開本書,則會發現原來這些內容並不是這麼簡單的。
一本書如果沒有作者自己的觀點,而隻是知識的堆疊,那麼這類書是沒有太大價值的。尤其在當前網絡發達的時代,幾乎任何概念和知識點都可以從網絡上查到。但是有一點你很難查到,那就是統計分析的思路和觀點。比如,你可以很容易地在網上查到什麼是綫性迴歸,但你卻查不到怎麼“做”綫性迴歸分析,在你遇到實際數據時仍然不知道如何分析。在本書中,你可以獲得這些思路和觀點。盡管這些觀點未必是所有人都認可的,但根據我多年的分析經驗,它們在實踐中通常是奏效的。
如果你想從本書中學習如何一步步地進行軟件操作,那你可能會失望。本書沒有教你具體的軟件操作過程,因為軟件實現是最簡單的,而統計分析思路則是更為復雜的。學習統計,最遙遠的距離是,你麵對著電腦中的統計軟件(中文版),菜單上的每個中文都認識,卻始終不知道該點什麼。這很讓人受挫,不是嗎?然而這不是軟件操作的問題,而是統計思路的問題。本書將教你擺脫這一尷尬局麵。
什麼人適閤閱讀本書
如果你對統計學是完全的零基礎,那麼看前半部分內容應該問題不大,但對後半部分的統計方法可能需要花點心思,因為學習後半部分內容還是需要一定的統計學基礎的。所以本書主要適閤以下讀者:
.剛剛接觸統計學,跟著老師聽瞭幾堂課,但是腦子裏依然是一團糨糊的人。
.學過統計學,但是對各種方法之間的關聯並不清楚,想更進一步融會貫通的人。
.在課堂上學過統計學,但遇到實際數據卻不知如何下手,想瞭解數據分析思路的人。
.統計學已經學得不錯瞭,但有點眼高手低,對有些概念並未真正理解的人。
.會一點數據分析,但是在實際數據麵前容易頭腦不清晰,想學習數據分析技巧的人。
.會用簡單的統計軟件(如SPSS),但點開菜單卻不知道裏麵的選項是什麼意思、不知該如何勾選、也不知如何解讀結果的人。
.喜歡本人作品、“小白學統計”公眾號的粉絲。
……
本書所用的軟件
本書中結果的展示主要基於SAS 9.4 和JMP Pro 13。書中凡是涉及計算或結果展示的內容,大都給齣瞭軟件實現的語句或操作過程。考慮到不同讀者有各自的軟件使用習慣,書中分彆給齣瞭SAS 9.4、R 3.4.3、SPSS 20 和JMP Pro 13 的軟件實現過程,部分特殊內容也用到瞭Medcalc 和Stata 12.0。
本書中的配套資源下載
本書中所有例子的數據、SAS 程序和R 程序都可以在知瞭幫網站下載,以節省讀者輸入數據和程序的時間。
緻謝
首先,非常感謝陳峰老師在百忙之中幫忙作序,陳老師是一位儒雅型的生物統計學教授,能夠請到陳老師作序,為本書增色不少。其次,感謝成都道然科技有限責任公司在整體策劃和插圖上的努力,你們看到書中那些生動的漫畫都齣自他們的手筆。
最後還必須感謝“小白學統計”公眾號的粉絲,正是你們的鼓勵,纔讓我義無反顧地將其內容整理成冊並齣版。
本書是作者多年經驗的纍積,而且查閱瞭大量國內外文獻,但仍不敢說百分之百正確。如果書中有任何觀點上的錯誤,那說明本人水平仍有不足,所有錯誤均由本人承擔責任,還請讀者不吝指正,可在“小白學統計”公眾號裏留言。
馮國雙
算是一本好書吧對於數據分析
評分好用好用。喜歡京東。支持好用好用。喜歡京東。支持
評分湊單買的,價格閤適,不錯
評分。。。。。。。。。。。。。
評分這本書寫的很好,通俗易懂,舉例貼切,提升統計技能太有用處瞭,謝謝!
評分通俗易懂 值得一學。
評分書可以,作者從醫學數據統計的角度闡述瞭數據統計的應用。很有參考意義。
評分。。。。。。。。
評分書特彆好,全科室每人一本,支持馮老師新書
白話統計 pdf epub mobi txt 電子書 下載