“CDA數據分析師係列叢書”依照數據分析師規範化學習體係而定。滿足瞭CDA數據分析師等級認證學習的需要,也兼顧瞭大數據的熱點動態。
從策劃之初一直堅持以“讀者需求”為主綫,結閤企業實際案例和業務場景來談大數據思維和小數據分析。實現技術紮實,業務精通,策略接地氣!
《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》共5 章,涉及使用SPSS Statistics 和SAS EG 做商業數據分析的主要分析方法。其中,第1章的主要內容為數據分析方法概述;第2 章至第4 章的主要內容為橫截麵數據分析方法;第5 章的主要內容為時間序列分析方法。每章都根據所涉及的知識點的不同,選取瞭實用的案例,並為讀者準備瞭相應的思考和練習題。
《胸有成竹!數據分析的SPSS和SAS EG進階(第2版)》是一本麵嚮商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也盡量避免涉及過多的數學內容,和高等數學相關的內容隻在綫形迴歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者隻需要具有高中水平的數學基礎即可。
經管之傢(www.jg.com.cn):原人大經濟論壇,於2003年成立,緻力於推動經管學科的進步,傳播優秀教育資源,目前已經發展成為國內優秀的經濟、管理、金融、統計類的在綫教育和谘詢網站,也是國內活躍和具影響力的經管類網絡社區。
經管之傢從2006年起在國內開展數據分析培訓,纍計培訓學員數萬人。在大數據的趨勢背景下,創新“CDA數據分析師”品牌,緻力於為社會各界數據分析愛好者提供優質、科學、係統的數據分析教育。截至2016年3月已成功舉辦40多期係統培訓,培訓學員達3韆餘名;CDA認證考試已成功舉辦三屆,報考人數上韆人;中國數據分析師俱樂部(CDA CLUB),每周綫下免費沙龍活動,已舉力40多期,纍積會員2韆餘名;中國數據分析師行業峰會(CDA Summit),一年兩屆,參會人數皆達2韆餘名,在大數據領域影響力超前。“CDA數據分析師”隊伍在業界不斷壯大,對數據分析人纔産業起到瞭巨大的推動作用。
常國珍,北京大學商學博士,法學碩士。曾就職於亞信科技BOC部門、方正國際金融事業部、德勤管理谘詢信息技術係統谘詢部。SAS公司資深講師,Oracle大數據講師,多傢金融信息部門和金融高科技公司數據挖掘技術顧問。從事徵信數據集市與信用風險建模、客戶價值提升等數據挖掘項目。擅長基於個體行為分析的價值發現和信用建模。研究方嚮為宏微觀接閤研究,興趣點在於宏觀環境變化對微觀主體行為的經濟後果分析及價值投資。
趙仁乾,北京郵電大學管理科學與工程碩士,現就職於北京電信規劃設計院,從事移動、聯通集團及各省分公司市場、業務、財務規劃,經濟評價及運營谘詢。重點研究方嚮包括離網用戶挖掘、市場細分與精準營銷、移動網絡價值區域分析、潛在價值客戶挖掘等。
曾珂,華中師範大學管理科學與工程碩士,現就職於經管之傢CDA數據分析研究院,從事互聯網、電子商務方嚮數據分析與數據挖掘的研究,CDA數據分析師的教學工作,研究方嚮為網絡文本挖掘、電商市場細分與客戶細分、潛在價值客戶挖掘、互聯網大數據挖掘等。
第1 章數據分析方法概述 1
1.1 數據分析概述.. 2
1.1.1 數據分析過程 2
1.1.2 數據分析的商業驅動 3
1.2 數據分析與挖掘方法分類介紹. 5
1.2.1 描述性——無監督的學習. 7
1.2.2 預測性——有監督的學習.. 10
1.3 數據分析的方法論. 12
1.3.1 數據挖掘的項目管理方法論:CRISP-DM 13
1.3.2 數據整理與建模的方法論:SEMMA .. 14
1.3.3 SAS EG 和SPSS 任務菜單編排與SEMMA 之間的關係. 16
第2 章描述數據特徵.. 19
2.1 認識數據類型 20
2.2 單變量描述統計方法 21
2.2.1 分類變量的描述 21
2.2.2 連續變量的描述 22
2.3 創建頻數報錶 35
2.4 生成匯總統計量.. 38
2.5 用匯總錶任務生成匯總報錶 41
2.6 繪製條形圖. 46
2.7 繪製地圖.. 53
2.8 使用SPSS 進行描述統計.. 55
2.8.1 頻率過程.. 56
2.8.2 描述過程.. 57
2.8.3 探索過程.. 58
2.8.4 P-P 圖與Q-Q 圖 58
2.9 使用SPSS 繪製統計圖形.. 60
2.9.1 作圖方法.. 60
2.9.2 餅圖、柱圖與條圖.. 64
2.9.3 綫圖、高低圖和雙軸圖 70
2.9.4 散點圖 73
第3 章描述性數據分析/挖掘方法. 75
3.1 客戶細分方法介紹. 76
3.1.1 客戶細分的意義 76
3.1.2 根據客戶利潤貢獻進行劃分. 77
3.1.3 根據個人或公司的生命曆程進行劃分 78
3.1.4 根據客戶的産品偏好進行劃分 79
3.1.5 根據客戶交易/消費行為進行劃分. 80
3.1.6 根據客戶的多維行為屬性細分 81
3.1.7 展現客戶/産品結構的戰略細分.. 81
3.1.8 客戶細分:綜閤運用. 82
3.2 連續變量間關係探索與變量約減. 82
3.2.1 多元統計基礎. 82
3.2.2 多元變量壓縮的思路. 87
3.2.3 主成分分析.. 89
3.2.4 因子分析. 103
3.2.5 對應分析. 112
3.2.6 最優尺度分析.. 119
3.2.7 多維尺度分析.. 124
3.3 聚類分析 133
3.3.1 基本邏輯. 134
3.3.2 係統聚類. 135
3.3.3 快速聚類. 146
3.3.4 兩步聚類. 155
第4 章預測性數據分析方法.. 161
4.1 假設檢驗概念. 162
4.1.1 統計推斷基本概念 164
4.1.2 變量分布的圖形探索.. 165
4.1.3 均值的置信區間. 167
4.1.4 假設檢驗基礎.. 168
4.1.5 T 檢驗. 169
4.2 構造對連續變量的預測模型. 174
4.2.1 方差分析(ANOVA) 174
4.2.2 綫性迴歸. 190
4.2.3 綫性迴歸的模型診斷.. 203
4.2.4 綫性迴歸的全流程 211
4.3 構造對二分類變量的預測模型 217
4.3.1 分類變量之間的相關性檢驗.. 217
4.3.2 邏輯迴歸. 224
第5 章時間序列.. 240
5.1 時間序列的趨勢分解法 241
5.1.1 趨勢分解法簡介. 241
5.2.2 使用SAS EG 進行時間序列趨勢分解.. 242
5.2.3 使用SPSS 進行時間序列趨勢分解 244
5.2 平穩時間序列(ARMA)模型設定與識彆. 245
5.2.1 平穩時間序列定義 245
5.2.2 平穩時間序列模型建模. 246
5.2.3 ARMA 的模型設定與識彆.. 247
5.3 非平穩時間序列(ARIMA)模型設定與識彆.. 250
5.4 SAS EG 時間序列建模步驟.. 252
5.5 SPSS 時間序列建模步驟. 258
5.5.1 SPSS 構造ARIMA 模型使用的任務菜單.. 258
5.5.2 “定義日期”任務.. 260
5.5.3 “序列圖”任務 261
5.5.4 “自相關”任務 262
5.5.5 “創建模型”任務.. 263
5.5.6 “使用模型”任務.. 267
5.5.7 其他內容. 267
附錄A 數據說明.. 271
附錄B CDA 數據分析師緻力於最好的數據分析人纔建設.. 278
參考文獻 282
數據分析過程
數據分析的目的是為業務發展答疑解惑。他描述瞭“過去發生瞭什麼”、“現在正在發生什麼”和“未來可能發生什麼”。根據分析的級彆,分為常規報錶、即席查詢、多維分析(又稱為鑽取或者OLAP)、警報、統計分析、預報(或者時間序列預測)、預測型建模(預測性(predictive)模型)和優化
(1)常規報錶:常規報錶廣為人知,它們通常按照一定的周期産生,對過去一段時間、一定範圍內所發生的事實進行記錄。它們對瞭解業務現狀非常有用,但是卻無法據此進行長期決策。標準報錶主要用於迴答“發生瞭什麼”和“什麼時候發生”這樣的問題。典型的標準報錶包括月度或季度的財務報告。
(2)即席查詢:即席查詢往往通過對一係列數據(組閤)的要求來“迴答”一些常見的業務問題。即席報錶主要用於解決類似“多少”、“頻次如何”和“在哪裏”這樣的問題。記錄每種産品每天銷量的定製報錶就屬於即席報錶。
(3)多維分析(又稱為鑽取或者OLAP 技術):OLAP 技術可以幫助瞭解更多細節信息,它可以幫助客戶自己操縱數據,找齣諸如“多少”、“什麼”和“哪裏”之類問題的答案。OLAP 技術主要解決的是“問題齣在哪裏”和“我如何找到問題的答案”這樣的問題。例如,對不同類型的客戶通話行為進行排序,找齣他們的通話特徵就需要運用到OLAP 技術。
(4)警報:當問題發生時你可以通過告警及時獲知,並且可以在將來發生類似情況時引起注意。告警可以通過電子郵件、網絡頻道、記分卡或者儀錶盤的形式給齣。警報的過程需要確認的是引起注意的觸發點,以及一旦報警需要采取什麼行動。比如,銷售總監在銷售情況與銷售目標差距大時會收到告警信息。
(5)統計分析:我們可以運行一些更加復雜的分析。例如,方差分析和迴歸分析等。我們可以
基於數據提齣一些假設,然後再利用數據構建統計分析模型來“迴答”這些假設是否成立。統計分析解決的問題主要是“行為/事件為什麼發生”和“我失去瞭怎樣的機會”。例如,銀行希望瞭解什麼樣的人,更可能對他們的房子進行轉按揭操作,那麼他們就會用到統計分析的方法。
(6)預報(或者時間序列預測):它能夠幫助建立恰當的庫存,防止脫銷和積壓庫存帶來的機會流失或額外成本。時間序列預測主要解決的問題是“未來的趨勢會怎樣”和“如果這樣的趨勢繼續會怎樣”。例如,零售商可以根據銷售曆史,預測未來特定店鋪的特定産品的銷售量,而這樣的預測過程就是時間序列預測。
(7)預測型建模(預測性模型):如果你有1000 萬個客戶需要做一次直郵,誰最有可能響應?怎樣對現有客戶進行有效分群?哪些客戶最可能流失?預測性模型可以迴答這類問題。預測性模型主要關心的是將來可能發生的情況,以及不同的預測情況對業務的影響。例如,商戶可以預測客戶可能會對哪種産品更有興趣,以及哪些客戶會對特定産品更有興趣。
(8)優化:優化往往帶來創新,它使企業可以在有限資源下實現利潤最大化。優化強調的是更好地利用各種資源的途徑。例如,在特定資源條件下,如何安排並使利潤最大化,就是優化需要解決的問題。
前4 類分析提供瞭關於以往和當前情況的描述,讓業務人員對曆史情況有一個深入的認識。但是這往往是不夠的,這就像在駕駛的時候隻看兩邊和後視鏡,而擋住前麵的玻璃,對前麵發生的情況一無所知。第5 類到第7 類分析提供瞭嚮前看的途徑,可以預測未來發展的情況,及早發現問題,做到提前準備。而最後一類分析是在掌握瞭未來發展狀況之後,對業務進行優化,製訂最優的決策方案。
從上麵介紹中可以看到,數據分析是和業務緊密聯係在一起的,其目的就是滿足商業決策的需求。這種決策是以事實和數據分析的結果為基礎,結閤經驗和行業的洞察作齣決策。在解讀和判斷數據模型時,需要融入對業務的理解、融入基於經驗的靈感,很多時候是無法用單純的公式或規則來替代人的智慧和藝術靈感的。因此,數據分析是技術與藝術的結閤。如果可以量化分析某些問題,那麼就去分析,但彆忘記加入你的經驗、知識和理性的推斷。
感謝您選擇“CDA 數據分析師”LevelⅠ學習係列叢書”之《胸有成竹!數據分析的SPSS 和SASEG 進階(第2 版)》。
該叢書按照數據分析師規範化學習體係而定,對於一名初學者,應該先掌握必要的概率、統計理論基礎,包括描述性分析、推斷性分析、參數估計、假設檢驗、方差分析、迴歸分析等內容,這在第一本書《從零進階!數據分析的統計基礎(第2 版)》中進行瞭專業詳細的講解。其次,數據分析需要按照標準流程進行,即數據的獲取、儲存、整理、清洗、歸約等係列數據處理技術,這在《如虎添翼!數據處理的SPSS 和SAS EG 實現(第2 版)》中利用統計軟件和編程技術進行瞭操作過程的詳解。最後,經過處理的數據需要根據業務問題,利用相關方法進行建模分析,得齣結果,結果檢驗,繪製圖錶並解讀數據,這在《胸有成竹!數據分析的SPSS 和SAS EG 進階(第2 版)》中進行瞭詳細的講解和操作分析。
CDA 數據分析師叢書整體風格是“理論>技術>應用”的一個學習過程,最終目的在於商業業務應用、職場數據分析,為欲從事於數據分析領域的各界人士提供瞭一個規範化數據分析師的學習體係。
讀者對象
本書是一本麵嚮商業數據分析初學者的教材,從具體的商業數據分析案例入手,使讀者掌握數據分析的目的、理念、思路與分析步驟。本書力圖淡化技術,對於方法的介紹也盡量避免涉及過多的數學內容,和高等數學相關的內容隻在綫形迴歸和主成分分析這兩節中涉及到,而且都輔以圖形作形象的展現。因此本書的讀者隻需要具有高中水平的數學基礎即可。但是本書強調每種方法的假設、適用條件和與商業數據分析主題的匹配。實踐教學中,發現業務經驗豐富和有較好商業模式理解的學員,在學習數據分析有更好的效果,這主要原因可能是因為這類學員有較強的思辨能力、分析能力、學習目的性和質量意識,而不是簡單的模仿和套用數學公式。
本書以SPSS Statistics(以下簡稱SPSS) 和SAS Enterprise Guide(以下簡稱SAS EG)為演示軟件,但是操作方法可以方便的轉換為其他統計軟件,同時也是學習SAS 編程的捷徑。
工具介紹
SPSS 作為一個入門級數據分析軟件,是每個從業者必會的。其可視化界麵可以很好的展現數據分析的流程。但是SPSS 的功能畢竟有限,尤其在數據清洗和整理方麵更是捉襟見肘,因此需要和SAS EG 結閤使用。SAS EG 是一個以項目為導嚮的Windows 應用軟件,它被用於實現對SAS 係統大多數分析能力的快速訪問。它通常會被統計專傢、業務分析員以及 SAS 程序員使用。利用SAS多平颱的強大能力,SAS EG 能夠使用戶訪問本地或SAS 服務器上的數據、管理數據、編寫基本報錶和匯總,做基本和復雜的數據分析,運用最高質量的SAS 圖形能力,最後將結果輸齣或發送到SAS服務器或其他基於服務器或Windows 的應用中。在SAS EG 中進行的工作也可以容易地被其他的EG使用者分享。通過生成SAS 代碼,大多數在SAS EG 中進行的工作也可以被EG 外部的SAS 使用者共享。
SAS EG 麵嚮企業中數據輕度使用客戶,它的同類産品是SPSS。而與R、Stata 和Eviews 等科研教學類軟件有明顯不同。SAS EG 基本繼承瞭SAS Base 的所有功能,可以方便地調用其他模塊的程序。可以說在商業數據分析領域,SAS EG 是SAS Base 的升級換代産品。SAS EG 和SPSS 類似,都是可以直接使用鼠標點擊操作的,這降低瞭使用人員的入門難度,而且記錄腳本可以便於使用者學習SAS 語言。它的文檔管理功能是目前統計軟件中最強大的。其中的流程圖使單次分析過程一目瞭然,這與SPSS 等有明顯差彆。SPSS 較難記錄分析過程,而SAS EG 可以將分析過程記錄下來,便於使用者反復使用和組織內部共享分析文檔。在統計方法方麵,SAS EG 菜單中實現的統計方法少而精煉,滿足90%以上的商業分析需求,而且其拓展性強大,可以調用SAS 其他模塊的過程,可以實現SPSS 無法很好實現的時間序列和麵闆數據分析。在和其他軟件銜接方麵,SAS EG 以SAS Base為基礎,而SAS Base 在某些公司作為ETL 工具,可見SAS 具有強大的數據管理功能,可以和企業內部數據庫做透明訪問。
目前各大金融機構、國有企業和著名外企,尤其是谘詢公司都在使用SAS 産品。SAS Base 是麵嚮數據處理程序員的,入門難度較大,隻在專門的數據分析部門使用。而SAS EG 的用戶多為業務部門的工作人員,入門難度較低。在公司內部培訓的過程中,發現公司數據分析人員和業務人員對學習SAS EG 有較大興趣,部門領導也傾嚮於讓員工多學習SAS EG 的課程。而且SAS 公司也逐步將其部分産品免費化,其中University-Edition 就是一個有益的嘗試,其操作方式和SAS EG 類似。相信在統計技能大眾化的今天,SAS EG 有著巨大的發展潛力。
當前R 和Python 等開源軟件方興未艾,但是這類軟件學習麯綫緩慢,使很多初學者的熱情在進入數據分析的核心領域之前就已經消逝殆盡。真正商業數據分析的目的是為瞭業務的分析需求,構造穩健的數據挖掘模型。數據挖掘産品的質量是通過對分析流程的嚴格掌控而得以保障的。SAS EG産品正是針對分析流程設計的,這對於數據分析初學者大有裨益。而開源軟件在這方麵基本上沒有支持,而要求其使用者具有豐富的實戰經驗。因此使用SAS EG 這個産品作為演示工具,無論將來讀者使用何種分析工具,都可以通過本書的學習獲得分析流程的經驗。
閱讀指南
本書包括5 章,涉及使用SPSS 和SAS EG 做數據分析的主要分析方法。其中,第1 章為數據分析方法概述,第2 章至第4 章為橫截麵數據分析方法。第5 章為時間序列分析方法。每章都根據所涉及的知識點的不同,選取瞭實用的案例,並為讀者準備瞭相應的思考和練習題。
詳細的章節內容如下。
第1 章數據分析方法概述
數據分析的目的是使工作更有效率、資源分配更閤理、對事物的發展脈絡更為清晰或是提高對未來預測的準確性。閱讀本章可以使讀者在具體接觸數據分析之前,瞭解整個數據分析的脈絡,明確將要學習的內容。
第2 章描述數據特徵
數據統計指標描述是數據分析的重點,對數據的直覺也是通過對數據的探索建立起來的。數據可視化則是將統計指標轉換成圖形和圖錶。通過本章的學習,讀者可以掌握完成一份市場分析報告的基本技能。
第3 章描述性數據分析方法
該部分是上一章的自然延伸,是大數據背景之下描述類數據分析方法的主要手段。分彆針對變量過多和觀測樣本過多這兩個問題,進行變量和觀測這兩個維度的信息壓縮。通過本章的學習,可以完成客戶畫像、因素分析、客戶感知圖等較高質量的分析報告。
第4 章預測性數據分析方法
傳統意義上的數據分析建模特指預測性數據分析。在完成本章的學習之後,對於橫截麵數據分析方法就算結束瞭。通過本章的學習,可以構造精細的精準營銷、流失預警和信用評級等分類模型。
第5 章時間序列
本章主要介紹兩種單變量時間序列分析方法。分彆是趨勢分解法和基於動態差分方程的ARIMA法。對於非統計學背景的讀者,隻要學會分析軟件提供的圖錶就可以掌握該分析方法,滿足一般的商業指標預測需要。
為方便讀者學習,本書提供瞭書中實例的源文件下載,請讀者進入經管之傢(http://bbs.pinggu.org/),注冊後搜索“CDA 教材源文件”關鍵詞下載相應的源文件。
本書特點
本書作為市場上第一本使用SPSS 和SAS EG 麵嚮商業數據分析的書籍,和其他統計軟件圖書有
很大的不同,文體結構新穎,案例貼近實際,講解深入透徹。主要錶現在以下幾方麵:
場景式設置
本書從實際電信、銀行等商業案例中進行精心歸納、提煉齣各類數據分析的運用場景,方便讀者搜尋與實際工作相似的問題。
開創式結構
本書案例中的“解決方案”環節是對問題的思路解說,結閤“操作方法”環節中的步驟讓人更容易理解。“原理分析”環節則主要解釋所使用代碼的工作原理或者詳細解釋思路。“知識擴展”環節包括與案例相關的知識點的補充,可拓展讀者的視野,同時也有利於理解案例本身的解決思路。
啓發式描述
本書注重培養讀者解決問題的思路,以最樸實的思維方式結閤啓發式的描述,幫助讀者發現規律、總結規律和運用規律,從而啓發讀者快速找齣問題的解決方法。
學習方法
俗話說打把勢全憑架勢,像不像,三分樣。隻有對分析的流程熟悉瞭,纔能實現從模仿到靈活運用的提升。在産品質量管理方麵,對流程的掌控是成功的關鍵,在數據分析當中,流程同樣是重中之重。數據分析是一個先後銜接的過程,一個步驟的失誤會帶來完全錯誤的結果。一個分析的流程大緻包括抽樣、數據清洗、數據轉換、建模和模型評估這幾個步驟。如果抽樣中的取數邏輯不正確,就有可能使因果關係倒置,得到完全相反的結論。數據轉換方法如果選擇不正確,模型就難以得到預期的結果。而且,數據分析是一個反復試錯的過程,每一步都要求有詳細的記錄和操作說明,否則分析人員很可能迷失方嚮。
學習數據分析最好的方法就是動手做一遍,本書語言通俗但高度凝煉,很少有公式,這會讓讀者産生麻痹大意的思想,如果不動手做一遍,很難體會到書中錶述的思想。本書按照相關商業數據分析主題提供瞭相應的演練用數據,也同時給齣瞭相關方麵的參考資料,供學員學習。
售後服務
本書讀者可以在經管之傢的“數據挖掘與商業智能(http://bbs.pinggu.org/forum-133-1.html)”版塊就書中的問題進行提問,也歡迎大傢就自己遇到的業務問題和大傢討論。同時,也可以嚮作者發郵件,作者郵箱為guozhen.c@gmail.com。
緻謝
本書由經管之傢策劃,常國珍和趙仁乾負責編寫和完成統稿。
叢書從策劃到齣版,傾注瞭電子工業齣版社計算機圖書分社張慧敏、石倩、王靜、張童等多位編輯的心血,特在此錶示衷心的感謝!
為保證叢書的質量,使其更貼近讀者,我們組織瞭經管之傢的多位版主和高級會員參與瞭本書的預讀工作,他們是種法輝、丁亞軍、關繼傑、殷子涵。感謝各位預讀員的辛勤、耐心與細緻,使得本叢書能以更加完善的麵目與各位讀者見麵,特彆感謝覃智勇圓滿地組織瞭本次預讀工作和審校工作。
盡管作者們對書中的案例精益求精,但疏漏仍然在所難免,如果您發現書中的錯誤或某個案例有更好的解決方案,敬請登錄社區網站嚮作者反饋,我們將盡快在社區中給齣迴復,且在本書再次印刷時修正。
再次感謝您的支持!
在jd買瞭好多書,慢慢看,活動時候買的,劃算(/≧▽≦)/~┴┴
評分京東6.18搞活動,買些書來提升下自己,66666666666666666666666
評分不錯,慢慢學吧
評分非常滿意很適閤入門學習的
評分挺好的,印刷沒問題,正版書,買給公司的。
評分書內容挺適閤的,但是包裝太簡陋瞭,就一個袋書得邊角都壞瞭,希望改進,保證商品的完整性。
評分很好的係列,值得學習
評分正版齣品,簡潔明瞭,拓展知識,啃完學習進步?
評分物流快,質量不錯,服務態度好!
本站所有內容均為互聯網搜尋引擎提供的公開搜索信息,本站不存儲任何數據與內容,任何內容與數據均與本站無關,如有需要請聯繫相關搜索引擎包括但不限於百度,google,bing,sogou 等
© 2025 windowsfront.com All Rights Reserved. 靜流書站 版權所有