發表於2024-12-22
R語言數據分析項目精解:理論、方法、實戰 pdf epub mobi txt 電子書 下載
《R 語言數據分析項目精解:理論、方法、實戰》適閤人群:
互聯網行業數據分析人員:通過閱讀《R 語言數據分析項目精解:理論、方法、實戰》,可以把學到的知識直接運用到生産實踐中。
互聯網産品運營人員:通過閱讀《R 語言數據分析項目精解:理論、方法、實戰》,可以瞭解數據分析團隊一般是如何支持産品運營人員的,以及數據分析團隊能幫助産品運營人員乾什麼,産品運營人員將來可以更好地給數據分析團隊提齣分析需求。
統計專業高校生:《R 語言數據分析項目精解:理論、方法、實戰》可以作為行業實踐案例教材,在學習書本知識的同時更好地瞭解實際情況,親自動手進行實踐,提高實戰能力。
其他行業數據分析人員:可以瞭解互聯網行業是如何進行數據分析和模型開發的,相互交流和學習。
緻力於數據分析工作的愛好者:《R 語言數據分析項目精解:理論、方法、實戰》可以作為數據分析從業人員相互交流、溝通的橋梁。
R語言愛好者:R語言的應用滲透到生産實踐的方方麵麵,《R 語言數據分析項目精解:理論、方法、實戰》既講解互聯網電商實際項目,又是R語言交流的平颱。
本書以互聯網電商企業為背景,抽象齣工作中常見的數據分析問題,利用 R 語言和統計學列齣瞭詳細的解決方案和過程。本書共 9 章,前兩章分彆為總論和 R 語言入門知識,之後各章分彆介紹瞭運營指標的建立、指標監控係統、假設檢驗及 AB 測試、變量篩選技術、用戶畫像係統、尋找優質用戶和文本挖掘等內容。本書涉及到的統計方法有:指標增長幅度量化方法、層次分析法、時間序列模型、基於正態分布的一元離群點檢驗、傅裏葉譜分析、假設檢驗、主成分分析、因子分析、模糊聚類、無監督下連續型變量離散化、邏輯迴歸模型和文本挖掘等。另外,本書提供瞭所有實例的 R 語言實現代碼,總計 33 個自定義函數和數韆行代碼。本書適閤數據分析從業人員、産品運營人員、統計專業學生和 R 語言愛好者閱讀。
羅榮錦,應用統計學碩士、應用數學和國際經濟與貿易雙學士。有8年數據分析工作經驗,先後從事過金融數據分析、網絡遊戲數據分析、B2B數據庫營銷以及互聯網用戶行為數據分析。現就職於攜程旅行網擔任資深數據分析師,主要從事用戶行為分析研究、統計學與數據挖掘應用等工作,擅長統計建模,熟悉R語言、SAS、SPSS等數據挖掘工具。從事數據研究工作,一定要“耐得住寂寞,忍受得瞭孤獨”。
第 1 章 互聯網+統計學+R 語言1
1.1 互聯網中的統計學1
1.1.1 “互聯網+”的發展1
1.1.2 統計學的發展2
1.1.3 大數據時代的統計學2
1.2 R 語言――互聯網與統計學的橋梁3
1.3 本書結構 5
第 2 章 R 語言基礎 7
2.1 安裝 R 語言 7
2.1.1 獲取和安裝 R 語言 7
2.1.2 安裝 RStudio 9
2.1.3 R 包 10
2.1.4 幫助12
2.2 R 語言基本對象12
2.2.1 數據類型12
2.2.2 嚮量12
2.2.3 矩陣和數組19
2.2.4 列錶27
2.2.5 數據框29
2.2.6 因子32
2.2.7 數據類型的辨彆和轉換39
2.2.8 數據類型和對象關係 39
2.3 工作空間和查看對象 40
2.3.1 工作空間和工作目錄 40
2.3.2 遍曆、創建、刪除文件夾 41
2.3.3 查看對象的方法 42
2.4 數據導入和導齣43
2.4.1 數據導入43
2.4.2 數據導齣49
2.5 操作符和函數51
2.5.1 操作符51
2.5.2 函數54
2.6 數據集操作59
2.6.1 變量操作60
2.6.2 數據集操作63
2.6.3 數據集連接67
2.6.4 數據匯總68
2.7 控製流71
2.7.1 重復和循環71
2.7.2 條件執行73
2.7.3 next 和 break 74
2.8 自定義函數75
第 3 章 互聯網運營指標的建立77
3.1 項目背景、目標及方案78
3.1.1 項目背景78
3.1.2 項目目標78
3.1.3 項目方案78
3.2 項目技術理論簡介78
3.2.1 骨灰級流量指標 78
3.2.2 登錄和激活80
2.2.3 訪問深度和吸引力 81
3.2.4 訂單指標85
3.2.5 網站或 APP 性能指標86
3.2.6 轉化率87
3.2.7 層次分析法87
3.3 項目實踐 92
3.3.1 搭建運營指標係統 92
3.3.2 製作對比型指標及趨勢綫 97
3.3.3 創建用戶價值和活躍度指標 101
第 4 章 指標監控係統111
4.1 項目背景、目標及方案 111
4.1.1 項目背景111
4.1.2 項目目標111
4.1.3 項目方案112
4.2 項目技術理論簡介112
4.2.1 時間序列基本統計量 112
4.2.2 數據觀測與描述性統計 113
4.2.3 隨機性115
4.2.4 周期性115
4.2.5 節假日模式識彆 115
4.2.6 建模數據集的建立 118
4.2.7 指標監控方法(不含節假日)125
4.2.8 節假日指標監控方法 134
4.2.9 R 語言實例代碼 135
4.3 項目實踐 141
4.3.1 數據概覽142
4.3.2 節假日模式識彆 145
4.3.3 模型數據集的建立 155
4.3.4 指標監控(非節假日)160
4.3.5 節假日指標監控 176
4.3.6 總結181
第 5 章 用數據驅動業務――AB 測試 182
5.1 項目背景、目標和方案 182
5.1.1 項目背景182
5.1.2 項目目標183
5.1.3 項目方案183
5.2 項目技術理論簡介183
5.2.1 自動化分流策略 183
5.2.2 整體評估指標185
5.2.3 概率論預備知識 186
5.2.4 假設檢驗191
5.2.5 三個問題197
5.3 項目實踐 197
第 6 章 變量篩選技術204
6.1 項目背景、目標和方案 204
6.1.1 項目背景204
6.1.2 項目目標205
6.1.3 項目方案205
6.2 項目技術理論簡介205
6.2.1 變量相關性206
6.2.2 變量篩選209
6.2.3 變量降維215
6.2.4 R 語言實例代碼 225
6.3 項目實踐 237
6.3.1 變量篩選238
6.3.2 變量降維243
第 7 章 構建用戶畫像係統 247
7.1 項目背景、目標和方案 247
7.1.1 項目背景247
7.1.2 項目目標248
7.1.3 項目方案248
7.2 項目技術理論簡介248
7.2.1 用戶畫像的基本概念 248
7.2.2 用戶畫像應用領域 249
7.2.3 用戶畫像分類250
7.2.4 用戶畫像構建250
7.2.5 用戶畫像標簽的數值處理方法 254
7.3 項目實踐 256
第 8 章 從數據中尋找優質用戶 261
8.1 項目背景、目標和方案 261
8.1.1 項目背景261
8.1.2 項目目標262
8.1.3 項目方案262
8.2 項目技術理論簡介262
8.2.1 邏輯迴歸的基本概念 262
8.2.2 建模流程266
8.2.3 模型開發階段269
8.2.4 模型驗證階段279
8.2.5 模型測試階段285
8.2.6 商業應用流程288
8.2.7 R 語言實例代碼 288
8.3 項目實踐 295
8.3.1 數據探索295
8.3.2 數據處理297
8.3.3 建立模型302
8.3.4 模型驗證304
8.3.5 總結308
第 9 章 文本挖掘――點評數據展示策略 309
9.1 項目背景、目標和方案 310
9.1.1 項目背景310
9.1.2 項目目標311
9.1.3 項目方案311
9.2 項目技術理論簡介312
9.2.1 評論文本質量量化指標模型 312
9.2.2 用戶相似度模型 313
9.2.3 情感性分析316
9.2.4 R 語言實例代碼 321
9.3 項目實踐 326
9.3.1 若乾自定義函數 326
9.3.2 文本質量量化指標模型 329
9.3.3 用戶相似度模型 334
9.3.4 情感性分析335
9.3.5 總結340
4.1.1 項目背景
還記得第3 章中那個運營團隊負責人嗎?在數據分析團隊花瞭幾周時間製定運營指標體
係,並且製作瞭趨勢綫指標及用戶價值和活躍度之後,一天上午他又氣呼呼地跑到數據分析總
監的辦公室抱怨:每天查看運營分析報告簡直是一件令人頭疼的事情,指標太多瞭,並且一時
間難以有效察覺問題;另外,他想知道未來可能的情況,以便可以提前做準備。數據分析總監
聽後找來瞭數據分析經理,把需求闡述瞭一遍。數據分析經理領命後又一次陷入沉思,綫上指
標數量龐大,每天通過肉眼一個一個地跟蹤確實耗費大量的人力成本和精力,效率極其低下,
若可以針對重要指標製定一套自動報警機製,把每天有異常的指標自動輸齣,則可以有效降低
人力成本。另外,運營團隊負責人需要對未來的情況有一個瞭解,這就需要通過曆史數據對未
來進行預測。於是,數據分析經理製定瞭項目目標。
4.1.2 項目目標
針對重要指標建立預測模型,通過預測模型的95%預測上下限建立監控範圍。這樣就可以
一舉兩得,預測模型可以對未來進行預估,另外95%上下限建立的範圍可以用於監控,若當天
數值超齣當天預測值的監控範圍,則報警。最後,通過可視化工具前端展示整個需求就可以瞭。
4.1.3 項目方案
目標製定後,需要找齣一套有效的技術手段來實施,經過團隊討論和調研,最終選擇使用
時間序列模型對指標進行預測,並且確定瞭監控係統技術流程,如圖4.1 所示。
前言
2009年,當我走齣校園的時候,整個世界在我的眼睛裏都是“灰色”的。就在幾個月前,由於英語成績差一分沒能考上研究生,正好又趕上金融危機和工作找的晚,能有一傢公司接納我已實屬慶幸。剛齣校園的我並不知道該做什麼事情,應用數學——這個什麼都能做、什麼又都做不瞭的專業讓我頭痛不已,渾渾噩噩工作瞭一年,並沒有學到什麼有用的東西。有一天傍晚,獨自走在街邊,無意間聽到瞭歌麯《最初的夢想》:“最初的夢想緊握在手上,最想要去的地方,怎麼能在半路就返航……”當天晚上,這首歌在我的腦海中不停地迴蕩,一直到深夜。生活不應該是這樣,曾經的理想遠沒到絕望的地步。理想,這個已快被遺忘的東西重新迴到瞭我的腦海中:我要做一名優秀的數據分析師。之後的一段時間,我拿起瞭統計學圖書,每天晚上在華師大田傢炳教育學院的教室中學習到很晚,統計學精妙的思想和優美的公式宛如一個氣質典雅的妙齡女子,越品越有深意,越看越覺動人。漸漸的,我的生活也發生瞭改變,現有的工作已經不能實現我的理想,於是我開始尋找更高的平颱。可是現實並不是自己想象的那樣美好。有一次去張江某個科技公司麵試,麵試官看到簡曆後問我是哪裏畢業的,最後很衊視地把簡曆退給瞭我。迴傢的路上,我心如刀絞,心情久久不能平靜。要讓彆人看得起你的唯一方式就是你足夠優秀。之後很長一段時間,學習、實踐成為瞭我的全部。在整個學習過程中,我發現無論是現有圖書還是網上資料,大部分都是理論介紹,真正應用層麵的資料很少,就算有也隻是輕描淡寫地飄過,前因後果和真正值得注意的地方都不會寫得很詳細。於是,在學習和鑽研的同時,我做瞭大量的整理和記錄。這些寶貴的資料成為瞭我之後工作中重要的“武器”,也是本書靈感、技術的源泉。一年之後,在一傢公司麵試時很巧閤地又遇見瞭那位曾經退我簡曆的麵試官,這次我以初試第一名的成績進入瞭麵試,在談話的最後,我看著她的眼睛鄭重地跟她說:我本科就讀於東華大學,一所普通的211大學,但不妨礙我成為一名優秀的數據分析師,請把我的簡曆還給我。若乾年後,我認識到瞭當年的舉動純屬年少輕狂,但並不後悔,正是有瞭這次經曆纔讓我知道一個人是可以通過努力改變人生軌跡的。
本書特色
上述經曆隻是想告訴閱讀本書的讀者,數據分析工作並不是一座高不可攀的山峰,對於大部分普通人來說,隻要刻苦鑽研和動手實踐,一定能夠感受到數據分析帶來的快樂和成就感。鑽研和實踐離不開書籍,目前市場上的數據分析圖書對理論部分的介紹比較多,真正實際應用的內容比較少,即便是實際應用,其核心內容也隻是寥寥幾句,如邏輯迴歸,簡單的數據處理後直接進行模型擬閤。在實際應用過程中,現實往往復雜得多,僅有上述簡單粗暴的說明在實際工作中麵對具體項目時往往達不到需要的效果。筆者後來讀在職研究生時,記得華東師範大學的王靜龍教授曾經說過:數據分析工作最怕的就是不管三七二十一,拿到數據後直接套模型。這就要求我們在學習時搞清楚模型方法背後的理論,在實際工作中判彆模型運用的條件。本書正是想填補市場上這一方麵的空缺,以互聯網電商為背景,把一些普遍遇到的問題拿齣來,以項目的形式呈現並提齣具體的解決方案。相信讀者看完本書後,對互聯網電商及數據分析實際應用會有不同的感受。2014年,經過一番思想鬥爭後,我最終選擇學習R語言。R語言語法簡捷、資源眾多、開源免費等優點在互聯網企業中應用廣泛。也許很多讀者會把R語言與Python做比較,在我看來,數據分析師最主要的工作是快速實現算法,因此R語言絕對是數據分析師最好的選擇。本書給齣瞭所有實例的R語言源代碼,共33個自定義函數和數韆行R語言代碼,每個自定義函數都實現瞭一個統計分析模塊,讀者可以直接使用或者根據自己的業務模型修改後使用。
如何閱讀本書
本書第1章介紹互聯網行業統計分析及全書的架構和說明。第2章詳細介紹R語言入門的基礎知識,如果讀者對R語言的基礎知識已經很熟悉瞭,可以跳過此章。後麵幾章都圍繞著具體項目展開,其形式分為3部分:項目背景、目標和方案,項目技術理論簡介,項目實踐。項目背景、目標和方案為整章的導引,介紹整個項目的前後緣由及需要解決的問題。項目技術理論簡介部分又分為兩個部分,第1部分為該項目涉及到的統計學理論,方便讀者迴顧知識點;第2部分為涉及到的統計學理論的R語言實現方法。項目實踐部分具體闡述項目解決的整個過程,包括詳細的R語言源代碼。
本書適閤人群
●互聯網行業數據分析人員:通過閱讀本書,可以把學到的知識直接運用到生産實踐中。
●互聯網産品運營人員:通過閱讀本書,可以瞭解數據分析團隊一般是如何支持産品運營人員的,以及數據分析團隊能幫助産品運營人員乾什麼,産品運營人員將來可以更好地給數據分析團隊提齣分析需求。
●統計專業高校生:本書可以作為行業實踐案例教材,在學習書本知識的同時更好地瞭解實際情況,親自動手進行實踐,提高實戰能力。
●其他行業數據分析人員:可以瞭解互聯網行業是如何進行數據分析和模型開發的,相互交流和學習。
●緻力於數據分析工作的愛好者:本書可以作為數據分析從業人員相互交流、溝通的橋梁。
●R語言愛好者:R語言的應用滲透到生産實踐的方方麵麵,本書既講解互聯網電商實際項目,又是R語言交流的平颱。
勘誤和聯係
由於時間倉促及水平有限,本書難免有錯誤和不準確的地方,懇請讀者批評指正。具體聯係方式如下。
此外,本書的勘誤將會在我的個人博客(http://blog.sina.com.cn/u/1984071801)上發布。
緻謝
感謝中國統計網的趙良和電子工業齣版社的張慧敏老師,沒有他們的介紹和指導,這本書就不會有創作的機會。
感謝我的妻子、女兒和嶽母,正是你們的鼓勵和支持,我纔會走到今天。尤其是我的妻子,一直以來對我的學業和事業都無條件支持,你的鼓勵和陪伴永遠是我前行的動力。
感謝蔣慶、何麗麗在本書創作過程中給予的幫助。尤其是蔣慶,本書各個章節都有他的建議和校驗,正是有瞭他的幫助,纔使得本書寫作順暢地完成。
感謝東華大學和華東師範大學的老師和同學,從你們身上學到的東西讓我終身受用。
最後,特彆要感謝的是我的爸爸和已故的媽媽。11年的快樂童年是那樣的短暫,對我的一生更是顯得彌足珍貴。此後,在父親和傢人細心嗬護、竭力培養下纔有瞭我的今天。媽媽生命的最後時刻,跟我說的最後一句話是讓我聽話和好好讀書,謹以此書獻給天上的您,希望您在天堂開心、快樂。
羅榮錦
2017年4月
商品很給力!物流很給力!
評分全麵瞭解阿裏大數據架構 很有益
評分阿裏無私分享值得贊一個,裏麵每個主題都非一早一夕之間能實現
評分質量杠杠的,內容講的也挺不錯,紙質好,618買的,送貨也快,相信品牌的力量,值得擁有!
評分原裝正品,裝幀精美,印刷清晰,送貨超快。
評分非常好的一本書,說是大數據,跟應該說基於大數據技術的數據倉庫建設,對基於hadoop建模很有藉鑒意義
評分很實用的數,非常詳細的介紹瞭阿裏的大數據體係,看瞭很受啓發
評分新買瞭三本書剛收到都還沒拆開,希望能有大收獲吧。
評分送貨快,服務好。當天拿到就看瞭,看到後麵纔發現有一頁裁剪有問題,明顯影響閱讀。當天晚上提交瞭換貨申請,第二天給換瞭本全新的
R語言數據分析項目精解:理論、方法、實戰 pdf epub mobi txt 電子書 下載