發表於2024-12-30
正版包郵 大數據之路 大數據實踐 /阿裏巴巴數據技術數據分析 大數據管理應用 pdf epub mobi txt 電子書 下載
阿裏巴巴,作為距離大數據近的公司之一,近幾年對大數據卻鮮有高談闊論。實際上,阿裏巴巴一開始就自然生長在數據的黑洞中,並且被越來越多、越來越密集的數據風暴裹挾。從需求→設計→迭代→升華為理論,在無數次的迭代進化中,阿裏巴巴對大數據的理解纔逐漸成形,慢慢能夠在將數據黑洞為我所用的抗爭中扳迴一局。《大數據之路:阿裏巴巴大數據實踐》就是在這個過程中,由阿裏巴巴數據技術及産品部沉澱下來的大數據知識與實踐,值得每一位與大數據相關的人閱讀。
在阿裏巴巴集團內,數據人員麵臨的現實情況是:集團數據存儲已經達到EB級彆,部分單張錶每天的數據記錄數高達幾韆億條;在2016年“雙11購物狂歡節”的24小時中,支付金額達到瞭1207億元,支付峰值高達12萬筆/秒,下單峰值達17.5萬筆/秒,媒體直播大屏處理的總數據量高達百億級彆且所有數據都需要做到實時、準確地對外披露……巨大的信息量給數據采集、存儲和計算都帶來瞭極大的挑戰。
《大數據之路:阿裏巴巴大數據實踐》就是在此背景下完成的。《大數據之路:阿裏巴巴大數據實踐》中講到的阿裏巴巴大數據係統架構,就是為瞭滿足不斷變化的業務需求,同時實現係統的高度擴展性、靈活性以及數據展現的高性能而設計的。
《大數據之路:阿裏巴巴大數據實踐》由阿裏巴巴數據技術及産品部組織並完成寫作,是阿裏巴巴分享對大數據的認知,與生態夥伴共創數據智能的重要基石。相信《大數據之路:阿裏巴巴大數據實踐》中的實踐和思考對同行會有很大的啓發和藉鑒意義。
阿裏巴巴數據技術及産品部,定位於阿裏集團數據中颱,為阿裏生態內外的業務、用戶、中小企業提供全鏈路、全渠道的數據服務。作為阿裏大數據戰略的核心踐行者,緻力於“讓大數據賦能商業,創造價值”。經過多年的實踐,數據技術及産品部已經構建瞭從底層的數據采集、數據處理,到挖掘算法、數據應用服務以及數據産品的全鏈路、標準化的大數據體係。通過這個體係,超過EB級彆的海量數據能夠高效融閤,並以秒級的響應速度,服務並驅動阿裏巴巴自身的業務和外部韆萬用戶的發展。現在,阿裏巴巴數據技術及産品部正通過技術和産品上的創新,探索全域數據的價值,將阿裏在大數據上沉澱的能力對外分享,為各行各業的發展帶來更多可能性。
第1篇 數據技術篇
第1章 總述1
第2章 日誌采集 8
2.1 瀏覽器的頁麵日誌采集 8
2.1.1 頁麵瀏覽日誌采集流程 9
2.1.2 頁麵交互日誌采集 14
2.1.3 頁麵日誌的服務器端清洗和預處理 15
2.2 無綫客戶端的日誌采集 16
2.2.1 頁麵事件 17
2.2.2 控件點擊及其他事件 18
2.2.3 特殊場景 19
2.2.4 H5 & Native日誌統一 20
2.2.5 設備標識 22
2.2.6 日誌傳輸 23
2.3 日誌采集的挑戰 24
2.3.1 典型場景 24
2.3.2 大促保障 26
第3章 數據同步 29
3.1 數據同步基礎 29
3.1.1 直連同步 30
3.1.2 數據文件同步 30
3.1.3 數據庫日誌解析同步 31
3.2 阿裏數據倉庫的同步方式 35
3.2.1 批量數據同步 35
3.2.2 實時數據同步 37
3.3 數據同步遇到的問題與解決方案 39
3.3.1 分庫分錶的處理 39
3.3.2 高效同步和批量同步 41
3.3.3 增量與全量同步的閤並 42
3.3.4 同步性能的處理 43
3.3.5 數據漂移的處理 45
第4章 離綫數據開發 48
4.1 數據開發平颱 48
4.1.1 統一計算平颱 49
4.1.2 統一開發平颱 53
4.2 任務調度係統 58
4.2.1 背景 58
4.2.2 介紹 60
4.2.3 特點及應用 65
第5章 實時技術 68
5.1 簡介 69
5.2 流式技術架構 71
5.2.1 數據采集 72
5.2.2 數據處理 74
5.2.3 數據存儲 78
5.2.4 數據服務 80
5.3 流式數據模型 80
5.3.1 數據分層 80
5.3.2 多流關聯 83
5.3.3 維錶使用 84
5.4 大促挑戰&保障 86
5.4.1 大促特徵 86
5.4.2 大促保障 88
第6章 數據服務 9
正版包郵 大數據之路 大數據實踐 /阿裏巴巴數據技術數據分析 大數據管理應用 下載 mobi epub pdf txt 電子書
正版包郵 大數據之路 大數據實踐 /阿裏巴巴數據技術數據分析 大數據管理應用 pdf epub mobi txt 電子書 下載