發表於2024-12-25
數據湖架構 pdf epub mobi txt 電子書 下載
書名:數據湖架構
:49.00元
售價:34.3元,便宜14.7元,摺扣70
作者: Bill Inmon 恩門
齣版社:人民郵電齣版社
齣版日期:2017-04-01
ISBN:9787115451736
字數:123
頁碼:145
版次:1
裝幀:平裝
開本:小16開
商品重量:0.4kg
眾多公司花費瞭大量的時間和金錢獲取數據,並將大量的數據保存在一個叫做數據湖的數據容器中。但是,其中又能有多少公司把數據從數據湖中取迴並加以利用呢?事實上,很少有公司能把數據湖當成信息的金礦來使用。多數公司**終得到的僅僅是一個垃圾場。本書將會告訴你如何去構建一個有用的數據湖,從而讓數據科學傢與數據分析師能夠麵對業務挑戰並發現新的商機。通過閱讀本書,你將能夠學習如何:?構建數據湖並模擬數據;?應用數據及基於文本的數據池,從而將業務價值**da化;?理解原始數據池的角色定位;?掌握使用歸檔數據池的時機;?利用4大核心組件:元數據、業務的整閤對應,語境及元過程信息。本書的作者曾經讓我們放眼於數據倉庫的架構與成效,如今他又將我們帶入到數據湖架構的新高度。
隨著大數據的蓬勃發展,不少機構開始將源源不斷的數據流導入到一個叫“數據湖”的設備中去。數據湖架構 是“數據倉庫”之父撰寫的全新著作,是幫助讀者認識數據湖架構,並把數據湖打造成公司資産的指導手冊。數據湖架構 共15章,分彆涉及數據湖簡介、數據池據湖內部結構、數據池及其結構、各種類型的數據池等技術話題,目的在於講解如何構建有用的數據湖,以便數據科學傢和數據分析師能夠解決商業挑戰並找齣新的商業機會。數據湖架構 適閤數據管理者、學生、係統開發人員、架構師、程序員以及**終用戶閱讀。
第1章 數據的湖泊 1
1.1 大數據來瞭 1
1.2 數據湖來瞭 2
1.3 “單嚮”的數據湖 3
1.4 小結 6
第2章 改造數據湖 7
2.1 元數據 7
2.2 整閤圖譜 8
2.3 數據科學傢 11
2.4 通用性 12
2.5 小結 13
第3章 數據湖內部 14
3.1 模擬信號數據 15
3.2 應用程序數據 17
3.3 文本數據 18
3.4 另一個視角 20
3.5 小結 21
第4章 數據池 22
4.1 數據修整 23
4.2 初始數據池 23
4.3 模擬信號數據池 24
4.4 應用程序數據池 25
4.5 文本數據池 25
4.6 將數據直接傳入數據池 26
4.7 歸檔數據池 26
4.8 小結 27
第5章 數據池的通用結構 28
5.1 數據池描述 29
5.2 數據池目標 30
5.3 數據池數據 30
5.4 數據池元數據 31
5.5 數據池元過程 32
5.6 數據轉換標準 33
5.7 小結 34
第6章 模擬信號數據池 35
6.1 模擬信號數據問題 35
6.2 數據描述 36
6.3 捕獲初始數據、轉換初始數據 37
6.4 轉換/調整 初始模擬信號數據 38
6.5 數據切除 40
6.6 聚類數據 41
6.7 數據關係 42
6.8 未來使用的可能性 44
6.9 異常值 45
6.10 臨時性的特定分析 47
6.11 小結 47
第7章 應用程序數據池 49
7.1 數據的基因 49
7.2 數據描述 50
7.3 標準數據庫格式 51
7.4 數據的基本組織 52
7.5 數據的整閤 52
7.6 數據模型 53
7.6 整閤的必要性 54
7.7 從一個應用指嚮到下一個應用 56
7.8 交並應用 57
7.9 應用程序數據池內的數據子集 58
7.10 小結 58
第8章 文本數據池 60
8.1 文本消歧 62
8.2 傳入數據池的文本 62
8.3 文本消歧的輸齣 63
8.4 固有的復雜性 64
8.5 文本消歧的功能 66
8.6 分類與本體 66
8.7 文本與語境的價值 68
8.8 對文本追根溯源 69
8.9 消歧的機製 69
8.10 分析數據庫 70
8.11 將結果可視化 71
8.12 小結 73
第9章 數據池間的對比 74
9.1 數據池的相似性 74
9.2 數據池間的差異性 75
9.3 數據終狀態的關係型格式 75
9.4 技術間差異 76
9.5 數據池中數據的總預期容量 76
9.6 數據池間的數據移動 77
9.7 在多個數據池進行分析 78
9.8 使用元數據來關聯不同數據池內的數據 78
9.9 假如……? 79
9.10 小結 80
第10章 利用基礎架構 82
10.1 “單嚮”數據湖 83
10.2 改造數據湖 83
10.3 轉換技術 84
10.4 一些分析問題 84
10.5 查詢文本數據 87
10.6 真實的分析 88
10.7 小結 89
第11章 搜索與分析 90
11.1 供應商所散布的睏惑 95
11.2 小結 96
第12章 數據池中的業務價值 97
12.1 模擬信號數據池中的業務價值 97
12.2 應用程序數據池中的業務價值 99
12.3 文本數據池中的業務價值 100
12.4 記錄中的業務價值比例 101
12.5 小結 102
第13章 一些額外話題 104
13.1 高層係統級彆文檔 104
13.2 詳細的數據池級彆文檔 105
13.3 什麼樣的數據會流入數據湖/數據池 105
13.4 分析在何處發生 107
13.5 數據的年齡 110
13.6 數據的安全 110
13.7 小結 111
第14章 分析與整閤工具 112
14.1 可視化 112
14.2 搜索與修正 113
14.3 文本消歧 114
14.4 統計分析 114
14.5 **的ETL處理 115
14.6 小結 116
第15章 歸檔數據池 117
15.1 數據的移除標準 118
15.2 結構性改動 118
15.3 小結 119
術語錶 120
參考資料 124
Bill Inmon是“數據倉庫之父”,他著有57本書,並以9種語言在**齣版。Bill近期的創舉是建立瞭叫做“文本消歧”的技術,這項技術能以敘述性格式讀取初始文本,並能夠將文本置於常規的數據庫中,以便使用標準的分析技術進行分析處理,從而為大數據/非結構化數據創造獨特的業務價值。Bill曾被《計算機世界雜誌(ComputerWorld)》評選為“曆史上對計算機行業影響**da的十個人之一”。Bill住在美國科羅拉多州的堡石城(Castle Rock)。關於文本消歧的更多資料,請訪問 .forestrimtech.。
數據湖架構 pdf epub mobi txt 電子書 下載