內容簡介
數據虛擬化可以使商務智能係統的數據架構更簡單、更便宜、更敏捷。本書討論關於數據虛擬化的“是什麼”“為什麼”和“怎麼辦”,這些內容不限於特定的製造商或産品,而是全景呈現其基本原理、影響範圍、優化技術、應用方法和管理策略。你將瞭解數據虛擬化技術與ETL等傳統方法的不同,同時更加明晰這項技術自身的優劣,進而在開發和管理不同項目時做到有的放矢、事半功倍。此外,作者還分享瞭豐富的實戰經驗,十分適閤從事數據管理、數據架構、數據分析等工作的專業技術人員參考。
作者簡介
Rick F. van der Lans,是商務智能、數據倉庫、數據庫技術、SQL領域的一位獨立谘詢師、作者以及講師。他是R20/Consultancy的管理經理。他還受雇於許多世界 級大公司並為其定製數據倉庫架構。他是歐洲商務智能和數據倉庫年會的主席,並為幾個雜誌撰寫專欄。他曾經擔任荷蘭ISO委員會負責ISO SQL標準的成員達7年之久。他是經典圖書《Introduction to SQL》的作者,該書是數據庫開發者20多年采所信賴的SQL指南,已經被翻譯成各種語言,銷量超過十萬冊。
目錄
序言
前言
作者簡介
第1章 數據虛擬化導論1
1.1 引言1
1.2 商務智能世界正在改變1
1.3 虛擬化簡介3
1.4 什麼是數據虛擬化3
1.5 數據虛擬化與相關概念4
1.5.1 數據虛擬化與封裝和信息隱藏4
1.5.2 數據虛擬化與抽象5
1.5.3 數據虛擬化與數據聯閤5
1.5.4 數據虛擬化與數據集成6
1.5.5 數據虛擬化與企業信息集成7
1.6 數據虛擬化的定義8
1.7 數據虛擬化的技術優勢8
1.8 數據虛擬化的不同實現11
1.9 數據虛擬化服務器概述12
1.10 開放式與封閉式數據虛擬化服務器12
1.11 數據集成的其他方式13
1.12 數據虛擬化服務模型15
1.13 數據虛擬化的曆史16
1.14 示例數據庫:世界一流電影18
1.15 本書結構20
第2章 商務智能和數據倉庫22
2.1 引言22
2.2 什麼是商務智能22
2.3 管理層次與決策製定23
2.4 商務智能係統23
2.5 商務智能係統的數據存儲24
2.5.1 數據倉庫25
2.5.2 數據集市 27
2.5.3 數據中轉區28
2.5.4 可操作數據存儲29
2.5.5 個人數據存儲30
2.5.6 不同類型數據存儲的對比31
2.6 標準化模式、星形模式和雪花模式31
2.6.1 標準化模式32
2.6.2 非標準化模式32
2.6.3 星形模式33
2.6.4 雪花模式34
2.7 提取-轉換-裝載、提取-裝載-轉換和復製35
2.7.1 提取-轉換-裝載36
2.7.2 提取-裝載-轉換37
2.7.3 復製38
2.8 商務智能架構總覽38
2.9 報告和分析的新形式39
2.9.1 運營報告和分析39
2.9.2 深度和大數據分析40
2.9.3 自助式報告和分析40
2.9.4 無限製的自組織分析40
2.9.5 360氨ǜ?1
2.9.6 探索性分析42
2.9.7 基於文本的分析42
2.10 傳統商務智能係統的劣勢43
2.11 總結46
第3章 數據虛擬化服務器:構造模塊47
3.1 引言47
3.2 數據虛擬化服務器的高層架構47
3.3 導入源錶和定義封裝器48
3.4 定義虛擬錶和映射50
3.5 虛擬錶和映射的例子53
3.6 虛擬錶和數據建模59
3.7 嵌套虛擬錶和共享規範61
3.8 導入非關係數據62
3.8.1 XML和JSON文檔62
3.8.2 Web服務66
3.8.3 電子錶格66
3.8.4 NoSQL數據庫68
3.8.5 多維數據集和MDX70
3.8.6 半結構化數據71
3.8.7 非結構化數據 74
3.9 發布虛擬錶75
3.10 互聯網數據模型80
3.11 可更新的虛擬錶和事務管理82
第4章 數據虛擬化服務器:管理與安全85
4.1 引言85
4.2 影響度和綫性分析85
4.3 源錶、封裝錶和虛擬錶的同步87
4.4 數據安全:認證與授權88
4.5 監控、管理和實施89
第5章 數據虛擬化服務器:虛擬錶的高速緩存93
5.1 引言93
5.2 虛擬錶的高速緩存93
5.3 什麼時候使用高速緩存95
5.4 高速緩存與數據集市95
5.5 高速緩存保存在哪裏96
5.6 刷新高速緩存97
5.7 完整刷新、增量刷新和動態刷新97
5.8 在綫刷新與離綫刷新98
5.9 高速緩存備份98
第6章 數據虛擬化服務器:查詢優化技術100
6.1 引言100
6.2 查詢優化的基本原理101
6.3 數據虛擬化服務器查詢處理的10個階段104
6.4 數據存儲的智能等級105
6.5 通過查詢替換進行優化106
6.6 下推優化107
6.7 查詢擴展(查詢注入)優化109
6.8 運送連接優化110
6.9 閤並排序連接優化111
6.10 緩存優化111
6.11 數據優化與統計112
6.12 提示優化112
6.13 SQL覆蓋優化113
6.14 處理策略的說明114
第7章 在商務智能係統上部署數據虛擬化115
7.1 引言115
7.2 基於數據虛擬化的商務智能係統115
7.3 部署數據虛擬化的優點116
7.4 部署數據虛擬化的缺點118
7.5 采用數據虛擬化的策略119
7.5.1 策略1:在現有的商務智能係統上引入數據虛擬化119
7.5.2 策略2:利用數據虛擬化開發新的商務智能係統123
7.5.3 策略3:開發新的結閤源數據和轉換數據的商務智能係統127
7.6 數據虛擬化的應用領域127
7.6.1 統一的數據訪問127
7.6.2 虛擬數據集市128
7.6.3 虛擬數據倉庫—基於數據集市130
7.6.4 虛擬數據倉庫—基於生産數據庫130
7.6.5 擴展數據倉庫131
7.6.6 操作報告和分析131
7.6.7 操作數據倉庫133
7.6.8 虛擬企業數據倉庫133
7.6.9 自助服務報告和分析134
7.6.10 虛擬沙盒134
7.6.11 原型設計135
7.6.12 分析半結構化和非結構化數據135
7.6.13 一次性報告136
7.6.14 通過外部用戶擴展的商務智能係統136
7.7 關於數據虛擬化的謬論138
第8章 數據虛擬化設計指南140
8.1 引言140
8.2 錯誤數據和數據質量140
8.2.1 錯誤數據的不同形式141
8.2.2 完整性規則和錯誤數據142
8.2.3 過濾、標記和恢復錯誤數據142
8.2.4 過濾錯誤數據的例子143
8.2.5 標記錯誤值示例145
8.2.6 恢復拼寫錯誤數據示例146
8.3 復雜和不規則的數據結構148
8.3.1 沒有名字的代碼150
8.3.2 鍵值不一緻150
8.3.3 重復組151
8.3.4 遞歸數據結構153
8.4 實現封裝或映射中的轉換155
8.5 分析錯誤數據155
8.6 不同的用戶和不同的定義156
8.7 數據時間的不一緻性157
8.8 數據存儲和數據傳輸158
8.9 生産係統數據檢索159
8.10 加入曆史和業務數據1
前言/序言
概述數據虛擬化是一種轉化異構數據庫集閤和文件的技術,這種技術使得這些數據看起來像一種集成的數據。在用於商務智能係統時,它可以使數據架構更簡單、更便宜,最重要的是更敏捷。新的報告和分析需求可以更快實施,現有係統可以更容易改變。這就需要增加敏捷性:一方麵,商務用戶需要其係統提供更多的敏捷性,因為他們的世界已經開始改變;另一方麵,商務智能的新形式,如運營報告、大數據分析在IT行業,我們已經進入瞭虛擬化時代。似乎這一行業中的任何東西都可以虛擬化,包括內存、外存、網絡和數據中心。虛擬化技術很熱門,比如雲技術的普及也可以歸類為虛擬化技術。虛擬化技術就是熱點,並且在一段時間內都將是技術的焦點。
所有虛擬化技術和概念的共同點是它們封裝瞭某個資源。任何虛擬化解決方案都隱藏瞭可用資源的數量、資源的位置以及獲取資源所需的API等。但不要將虛擬化與一些電腦遊戲所提供的虛擬世界混淆。這些遊戲提供瞭一些虛擬的東西,但它們並沒有封裝特定的資源。
本書將解釋一種特定形式的虛擬化:數據虛擬化。簡而言之,數據虛擬化意味著將數據以集成的方式提供給應用程序,而不管所有數據是否分布在多個數據庫中,是否以不同格式存儲,是否可通過不同的數據庫語言進行訪問。數據虛擬化技術將這些不同的數據存儲作為一個邏輯數據庫呈現給應用程序。雖然數據虛擬化産品和技術已經存在瞭一段時間,但是大約在2009年,它纔逐步得到瞭應有的關注。因為它對解決方案的影響—增加的敏捷性,所以越來越多的組織正在采用虛擬化技術,似乎可以認為21世紀的第二個十年將成為數據虛擬化的十年。
數據虛擬化可以部署在需要檢索和操作數據的所有類型的信息係統中,例如經典數據輸入係統、基於因特網的係統、麵嚮服務的係統、主數據管理係統和商務智能係統。本書的重點是商務智能係統。數據虛擬化可用於整閤來自各種數據源的數據,包括數據倉庫、數據集市和生産型數據庫。它有潛力改變我們開發商務智能係統的方式。數據虛擬化將成為大多數這類係統的心髒。
簡而言之,數據虛擬化允許我們使用更簡單和更靈活的架構構建商務智能係統。如果你想知道怎麼做和為什麼,本書就是為你而寫的!本書將詳細描述數據虛擬化産品的工作原理、技術應用、應該做什麼和不做什麼,以及在商務智能係統中應用它的好處。
誰應該閱讀這本書?本書適閤以下人群:
負責開發和管理數據倉庫和商務智能環境的商務智能專傢,以及那些想知道如何通過應用數據虛擬化技術來簡化係統或實現更靈活的商務智能係統的人。
信息管理專傢,想知道數據虛擬化對其職業的影響,以及數據虛擬化將如何影響信息管理、數據管理、數據庫設計、數據清洗和數據分析等活動。
主數據管理專傢,負責創建主數據管理係統,並希望瞭解如何從部署數據虛擬化中受益。
數據架構師,負責設計數據的整體係統架構,用來嚮特定組織的任何機構提供所需要的數據。
數據庫管理員,必須瞭解數據虛擬化服務器的特性和限製,用於確定如何以及在何處可以有效且高效地應用此技術。
設計師、分析師和顧問,必須直接或間接處理數據虛擬化,以及想知道數據虛擬化所能做的和不能做的。
學生,想要學習數據虛擬化技術,以及理解數據虛擬化技術與其他數據處理相關技術的區彆。
預備知識關於數據倉庫、商務智能和數據庫技術的一般性知識是必需的。
術語和定義遺憾的是,數據虛擬化和數據倉庫領域中使用的所有術語並非都是明確定義的,這一點在本書中講得很清楚。為瞭避免混淆,我們試圖清晰地定義大多數術語。但是,我們不能保證本書中的定義與你的定義一緻。
造成這種混亂的原因很多。第一個原因是,供應商純粹為瞭區分自己的産品和競爭對手的産品而經常提齣新的術語,但營銷人員不定義術語,他們隻使用這些術語並用一般術語來描述産品。在大傢意識到這一點之前,我們都在使用那些定義不明確或根本沒有定義的術語。第二個原因是,這個領域發展非常迅速,在較短的時間內就可能要為新思維創造某種術語,並提齣權衡性定義。結果,我們可能會匆忙地選擇一個術語,而經過仔細檢查後纔發現它並不閤適。
寫在最後……對我來說,寫一本書的感覺像是獨自一人完成項目:坐在辦公室裏幾個小時、幾天、幾個月,喝一杯茶,聽最喜歡的音樂。但這不是一個獨奏項目,一本書通常需要很多人閤作而成,本書當然也是如此。因此,我要感謝很多人對我的幫助,感謝他們為本書做齣的貢獻,提齣的想法和意見,以及對我的支持和耐心。
感謝Jim Bean和Richard Hackathorn的技術審查。他們的意見可能比他們意識到的更有價值。在我還在寫作本書的時候就得到瞭他們的反饋意見,這使得整個項目相當鼓舞人心。要是我以前的所有圖書都有像他們一樣好的技術審校者該多好。
數據虛擬化:商務智能係統的數據架構與管理 下載 mobi epub pdf txt 電子書