編輯推薦
1.針對互聯網大數據,從大數據的獲取到可視化展示與發布的整個過程,幫助讀者建立完整的知識體係。側重於非結構化數據處理與分析,有助於讀者接觸到更多的大數據核心關鍵技術。
2.各章節融入瞭作者在教學和科研中所積纍的一些值得深入探討的問題和觀點,具有一定的啓發性。
3.理論與實踐相結閤,各個章節包含有技術原理介紹,也包含實現技術、開源架構等方麵的敘述,使得讀者能從中掌握技術應用及實現方法。
4.注重産學結閤,基於阿裏雲及其大數據平颱,構建瞭綜閤應用實例,有效地集成運用瞭本書的一些關鍵技術,幫助讀者深入理解大數據處理技術。
內容簡介
本書內容分為三個部分,第一部分為互聯網大數據的概述;第二部分為互聯網大數據的獲取與存儲,包括瞭靜態或動態WEB頁麵內容獲取技術、結構化或非結構化數據的存儲、常見的開源係統等;第二部分為處理與分析技術,包括瞭文本數據預處理、數據內容的語義分析技術、文本內容分類技術、聚類分析、大數據中的隱私保護、大數據可視化等內容;第三部分為綜閤應用。
內頁插圖
目錄
第1部分概述
第1章互聯網大數據
1.1從IT走嚮DT
1.1.1信息化與Web時代
1.1.2大數據時代
1.2互聯網大數據及其特點
1.3互聯網大數據處理的相關技術
1.3.1技術體係構成
1.3.2相關技術研究
1.4互聯網大數據技術的發展
1.5本書內容安排
思考題
第2部分互聯網大數據的獲取
第2章Web頁麵數據獲取
2.1網絡爬蟲技術概述
2.2爬蟲的內核技術
2.2.1Web服務器連接器
2.2.2頁麵解析器
2.2.3爬行策略搜索
2.3主題爬蟲技術
2.3.1主題爬蟲模塊構成
2.3.2主題定義
2.3.3鏈接相關度估算
2.3.4內容相關度計算
2.4動態Web頁麵獲取技術
2.4.1動態頁麵的分類
2.4.2動態頁麵的獲取方法
2.4.3模擬瀏覽器的實現
2.4.4基於腳本解析的實現
2.5微博信息內容獲取技術
2.6DeepWeb數據獲取技術
2.6.1相關概念
2.6.2DeepWeb數據獲取方法
2.7反爬蟲技術與反反爬蟲技術
2.7.1反爬蟲技術
2.7.2反反爬蟲技術
2.7.3爬蟲技術的展望
思考題
第3章互聯網大數據的提取技術
3.1Web頁麵內容提取技術
3.1.1Web頁麵內容提取的基本任務
3.1.2Web頁麵解析方法概述
3.1.3基於HTMLParser的頁麵解析
3.1.4基於Jsoup的頁麵解析
3.2基於統計的Web信息抽取方法
3.3其他互聯網大數據的提取
3.4阿裏雲公眾趨勢分析中的信息提取應用
3.5互聯網大數據提取的挑戰性問題
思考題
第3部分互聯網大數據的結構化處理與分析技術
第4章結構化處理技術
4.1互聯網大數據中的文本信息特徵
4.2中文文本的詞匯切分
4.2.1詞匯切分的一般流程
4.2.2基於詞典的分詞方法
4.2.3基於統計的分詞方法
4.2.4歧義處理
4.3詞性識彆
4.3.1詞性標注的難點
4.3.2基於規則的方法
4.3.3基於統計的方法
4.4新詞識彆
4.5停用詞的處理
4.6英文中的詞形規範化
4.7開源工具與平颱
4.7.1開源工具及應用
4.7.2阿裏分詞器
思考題
第5章大數據語義分析技術
5.1語義及語義分析
5.2詞匯級彆的語義技術
5.2.1詞匯的語義關係
5.2.2知識庫資源
5.2.3詞嚮量
5.2.4詞匯的語義相關度計算
5.3句子級彆的語義分析技術
5.4命名實體識彆技術
5.4.1命名實體識彆的研究內容
5.4.2人名識彆方法
5.4.3地名識彆方法
5.4.4時間識彆方法
5.4.5基於機器學習的命名實體識彆
5.5大數據語義分析技術的發展
思考題
第6章大數據分析的模型與算法
6.1大數據分析技術概述
6.2特徵選擇與特徵提取
6.2.1特徵選擇
6.2.2特徵提取
6.2.3基於深度學習的特徵提取
6.3文本的嚮量空間模型
6.3.1嚮量空間模型的維
6.3.2嚮量空間模型的坐標
6.3.3嚮量空間模型中的運算
6.3.4文本型數據的邏輯存儲結構
6.4文本的概率模型
6.4.1N�瞘ram模型
6.4.2概率主題模型
6.5分類技術
6.5.1分類技術概要
6.5.2經典的分類技術
6.6聚類技術
6.7迴歸分析
6.7.1迴歸分析的基本思路
6.7.2綫性迴歸
6.7.3加權綫性迴歸
6.7.4邏輯迴歸
6.8大數據分析算法的並行化
6.8.1並行化框架
6.8.2矩陣相乘的並行化
6.8.3經典分析算法的並行化
6.9基於阿裏雲大數據平颱的數據挖掘實例
6.9.1網絡數據流量分析
6.9.2網絡論壇話題分析
思考題
第7章大數據隱私保護
7.1隱私保護概述
7.2隱私保護模型
7.2.1隱私泄露場景
7.2.2k�材涿�及其演化
7.2.31�捕嘣�化
7.3位置隱私保護
7.4社會網絡隱私保護
思考題
第8章大數據技術平颱
8.1概述
8.2大數據技術平颱的分類
8.3大數據存儲平颱
8.3.1大數據存儲需要考慮的因素
8.3.2HBase
8.3.3MongoDB
8.3.4Neo4j
8.3.5雲數據庫
8.3.6其他
8.4大數據可視化
8.4.1大數據可視化的挑戰
8.4.2大數據可視化方法
8.4.3大數據可視化工具
8.5Hadoop
8.5.1Hadoop概述
8.5.2Hadoop生態圈及關鍵技術
8.5.3Hadoop的版本
8.6Spark
8.6.1Spark的概述
8.6.2Spark的生態圈
8.6.3SparkSQL
8.6.4Spark Streaming
8.6.5Spark機器學習
8.7阿裏雲大數據平颱
8.7.1飛天係統
8.7.2大數據集成平颱
思考題
第4部分綜 閤 應 用
第9章基於阿裏雲大數據技術的個性化新聞推薦
9.1目的與任務
9.2係統架構
9.3存儲設計
9.3.1RDS
9.3.2OSS
9.3.3OTS
9.3.4MaxCompute
9.4軟件架構
9.4.1ECS
9.4.2爬蟲
9.4.3模型訓練
9.4.4分類過程
9.4.5開源代碼
9.5阿裏雲大數據的應用開發
9.5.1開發環境
9.5.2部署
9.5.3運行與測試
思考題
參考文獻
精彩書摘
第3章互聯網大數據的提取技術
本章描述瞭從Web頁麵上提取感興趣信息的方法,包括基於特徵模闆、基於頁麵解析樹的方法,以及基於統計的方法等。同時考慮到互聯網大數據來源的多樣性,除瞭Web頁麵外,也簡單介紹瞭Web日誌信息和ETL信息提取方法,並結閤阿裏雲公眾趨勢分析介紹瞭Web信息提取的應用效果。
3.1Web頁麵內容提取技術
Web頁麵中包含有豐富的信息內容,對於互聯網大數據分析有用的信息可能是某個新聞報道頁麵中的正文部分,也可能是某網絡論壇中的帖子信息、人際關係信息等。在進行Web頁麵內容提取時,一般是針對特定的網站,因此,可以假設頁麵結構特徵是已知的。在這種條件下,頁麵內容的提取就是根據結構和內容特徵進行提取,在方法上大同小異。這裏主要介紹兩大類目前使用的主要方法,即基於HTMLParser的解析和基於Jsoup的頁麵內容提取。
3.1.1Web頁麵內容提取的基本任務
從Web頁麵中提取內容,首先要對Web頁麵的各種常見版麵進行整理歸納。目前Web頁麵版式各式各樣,但可以歸結為以下3種。
(1) 新聞報道型頁麵。頁麵上盡管可能會有導航區、外部鏈接區、版權聲明區等區域,但是作為新聞正文文字一般是占主要的位置。典型的如圖3��1所示的參考消息網站的新聞報道,頁麵的最上麵是一些廣告、導航條,右邊是一些信息推薦。對於這種類型而言,目標就是提取正文部分的內容。
圖3��1新聞報道的版麵
(2) 列錶型頁麵。這類頁麵為用戶提供一種列錶式的閱讀,一般是作為聚集信息的訪問入口。比較常用於新聞列錶、網絡論壇中的討論區入口等。對於這種類型,通常會遇到翻頁,即上一頁、下一頁等鏈接,允許用戶在不同的列錶頁麵上跳轉。圖3��2所示的是兩種典型的列錶型頁麵,左右兩邊分彆來自網絡論壇和新聞網站。對於這種類型而言,目標就是提取列錶部分的所有內容。
圖3��2兩種列錶型頁麵
(3) 評論型頁麵。用戶在頁麵對某個事物、話題發錶自己的觀點。這種頁麵整體上看可以是一種列錶型的,但是設計者更加關心每個評論中的具體信息。一般每個評論會有評論人、評論內容、評論時間、評論對象及評論的一些量化信息等。圖3��3所示的是大眾點評網上針對某個菜館的評論信息。對於這種類型而言,目標就是提取每個評論的各個具體信息。
以上是從界麵的角度來看頁麵內容提取,設計者關心的是從程序處理角度的Web頁麵信息提取。
與瀏覽器界麵所輸齣的效果不同,程序所看到的是Web頁麵對應的HTML編碼文件。例如,對於上麵的股票網絡論壇的列錶型頁麵,其對應的HTML編碼文件內容如下(其中列齣瞭前麵兩個記錄):
圖3��3評論型頁麵
浪潮信息(000977)_浪潮信息股吧_000977股吧_股吧_東方財富網股吧
...
8857372890話題 中鑫富盈、吳峻樂操縱特力A等股票案罰沒金額超 財經評論07-0107-02 16:41
386824157話題 證監會三大配套措施加強對重組上市監管 財經評論07-0207-02 16:42
…
可以看齣,兩個帖子記錄都是由HTML的Tag所界定,Web內容提取就需要尋找能夠定位記錄的這種Tag標記。當然,這種特徵標記也未必存在,這就要求采用一些程序上的技巧瞭。
3.1.2Web頁麵解析方法概述
可以看齣,為瞭提取齣在瀏覽器上所看到的格式化的記錄信息,在程序處理中,就必須在相應的HTML編碼文件中尋找所要提取的記錄,並進行提取。
雖然頁麵類型很多,但無論是針對哪種類型的頁麵,在信息提取方麵的基本思路是一緻的,一般有以下3個步驟。
(1) 分析所處理的HTML源文件的特徵。
由於HTML文件中包含瞭大量的標記(Tag),這些標記描述瞭Web瀏覽器在頁麵上如何顯示文字、圖形等內容,因此需要事先分析所要提取的信息內容所具有的標記特徵。
(2) 先根據某種特徵在HTML源文件中定位要提取的內容所在的塊(Block)。
(3) 在Block內再利用塊內特徵提取具體內容。
現有方法都比較成熟,主要在於第(2)個步驟可以采用不同的定位方法。
最簡單的定位方法是采用字符串匹配,以下是Java的一個片段,用於提取評論型頁麵的“樓層”信息。
//p1是樓層在HTML中的開始位置
p1=html.indexOf("");
//s是之後的字符串
s=html.substring(p1+new String("").length);
//得到樓層字符串
p2= s.indexOf("");
louceng=s.substring(1,p2);
這種字符串分析方法雖然實現起來很簡單,但是該方法存在很多問題,主要是擴展性不好、適應能力很差、缺乏代碼的復用能力。
高級的Web信息內容抽取方法主要有以下幾種。
(1) 基於正則錶達式的信息抽取技術。
正則錶達式是用一種用來標識具有一定信息分布規律的字符串。在網頁信息抽取過程中,首先把網頁作為一個字符流的文件來處理,通過配置閤理的正則錶達式去匹配(定位)待抽取的信息,然後抽取其中的信息。
例如,以下片段采用一個正則錶達式提取頁麵中標記的所有日期。
第3章互聯網大數據的提取技術
本章描述瞭從Web頁麵上提取感興趣信息的方法,包括基於特徵模闆、基於頁麵解析樹的方法,以及基於統計的方法等。同時考慮到互聯網大數據來源的多樣性,除瞭Web頁麵外,也簡單介紹瞭Web日誌信息和ETL信息提取方法,並結閤阿裏雲公眾趨勢分析介紹瞭Web信息提取的應用效果。
3.1Web頁麵內容提取技術
Web頁麵中包含有豐富的信息內容,對於互聯網大數據分析有用的信息可能是某個新聞報道頁麵中的正文部分,也可能是某網絡論壇中的帖子信息、人際關係信息等。在進行Web頁麵內容提取時,一般是針對特定的網站,因此,可以假設頁麵結構特徵是已知的。在這種條件下,頁麵內容的提取就是根據結構和內容特徵進行提取,在方法上大同小異。這裏主要介紹兩大類目前使用的主要方法,即基於HTMLParser的解析和基於Jsoup的頁麵內容提取。
3.1.1Web頁麵內容提取的基本任務
從Web頁麵中提取內容,首先要對Web頁麵的各種常見版麵進行整理歸納。目前Web頁麵版式各式各樣,但可以歸結為以下3種。
(1) 新聞報道型頁麵。頁麵上盡管可能會有導航區、外部鏈接區、版權聲明區等區域,但是作為新聞正文文字一般是占主要的位置。典型的如圖3��1所示的參考消息網站的新聞報道,頁麵的最上麵是一些廣告、導航條,右邊是一些信息推薦。對於這種類型而言,目標就是提取正文部分的內容。
圖3��1新聞報道的版麵
(2) 列錶型頁麵。這類頁麵為用戶提供一種列錶式的閱讀,一般是作為聚集信息的訪問入口。比較常用於新聞列錶、網絡論壇中的討論區入口等。對於這種類型,通常會遇到翻頁,即上一頁、下一頁等鏈接,允許用戶在不同的列錶頁麵上跳轉。圖3��2所示的是兩種典型的列錶型頁麵,左右兩邊分彆來自網絡論壇和新聞網站。對於這種類型而言,目標就是提取列錶部分的所有內容。
圖3��2兩種列錶型頁麵
(3) 評論型頁麵。用戶在頁麵對某個事物、話題發錶自己的觀點。這種頁麵整體上看可以是一種列錶型的,但是設計者更加關心每個評論中的具體信息。一般每個評論會有評論人、評論內容、評論時間、評論對象及評論的一些量化信息等。圖3��3所示的是大眾點評網上針對某個菜館的評論信息。對於這種類型而言,目標就是提取每個評論的各個具體信息。
以上是從界麵的角度來看頁麵內容提取,設計者關心的是從程序處理角度的Web頁麵信息提取。
與瀏覽器界麵所輸齣的效果不同,程序所看到的是Web頁麵對應的HTML編碼文件。例如,對於上麵的股票網絡論壇的列錶型頁麵,其對應的HTML編碼文件內容如下(其中列齣瞭前麵兩個記錄):
圖3��3評論型頁麵
浪潮信息(000977)_浪潮信息股吧_000977股吧_股吧_東方財富網股吧
...
8857372890話題 中鑫富盈、吳峻樂操縱特力A等股票案罰沒金額超 財經評論07-0107-02 16:41
386824157話題 證監會三大配套措施加強對重組上市監管 財經評論07-0207-02 16:42
…
可以看齣,兩個帖子記錄都是由HTML的Tag所界定,Web內容提取就需要尋找能夠定位記錄的這種Tag標記。當然,這種特徵標記也未必存在,這就要求采用一些程序上的技巧瞭。
3.1.2Web頁麵解析方法概述
可以看齣,為瞭提取齣在瀏覽器上所看到的格式化的記錄信息,在程序處理中,就必須在相應的HTML編碼文件中尋找所要提取的記錄,並進行提取。
雖然頁麵類型很多,但無論是針對哪種類型的頁麵,在信息提取方麵的基本思路是一緻的,一般有以下3個步驟。
(1) 分析所處理的HTML源文件的特徵。
由於HTML文件中包含瞭大量的標記(Tag),這些標記描述瞭Web瀏覽器在頁麵上如何顯示文字、圖形等內容,因此需要事先分析所要提取的信息內容所具有的標記特徵。
(2) 先根據某種特徵在HTML源文件中定位要提取的內容所在的塊(Block)。
(3) 在Block內再利用塊內特徵提取具體內容。
現有方法都比較成熟,主要在於第(2)個步驟可以采用不同的定位方法。
最簡單的定位方法是采用字符串匹配,以下是Java的一個片段,用於提取評論型頁麵的“樓層”信息。
//p1是樓層在HTML中的開始位置
p1=html.indexOf("");
//s是之後的字符串
s=html.substring(p1+new String("").length);
//得到樓層字符串
p2= s.indexOf("");
louceng=s.substring(1,p2);
這種字符串分析方法雖然實現起來很簡單,但是該方法存在很多問題,主要是擴展性不好、適應能力很差、缺乏代碼的復用能力。
高級的Web信息內容抽取方法主要有以下幾種。
(1) 基於正則錶達式的信息抽取技術。
正則錶達式是用一種用來標識具有一定信息分布規律的字符串。在網頁信息抽取過程中,首先把網頁作為一個字符流的文件來處理,通過配置閤理的正則錶達式去匹配(定位)待抽取的信息,然後抽取其中的信息。
例如,以下片段采用一個正則錶達式提取頁麵中標記的所有日期。
……
前言/序言
互聯網技術及應用進入一個高速發展時期,那些隨手可得的互聯網應用深刻地影響著社會經濟的發展,改變瞭人們衣食住行、吃喝玩樂的生活方式,人們對互聯網的依賴度逐年提升。網絡數字化生活形態的形成,促進瞭互聯網數據的纍積,大數據由此成為互聯網技術應用的新鮮血液,並將成為今後很長一段時期內各方關注的焦點。互聯網大數據處理的理論、技術及其應用與社會經濟各個領域的融閤越來越密切,相關領域的專業技術人員迫切需要建立完整的互聯網大數據分析應用的知識體係,以適應今後發展趨勢的要求。
本書作者及其科研團隊近十年來一直從事互聯網內容分析挖掘、網絡輿情、大數據、信息內容安全技術和應用方麵的科研工作。在包括國傢自然科學基金項目在內的各類科研項目支持下,對互聯網信息獲取和提取方法、互聯網信息內容結構化處理技術、語義分析技術、數據挖掘的模型與算法、社交媒體中的用戶行為及互聯網金融等應用領域開展瞭大量研究,積纍瞭一定的經驗,強烈希望把科研工作中的體會和理解整理齣來。此外,作者從2011年開始先後為復旦大學信息安全專業的本科生、研究生開設瞭《信息內容安全》《大數據安全》等課程,經過多年的教學實踐,瞭解瞭學生的學習需求,積纍瞭較為充足的講義和素材。2016年5月,教育部聯閤阿裏雲計算有限公司等單位發起瞭産學閤作專業綜閤改革項目,確定瞭包括大數據在內的多個新技術方嚮的教材編寫目標,以産學結閤來推動高校教材和課程的改革。本書的編寫正是在該綜閤改革項目的支持和推動下進行的,是第一本係統講述互聯網大數據處理技術及應用的教材和專業參考書。
本書在知識結構上,試圖覆蓋互聯網大數據處理與應用的完整知識體係;在內容上,盡量做到深入淺齣,既考慮知識的基礎性,也兼顧技術發展方嚮和前沿。本書全麵介紹互聯網大數據處理與應用中的主要理論和
互聯網大數據處理技術與應用/大數據技術與應用專業規劃教材 下載 mobi epub pdf txt 電子書