發表於2024-11-15
《走進搜索引擎(第2版)》 潘雪峰,花貴春,梁斌著, 電子工業齣版社 pdf epub mobi txt 電子書 下載
基本信息
書名:走進搜索引擎(第2版)
定價:49.00元
作者:潘雪峰,花貴春,梁斌著
齣版社:電子工業齣版社
齣版日期:2011-05-01
ISBN:9787121131042
字數:400000
頁碼:286
版次:1
裝幀:平裝
開本:16開
商品重量:0.4kg
編輯推薦
內容提要
本書由搜索引擎開發研究領域三位年輕的博士生精心編寫,作者們希望將自己對搜索引擎的理解和實際應用相結閤,讓未接觸過搜索引擎原理和方法的讀者也能輕鬆讀懂該書的大部分內容。
本書在第1版的基礎上,刪除瞭搜索引擎曆史等章節,並對錯誤和不足進行瞭修訂和補充,同時增加瞭潘雪峰編寫的第6章“搜索引擎日誌分析”,花貴春編寫的第7章“排序學習(LearningtoRank)”和梁斌編寫的第8章“搜索引擎的性能調優”三個主要章節,變更的內容約占第1版的一半。
讀者對象:本書作為搜索引擎原理與技術的入門書籍,麵嚮那些有誌從事搜索引擎行業的青年學生、需要完整理解並優化搜索引擎的專業技術人員、搜索引擎的營銷人員,以及網站的負責人等。本書是從事搜索引擎開發的工程技術人員難得的參考書,也可作為大院校相關專業的教學輔導書.
目錄
第1章 引言1
1.1 搜索引擎概述2
1.1.1 目錄式搜索引擎2
1.1.2 全文搜索引擎3
1.1.3 元搜索引擎(Meta-Search Engine)3
1.2 搜索引擎的主要需求3
1.2.1 快4
1.2.2 全4
1.2.3 準4
1.2.4 穩5
1.2.5 省5
1.3 搜索引擎的4大係統6
1.3.1 搜索引擎的體係結構6
第2章 搜索引擎的下載係統8
2.1 爬蟲的發展曆史9
2.1.1 世界上第1個爬蟲9
2.1.2 爬蟲的發展曆程9
2.2 萬維網及其網頁分析9
2.2.1 蝴蝶結型的萬維網10
2.2.2 萬維網的直徑12
2.2.3 萬維網的規模及變化特徵12
2.2.4 網頁的特徵13
2.3 有關爬蟲的基本概念13
2.3.1 爬蟲13
2.3.2 種子站點14
2.3.3 URL14
2.3.4 Backlinks14
2.4 網頁抓取原理14
2.4.1 tel和wget14
2.4.2 從種子站點開始逐層抓取15
2.4.3 不重復抓取策略19
2.4.4 網頁抓取優先策略25
2.4.5 網頁重訪策略26
2.4.6 Robots協議30
2.4.7 其他應該注意的禮貌性問題31
2.4.8 重要頁優先抓取策略32
2.4.9 抓取提速策略(閤作抓取策略)34
2.5 網頁庫38
2.6 下載係統迴顧及未來發展41
參考文獻42
第3章 搜索引擎的分析係統44
3.1 知識準備45
3.1.1 HTML語言45
3.1.2 錨文本(anchor text)45
3.1.3 半結構化數據(semi-structured data)45
3.2 信息抽取及網頁信息結構化45
3.2.1 網頁結構化的目標46
3.2.2 建立HTML標簽樹48
3.2.3 通過投票方法得到正文52
3.2.4 網頁結構化過程迴顧55
3.3 網頁查重56
3.3.1 網頁查重技術發展曆史56
3.3.2 網頁查重實現方法58
3.4 中文分詞61
3.4.1 什麼是中文分詞61
3.4.2 通過字典實現分詞61
3.4.3 基於統計的分詞方法65
3.5 PageRank67
3.5.1 PageRank的來由68
3.5.2 PageRank的基本想法68
3.5.3 PageRank的計算公式69
3.5.4 PageRank的計算方法73
3.6 分析係統結構圖76
參考文獻77
第4章 搜索引擎的索引係統79
4.1 知識準備80
4.1.1 信息80
4.1.2 索引80
4.1.3 倒排索引、倒排錶、臨時倒排文件、終倒排文件80
4.1.4 其他概念81
4.2 全文檢索81
4.3 文檔編號82
4.3.1 編號的本質82
4.3.2 文檔編號的方法83
4.3.3 遊程編碼84
4.4 倒排索引87
4.4.1 經典的倒排索引87
4.4.2 正排索引(前嚮索引)88
4.4.3 倒排索引90
4.5 數據規模的估計92
4.5.1 齊普夫法則92
4.5.2 布爾檢索模型下的索引規模估計94
4.6 涉及存儲規模的一些計算97
4.6.1 正排錶與倒排錶的閤並97
4.6.2 多個臨時倒排文件的歸並100
4.6.3 倒排索引分布式存儲103
4.6.4 倒排文件緩存106
4.6.5 倒排索引詞典統計信息的計算106
4.7 倒排索引文件的創建過程107
4.7.1 創建倒排錶107
4.7.2 計算統計信息109
參考文獻110
第5章 搜索引擎的查詢係統112
5.1 知識準備113
5.1.1 什麼是信息熵113
5.1.2 檢索和查詢的區彆115
5.1.3 檢索詞和查詢詞的區彆115
5.1.4 自動文本摘要(Automatic Text Summarization)116
5.2 網頁信息檢索116
5.2.1 早期的檢索模型116
5.2.2 嚮量空間模型(Vector Space Models)118
5.2.3 關鍵詞權重的量化方法TF/IDF122
5.2.4 搜索引擎采用的檢索模型125
5.2.5 多文檔列錶求交計算127
5.2.6 檢索結果排序132
5.2.7 堆排序132
5.3 中文自動摘要137
5.3.1 自動摘要的發展曆史137
5.3.2 自動摘要的含義和實現137
5.4 生成搜索結果頁142
5.4.1 生成搜索結果頁142
5.5 搜索結果頁的緩存144
5.6 推測用戶查詢意圖145
5.6.1 查詢分類146
5.6.2 推測信息類、事物類的查詢意圖147
5.7 查詢係統的當前熱點和發展方嚮147
5.7.1 查詢係統的當前熱點148
5.7.2 查詢係統的發展方嚮148
參考文獻149
第6章 搜索引擎日誌分析150
6.1 簡介151
6.1.1 人機交互的記錄——日誌151
6.1.2 分析搜索引擎日誌的意義153
6.1.3 本章的主要內容154
6.2 知識準備155
6.2.1 二分圖模型(Bipartite Model)155
6.2.2 圖模型(graphical model)156
6.2.3 LDA(Latent Dirichlet Allocation)模型158
6.2.4 隨機遊走 (Random Walk)159
6.2.5 小結160
6.3 查詢日誌分析161
6.3.1 查詢日誌的內容161
6.3.2 查詢詞頻統計162
6.3.3 查詢串提示(Suggestion)163
6.3.4 命名實體(Named Entity)類彆識彆165
6.3.5 小結167
6.4 點擊日誌分析167
6.4.1 點擊日誌的內容168
6.4.2 查詢串提示(Suggestion)再分析169
6.4.3 查詢和結果類彆屬性傳遞170
6.4.4 搜索結果相似性度量171
6.4.5 查詢結果排序172
6.4.6 點擊數據的稀疏性174
6.4.7 小結176
6.5 隱私問題177
6.5.1 日誌的兩麵性177
6.5.2 日誌的安全使用179
6.5.3 小結179
6.6 本章總結180
參考文獻180
第7章 排序學習(Learning to Rank)183
7.1 排序概述184
7.2 傳統的排序模型186
7.2.1 查詢相關的排序模型186
7.2.2 查詢無關的排序模型188
7.3 排序學習簡介以及研究現狀190
7.3.1 排序學習簡介190
7.3.2 排序學習問題的研究現狀191
7.4 排序學習模型的應用實例192
7.5 排序學習方法的框架194
7.5.1 參數設置194
7.5.2 排序學習方法的框架195
7.6 評測數據集196
7.6.1 LETOR數據集196
7.6.2 Microsoft Learning to Rank數據集197
7.6.3 Yahoo Webscope數據集198
7.7 排序學習模型簡介198
7.7.1 實例199
7.7.2 Pointwise方法199
7.7.3 Pairwise方法204
7.7.4 Listwise方法207
7.7.5 3種排序方法的對比210
7.8 排序學習模型性能比較211
7.8.1 評測方法211
7.8.2 排序模型性能的比較215
7.9 排序學習的研究方嚮217
7.9.1 標準標注的自動構建217
7.9.2 排序特徵217
7.9.3 半監督學習/主動學習218
7.9.4 查詢相關的排序模型218
7.9.5 利用用戶行為特徵218
7.10 總結219
參考文獻219
第8章 搜索引擎的性能調優223
8.1 係統調優概述224
8.2 瓶頸識彆225
8.3 涉及CPU的優化方法226
8.3.1 上下文切換問題(context switching)227
8.3.2 中斷和輪詢228
8.3.3 CPU的Affinity問題229
8.3.4 流水綫問題229
8.4 涉及內存的優化方法235
8.4.1 概述235
8.4.2 對換區236
8.4.3 cache line240
8.4.4 false sharing問題245
8.4.5 內存的鎖問題247
8.4.6 內存庫的使用257
8.5 涉及磁盤的優化方法262
8.5.1 磁盤IO的調度262
8.5.2 其他常見磁盤參數調優264
8.5.3 磁盤讀寫方式265
8.5.4 文件緩存問題267
8.5.5 5分鍾法則269
8.6 涉及網絡的優化方法271
8.6.1 搜索首頁,結果頁提速方法271
8.6.2 Web server的架構選擇274
參考文獻284
作者介紹
文摘
序言
《走進搜索引擎(第2版)》 潘雪峰,花貴春,梁斌著, 電子工業齣版社 pdf epub mobi txt 電子書 下載