关联模板【结束】节点,请勿手动操作节点内的内容!!!
基本信息
书名:搜索引擎——原理、技术与系统
原价:48.00元
作者:李晓明、闫宏飞、王继民
出版社:科学出版社
出版日期:2012-05-01
ISBN:9787030342584
字数:472750
页码:330
版次:1
装帧:平装
开本:16开
目录
目录
第二版前言
版前言
章 引论
节 搜索引擎的概念
第二节 搜索引擎的发展历史
第三节 一些著名的搜索引擎
第四节 小结
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
节 基本要求
第二节 网页搜集
第三节 预处理
第四节 查询服务
第五节 体系结构
第六节 小结
第三章 Web信息的搜集
节 概述
一、超文本传输协议
二、一个小型搜索引擎系统
第二节 网页搜集
一、定义URL类和Page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节 多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节 如何避免网页的重复搜集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节 搜集信息的类型
第六节 小结
第四章 对搜集信息的预处理
节 索引网页库
第二节 网页编码识别
一、基本而重要的概念
二、常用字符编码
三、常用字符编码算法
四、字符的输入和显示
五、编码识别
第三节 中文自动分词
第四节 分析网页和建立倒排文件
第五节 小结
第五章 信息查询服务
节 检索的定义
第二节 查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节 小结
中篇 对质量和性能的追求
第六章 可扩展搜集子系统
节 天网系统概述和集中式搜集系统结构
一、天网系统结构
二、集中式搜集系统
第二节 利用并行处理技术高效搜集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节 天网分布式搜集系统
第四节 对Deep Web的认识
一、Deep Web的成因
二、搜索Deep Web的方法
第五节 小结
第七章 网页净化与消重
节 网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型应用及实验研究
第二节 网页消重算法
一、消重算法
二、算法评测
第三节 小结
第八章 高性能检索子系统
节 检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节 适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节 倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节 索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节 混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节 倒排文件缓存机制
一、倒排文件缓存
二、负载特性
三、缓存策略的选择
第七节 小结
第九章 相关排序与系统质量评估
节 传统IR的相关排序技术
第二节 链接分析与相关排序
一、链接分析
二、Web查询模式下的新信息
第三节 相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用链接的结构
三、收集用户反馈信息
四、计算终的权重
第四节 信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜索引擎技术评估
第五节 小结
下篇 Web信息资源的组织与应用服务
第十章 大规模Web历史网页仓储系统的构建
节 国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节 中国Web信息博物馆的系统设计
一、Web InfoMall的设计目标
二、Web InfoMall的体系结构
第三节 历史网页的存储
一、数据的组织
二、存储结构
三、数据管理与压缩
四、存储性能
第四节 数据访问
一、PageID的索引
二、URL的索引
三、数据服务
四、性能与优化
第五节 网页的格式保存
第六节 小结
第十一章 大规模Web网页信息仓储系统的构建
节 网络资源库藏相关工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中国互联网数字资源财富库藏
第二节 CDAL系统概况
第三节 CDAL系统设计
一、系统体系结构
二、可扩展的存储组织方案
第四节 网络资源描述信息获取
一、Ontology概述
二、描述信息获取机制
三、改进查询的方法
四、改进排序的方法
第五节 基于局部聚类思想的共现词汇算法
一、基本定义
二、FDC共现词汇算法
第六节 小结
第十二章 中文网页自动分类与聚类
节 文档自动分类算法的类型
第二节 实现中文网页自动分类的一般过程
第三节 影响分类器性能的关键因素分析
一、实验设置
二、训练样本
三、特征选取
四、分类算法
五、截尾算法
六、中文网页分类器的设计方案
第四节 天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第五节 文本聚类方法
一、文本聚类的一般过程
二、文本间相似性的度量
三、常用聚类算法
四、聚类结果的评估
五、搜索引擎返回结果的聚类
第六节 小结
第十三章 开放域问答系统
节 概述
一、问答系统的历史
二、著名开放域问答系统介绍
三、开放域问答系统的通用体系结构
第二节 问句的分析
一、问句中的指代消解
二、问句分类
三、问句主题提取
第三节 文档和段落检索
一、检索模型的选用
二、查询生成
三、查询结果排序
四、增强索引的功能
第四节 答案提取和验证模块
一、生成候选答案集合
二、答案提取
第五节 问答系统的改进方法
一、问答系统中外部资源的利用
二、寻找特殊类问题的解决方案
三、通过系综方法构建问答系统
第六节 问答系统的评测
一、TREC问答系统评测
二、问答系统评测指标
第七节 实例:天网开放域问答系统
第八节 小结
参考文献
附录 术语
图目录
图1-1 2012年3月在Google上检索“伊拉克战争”的结果
图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果
图2-1 搜索引擎示意图
图2-2 搜索引擎三段式工作流程
图2-3 搜索引擎的体系结构
图3-1 TSE搜索引擎界面
图3-2 TSE查询结果页面
图3-3 TSE网页快照页面
图3-4 TSE系统结构
图3-5 Web信息的搜集
图3-6 Sockets和端口
图3-7 通过Socket建立连接
图4-1 网页预处理系统结构
图4-2 原始网页库中的记录格式
图4-3 索引网页库算法
图4-4 字符的输入和显示流程
图4-5 GB2312,Big5和GBK字符编码分布
图4-6 正向减字匹配算法流程
图4-7 切词算法流程
图4-8 分析网页与建立倒排文件流程
图4-9 过滤网页中正文信息算法
图4-10 正向索引表记录格式
图4-11 由正向索引建立反向索引
图5-1 信息查询的系统结构
图5-2 基本检索算法
图5-3 动态摘要算法
图5-4 用户查询日志的记录格式
图6-1 天网系统概貌
图6-2 搜集系统的主控结构
图6-3 协调进程工作算法
图6-4 分布式Web搜集系统结构
图6-5 负载方差
图6-6 并行搜集系统与集中式搜集系统的性能对比
图6-7 分布式系统效率
图6-8 URL两阶段映射
图6-9 天网分布式搜集系统P_Arthur体系结构
图6-10 人才招聘网站首页
图7-1 用DocView模型提取的网页要素
图7-2 净化后的网页
图7-3 HTML Tree结构
图7-4 内容块权值传递过程
图7-5 有主题网页DocView模型生成过程
图7-6 计算网页特征项权值的算法
图7-7 正文段落识别过程
图7-8 基于anchor text的超链选取算法
图7-9 网页净化前后分类效果对比
图7-10 查全率随选取关键词个数的变化
图8-1 检索系统集成框架结构
图8-2 天网WWW检索分布式系统构架
图8-3 倒排索引结构示意图
图8-4 按块组织的倒排链的结构
图8-5 位置索引的结构
图8-6 CLPS结构示意图
图8-7 倒排链中文档号之间的d-gaps分布图
图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小
图8-9 不同压缩算法对文档号的解压速度
图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小
图8-11 不同压缩算法对词频的解压速度
图8-12 平均每个查询对应的位置信息需要的存储空间
图8-13 索引剪枝方法的分类
图8-14 MAXSCORE算法的示例
图8-15 WAND算法选择候选文档的过程
图8-16 基于块索引的支点文档号的选择示例
图8-17 Interval-Base剪枝方法中文档子区间划分的示例
图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化
图8-19 当前支持高效SR IR剪枝的索引结构
图8-20 扩展词典树结构示例
图8-21 扩展词典匹配查找算法
图8-22 搜索引擎检索系统缓存结构
图8-23 文档数据访问对象大小分布
图8-24 I/O与PAGE序列序号-频度分布
图8-25 I/O与PAGE序列时间间隔分布
图8-26 I/O和PAGE序列中模式串
图9-1 Inktomi提供的几种搜索引擎技术的比较
图9-2 词典在系统中的地位
图9-3 新词学习
图9-4 网页的互联结构示意
图9-5 信息获取技术评估的“森林”
图9-6 查准率和召回率基础定义图示
图9-7 查准率和召回率例子
图9-8 “省事的”11点标准召回率例子
图9-9 实践中召回率例子
图9-10 实际中的44个查询词的评价统计表和P-R图
图9-11 测试集在检索评估中的角色
图9-12 帮助判断相关结果页面的计算机辅助程序入口
图9-13 帮助判断相关结果页面的计算机辅助程序操作界面
图10-1 Web InfoMall体系结构
图10-2 网页数据的分割
图10-3 Web InfoMall的存储结构
图10-4 网页的引用压缩示意图
图11-1 CDAL提供的资源访问方式
图11-2 CDAL系统结构图
图11-3 基于Ontology的网络资源描述信息获取
图11-4 概念的属性及其词汇扩展(以电影类资源为例)
图11-5 获得描述信息的改进排序算法
图11-6 网络资源描述信息展示
图12-1 自动文档分类算法的分类
图12-2 中文网页自动分类的一般过程
图12-3 中文网页分类器的工作原理图
图12-4 WebSmart——一个网页实例集搜集和整理工具
图12-5 一种中文网页的分类体系
图12-6 Macro-F1值随样本数的变化
图12-7 Micro-F1值随样本数的变化
图12-8 CHI、IG、DF、MI的比较(Macro-F1)
图12-9 CHI、IG、DF、MI的比较(Micro-F1)
图12-10 kNN与NB分类结果的比较
图12-11 k的取值对分类器质量的影响(Marco-F1)
图12-12 k的取值对分类器质量的影响(Micro-F1)
图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况
图12-14 基于层次模型的kNN与基本kNN的比较
图12-15 RCut和SCut截尾算法的比较
图12-16 天网目录的体系结构
图12-17 天网目录导航服务
图12-18 文本聚类的一般过程
图12-19 层次聚类实例
图12-20 k-均值算法进行文本聚类的过程
图12-21 搜索结果聚类系统Carrot2
图13-1 START系统界面
图13-2 Ask Jeeves查询结果
图13-3 问答系统的通用体系结构
图13-4 天网开放域系统的体系结构
表目录
表4-1 网页索引文件
表4-2 URL索引文件
表6-1 SOIF数据描述
表6-2 SOIF具体语法
表6-3 参照序列,假设节点数为2
表7-1 类别编号对照表
表7-2 消重实验结果
表7-3 当N=10、δ=0.01时5种算法的查全率和准确率
表7-4 考察δ的取值对算法3和4的影响
表7-5 分段签名算法的时间复杂度及性能
表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)
表8-1 MTF对序列<4,4,1,4,2>进行转换的过程
表8-2 对含100词条的词典使用不同编码所需要的空间
表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)
表8-4 不同索引的组织结构及其支持的查询处理方式
表8-5 数据集基本统计信息
表9-1 新词学习对检索准确率的影响
表9-2 影响权值的HTML标签
表9-3 补偿因子定义表
表9-4 2004中文Web信息检索评测提交结果
表9-5 主题提取
表9-6 导航搜索
表9-7 用户查询信息类别
表10-1 网页存储性能(个/秒)
表10-2 网页访问性能(个/秒)
表11-1 几个网络资源库藏系统的特征
表11-2 CDAL中的资源分布
表12-1 样本集中类别及实例数量的分布情况表
表12-2 kNN和NB算法的分类质量和分类效率比较
表12-3 欧式距离与兰式距离的比较
表12-4 基于层次模型的kNN与基本kNN的比较
表12-5 RCut和SCut截尾算法的比较
表12-6 一个分类器的设计方案
表13-1 问题分类体系结构及TREC问答任务中问题的分布
表13-2 天网开放域系统在TREC2005中的表现
内容提要
搜索引擎:原理、技术与系统(第二版)系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。全书分三篇共13章。上篇介绍搜索引擎的基本原理和技术,讲述一个小型简单搜索引擎实现的具体细节;中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术;下篇结合“中国Web信息博物馆”和“中国互联网数字资源财富库藏”的实践经验,介绍了构建大规模Web历史网页和网页仓储系统的技术和方法,以及中文网页的自动分类与聚类、开放域问题系统的构建等。
搜索引擎:原理、技术与系统(第二版)层次分明,由浅入深,上篇和中篇涉及内容提供了源代码下载地址;既有深入的理论分析,也有大量的实验数据和程序,具有学习和实用双重意义。
搜索引擎:原理、技术与系统(第二版)可作为高等院校计算机科学与技术、软件工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料;对广大从事网络技术、Web站点管理、数字图书馆、Web挖掘等研究和应用开发的科技人员有很高的参考价值;书中提供了大量源代码,除了用于构建搜索引擎之外,对于学习编程,提高编程技巧,以及实现一个大规模应用开发也有一定的参考价值。
这本书简直是太棒了,让我彻底颠覆了对搜索引擎的认知!我原本以为搜索引擎就是个简单的关键词匹配机器,但深入阅读后才发现,背后隐藏着如此复杂精妙的技术。从倒排索引的构建到网页抓取策略的优化,再到 PageRank 算法的巧妙设计,作者用详实的代码和清晰的逻辑,一步步地揭开了搜索引擎的核心秘密。我尤其喜欢书中对信息检索模型和算法的深入剖析,那些关于 TF-IDF、BM25 的详细解释,配合源码示例,让我对如何更精准地理解用户查询意图有了全新的认识。书中的技术资料简直是宝藏,让我能够直接上手实践,而不是停留在理论层面。对于想要深入理解搜索引擎工作原理的研究生和高年级本科生来说,这本书无疑是不可多得的宝贵资源。它不仅提供了坚实的理论基础,更通过大量的源代码,让我有机会亲身体验和改造这些核心技术。
评分拿到这本书,我第一眼就被它厚重的篇幅和严谨的排版所吸引,感觉它就是为真正钻研技术的人准备的。翻阅目录,从信息收集、索引构建到查询处理、排序算法,几乎涵盖了搜索引擎的方方面面。最令我惊喜的是,书中提供了海量的源代码,而且这些代码都相当规范和易于理解,并非那种晦涩难懂的“天书”。我尝试着运行了几个核心模块,发现它们的功能确实与书中的讲解完美契合,这对于我这样喜欢动手实践的读者来说,简直是福音。以前在网上零散地学习过一些搜索引擎的知识,但总感觉不够系统,这本书正好填补了我的这个空白。它不仅讲“是什么”,更讲“为什么”和“怎么做”,这种深入骨髓的讲解方式,让我受益匪浅,也让我对未来在相关领域的学习和研究充满了信心。
评分我是一名对人工智能和大数据充满好奇心的学生,一直想找一本能够系统性地讲解搜索引擎原理的书。这本书的出现,简直像及时雨。它不是那种浮光掠影的介绍,而是真正深入到搜索引擎的每一个技术细节。我特别欣赏书中对分布式系统在搜索引擎中的应用讲解,以及如何处理海量数据和高并发请求的策略。那些关于数据存储、计算框架的讨论,让我意识到了构建一个高效、可扩展的搜索引擎所面临的巨大挑战。而且,书中提供的源代码,为我理解这些复杂的技术提供了直观的入口。通过阅读和分析代码,我能够更好地把握算法的实现细节,甚至可以尝试着去优化和改进。对于想要将理论知识转化为实际应用的学生来说,这本书的价值是无法估量的。
评分坦白说,这本书的深度远超我的预期。我本来是抱着学习搜索引擎基础知识的心态来阅读的,但很快就被其庞大的知识体系和精深的理论所震撼。书中对自然语言处理在搜索引擎中的应用,比如分词、词性标注、实体识别等,都有非常详尽的阐述,并且提供了相应的实现思路和代码。这对于我这种对NLP方向感兴趣的学生来说,简直是巨大的惊喜。另外,书中关于信息检索的最新研究进展和发展趋势的探讨,也让我对搜索引擎的未来有了更清晰的认识。那些对新算法和技术的分析,虽然有些部分对我来说尚显前沿,但能够接触到这些最前沿的知识,本身就是一种巨大的收获。这本书绝对是提升专业能力的绝佳途径。
评分作为一名有一定编程基础的学生,我一直在寻找能够真正指导我进行搜索引擎系统研发的资料。这本书的定位非常准确,它不仅是教学参考书,更是实际技术资料的宝库。书中的源代码质量极高,结构清晰,注释也十分到位,让我在学习理论的同时,能够立刻看到实际的工程实现。我尤其看重书中关于如何优化搜索效率和准确率的章节,比如相关的优化算法和策略。这些内容对于我未来参与实际项目非常有帮助。它不是那种纸上谈兵的书,而是真正能够指导你一步步构建和改进搜索引擎的实践手册。通过这本书,我不仅学到了原理,更学到了如何将这些原理落地,如何设计和实现一个高性能的搜索引擎系统。
本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度,google,bing,sogou 等,本站所有链接都为正版商品购买链接。
© 2025 windowsfront.com All Rights Reserved. 静流书站 版权所有