正版搜索引擎原理技术与系统研究生或高年级科生教学参考书技术资料提供大量源代码提高 pdf epub mobi txt 电子书下载 2026

简体网页||繁体网页

☆☆☆☆☆

图书标签:

搜索引擎
信息检索
原理
技术
系统
源代码
教学参考书
研究生
高年级本科生
技术资料

下载链接在页面底部

facebook linkedin mastodon messenger pinterest reddit telegram twitter viber vkontakte whatsapp 复制链接

想要找书就要到静流书站

windowsfront.com

立刻按 ctrl+D收藏本页

你会得到大惊喜!!

店铺：广结良缘图书专营店

出版社：科学出版社

ISBN：9787030342584

商品编码：26864440319

丛书名：搜索引擎原理.技术与系统(第2版)

开本：5

出版时间：2012-05-01

具体描述

关联模板【结束】节点，请勿手动操作节点内的内容！！！

基本信息

书名:搜索引擎——原理、技术与系统

原价：48.00元

作者:李晓明、闫宏飞、王继民

出版社：科学出版社

出版日期：2012-05-01

ISBN：9787030342584

字数：472750

页码：330

版次：1

装帧：平装

开本：16开

目录
第二版前言
版前言
章引论
节搜索引擎的概念
第二节搜索引擎的发展历史
第三节一些著名的搜索引擎
第四节小结
上篇 Web搜索引擎基本原理和技术
第二章 Web搜索引擎工作原理和体系结构
节基本要求
第二节网页搜集
第三节预处理
第四节查询服务
第五节体系结构
第六节小结
第三章 Web信息的搜集
节概述
一、超文本传输协议
二、一个小型搜索引擎系统
第二节网页搜集
一、定义URL类和Page类
二、与服务器建立连接
三、发送请求和接收数据
四、网页信息存储的天网格式
第三节多道搜集程序并行工作
一、多线程并发工作
二、控制对一个站点并发搜集线程的数目
第四节如何避免网页的重复搜集
一、记录未访问、已访问URL和网页内容摘要信息
二、域名与IP的对应问题
第五节搜集信息的类型
第六节小结
第四章对搜集信息的预处理
节索引网页库
第二节网页编码识别
一、基本而重要的概念
二、常用字符编码
三、常用字符编码算法
四、字符的输入和显示
五、编码识别
第三节中文自动分词
第四节分析网页和建立倒排文件
第五节小结
第五章信息查询服务
节检索的定义
第二节查询服务的实现
一、结果集合的形成
二、查询结果显示
第三节小结
中篇对质量和性能的追求
第六章可扩展搜集子系统
节天网系统概述和集中式搜集系统结构
一、天网系统结构
二、集中式搜集系统
第二节利用并行处理技术高效搜集网页的一种方案
一、节点间URL的划分策略
二、关于性能的讨论
三、性能测试和评价
四、系统的动态可配置性设计
第三节天网分布式搜集系统
第四节对Deep Web的认识
一、Deep Web的成因
二、搜索Deep Web的方法
第五节小结
第七章网页净化与消重
节网页净化与元数据提取
一、DocView模型
二、网页的表示
三、提取DocView模型要素的方法
四、模型应用及实验研究
第二节网页消重算法
一、消重算法
二、算法评测
第三节小结
第八章高性能检索子系统
节检索系统基本技术
一、系统设计与结构
二、索引创建
三、检索过程
第二节适于查询的网页索引结构
一、倒排索引结构
二、平面位置索引
第三节倒排索引压缩
一、倒排索引压缩技术
二、词典与倒排表的压缩
第四节索引剪枝
一、静态索引剪枝方法
二、动态索引剪枝方法
第五节混合索引技术
一、混合索引的原理
二、混合索引的实现
第六节倒排文件缓存机制
一、倒排文件缓存
二、负载特性
三、缓存策略的选择
第七节小结
第九章相关排序与系统质量评估
节传统IR的相关排序技术
第二节链接分析与相关排序
一、链接分析
二、Web查询模式下的新信息
第三节相关排序的一种实现方案
一、形成网页中词项的基本权重
二、利用链接的结构
三、收集用户反馈信息
四、计算终的权重
第四节信息检索技术评估
一、信息检索技术评估指标
二、TREC和CWIRF信息检索评估
三、搜索引擎技术评估
第五节小结
下篇 Web信息资源的组织与应用服务
第十章大规模Web历史网页仓储系统的构建
节国外Web历史网页保存现状
一、Internet Archive
二、PANDORA
三、其他相关Web保存项目
第二节中国Web信息博物馆的系统设计
一、Web InfoMall的设计目标
二、Web InfoMall的体系结构
第三节历史网页的存储
一、数据的组织
二、存储结构
三、数据管理与压缩
四、存储性能
第四节数据访问
一、PageID的索引
二、URL的索引
三、数据服务
四、性能与优化
第五节网页的格式保存
第六节小结
第十一章大规模Web网页信息仓储系统的构建
节网络资源库藏相关工作
一、Ibiblio
二、Internet Archive
三、Wikimedia
四、中国互联网数字资源财富库藏
第二节 CDAL系统概况
第三节 CDAL系统设计
一、系统体系结构
二、可扩展的存储组织方案
第四节网络资源描述信息获取
一、Ontology概述
二、描述信息获取机制
三、改进查询的方法
四、改进排序的方法
第五节基于局部聚类思想的共现词汇算法
一、基本定义
二、FDC共现词汇算法
第六节小结
第十二章中文网页自动分类与聚类
节文档自动分类算法的类型
第二节实现中文网页自动分类的一般过程
第三节影响分类器性能的关键因素分析
一、实验设置
二、训练样本
三、特征选取
四、分类算法
五、截尾算法
六、中文网页分类器的设计方案
第四节天网目录导航服务
一、问题的提出
二、天网目录导航服务的体系结构
三、天网目录的运行实例
第五节文本聚类方法
一、文本聚类的一般过程
二、文本间相似性的度量
三、常用聚类算法
四、聚类结果的评估
五、搜索引擎返回结果的聚类
第六节小结
第十三章开放域问答系统
节概述
一、问答系统的历史
二、著名开放域问答系统介绍
三、开放域问答系统的通用体系结构
第二节问句的分析
一、问句中的指代消解
二、问句分类
三、问句主题提取
第三节文档和段落检索
一、检索模型的选用
二、查询生成
三、查询结果排序
四、增强索引的功能
第四节答案提取和验证模块
一、生成候选答案集合
二、答案提取
第五节问答系统的改进方法
一、问答系统中外部资源的利用
二、寻找特殊类问题的解决方案
三、通过系综方法构建问答系统
第六节问答系统的评测
一、TREC问答系统评测
二、问答系统评测指标
第七节实例:天网开放域问答系统
第八节小结
参考文献
附录术语
图目录
图1-1 2012年3月在Google上检索“伊拉克战争”的结果
图1-2 2012年3月在Open Directory上检索“伊拉克战争”的结果
图2-1 搜索引擎示意图
图2-2 搜索引擎三段式工作流程
图2-3 搜索引擎的体系结构
图3-1 TSE搜索引擎界面
图3-2 TSE查询结果页面
图3-3 TSE网页快照页面
图3-4 TSE系统结构
图3-5 Web信息的搜集
图3-6 Sockets和端口
图3-7 通过Socket建立连接
图4-1 网页预处理系统结构
图4-2 原始网页库中的记录格式
图4-3 索引网页库算法
图4-4 字符的输入和显示流程
图4-5 GB2312,Big5和GBK字符编码分布
图4-6 正向减字匹配算法流程
图4-7 切词算法流程
图4-8 分析网页与建立倒排文件流程
图4-9 过滤网页中正文信息算法
图4-10 正向索引表记录格式
图4-11 由正向索引建立反向索引
图5-1 信息查询的系统结构
图5-2 基本检索算法
图5-3 动态摘要算法
图5-4 用户查询日志的记录格式
图6-1 天网系统概貌
图6-2 搜集系统的主控结构
图6-3 协调进程工作算法
图6-4 分布式Web搜集系统结构
图6-5 负载方差
图6-6 并行搜集系统与集中式搜集系统的性能对比
图6-7 分布式系统效率
图6-8 URL两阶段映射
图6-9 天网分布式搜集系统P_Arthur体系结构
图6-10 人才招聘网站首页
图7-1 用DocView模型提取的网页要素
图7-2 净化后的网页
图7-3 HTML Tree结构
图7-4 内容块权值传递过程
图7-5 有主题网页DocView模型生成过程
图7-6 计算网页特征项权值的算法
图7-7 正文段落识别过程
图7-8 基于anchor text的超链选取算法
图7-9 网页净化前后分类效果对比
图7-10 查全率随选取关键词个数的变化
图8-1 检索系统集成框架结构
图8-2 天网WWW检索分布式系统构架
图8-3 倒排索引结构示意图
图8-4 按块组织的倒排链的结构
图8-5 位置索引的结构
图8-6 CLPS结构示意图
图8-7 倒排链中文档号之间的d-gaps分布图
图8-8 不同文档号分配下平均每个查询对应文档号序列的压缩大小
图8-9 不同压缩算法对文档号的解压速度
图8-10 不同文档号分配下平均每个查询对应词频序列的压缩大小
图8-11 不同压缩算法对词频的解压速度
图8-12 平均每个查询对应的位置信息需要的存储空间
图8-13 索引剪枝方法的分类
图8-14 MAXSCORE算法的示例
图8-15 WAND算法选择候选文档的过程
图8-16 基于块索引的支点文档号的选择示例
图8-17 Interval-Base剪枝方法中文档子区间划分的示例
图8-18 SAAT方法处理查询处理模式及分数累加器数量的变化
图8-19 当前支持高效SR IR剪枝的索引结构
图8-20 扩展词典树结构示例
图8-21 扩展词典匹配查找算法
图8-22 搜索引擎检索系统缓存结构
图8-23 文档数据访问对象大小分布
图8-24 I/O与PAGE序列序号-频度分布
图8-25 I/O与PAGE序列时间间隔分布
图8-26 I/O和PAGE序列中模式串
图9-1 Inktomi提供的几种搜索引擎技术的比较
图9-2 词典在系统中的地位
图9-3 新词学习
图9-4 网页的互联结构示意
图9-5 信息获取技术评估的“森林”
图9-6 查准率和召回率基础定义图示
图9-7 查准率和召回率例子
图9-8 “省事的”11点标准召回率例子
图9-9 实践中召回率例子
图9-10 实际中的44个查询词的评价统计表和P-R图
图9-11 测试集在检索评估中的角色
图9-12 帮助判断相关结果页面的计算机辅助程序入口
图9-13 帮助判断相关结果页面的计算机辅助程序操作界面
图10-1 Web InfoMall体系结构
图10-2 网页数据的分割
图10-3 Web InfoMall的存储结构
图10-4 网页的引用压缩示意图
图11-1 CDAL提供的资源访问方式
图11-2 CDAL系统结构图
图11-3 基于Ontology的网络资源描述信息获取
图11-4 概念的属性及其词汇扩展(以电影类资源为例)
图11-5 获得描述信息的改进排序算法
图11-6 网络资源描述信息展示
图12-1 自动文档分类算法的分类
图12-2 中文网页自动分类的一般过程
图12-3 中文网页分类器的工作原理图
图12-4 WebSmart——一个网页实例集搜集和整理工具
图12-5 一种中文网页的分类体系
图12-6 Macro-F1值随样本数的变化
图12-7 Micro-F1值随样本数的变化
图12-8 CHI、IG、DF、MI的比较(Macro-F1)
图12-9 CHI、IG、DF、MI的比较(Micro-F1)
图12-10 kNN与NB分类结果的比较
图12-11 k的取值对分类器质量的影响(Marco-F1)
图12-12 k的取值对分类器质量的影响(Micro-F1)
图12-13 兰式距离法与欧式距离法对12个不同类别的分类情况
图12-14 基于层次模型的kNN与基本kNN的比较
图12-15 RCut和SCut截尾算法的比较
图12-16 天网目录的体系结构
图12-17 天网目录导航服务
图12-18 文本聚类的一般过程
图12-19 层次聚类实例
图12-20 k-均值算法进行文本聚类的过程
图12-21 搜索结果聚类系统Carrot2
图13-1 START系统界面
图13-2 Ask Jeeves查询结果
图13-3 问答系统的通用体系结构
图13-4 天网开放域系统的体系结构
表目录
表4-1 网页索引文件
表4-2 URL索引文件
表6-1 SOIF数据描述
表6-2 SOIF具体语法
表6-3 参照序列,假设节点数为2
表7-1 类别编号对照表
表7-2 消重实验结果
表7-3 当N=10、δ=0.01时5种算法的查全率和准确率
表7-4 考察δ的取值对算法3和4的影响
表7-5 分段签名算法的时间复杂度及性能
表7-6 基于关键词的各算法的时间复杂度及性能(N=10,δ=0.01)
表8-1 MTF对序列<4,4,1,4,2>进行转换的过程
表8-2 对含100词条的词典使用不同编码所需要的空间
表8-3 平均每个查询对应词频链的空间大小(文档号按URL序分配)
表8-4 不同索引的组织结构及其支持的查询处理方式
表8-5 数据集基本统计信息
表9-1 新词学习对检索准确率的影响
表9-2 影响权值的HTML标签
表9-3 补偿因子定义表
表9-4 2004中文Web信息检索评测提交结果
表9-5 主题提取
表9-6 导航搜索
表9-7 用户查询信息类别
表10-1 网页存储性能(个/秒)
表10-2 网页访问性能(个/秒)
表11-1 几个网络资源库藏系统的特征
表11-2 CDAL中的资源分布
表12-1 样本集中类别及实例数量的分布情况表
表12-2 kNN和NB算法的分类质量和分类效率比较
表12-3 欧式距离与兰式距离的比较
表12-4 基于层次模型的kNN与基本kNN的比较
表12-5 RCut和SCut截尾算法的比较
表12-6 一个分类器的设计方案
表13-1 问题分类体系结构及TREC问答任务中问题的分布
表13-2 天网开放域系统在TREC2005中的表现

内容提要

搜索引擎：原理、技术与系统（第二版）系统介绍了互联网搜索引擎的工作原理、实现技术及系统构建方案。全书分三篇共13章。上篇介绍搜索引擎的基本原理和技术，讲述一个小型简单搜索引擎实现的具体细节；中篇详细讨论了大规模分布式搜索引擎系统的设计要点及其关键技术；下篇结合“中国Web信息博物馆”和“中国互联网数字资源财富库藏”的实践经验，介绍了构建大规模Web历史网页和网页仓储系统的技术和方法，以及中文网页的自动分类与聚类、开放域问题系统的构建等。
搜索引擎：原理、技术与系统（第二版）层次分明，由浅入深，上篇和中篇涉及内容提供了源代码下载地址；既有深入的理论分析，也有大量的实验数据和程序，具有学习和实用双重意义。
搜索引擎：原理、技术与系统（第二版）可作为高等院校计算机科学与技术、软件工程、信息管理与信息系统、电子商务等专业的研究生或高年级本科生的教学参考书和技术资料；对广大从事网络技术、Web站点管理、数字图书馆、Web挖掘等研究和应用开发的科技人员有很高的参考价值；书中提供了大量源代码，除了用于构建搜索引擎之外，对于学习编程，提高编程技巧，以及实现一个大规模应用开发也有一定的参考价值。

《计算思维与程序设计基础：解决复杂问题的现代方法》内容简介：在这个信息爆炸、技术飞速迭代的时代，掌握高效的问题解决能力和扎实的编程基础，已成为各学科领域研究者及未来技术人才不可或缺的核心素养。本书旨在为研究生及高年级本科生构建坚实的计算思维框架，并在此基础上深入阐释现代程序设计的核心理念与实践技巧。它并非聚焦于某一特定领域的底层技术细节，而是着眼于更普适、更基础的科学方法论，帮助读者建立起从抽象思维到具体实现、从理解问题到构建解决方案的完整认知链条。本书的核心在于“计算思维”的引入。我们认为，计算思维是一种解决问题的思维方式，它借鉴了计算机科学的原理和概念，能够将复杂问题分解为更小的、可管理的部分，识别模式，抽象出关键信息，并设计出算法来解决问题。本书将带领读者循序渐进地理解计算思维的四大基石：分解（Decomposition）、模式识别（Pattern Recognition）、抽象（Abstraction）和算法设计（Algorithm Design）。我们将通过生动的案例和循序渐进的练习，引导读者在日常学习和科研中自觉运用这些思维工具，从而提升解决复杂问题的效率和创造力。在计算思维的指导下，本书将深入探讨现代程序设计的核心原则。与单纯的技术堆砌不同，本书强调的是“如何思考”和“如何构建”高质量的代码。我们将从数据结构的基础出发，介绍各种经典数据结构的原理、适用场景及其在解决实际问题中的作用。理解链表、栈、队列、树、图等基本数据结构，是高效组织和处理信息的前提。在此基础上，我们还会深入探讨算法的分析与设计，包括时间复杂度和空间复杂度的衡量方法，以及排序、搜索、图算法等核心算法的原理与实现。本书将不仅仅局限于介绍算法本身，更重要的是引导读者理解算法设计的权衡（Trade-offs），如何在效率、资源消耗和实现复杂度之间做出明智的选择。本书特别强调“模块化设计”和“可维护性”在程序开发中的重要性。我们认为，优秀的程序不仅能够正确运行，更应该易于理解、易于修改、易于扩展。因此，本书将详细介绍面向对象编程（OOP）的思想，包括封装、继承和多态等核心概念，并探讨如何利用这些原则来构建清晰、结构化的代码。读者将学习如何将复杂系统分解为相互协作的独立模块，如何设计清晰的接口，以及如何通过良好的设计模式来提高代码的可重用性和可维护性。在语言选择方面，本书将以一种通用且易于理解的现代编程语言（例如 Python 或 Java，具体取决于读者群体和教学目标）作为载体，贯穿于各个章节的讲解与示例之中。我们不会沉溺于某种语言的特定语法细节，而是利用语言的强大功能来清晰地展示计算思维和程序设计原理。大量的源代码示例将作为理论的有力支撑，这些示例经过精心设计，力求简洁、清晰，并能直观地体现所讲解的概念。读者可以通过阅读、理解和实践这些代码，加深对理论知识的掌握，并逐步培养起独立编写程序解决问题的能力。本书的另一个重要特色在于对“调试与测试”的强调。我们深知，程序开发过程中，发现和修复错误是不可避免的环节。因此，本书将系统介绍各种调试技巧和策略，帮助读者高效定位问题根源。同时，我们将引入单元测试、集成测试等概念，并讲解如何编写有效的测试用例，以确保程序的正确性和健壮性。构建可信赖的软件系统，离不开严谨的测试流程。此外，本书还将触及一些现代软件工程的基础概念，例如版本控制系统（如 Git）的重要性，以及如何利用其进行团队协作和代码管理。虽然不深入探讨复杂的系统架构，但我们会为读者提供一个初步的视角，理解软件开发的生命周期以及良好的开发实践如何提升整体效率和项目质量。本书的最终目标是赋能读者，让他们不仅能够理解和分析已有的复杂系统，更能独立地设计、实现和维护自己的解决方案。它将成为一本引导读者迈向更高级别计算和软件开发之旅的坚实起点，培养他们的逻辑思维能力、抽象能力和工程实践能力，为他们在学术研究、技术创新和职业发展中奠定坚实的基础。这本书的内容将聚焦于“如何思考”和“如何构建”，而非特定技术的“是什么”和“怎么用”。本书的核心价值体现在以下几个方面：普适性强：计算思维和程序设计的基础原理是跨越学科、跨越语言的。本书所传授的知识体系，将使读者在面对任何需要逻辑分析和系统构建的问题时，都能得心应手。深度与广度兼顾：在深入讲解核心原理的同时，本书也广阔地涵盖了程序设计中的关键方面，从理论到实践，从基础到进阶，为读者构建一个完整的知识图谱。实践导向：大量的代码示例和贯穿其中的实践性指导，确保读者能够将理论知识转化为实际能力，真正“学会”而非仅仅“了解”。思维训练：本书最核心的价值在于对计算思维的培养。它将改变读者看待和解决问题的方式，使其成为更高效、更有创造力的学习者和开发者。面向未来：在快速发展的技术浪潮中，扎实的计算思维和程序设计基础是适应变化、迎接挑战的根本。本书为读者铺就了一条通往未来技术前沿的坚实道路。如果您希望提升自己的逻辑分析能力，掌握解决复杂问题的科学方法，并为未来的学术研究或技术生涯打下坚实的基础，《计算思维与程序设计基础：解决复杂问题的现代方法》将是您不可多得的参考。它将引导您领略计算科学的魅力，培养您成为一名真正意义上的“问题解决者”。

用户评价

评分☆☆☆☆☆

这本书简直是太棒了，让我彻底颠覆了对搜索引擎的认知！我原本以为搜索引擎就是个简单的关键词匹配机器，但深入阅读后才发现，背后隐藏着如此复杂精妙的技术。从倒排索引的构建到网页抓取策略的优化，再到 PageRank 算法的巧妙设计，作者用详实的代码和清晰的逻辑，一步步地揭开了搜索引擎的核心秘密。我尤其喜欢书中对信息检索模型和算法的深入剖析，那些关于 TF-IDF、BM25 的详细解释，配合源码示例，让我对如何更精准地理解用户查询意图有了全新的认识。书中的技术资料简直是宝藏，让我能够直接上手实践，而不是停留在理论层面。对于想要深入理解搜索引擎工作原理的研究生和高年级本科生来说，这本书无疑是不可多得的宝贵资源。它不仅提供了坚实的理论基础，更通过大量的源代码，让我有机会亲身体验和改造这些核心技术。

评分☆☆☆☆☆

坦白说，这本书的深度远超我的预期。我本来是抱着学习搜索引擎基础知识的心态来阅读的，但很快就被其庞大的知识体系和精深的理论所震撼。书中对自然语言处理在搜索引擎中的应用，比如分词、词性标注、实体识别等，都有非常详尽的阐述，并且提供了相应的实现思路和代码。这对于我这种对NLP方向感兴趣的学生来说，简直是巨大的惊喜。另外，书中关于信息检索的最新研究进展和发展趋势的探讨，也让我对搜索引擎的未来有了更清晰的认识。那些对新算法和技术的分析，虽然有些部分对我来说尚显前沿，但能够接触到这些最前沿的知识，本身就是一种巨大的收获。这本书绝对是提升专业能力的绝佳途径。

评分☆☆☆☆☆

作为一名有一定编程基础的学生，我一直在寻找能够真正指导我进行搜索引擎系统研发的资料。这本书的定位非常准确，它不仅是教学参考书，更是实际技术资料的宝库。书中的源代码质量极高，结构清晰，注释也十分到位，让我在学习理论的同时，能够立刻看到实际的工程实现。我尤其看重书中关于如何优化搜索效率和准确率的章节，比如相关的优化算法和策略。这些内容对于我未来参与实际项目非常有帮助。它不是那种纸上谈兵的书，而是真正能够指导你一步步构建和改进搜索引擎的实践手册。通过这本书，我不仅学到了原理，更学到了如何将这些原理落地，如何设计和实现一个高性能的搜索引擎系统。

评分☆☆☆☆☆

我是一名对人工智能和大数据充满好奇心的学生，一直想找一本能够系统性地讲解搜索引擎原理的书。这本书的出现，简直像及时雨。它不是那种浮光掠影的介绍，而是真正深入到搜索引擎的每一个技术细节。我特别欣赏书中对分布式系统在搜索引擎中的应用讲解，以及如何处理海量数据和高并发请求的策略。那些关于数据存储、计算框架的讨论，让我意识到了构建一个高效、可扩展的搜索引擎所面临的巨大挑战。而且，书中提供的源代码，为我理解这些复杂的技术提供了直观的入口。通过阅读和分析代码，我能够更好地把握算法的实现细节，甚至可以尝试着去优化和改进。对于想要将理论知识转化为实际应用的学生来说，这本书的价值是无法估量的。

评分☆☆☆☆☆

拿到这本书，我第一眼就被它厚重的篇幅和严谨的排版所吸引，感觉它就是为真正钻研技术的人准备的。翻阅目录，从信息收集、索引构建到查询处理、排序算法，几乎涵盖了搜索引擎的方方面面。最令我惊喜的是，书中提供了海量的源代码，而且这些代码都相当规范和易于理解，并非那种晦涩难懂的“天书”。我尝试着运行了几个核心模块，发现它们的功能确实与书中的讲解完美契合，这对于我这样喜欢动手实践的读者来说，简直是福音。以前在网上零散地学习过一些搜索引擎的知识，但总感觉不够系统，这本书正好填补了我的这个空白。它不仅讲“是什么”，更讲“为什么”和“怎么做”，这种深入骨髓的讲解方式，让我受益匪浅，也让我对未来在相关领域的学习和研究充满了信心。