内容简介
链路预测是网络信息挖掘中最基础最本质的问题,通过对已经观察到的网络结构和其他外部信息的分析,挖掘缺失的连接和预测未来可能出现的连接。链路预测算法综合运用了相似性分析、网络动力学、贝叶斯模型、机器学习、模体分析、最大似然分析等多学科方法和技术,在生物网络分析、朋友及关注对象推荐、个性化推荐、网络演化模型评价、标签分类、网络重构等问题上有着广泛的应用。《网络科学与工程丛书:链路预测》不仅系统介绍了链路预测问题描述、评价指标和针对不同网络类型的各类代表性算法,还在其中讨论了许多网络科学研究本质性的问题。
链路预测问题清晰、内涵丰富、入门容易、具有挑战性,可以反映不同类型网络结构和功能方面形形色色的特征,特别适合作为网络科学与工程研究的题目。《网络科学与工程丛书:链路预测》可供自然科学、工程技术科学以及社会科学领域的研究人员与广大在校生参考使用。
作者简介
吕琳媛,2008年获北京师范大学理学硕士学位,2012年获瑞士弗里堡大学物理系博士学位。现任杭州师范大学特聘教授、中欧联合实验室副主任兼执行主任、链路预测实验室负责人。目前主要从事复杂性科学领域的研究工作,利用统计物理学的概念、理论、方法来解决信息领域中的若干重要问题。近3年发表关于链路预测的论文30余篇,引用700余次。
周涛,获瑞士弗里堡大学物理系博士学位。现任电子科技大学互联网科学中心主任、教授、博士生导师。发表论文200余篇,论文SCI引用3000余次,Google引用6500余次。获第五届中国青少年科技创新奖、第十二届中国青年科技奖,入选首批青年拔尖人才支持计划、四川省百人计划和教育部新世纪优秀人才计划,获首批国家优秀青年科技基金支持。
内页插图
目录
第一章 复杂网络基本概论
1.1 什么是网络
1.1.1 社会网络
1.1.2 技术网络
1.1.3 生物网络
1.2 如何刻画网络
1.2.1 平均距离与小世界效应
1.2.2 度分布与无标度特性
1.2.3 局部结构
1.2.4 节点与链路的中心性
1.2.5 群落结构
1.2.6 关联性
1.2.7 熵
1.2.8 其他网络特征概览
1.3 最基本的网络模型
1.3.1 规则网络
1.3.2 随机网络
1.3.3 小世界网络
1.3.4 无标度网络
1.4 小结
第二章 链路预测的基本概念
2.1 背景和意义
2.2 问题描述
2.3 数据集划分
2.3.1 随机抽样
2.3.2 逐项遍历
2.3.3 k-折叠交叉检验
2.3.4 滚雪球抽样
2.3.5 熟识者抽样
2.3.6 随机游走抽样
2.3.7 基于路径抽样
2.4 评价指标
2.4.1 AUC
2.4.2 精确度
2.4.3 排序分
第三章 基于相似性的链路预测
3.1 基于局部信息的相似性指标
3.1.1 基于共同邻居的相似性指标
3.1.2 偏好连接相似性
3.1.3 局部朴素贝叶斯模型
3.2 基于路径的相似性指标
3.2.1 局部路径指标
3.2.2 Katz指标
3.2.3 LHN-II指标
3.3 基于随机游走的相似性指标
3.3.1 全局随机游走
3.3.2 局部随机游走
3.4 其他相似性算法
……
第四章 基于似然分析的链路预测
第五章 加权网络的链路预测
第六章 有向网络的链路预测
第七章 二部分网络的链路预测
第八章 链路预测的应用
第九章 结束语
精彩书摘
直接注释方法将根据网络中某个蛋白质的连接情况直接推测该蛋白质的功能。这类方法基于的假设是:在蛋白质相互作用网络中,距离相近的两个蛋白质更加倾向于拥有相似的功能。链路预测中基于节点相似性的方法实际上为我们提供了一系列计算节点距离的方式,可以认为相似性大的节点距离更近,因此倾向于具有相似的功能。此外,当已知标签稀疏,即只知道少量蛋白质的功能时,可以通过链路预测的方式挖掘未标签蛋白质与已标签蛋白质之间的潜在联系,从而提高功能预测的精度。
基于模块的方法的思路是:首先将网络相关的蛋白质组成不同的模块,然后根据该模块中已知的蛋白质的功能来得到整个模块所共有的可能功能,最后再来预测其中未知成员的功能。一个功能模块指其中的蛋白质所处的细胞位置以及相互作用使得它们可以实现一个特定的功能。而基于功能模块的蛋白质功能标注方法主要目的不再是预测单个蛋白质的功能,而是试图发现模块中所有蛋白质的共同内在的功能。一旦模块确定,可以通过一些简单的方法来预测其功能,比如该模块中如果大部分的蛋白质都具有某种功能,那么这种功能就将赋予该模块。本质上这种模块的划分与复杂网络的社团结构划分有很大的相似之处,而链路预测的方法可以帮助提高社团划分的准确性——基于节点相似性的方法本身也是社团划分的一类主要方法。
其他一些相关的问题包括:
(1)探测蛋白复合体。蛋白复合体由几个蛋白质组成,在蛋白质作用网中表现为紧密的小子图。因此,通常的图聚类、派系挖掘、图分解等方法,都可以用来寻找蛋白复合体。同样,通过预测来完整化蛋白质作用网,可以帮助寻找蛋白质复合体。
(2)网络可靠性评估。前面提到测定蛋白质相互作用的实验成本很高,因此可以通过链路预测的方法提前给出一些可靠性较高的链接关系作为实验对象,与此同时也可以排除一些可靠性较低的链接关系。另一方面,由于实验中的随机性因素和噪声的干扰,使得实验结果有可能是不可靠的。这时,链路预测中对于虚假边的识别方法可以帮助我们找出这些不可靠的结果,从而对实验结果进行有效的修正。
……
网络科学与工程丛书:链路预测 [Link Prediction] 电子书 下载 mobi epub pdf txt