0%

巴拉巴西《网络科学》第二章

巴拉巴西《网络科学》第二章

Albert-László Barabási, Network Science, Chapter 2

第二章介绍图论,明确一些基本概念和方法,如度专题(度、平均度和度分布)、路径专题(最短路径、直径等)、邻接矩阵(很重要)和网络属性(连通性、集聚系数等)。

2.1. 哥尼斯堡七桥问题(The Bridges of Königsberg)

不多说了,很熟悉了,配一张卫星地图,历史上的七桥问题所在的哥尼斯堡现在为俄罗斯加里宁格勒,不是德国的那个。
七桥问题

2.2. 网络和图(Networks and Graphs)

也比较熟悉了,二者有概念称呼上的不同:

Network Science Graph Theory GIS
Network Graph Polygon
Node Vertex Point
Link Edge Edge

常见的网络:

Network Nodes Links Directed / Undirected N L ‹K›
InternetRoutersInternet connectionsUndirected192,244609,0666.34
WWWWebpagesLinksDirected325,7291,497,1344.60
Power GridPower plants, transformersCablesUndirected4,9416,5942.67
Mobile-Phone CallsSubscribersCallsDirected36,59591,8262.51
EmailEmail addressesEmailsDirected57,194103,7311.81
Science CollaborationScientistsCo-authorshipsUndirected23,13393,4378.08
Actor NetworkActorsCo-actingUndirected702,38829,397,90883.71
Citation NetworkPapersCitationsDirected449,6734,689,47910.43
E. Coli MetabolismMetabolitesChemical reactionsDirected1,0395,8025.58
Protein InteractionsProteinsBinding interactionsUndirected2,0182,9302.90

2.3. 度、平均度和度分布(Degree, Average Degree and Degree Distribution)

$k_i$为第$i$个节点的度。
连接数

平均度

对于有向图

度分布
$p_k$表示随机在网络中随机选取一个节点,它的度为$k$的概率,则满足:

则度为$k$的节点个数为

平均度可以表示为

度分布很重要

2.4. 邻接矩阵(Adjacency Matrix)

定义:一个图的邻接矩阵是指这样一个$N\times N$的矩阵$\pmb A$,其元素$A_{ij}$满足:

  • 无向图的邻接矩阵是对称的;
  • 有向图不是对称的;
  • 无自环图的邻接矩阵对角线为0。

根据邻接矩阵,我们可以将度的性质表示出来:

  • 节点的度:$k_i=\sum_{j=1}^{N}A_{ij}$
    • 对于有向图而言:
      • $k_i^{out}=\sum_{j=1}^{N}A_{ji}$
      • $k_i^{in}=\sum_{j=1}^{N}A_{ij}$
  • 总连接数:$2L=2\sum_{i=1}^{N}k_i^{in}=2\sum_{i=1}^{N}k_i^{out}=\sum_{ij}^{N}A_{ij}$

邻接矩阵更重要!

2.5. 真实的网络是稀疏的(Real Networks are Sparse)

对于一个含有$N$个节点的网络来说,如果其有向,则最大连边数为$N(N-1)$,如果其无向,则最大连边数为$\frac{N(N-1)}2$。
对于万维网(WWW)来说,其拥有325,729个页面,完全图需要$10^{12}$个连接,而实际上只有1,497,134个,只有不到0.000001%。

2.6. 加权网络(Weighted Networks)

连边带权:$A_{ij}=w_{ij}$。

麦特卡菲定律(Metcalfe’s Law):网络构建的成本随着节点的数目线性增长,而收益却是二次曲线。
有一定道理,不过大多数网络是稀疏的,所以收益是线性的;同时网络中并非所有的连接都是等同的,大多数的连接很少被使用,也就是权重较低。

2.7. 二部图(Bipartite Networks)

定义:二部图是指这样的图,可以将其节点集合划分为两个不重叠的非空子集$U$和$V$,其中同一集合内的节点之间没有边相连,只有属于不同集合的节点之间可能存在边相连。

  • 二部图的投影:二部图的投影是针对其中的一个集合的一张图,若该集合中的两个点在二部图中有公共的邻居,那么在投影中这两个点相连。
  • 二部图投影
    人类疾病图(Human Disease Network, or deseaseome):
  • 人类疾病图是一个二部图,两个子集分别为疾病和基因,可以投影为两个图:
    • 疾病图:节点为疾病,两个疾病如果有边相连,就说明它们有共同的影响基因。
    • 基因图:节点为基因,如果两个基因与同一个疾病有关,则有边相连。
      HumanDiseaseNetwork
      类似地,可以定义多部图(multipartite networks),比如“食谱—原料—成分”图。

2.8. 路径和距离

注意区分欧拉路径和哈密顿路径:

  • 欧拉路径(Eulerian Path)指的是经过每个边一次;
  • 哈密顿路径(Hamiltonian Path)指的是经过每个节点一次。
    最短路径如何计算?
  • 路径的计算可以使用BFS广度优先算法计算;
  • 路径的数目可以通过对邻接矩阵进行乘方运算:

    命题:从节点$i$到节点$j$的距离为$d$的路径数目为$A^d_{ij}$,表示邻接矩阵$A$的$d$次方的第$ij$元素。
    证明:
    令$N_{ij}^{(d)}$表示从$i$到$j$的长度为$d$的路径数目,只需证明:$N_{ij}^{(d)}=A_{ij}^{d}$。
    对距离$d$采用数学归纳法:
    首先对于$d=1$,$A_{ij}$定义即为证明,固有$N_{ij}^{(1)}=A_{ij}^{1}$。
    以下考虑$d\ge 2$:
    考虑从节点$i$到节点$j$的长度为$d$的路径的最后一步,根据加法原理和乘法原理:
    $N_{ij}^{(d)}=\sum_{k=1}^N N_{ik}^{(d-1)}N_{jk}^{(1)}=\sum_{k=1}^N A_{ik}^{d-1}A_{jk}^{1}=A_{ij}^{d}$
    证毕。

网络的直径(Network Diameter):网络中两节点最短距离的最大值。
网络的平均距离(Average Path Length):网络中两两节点最短距离的平均值:$\langle d \rangle=\frac 1 {N(N-1)}\sum_{i,j=1,N;i\neq j}d_{ij}$
网络的距离分布(Distance Distribution):距离为$d$的点对的概率。

2.9. 连通性(Connectedness)

关注寻找网络连通分支的算法。

2.10. 集聚系数(Clustering Coefficient)

定义