如何描述一个网络
Degree Distribution
P(k): 随机选择的节点, 度为k的的几率分布, 使用直方图来描述node


其中 表示度为k的节点数, 好比上图中,度为1的节点数有6, 全部节点数为10, 因此
网络
Path Length
Path: path是指每一个节点链接下一个节点的序列,其中,一个path可以重复屡次相同的边, 以下图: ACBDCDEG app


Distance: 链接节点对最少数量的边,称为两个节点间的distance,以下图,其中 , 若图中两节点无链接,或中间链接断开,则distance为无穷,在有向图中,distance的计算应该考虑两个节点间的方向,以下图
,不是对称的: dom




Diameter在graph中,全部节点对当中最长distance; Average path length针对graph来讲, average path length计算公式以下: spa
其中 是node i到node j的distance,
是指图最多可存在的边数:
3d
Cluster coefficient
cluster coefficient 对于无向图,用来描述节点i与他的邻居的连接状况, 其中节点i的度为 ,clustering coefficient计算公式以下: component
以下图, 图的node i的cluster coefficient计算以下: 递归
Average clustering coefficient: ci




avg. clustering: C= (1+1/3+1/3+1)/8=1/3同步
Connected components
Connectivity 图当中最大的可链接的component:可以经过path连接的任意两个几点的最大的集合; 如何找到图当中的connect components,从图中随机节点开始,按广度优先策略遍历,标记遍历过的节点,若是,全部的节点均被遍历,那么这个未connected component, 不然从未遍历的节点中随机开始,重复广度优先策略遍历;


描述实际中的图:MSN Messenger
msn一个月的相关的数据,以下:


Degree Distribution


x坐标log以后:


可见大部分的节点degress在个位数。
Clustering
将全部的节点的k与c绘制在以下图中,整个graph的avg culstering coefficient约为0.1140


Connected Components


Diameter
msn的graph中平均path length为6.6, 90% 的节点可以触及在8个连接后触及到另外一节点;


图的核心属性如何使用?
这些graph的属性是意外的仍是在咱们自己预料之中?


PPI Network


Random Graph Model
Simplest Model of Graph
ER Random Graphs 两个变种:
1. : n个节点的无向图,其中每一条边是几率为p的独立同分布;
2. : n个节点的无向图,其中m个边均匀随机生成;
须要说明的是,n, p 没法惟一地的决定graph,以下图,相同的n,p下, 咱们有不一样的图:


Degree Distribution of
假定 表示度为k在全部节点中的占比, 则
很明显的binomial distribution, 因此均值、方差为:
标准差率为: ,当图无限大的时候,则标准差为0, 全部的节点都为
。
Clustering Coefficient of 
已知 边为几率为p的独立同步分, 其中
, 故
Expansion
定义 : 若是一个graph的任意的子集S,子集中边的条数大于alpha乘以子集或者graph去除子集以后的节点数量, Expansion一般用来衡量图的鲁棒性:


这张ppt没理解清楚,


在 中,n*p为常数,因此avg deg k也为常数:


Connected Components
,Largest CC中节点占图中全部节点的比例


Random Graph Model vs. MSN
在Random Graph Model 和实际的MNS的4个核心属性对比:


真实网络和Random Graph相似吗 ?
- Giant Connected component: yes
- Average path length: yes
- Clustering Coefficient: No
- Degree Distribution: No
The Small-World Model--能同时保证high clustering且短path的图吗?


回顾下前面MSN network,clustering coef为0.11, 而 的clustering coef为
。 另一个例子, IMDB数据集、Electrical power grid, Network of nerons中:


其中h:average shortest path length, C: avg clustering coefficient, random,是保证相同avg degree,相同节点下的图的状况。


下图左边:高clustering coefficient: 朋友的朋友是个人朋友;


Small-World同时保证high cluster and low diameter; 以下图,从high clustering/high diameter, 到low clustering/low diameter, 增长随机性(p变大): 即随机的将一条边的另外一个端点链接到任意较远的节点上,这样能够保持high clustering,low diameter;


下图中的p区域保证保证high clustering 和low path length:


Kronecker Graph Model: Generating large realistic graphs
递归的graph的生成: Self-similarity


Kronecker Produce是一种生成self-similar矩阵的方法:


Kronecker Product 定义以下:


举个例子:


- 构建一个
的初始几率矩阵;
- 计算k阶Kronecker 矩阵;
- 遍历k阶矩阵,按
构建edge(u, v)连接


如上图最后, 须要模拟 次,耗时过高, 是否有更高效方法(利用其递归结构)?


真实网络与Kronecker网络很类似, 右上角为其初始矩阵:

