文本与网络中的幂率分布

时间 2019-12-07

原文原文链接

问题背景：在大量文本中，对每一个单词的出现次数进行统计，能够获得一张单词出现次数的表格。如：网络

后面2列，可据此造成二维坐标中的某个点。好比出现次数为100,000的单词，有20个。则对应坐标的横轴100,000，纵轴20.dom

将全部的行都在坐标中标注，并去掉重复的标注点，便可获得以下的图：blog

文本中的幂率分布即以下现象：it

能够看到具备低出现次数的单词（横坐标较小），数量很大（纵坐标较大）。反之，具备高出现次数的单词，好比a, of, with, for ... 数量并很少。并且在幂坐标系里，基本呈现线性，这就是所谓的幂率分布。table

可当作是一排学生，出现的次数至关于学生的身高。那些身高很高的学生个数并很少，而身高不高的学生数量庞大。大量单词仅仅出现少许的几回。class

对于Random Walk爬取的context，其节点出现的频率与具备此频率的节点个数之间，也服从相似word 的幂率分布，这是DeepWalk拿来讲事儿的根基。如图：

。im

看一个netGAN 论文（ICML2018）中的图：
统计

度数小的节点，位于x轴左侧，数量较大，y轴上侧。度数大的节点，位于x轴右侧，在y轴上处于值较小的位置，及数量较少。word