问题背景:在大量文本中,对每一个单词的出现次数进行统计,能够获得一张单词出现次数的表格。如:网络
word | #existance | #of word with same existance |
---|---|---|
a | 100,000 | 20 |
an | 100,000 | 20 |
boy | 99,888 | 19 |
cat | 99,877 | 18 |
... | ... | ... |
dog | 5000 | 3000 |
eat | 4000 | 3000 |
... | ... | ... |
folkloristic | 20 | 80000 |
wacky | 10 | 80000 |
zannichelliaceae | 1 | 90009 |
后面2列,可据此造成二维坐标中的某个点。好比出现次数为100,000的单词,有20个。则对应坐标的横轴100,000,纵轴20.dom
将全部的行都在坐标中标注,并去掉重复的标注点,便可获得以下的图:blog
文本中的幂率分布即以下现象:it
能够看到具备低出现次数的单词(横坐标较小),数量很大(纵坐标较大)。反之,具备高出现次数的单词,好比a, of, with, for ... 数量并很少。并且在幂坐标系里,基本呈现线性,这就是所谓的幂率分布。table
可当作是一排学生,出现的次数至关于学生的身高。那些身高很高的学生个数并很少,而身高不高的学生数量庞大。大量单词仅仅出现少许的几回。class
对于Random Walk爬取的context, 其节点出现的频率与具备此频率的节点个数之间,也服从相似word 的幂率分布,这是DeepWalk拿来讲事儿的根基。如图:
。im
看一个netGAN 论文(ICML2018)中的图:
统计
度数小的节点,位于x轴左侧,数量较大,y轴上侧。度数大的节点,位于x轴右侧,在y轴上处于值较小的位置,及数量较少。word