信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中经常使用的模型和技术总结算法
引子:对于这个领域的博士生来讲,看懂论文是入行了解你们在作什么的研究基础,一般咱们会去看一本书。看一本书当然是好,可是有一个很大的缺点:一本书自己自成体系,因此包含太多东西,不少内容看了,可是实际上却用不到。这虽然不能说是一种浪费,可是却没有把有限力气花在刀口上。网络
我所处的领域是关于网络数据的处理(国际会议WWW, SIGIR, CIKM, WSDM, ACL, EMNLP,等)函数
我列了一个我本身认为的在咱们这个领域经常遇到的模型或者技术的列表,但愿对你们节省时间有所帮助:工具
1. 几率论初步 主要经常使用到以下概念:初等几率定义的三个条件,全几率公式,贝叶斯公式,链式法则,经常使用几率分布(Dirichlet 分布,高斯分布,多项式分布,玻松分布m) 虽然几率论的内容不少,可是在实际中用到的其实主要就是上述的几个概念。基于测度论的高等几率论,几大会议(www,sigir等等)中出现的论文中基本都不会出现。学习
2. 信息论基础 主要经常使用的概念:熵,条件熵,KL散度,以及这三者之间的关系,最大熵原理,信息增益(information gain)优化
3. 分类 朴素贝叶斯,KNN,支持向量机,最大熵模型,决策树的基本原理,以及优缺点,知道经常使用的软件包设计
4. 聚类 非层次聚类的K-means算法,层次聚类的类型及其区别,以及算距离的方法(如single,complete的区别a),知道经常使用的软件包orm
5. EM算法 理解不彻底数据的推断的困难,理解EM原理和推理过程数学
6. 蒙特卡洛算法(特别是Gibbs采样算法o)io
知道蒙特卡洛算法的基本原理,特别了解Gibbs算法的采样过程;Markov 随机过程和Markov chain等
7. 图模型 图模型最近几年很是的热,也很是重要,由于它能把以前的不少研究都包括在内,同时具备直观之意义。如CRF, HMM,topic model都是图模型的应用和特例。
a. 了解图模型的通常表示(有向图和无向图模型x),通用的学习算法(learning)和推断算法(inference),如Sum-product算法,传播算法等
b. 熟悉HMM模型,包括它的假设条件,以及前向和后向算法;
c. 熟悉LDA模型,包括它的图模型表示i,以及它的Gibbs 推理算法;变分推断算法不要求掌握。
d. 了解CRF模型,主要是了解它的图模型表示,若是有时间和兴趣a,能够了解推理算法;
e. 理解HMM,LDA, CRF和图模型的通常表示,通用学习算法和推理算法之间的联系和差异;
f. 了解Markov logic network(MLN),这是建构在图模型和一阶逻辑基础上的一种语言,能够用来描述不少现实问题,初步的了解,能够帮助理解图模型;
8. topic model 这个模型的思想被普遍地应用,全看完没有必有也没有时间,推荐以下:
a. 深刻理解pLSA和LDA,同时理解pLSA和LDA之间的联系和区别;这两个模型理解后,大部分的topic model的论文都是能够理解的了,特别是应用到NLP上的topic model。同时,也能够本身设计本身须要的非层次topic model了。
b. 若是想继续深刻,继续理解hLDA模型,特别是理解背后的数学原理Dirichlet Process,这样你就能够本身设计层次topic model了;
c. 对于有监督的topic model,必定要理解s-LDA和LLDA两个模型,这两个模型体现了彻底不一样的设计思想,能够细细体会,而后本身设计本身须要的topic model;
d. 对于这些模型的理解,Gibbs 采样算法是绕不开的坎;
9. 最优化和随机过程
a. 理解约束条件是等号的最优化问题及其lagrange乘子法求解;
b. 理解约束条件是不等号的凸优化问题,理解单纯形法;
c. 理解梯度降低法,模拟退火算法;
d. 理解登山法等最优化求解的思想
e. 随机过程须要了解随机游走,排队论等基本随机过程(论文中偶尔会有,但不是太常见n),理解Markov 随机过程(很是重要,采样理论中经常使用l);
10. 贝叶斯学习 目前愈来愈多的方法或模型采用贝叶斯学派的思想来处理数据,所以了解相关的内容很是必要。
a. 理解贝叶斯学派和统计学派的在思想和原理上的差异和联系;
b. 理解损失函数,及其在贝叶斯学习中的做用;记住经常使用的损失函数;
c. 理解贝叶斯先验的概念和四种经常使用的选取贝叶斯先验的方法;
d. 理解参数和超参数的概念,以及区别;
e. 经过LDA的先验选取(或者其它模型i)来理解贝叶斯数据处理的思想;
11. 信息检索模型和工具
a. 理解经常使用的检索模型;
b. 了解经常使用的开源工具(lemur,lucene等ng)
12. 模型选择和特征选取
a. 理解经常使用的特征选择方法,从而选择有效特征来训练模型;
b. 看几个模型选择的例子,理解如何选择一个合适模型;(这玩意只能经过例子来意会了)
13. 论文写做中的tricks 技巧是不少的,这里略。
建议每当有同窗的论文有评审意见以后,认真琢磨,对于提升写做能力颇有帮助。 上述的模型和算法,也许学过以后可是记不住,我的意见:没有关系,再次看的时候就很快了。