基于百度百科的相关词推荐(1)——特征向量提取

相关词推荐问题就是一个计算任意两个词相似度的问题。 1. 制作爬虫,获取百科页面,首批语料有10万多条记录。 2. 解析百科页面,利用lucene 制作索引index(字段:title,id,summary)。 3.相关词推荐算法 我们最终要获取任意两个词的相似度Sim(Wi,Wj)。 基本思想:每条记录有 title-summary 信息,对于一个词Wi,它的summary信息就是对该词的详细解
相关文章
相关标签/搜索