垂直搜索系统

毕业设计做了一个垂直搜索系统,主要完成的模块包括网络垂直爬虫,网页去重,网页正文抽取,中文分词,消歧系统,索引模块,检索模块。   简单点的系统示意图如下:   上图中,主要重点研究的模块在中文分词及消歧模块上。这个是我毕业设计的核心内容。 网络爬虫:采用了多线程及简单DNS缓存机制,多线程采用的是读写锁,并未用到线程池。该爬虫为垂直爬虫主要是在本科说开发的通用爬虫上进行修改的。 网友去重及正文抽
相关文章
相关标签/搜索