基于Python检索系统(1)总体介绍

为了实现将上海理工大学的新闻可以进行关键词、关键字的检索,设计了基于Python的检索系统。 系统主要分为四部分,爬虫、中文分词、建立倒排索引、检索接口。 1、爬虫 将上海理工大学的新闻中心(http://www.usst.edu.cn/s/1/t/517/p/2/i/411/list.htm)的标题或全文爬取下来,存入TXT文件。简单的应用正则表达式(re模块)和字符串的处理即可实现。 2、中文
相关文章
相关标签/搜索