[内附完整源码和文档] 基于python的新闻检索系统

1 系统介绍 1.1 系统需求 新闻检索系统:定向采集不少于 4 个中文社会新闻网站或频道,实现这些网站新闻信息及评论信息的自动爬取、抽取、索引和检索。本项目未使用 lucene,Goose 等成熟开源框架。 1.2 系统思路与框架 本系统总体的实现思路如图 1 所示: 一个完整的搜索系统主要的步骤是: 对新闻网页进行爬虫得到语料库 抽取新闻的主体内容,得到结构化的 xml 数据 内存式单遍扫描索
相关文章
相关标签/搜索