RSS博文抓取流程的设计

为了后续RSS抓取和解析模块的工作,仔细研究了一下RSS的格式,发现RSS订阅其实有两种格式,较早的RSS 2.0格式是由哈佛大学设计的并冻结了版权,后面为了进行补充特性,由IETF主导规范了Atom协议

RSS 2.0 规范包含了摘要级别的标题、连接和描述,不需要再摘要中出现任何单独项的字段,可以包含任何普通文本或者转以后的html文本,但是没有办法分辨提供的是哪种格式

而Atom中对于概述和全文都是有不同的标签的,并且内容是由内容类别的说明的
在这里插入图片描述

同时对已有博客RSS进行分析,发现大部分链接并没有遵守rss规范,有的全文字段只返回了概述内容,导致我们后期还得写爬虫来获取全文内容

对于RSS博文的抓取流程,主要分为三大部分

第一部分是对单个rss链接的抓取,通过http客户端获取rss内容,交给rss解析模块解析,从中解析出文章列表并进行返回

第二部分是控制模块,需要有定时任务功能,定时从数据库中获取博客列表,不断调用抓取模块进行抓取

第三部分是webhook模块,需要提供一个接口,通过这个接口可以强制对某个博客rss进行抓取