RSS博文抓取流程的设计

为了后续RSS抓取和解析模块的工作,仔细研究了一下RSS的格式,发现RSS订阅其实有两种格式,较早的RSS 2.0格式是由哈佛大学设计的并冻结了版权,后面为了进行补充特性,由IETF主导规范了Atom协议 RSS 2.0 规范包含了摘要级别的标题、连接和描述,不需要再摘要中出现任何单独项的字段,可以包含任何普通文本或者转以后的html文本,但是没有办法分辨提供的是哪种格式 而Atom中对于概述和全
相关文章
相关标签/搜索