个人对爬虫框架的一些认知(一)

     首先从任务的发起开始,我们画一个简单的流程图: 爬虫运行简要示意图          一个优秀的爬虫框架,应当是要有个好的监控和异常处理记录,以及各爬虫运行在上面地方的一个简要记录信息。 以企查查站点为例,一个爬虫的整体分层架构入下图所示: 企查查爬虫架构图          每个爬虫以一个单独的文件目录存在,下一级分4层文件目录,Mark记录该爬虫的说明信息,怎么抓取的,有什么防御和需
相关文章
相关标签/搜索