通用爬虫编写思路

通用爬虫编写思路 Web爬虫需要解决的问题: 一、是否为公开网站/站点?(=是否需要登录?) 不需要登录是如何标记各个用户的:1、session 2、cookies 3、IP地址。 登录的目的是什么?(=是否一定需要登录?=是否每次都需要登录?) 每次都要登录、如何登录(=验证码) 二、页面是如何加载的?(=动态加载问题) 所需的数据在什么地方可以找到:1、html内 2、json内。 如果是动态
相关文章
相关标签/搜索