通用爬虫编写思路

时间 2021-07-13

原文原文链接

通用爬虫编写思路 Web爬虫需要解决的问题：一、是否为公开网站/站点？（=是否需要登录？）不需要登录是如何标记各个用户的：1、session 2、cookies 3、IP地址。登录的目的是什么？（=是否一定需要登录？=是否每次都需要登录？）每次都要登录、如何登录（=验证码）二、页面是如何加载的？（=动态加载问题）所需的数据在什么地方可以找到：1、html内 2、json内。如果是动态