Python爬虫之爬虫原理(2)

爬虫的基本流程 发起请求 向目标站点发起一个http请求,请求的信息我们可以自己指定,然后等待服务器响应 获取响应内容 如果服务器正常响应,会得到一个reponse,它里面的内容就是服务器返回的页面内容,类型可能是html,json字符串,二进制信息等类型 解析内容 若得到的内容是html,则可以用正则表达式和页面解析库(如BeautifulSoup)进行解析,若是json,可以直接转换为json
相关文章
相关标签/搜索