Python爬虫流程

时间 2019-12-05

标签 python 爬虫流程栏目 Python 繁體版

原文原文链接

爬虫基本流程发起请求经过HTTP库向目标服务器发送Request，Request内能够包含额外的headers信息。获取响应内容若是服务器正常响应，会返回Response，里面包含的就是该页面的内容。解析数据内容或许是HTML，能够用正则表达式、网页解析库进行解析。或许是Json，能够直接转换为Json对象解析。保存数据能够存储为文本，也能够保存至数据库，或其余特定类型文件。

>>阅读原文<<