Python爬虫流程

爬虫基本流程 发起请求 经过HTTP库向目标服务器发送Request,Request内能够包含额外的headers信息。 获取响应内容 若是服务器正常响应,会返回Response, 里面包含的就是该页面的内容。 解析数据 内容或许是HTML,能够用正则表达式、网页解析库进行解析。 或许是Json,能够直接转换为Json对象解析。 保存数据 能够存储为文本,也能够保存至数据库,或其余特定类型文件。
相关文章
相关标签/搜索