Python爬虫之爬取静态网页实践

时间 2021-01-05

原文原文链接

通过上一篇的学习，对网页文件的结构有了初步的了解，下面实战爬取某网页的知识问答语料： 1、使用库文件 request：用于get请求 threading：多线程 bs4：网页解析 re：正则表达式 os：系统相关操作 time：获取时间 2、对网页文件进行解析打开谷歌浏览器，按F12进入开发者工具，并定位到自己想爬取的内容，如图 3、获取网页请求的头文件，一般网上有User-Agent大全：

>>阅读原文<<