静态网页爬虫

时间 2020-12-27

原文原文链接

记小白的第一次爬虫经历。实验环境：Python3.6 IDE :Spyder 需要用到的包：urllib.request（必备），bs4（必备），re，pandas 目标：爬取股吧论坛个股吧（每支股票）第一页帖子内容（股票代码、帖子url、帖子标题、帖子内容），并输出到csv文件爬虫框架：调度器class SpiderMain(object)：创建四个对象（分别为url管理器对象，下载