python爬虫(以国家烟草网新闻为例)

国家烟草专卖局的网址是:http://www.tobacco.gov.cn/html/ 要爬取的内容为各省级局的新闻。 大部分的省的新闻页url都是有规律的,好比贵州省的是 http://www.tobacco.gov.cn/html/36/3617/361704_i.html 这个i就是页数。 但有些省的新闻页url在翻页后是不变的,好比江西省,从第一页到最后一页一直都是http://jx.to
相关文章
相关标签/搜索