爬取某单位网页上发布的文书信息

时间 2021-01-20

原文原文链接

因为听说某单位的网页反爬机制弱，所以我作死爬了该单位近期发布的文书信息，学习相关案例并对自己以示警戒。首先打开该网页对应的html代码分析想要得到的信息存在哪里。经过分析，得知这些位置是存放文书对应表项的地方。然后找页码链接，先爬下6页来学习学习。得到这两个位置之后，就可以写代码了，下面附代码： from bs4 import BeautifulSoup import requests i

>>阅读原文<<