在浏览器检查元素页面中,选取Network中的XHR选项便可观察每次加载页面,网页发出的请求,观察url的规律便可利用封装的函数对每一页进行爬取。python
如232页网页的地址为http://jandan.net/pic/page-232#comments,其中page参数就表明了第几页,用格式化的方法,把页数替换掉,就能够获得每页的地址了。浏览器
urls=['http://jandan.net/pic/page-{}#comments'.format(i) for i in range(1,100)]#这个列表包含了1-99页的地址