python3爬虫筛选所须要数据

时间 2019-11-21

原文原文链接

第一次使用博客园，也是第一篇文章，让咱们一块儿开启学习之旅吧！！css

昨天在为某受权系统作安全性测试的时候，能够未受权访问系统的用户登录统计记录。由此想整理出部分用户名，做为暴力破解的用户名，检查是否存在用户弱口令。安全

因为时间紧，任务重，只是想使用re正则来简单匹配所需数据便可。思路很简单，使用requests库爬下来，而后用re库匹配，但在查看网页源码的过程当中，发现所须要的数据与其余数据特征一致，使用re库匹配时，会将符合特征的所有匹配出来，以下图：函数

此时想过使用BeautifulSoup库或者pyquery库，但最后仍是放弃了，一来对这两个库还不是那么熟悉，二来使用这两个库的css筛选器时，因为源码中的数据特征一致，最终得出的代码量或筛选结果与re库差很少，因此最终仍是选择re库，由此得出以下代码：学习

简单解释一下get_username()函数：测试

re匹配到的虽然是全部符合规则的结果（即图中的username_list），但它返回的是一个list，而这个list中，我须要的数据是从第4个开始（注意：list是从0开始，且requests.get回来的在我所须要数据的前面还有符合规则的，因此从第4个开始），后面依次间隔5个。得到了这个规律，就能够取出所须要的数据。开始想使用for循环的，但长度很难界定3d

就选择了while True，使用while True的时候，当username_list[a]超出范围时会报错，因此使用try语句，固然方法还有不少，好比使用if语句等，最终得到以下结果：blog

若有更好建议，请在评论区评论或私聊。若有错误，还望斧正！get