python 爬虫搜狗词库

时间 2020-12-31

原文原文链接

完整版代码github地址：https://github.com/Monster2848/sougou_dic_spider 目标网站下面有分类点进社会科学–金融保险分类我们需要获取的数据是词库标题和词库文件地址通过查看请求发现这个网页并没有被加密直接get请求就可以获得完整网页然后要做的就是找到标题元素和立即下载元素提取内容和 url 写一下xpath 匹配规则