@(文章目录)python
在咱们写文章(博客、公众号、自媒体)
的时候,经常以为本身的文章有些老土,这很大程度是由于配图
没有选好。ajax
笔者也是遇到相同的状况,顺便解决其中一个案例,给你们一些技术上的参考和借鉴!算法
而且,咱们搜图片若是去百度,会遇到两种状况:非高清
或者带水印
。这都是咱们所忌讳的东西。笔者这次经过图虫创意抓起高清小图,虽然不是大图,可是在火热的移动端阅读上是足够的!json
废话说完了,咱们开始分析怎么样才能获取这样的图片呢。cookie
<img src="xxxxxx">
直接放到html中。咱们的爬虫能够直接解析。这种状况,就像你写的博客,我的网站的图片同样,简单嵌入。或者就是经过后台ajax传输图片地址引用。咱们不清楚
是否这样!数据结构
以图片为核心业务
,要你注册,购买等等,怎么可能就这么容易
的嵌入进入被你找到。那它到底如何实现呢?咱们分析一下!python爬虫
首先打开网页,检查图片,发现它的网页图片来源不惟一。有两个主要域名ice
和wel
,而且后面的编号还不惟一,可是能够尝试发现相同域名不一样后缀的图片地址结果相同
!(例如icweiliimg9
和icweiliimg/
效果相同)。
咱们发现原来这个搜索url会变化,可是这个查看网页源代码发现并无咱们想要的图片地址。那么咱们确定知道它要么从ajax渲染
,或者就藏在js中进行混淆或者加密
。咱们发现这个xhr中并无想要的数据,而且他其实藏在js中。其实这个能够猜测到的,由于它的url既然跟着变化那么返回的数据确定是有区别
的。学习
那么分析就到这里,剩下就是python爬虫的模拟和解析了。测试
前面说到已经知道它的数据源,咱们用python编写爬虫须要进行模拟。通过测试发现它须要进行一些验证,其中包过cookie
的wluuid
字段(只验证存在,不验证正确性)。
那么咱们编写一段代码就能拿到网页html。可是问题来了。数据藏在js里面啊!!!
咱们只能用正则进行套了!
对于这个js,咱们经过js=soup.select('script') js=js[4]
便可获取。
对于有用数据,只能正则截取。
pattern = re.compile(r'window.hits = (\[)(.*)(\])') va = pattern.search(str(js)).group(2)#解析js内容
可是这个相似json的串用,
拼接咱们没法直接使用spilt分组分开,可是咱们能够从}
所有替换成},,
那么就三个,,,
咱们就能够分割而不影响其余json串内,
;split以后每组都知足json串格式
,直接转成json取值便可!
那么剩下拿到url直接构造url而后下载图片便可!
图片下载:
爬虫方面
其余
经过上述分析:编写爬虫:
测试结果:
打开文件夹:
发现nice!你只须要输入关键词便可实现自动下载,虽然是小图,可是效果不错!
移动端公众号和csdn效果!
不难发现
,整个过程就是分析和处理字符串的逻辑难点。数据结构与算法扎实了处理问题都不难,!因此,若是要学习数据结构与算法,爬虫请关注我吧!公众号:bigsai