今天css
小帅b想给你们讲一个小明的小故事python
...程序员
话说ajax
在好久好久之前浏览器
小明不当心发现了一个叫作服务器
学习python的正确姿式cookie
的公众号网络
今后一发不可收拾多线程
看到什么网站都想爬取python爬虫
有一天
小明发现了一个小黄网
里面的小姐姐
一个比一个诱人
看了一会这个小黄网
小明不知道在倒腾什么
反正30秒以后小明虎躯一震
....
那天晚上
小明躺在床上
夜不能寐
脑子一直都停留在那个小黄网上
忽然灵光一闪
我这不是刚学了爬虫技术么
我应该把那个网站上的小姐姐都爬取到本身的电脑啊
就算下次那个小黄网没了
本身也还有东西可看
真是佩服本身的机智啊
.....
次日小明就开始爬取小黄网了
小明使用
python爬虫入门01:教你在 Chrome 浏览器轻松抓包
抓了一下数据的请求
而后用
python爬虫04 | 长江后浪推前浪,Reuqests库把urllib库拍在沙滩上
开启一顿的骚操做
...
哎~
小明仍是太年轻了
这时候网络运维人员看到了本身的服务器
“瓦里割草”
怎么忽然被疯狂的请求?
赶忙看一下日志
妈的,都是同一个 IP
谁他妈闲着没事来搞我?
小伙再定睛一看
我去, user-agent 是 python 程序
把小伙子给气的啊
直接把对方的 ip 地址给封了(加入黑名单)
....
小明原本觉得一切都能按本身计划行事
没想到忽然中断了
小明从新运行了一下程序
发现彻底没法链接了
觉得是本身的网络断了
但是本身上百度是能够的啊
后来忽然想到
好像以前 小帅b 说过
爬虫要学会假装,要否则很容易被对方识破的
....
原来如此
小明使用了代理ip
把 user-agent 设置为 Chrome 浏览器
而后又开始一顿的爬取了
还特么开启了多线程
....
运维人员又发现不对劲
妈的
这数据不正常,这不正常
确定有人又来搞事情了
而后就把网站设置为只有登陆的人才能够获取数据
.....
小明发现了
以为这是小意思
在这个网站注册了帐号
而后设置了相应的cookie
继续爬!
....
没过多久
小明的手机忽然响了
小明觉得是本身的外卖到了
拿起电话就说:来了~
结果没想到的是
手机那边传来:wcnmlgb!你他妈再爬你看我不弄死你
吓得小明差点yw
挖槽
原来刚刚本身注册的是本身的手机号码
小明忽然以为本身太 sb 了
....
小明原本想就这样算了的
但是刚被骂的以为很不爽
小明把本身的手机关机
而后本身注册了不少个帐号
搞了多个 cookie 池
一块儿爬!!
....
此次运维人员慌了
没想到对方这么会搞事情
开始对那些频繁访问的ip给封了
而后给本身的网站加了验证码
谁他妈想要请求数据
都要先输入一次验证码才能够
此次看你怎么搞
....
小明此次真的是杠上了
机器学习识别验证码都搞上了
直接在程序自动识别验证码而后进行请求
此次小明彻底不把小帅b放在眼里了
....
运维人员快要没办法了
忽然看到了一些大量的请求都只是获取 HTML 数据
可是 js 和 css 这些都不请求的
不合理
因而把整个网站
都不直接返回 HTML 了
用 ajax 加载
.....
小明呵呵一笑
这能难倒我?
拿出最近小帅b说的
python爬虫09 | 上来,本身动 !这就是 selenium 的牛逼之处
直接模仿人类操做
这还没完
听 小帅b 说还有一个叫作 phantomjs 的玩意
selenium + phantomjs 能够达到彻底模拟浏览器操做
友情提示:小帅b 下篇推文会跟你们说怎么使用selenium + phantomjs
....
这下
运维人员真的没办法了
玩不动了
只能说一句
真的求求大家了,不要再来爬取了!
...
哈~
本故事纯属乱吹
若有雷同
别在乎
最后
你们都是程序员
不容易
别乱搞事情
扫一扫
学习 Python 没烦恼