第一篇:初识爬虫

第一次听到这个名字的时候,以为挺low的,由于从小就以为虫子之类很眇小,一踩就死,后来逐渐了解python,了解到了爬虫的做用,看到招聘网站上给出的不错的薪资,感受这个东西还挺厉害的嘛!python

 

好吧,废话很少说,直接上干货!浏览器

 

那么什么是爬虫? 说白了,爬虫就是人根据本身的需求从互联网这张大网上收集数据的程序,只不过,咱们平时浏览和收集数据是经过本身上网用浏览器来浏览网页,而爬虫是机器代替人来作这件事情。cookie

很显然,爬虫的效率要比人要高的多的多的多。。。post

 

为何爬虫值钱呢?由于互联网中最有价值的即是数据,好比天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都表明了各个行业的真金白银,能够说,谁掌握了行业内的第一手数据,网站

谁就成了整个行业的主宰,若是把整个互联网的数据比喻为一座宝藏,那咱们的爬虫课程就是来教你们如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了全部互联网信息公司幕后的老板,换言之,url

它们都在免费为你提供有价值的数据。spa

 

爬虫经常使用基本库:code

1.requests对象

经常使用参数:
requests.requersts

1.method:提交方式

2.url:提交的目标url

3.params:在URL中传递的参数

params={'k1':'v1','k2':'v2'}

举个例子:

requests.request(
    method='GET',
    url:'http://www.Matthew.com',
    params={'k1':'v1','k2':'v2'}
    }
# http://www.Matthew.com?k1=v1&k2=v2

4. data:在请求体里传递的数据(字典,字节,文件对象)

5. jason:将数据变成一个大字符串,有别于data

6.headers 请求头(经常使用做反爬取,模拟浏览器行为)

7.cookies:取得Cookies(在请求头里)

8.files:上传文件

举个例子:

requests.post(
    url='xxx',
    files={
        'f1':open('s1.py','rb')
    }
)

9.auth:认证

 

2.beautifulblog

pass
相关文章
相关标签/搜索