第一篇：初识爬虫

时间 2020-06-06

标签一篇爬虫栏目网络爬虫繁體版

原文原文链接

第一次听到这个名字的时候，以为挺low的，由于从小就以为虫子之类很眇小，一踩就死，后来逐渐了解python，了解到了爬虫的做用，看到招聘网站上给出的不错的薪资，感受这个东西还挺厉害的嘛！python

好吧，废话很少说，直接上干货！浏览器

那么什么是爬虫？说白了，爬虫就是人根据本身的需求从互联网这张大网上收集数据的程序，只不过，咱们平时浏览和收集数据是经过本身上网用浏览器来浏览网页，而爬虫是机器代替人来作这件事情。cookie

很显然，爬虫的效率要比人要高的多的多的多。。。post

为何爬虫值钱呢？由于互联网中最有价值的即是数据，好比天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都表明了各个行业的真金白银，能够说，谁掌握了行业内的第一手数据，网站

谁就成了整个行业的主宰，若是把整个互联网的数据比喻为一座宝藏，那咱们的爬虫课程就是来教你们如何来高效地挖掘这些宝藏，掌握了爬虫技能，你就成了全部互联网信息公司幕后的老板，换言之，url

它们都在免费为你提供有价值的数据。spa

爬虫经常使用基本库：code

1.requests对象

经常使用参数：
requests.requersts

1.method:提交方式

2.url:提交的目标url

3.params:在URL中传递的参数

params={'k1':'v1','k2':'v2'}

举个例子：

requests.request(
    method='GET',
    url:'http://www.Matthew.com',
    params={'k1':'v1','k2':'v2'}
    }
# http://www.Matthew.com?k1=v1&k2=v2

4. data:在请求体里传递的数据（字典，字节，文件对象）

5. jason：将数据变成一个大字符串，有别于data

6.headers 请求头（经常使用做反爬取，模拟浏览器行为）

7.cookies：取得Cookies（在请求头里）

8.files:上传文件

举个例子：

requests.post(
    url='xxx',
    files={
        'f1':open('s1.py','rb')
    }
)

9.auth:认证

2.beautifulblog

pass