第一次听到这个名字的时候,以为挺low的,由于从小就以为虫子之类很眇小,一踩就死,后来逐渐了解python,了解到了爬虫的做用,看到招聘网站上给出的不错的薪资,感受这个东西还挺厉害的嘛!python
好吧,废话很少说,直接上干货!浏览器
那么什么是爬虫? 说白了,爬虫就是人根据本身的需求从互联网这张大网上收集数据的程序,只不过,咱们平时浏览和收集数据是经过本身上网用浏览器来浏览网页,而爬虫是机器代替人来作这件事情。cookie
很显然,爬虫的效率要比人要高的多的多的多。。。post
为何爬虫值钱呢?由于互联网中最有价值的即是数据,好比天猫商城的商品信息,链家网的租房信息,雪球网的证券投资信息等等,这些数据都表明了各个行业的真金白银,能够说,谁掌握了行业内的第一手数据,网站
谁就成了整个行业的主宰,若是把整个互联网的数据比喻为一座宝藏,那咱们的爬虫课程就是来教你们如何来高效地挖掘这些宝藏,掌握了爬虫技能,你就成了全部互联网信息公司幕后的老板,换言之,url
它们都在免费为你提供有价值的数据。spa
爬虫经常使用基本库:code
1.requests对象
经常使用参数: requests.requersts 1.method:提交方式 2.url:提交的目标url 3.params:在URL中传递的参数 params={'k1':'v1','k2':'v2'} 举个例子: requests.request( method='GET', url:'http://www.Matthew.com', params={'k1':'v1','k2':'v2'} } # http://www.Matthew.com?k1=v1&k2=v2 4. data:在请求体里传递的数据(字典,字节,文件对象) 5. jason:将数据变成一个大字符串,有别于data 6.headers 请求头(经常使用做反爬取,模拟浏览器行为) 7.cookies:取得Cookies(在请求头里) 8.files:上传文件 举个例子: requests.post( url='xxx', files={ 'f1':open('s1.py','rb') } ) 9.auth:认证
2.beautifulblog
pass