python爬虫——爬虫简介

1.什么是爬虫?html

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通俗的理解为在网络上爬行的一只蜘蛛,互联网就比做一张大网,而爬虫即是在这张网上爬来爬去的蜘蛛咯,若是它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。浏览器

好比它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超连接,那么它就能够爬到另外一张网上来获取数据。这样,整个连在一块儿的大网对这之蜘蛛来讲触手可及,分分钟爬下来不是事儿。服务器

2.爬虫操做过程网络

用户输入网址——DNS服务器——服务器主机——向服务器发出请求——服务器解析请求——服务器发送给浏览器html、jss、js文件——浏览器解析url

3.urlspa

URL,即统一资源定位符,也就是咱们说的网址,统一资源定位符是对能够从互联网上获得的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每一个文件都有一个惟一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。htm

在爬取数据时必需要获取到url索引

三部分组成:资源

第一个时协议get

第二个是存有该资源的主机的IP地址

第三个是主机资源的具体文件名