爬虫,即网络爬虫,你们能够理解为在网络上爬行的一直蜘蛛,互联网就比做一张大网,而爬虫即是在这张网上爬来爬去的蜘蛛咯,若是它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。python
好比它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超连接,那么它就能够爬到另外一张网上来获取数据。这样,整个连在一块儿的大网对这之蜘蛛来讲触手可及,分分钟爬下来不是事儿。浏览器
在用户浏览网页的过程当中,咱们可能会看到许多好看的图片,好比 http://image.baidu.com/ ,咱们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址以后,通过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器通过解析以后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户即可以看到形形色色的图片了。服务器
所以,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的即是这些内容,经过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。网络
URL,即统一资源定位符,也就是咱们说的网址,统一资源定位符是对能够从互联网上获得的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每一个文件都有一个惟一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。ide
URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。工具
爬虫爬取数据时必需要有一个目标的URL才能够获取数据,所以,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。学习
学习Python,固然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,因而,在Windows下我用了PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,你们能够参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推动器,但愿你们能够找到适合本身的IDE开发工具