百度百科里的解释是这样的:浏览器
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。服务器
爬虫就是一种能够按照必定规律,自动抓取信息的程序或脚本。网络
再简单一点就是:智能获取网页中信息的工具。ide
“万物皆可爬”工具
文本、音频、视频、图片、、、、、等等.学习
咱们在浏览网页的时候,有一个基本的流程以下:.net
用户输入网址 ,通过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器通过解析以后,发送给用户的浏览器 HTML、JS、CSS 等文件,而后浏览器解析出来将 HTML、JS、CSS 等文件中包含的信息汇总起来展现给用户。code
PS:这里的信息就能够分为有用信息和无用信息,若是你想爬取的是知乎上某电影的评论内容,那评论的文本对于你就是有用信息,而评论框的样式等信息就对你是无用信息。视频
OK,如今了解了浏览网页的基本流程以后,能够得出一个结论,用户看到的网页实质是由 HTML 代码构成的。blog
那爬虫爬取网页信息实际上就是在HTML代码中寻找有用信息,并获取的过程。
爬虫经过分析、筛选、过滤HTML代码中的内容,来获取咱们想要获得的有用信息(文本、音频、视频、图片、、、、、等等)。
URL的含义
URL,即统一资源定位符,也就是咱们说的网址,统一资源定位符是对能够从互联网上获得的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每一个文件都有一个惟一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的格式由三部分组成: ①第一部分是协议(或称为服务方式)。 ②第二部分是存有该资源的主机IP地址(有时也包括端口号)。 ③第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必需要有一个目标的URL才能够获取数据,所以,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。
基本的爬虫只是的入门就是这些了~
从入门到放弃
做者:Ghost9
来源:CSDN
原文:https://blog.csdn.net/Ghost9/article/details/80240532