感谢您浏览本篇文章,内容都是本人在学习过程当中的笔记。但愿能对读者有点帮助。如您在阅读的过程当中发现了错误或更好的建议,请您及时给我反馈,以保证内容的准确性和易读性。html
1 概述数据库
网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更常常的称为网页追逐者),是一种按照必定的规则,自动地抓取万维网信息的程序或者脚本。json
简单来讲,爬虫就是一个模拟浏览器发起请求,而后将服务器响应的资源(html,json等等)进行有用信息的提取,而后保存起来的一个过程。浏览器
2 爬虫原理服务器
简单来讲,爬虫就是获取网页并提取和保存信息的自动化程序。 网络
由上图可得,咱们的爬虫程序其实就是由三个步骤组成:学习
获取网页url
获取网页,其实就是模拟浏览器访问获取网页的源代码。Python提供了不少类库来实现这个操做,如urllib、requests等等。cdn
提取信息htm
提取信息,即从网页源代码中提取出有用数据。Python提供了不少类库来实现这个操做,如re、xpath、bs4等等。
保存数据
保存数据,就是将咱们提取出来的有用信息进行持久化的操做。如保存为txt、jpg等,也能够保存到数据库(MySQL、Redis等等)。
经过实现上面三个步骤,其实咱们就完成了咱们的一个简单的爬虫程序。这个爬虫程序就能够代替咱们去自动化的爬取一些有用信息了。