第一篇 Python与网络爬虫-认识爬虫

时间 2019-12-01

标签一篇 python 网络爬虫认识栏目 Python 繁體版

原文原文链接

感谢您浏览本篇文章，内容都是本人在学习过程当中的笔记。但愿能对读者有点帮助。如您在阅读的过程当中发现了错误或更好的建议，请您及时给我反馈，以保证内容的准确性和易读性。html

1 概述数据库

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更常常的称为网页追逐者），是一种按照必定的规则，自动地抓取万维网信息的程序或者脚本。json

简单来讲，爬虫就是一个模拟浏览器发起请求，而后将服务器响应的资源(html，json等等)进行有用信息的提取，而后保存起来的一个过程。浏览器

2 爬虫原理服务器

简单来讲，爬虫就是获取网页并提取和保存信息的自动化程序。网络

由上图可得，咱们的爬虫程序其实就是由三个步骤组成：学习

获取网页url

获取网页，其实就是模拟浏览器访问获取网页的源代码。Python提供了不少类库来实现这个操做，如urllib、requests等等。cdn
提取信息htm

提取信息，即从网页源代码中提取出有用数据。Python提供了不少类库来实现这个操做，如re、xpath、bs4等等。
保存数据

保存数据，就是将咱们提取出来的有用信息进行持久化的操做。如保存为txt、jpg等，也能够保存到数据库(MySQL、Redis等等)。

经过实现上面三个步骤，其实咱们就完成了咱们的一个简单的爬虫程序。这个爬虫程序就能够代替咱们去自动化的爬取一些有用信息了。