Python网页爬虫--

时间 2019-12-20

标签 python 网页爬虫栏目 Python 繁體版

原文原文链接

pycharm里安装beautifulSoup以及lxml，才能使爬虫功能强大。html

作网页爬虫须要，《网页解析器：从网页中提取有价值数据的工具web

http://blog.csdn.net/ochangwen/article/details/51959754正则表达式

在爬取数据的时候，有两种方式post和get，这两种方式的区别和联系。算法

-------------------------------------------------------------------------------------------编程

https://www.jianshu.com/p/4231173ccc83网页爬虫

网络爬虫（又被称为网页蜘蛛)，网络机器人，是一种按照必定的规则，自动地抓信息的程序或者脚本。假设互联网是一张很大的蜘蛛网，每一个页面之间都经过超连接这根线相互链接，那么咱们的爬虫小程序就可以经过这些线不断的搜寻到新的网页。小程序

Python做为一种表明简单主义思想的解释型、面向对象、功能强大的高级编程语言。它语法简洁而且具备动态数据类型和高层次的抽象数据结构，这使得它具备良好的跨平台特性，特别适用于爬虫等程序的实现，此外Python还提供了例如Spyder这样的爬虫框架，BeautifulSoup这样的解析框架，可以轻松的开发出各类复杂的爬虫程序。网络

在这篇文章中，使用Python自带的urllib和BeautifulSoup库实现了一个简单的web爬虫，用来爬取每一个URL地址及其对应的标题内容。数据结构

爬虫算法从输入中读取的一个URL做为初始地址，向该地址发出一个Request请求。
请求的地址返回一个包含全部内容的，将其存入一个String变量，使用该变量实例化一个BeautifulSoup对象，该对象可以将内容而且将其解析为一个DOM树。
根据本身的须要创建正则表达式，最后借助HTML标签从中解析出须要的内容和新的URL，将新的放入队列中。
对于目前所处的URL地址与爬去的内容，在进行必定的过滤、整理后会创建索引，这是一个单词-页面的存储结构。当用户输入搜索语句后，相应的分词函数会对语句进行分解得到关键词，而后再根据每一个关键词查找到相应的URL。经过这种结构，能够快速的获取这个单词所对应的地址列表。在这里使用树形结构的存储方式，Python的字典和列表类型可以较好的构建出单词词典树。
从队列中弹出目前的URL地址，在爬取队列不为空的条件下，算法不断从队列中获取到新的网页地址，并重复上述过程。

环境：框架

Python 3.5 or Anaconda3
BeautifulSoup 4

未完待续

--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

按照网上的不少安装包和安装教程最后总会报错说我安装的beautifulSoup版本不对来来回回折腾一周忽然发现我太蠢了

其实能够直接利用一条命令搞定但前提是要安装了pip 这样利用pip就能够直接安装最新版本的beautifulSoup了

待这些模块以cmd的命令安装成功之后执行文件仍是会出错

相似No module named 'bs4'等错误的解决方法

参看连接安装pycharm的各个模块 https://www.cnblogs.com/xisheng/p/7856334.html

网页爬虫原理

https://blog.csdn.net/hanchaobiao/article/details/72860523