一个简单的网络爬虫入门python(包括开发环境搭建和pycharm激活)

基本任务:python

I 搭建python开发环境算法

II 写一个简单的网络爬虫,在某一个网站将一部小说各章节(通常是一个章节一个网页)粘贴到一个文本文件内。浏览器

1 首先了解几个概念

1.1 网络爬虫缓存

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。服务器

网络爬虫能够模拟浏览器浏览网页,自动批量下载网络资源(可以访问到的,放在网络服务器的文件)。网络

传统爬虫从一个或若干初始网页的URL开始,得到初始网页上的URL,在抓取网页的过程当中,不断从当前页面上抽取新的URL放入队列,直到知足系统的必定中止条件。聚焦爬虫的工做流程较为复杂,须要根据必定的网页分析算法过滤与主题无关的连接,保留有用的连接并将其放入等待抓取的URL队列。而后,它将根据必定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时中止。另外,全部被爬虫抓取的网页将会被系统存贮,进行必定的分析、过滤,并创建索引,以便以后的查询和检索;对于聚焦爬虫来讲,这一过程所获得的分析结果还可能对之后的抓取过程给出反馈和指导。编辑器

1.2 小说网站的基本结构工具

首页(总目录)→分类→小说目录页→小说各章节;学习

1.3 与网站的交互开发工具

一般都是用户经过浏览器(当IE)访问网站(网络上的服务器)。

浏览器:网址(href)、请求(requests)→网站服务器:响应(response)给浏览器→浏览器:缓存并呈现回复的内容。

1.4 开发环境

用高级语言写的代码须要解释或编码到机器代码,才能被计算机执行。

因此开发一个程序,最基本的需求是一个文本编辑器(写)和解释器或编译器。

开发复杂的程序,须要调试查错、须要引入第三方库,须要边结各文件,因此,通常来讲,一个简单的文本编辑器加一个解释器或编译器是不够的,须要一个支持某种高级语言的调试器的较复杂的编辑器。这样的编辑器同时还支持能够方便写代码(如颜色分类显示、代码提示)的插件加入。

2 搭建python开发环境

2.1 下载和安装解释器python3.6

想学习能够加Python学习(q-u-n )-二二七,四三五,四五零 便可获取,内附:开发工具和安装包,以及视频资料系统学习路线图

相关文章
相关标签/搜索