爬虫入门到精通-开始爬虫之旅

时间 2019-11-08

标签爬虫入门精通开始之旅栏目网络爬虫繁體版

原文原文链接

开始爬虫之旅

本文章属于爬虫入门到精通系统教程第一讲segmentfault

引言

我常常会看到有人在知乎上提问如何入门 Python 爬虫？、Python 爬虫进阶？、利用爬虫技术能作到哪些很酷颇有趣颇有用的事情？等这一些问题，我写这一系列的文章的目的就是把个人经验告诉你们。浏览器

什么是爬虫?

引用自维基百科网络

网络蜘蛛（Web spider）也叫网络爬虫（Web crawler），蚂蚁（ant），自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被普遍用于互联网搜索引擎或其余相似网站，以获取或更新这些网站的内容和检索方式。它们能够自动采集全部其可以访问到的页面内容，以供搜索引擎作进一步处理（分检整理下载的页面），而使得用户能更快的检索到他们须要的信息。app

个人理解就是能够自动的抓取数据ide

爬虫能作什么？

能够建立搜索引擎（Google，百度）工具
能够用来抢火车票网站
带逛搜索引擎
简单来说只要浏览器能打开的，均可以用爬虫实现blog

能够参考如下连接，还有不少好玩的~教程

利用爬虫技术能作到哪些很酷颇有趣颇有用的事情？

爬虫的本质是什么？

简单来说就是模仿浏览器来打开网页

那咱们应该如何模仿浏览器呢？

咱们首先应该要知道"浏览器是怎么打开网页？"

一旦咱们知道浏览器是怎么打开网页的，那么咱们能够经过一样的手段来模拟浏览器

你们有兴趣的话能够看看以下文章

在浏览器地址栏输入一个URL后回车，背后会进行哪些技术步骤？

从输入 URL 到页面加载完成的过程当中都发生了什么事情？

最后的最后，收藏的大哥们，能帮忙点个赞么~