Python爬虫小白入门（一）写在前面

时间 2019-11-08

标签 python 爬虫入门写在前面栏目 Python 繁體版

原文原文链接

1、前言

你是否是在为想收集数据而不知道如何收集而着急？html

你是否是在为想学习爬虫而找不到一个专门为小白写的教程而烦恼？编程

Bingo! 你没有看错，这就是专门面向小白学习爬虫而写的！我会采用实例的方式，把每一个部分都跟实际的例子结合起来帮助小伙伴儿们理解。最后再写几个实战的例子。浏览器

咱们使用Python来写爬虫，一方面由于Python是一个特别适合变成入门的语言，另外一方面，Python也有不少爬虫相关的工具包，可以简单快速的开发出咱们的小爬虫。
本系列采用Python3.5版本，毕竟2.7会慢慢退出历史舞台~网络

那么，接下来，你得知道什么是爬虫、爬虫从哪里爬取数据的，以及，学习爬虫都要学习哪些东西。工具

来看看百度百科是如何定义的学习

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更常常的称为网页追逐者），是一种按照必定的规则，自动地抓取万维网信息的程序或者脚本。另一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网站

什么？没看懂？不要紧，我来给你解释一下视频

打开一个网页，里面有网页内容吧，想象一下，有个工具，能够把网页上的内容获取下来，存到你想要的地方，这个工具就是咱们今天的主角：爬虫。htm

这样是否是更清晰了呢？blog

既然了解了爬虫是什么，那么爬虫是如何爬取数据的呢？

打开浏览器（强烈建议谷歌浏览器），找到浏览器地址栏，而后在里敲music.163.com，你会看到网页内容。

欸，图片中间那俩人在干吗？（单身狗请主动防护，这是误伤，这真的是误伤！）

鼠标在页面上点击右键，而后点击view page source。看到这些文字了吗？这才是网页最赤果果的样子。

其实全部的网页都是HTML代码，只不过浏览器将这些代码解析成了上面的网页，咱们的小爬虫抓取的其实就是HTML代码中的文本啦。
这不合理啊，难不成那些图片也是文本？

恭喜你，答对了。回到浏览器中有图的哪一个tab页，鼠标右键，点击Inspect。会弹出一个面板，点击板左上角的箭头，点击虐狗图片，你会看到下面有红圈圈的地方，是图片的网络地址。图片能够经过该地址保存到本地哦。

你猜的没错，咱们的小爬虫抓取的正是网页中的数据，你要知道你想要抓取什么数据，你的目标网站是什么，才能够把想法变成现实的哦。你不能说，我想要这个这个，还有这个，而后数据就自动来了。。。(是否是让你想起了你的导师或老板？)

你们要先对如下内容有必定的了解再来学习爬虫哦，磨刀不误砍柴工

HTML
这个可以帮助你了解网页的结构，内容等。能够参考W3School的教程。
Python
若是有编程基础的小伙伴儿，推荐看一个廖雪峰的Python教程就够了
没有编程基础的小伙伴，推荐看看视频教程（网易云课堂搜Python），而后再结合廖雪峰的教程，左右开弓。
其实知乎上总结的已经很是好了，我就很少唠叨了。知乎-如何系统的自学Python
TCP/IP协议，HTTP协议
这些知识可以让你了解在网络请求和网络传输上的基本原理，了解就行，可以帮助从此写爬虫的时候理解爬虫的逻辑。
廖雪峰Python教程里也有简单介绍，能够参考：TCP/IP简介，HTTP协议
想更深刻学习的小伙伴儿能够去网上多搜搜相关的书籍哦

OK, 下一篇就开始咱们的实战啦