Python网络爬虫1：网易云音乐歌单

时间 2019-11-20

原文原文链接

摘要：从零开始写爬虫，初学者的速成指南！javascript

须要免费获取本文章讲解的视频+源码，关注+转发此文而后私信我回复“音乐”便可领取资料，也欢迎你们和我一块儿交流学习Pythonhtml

封面：java

你们好，《手把手教你写网络爬虫》连载开始了！在笔者的职业生涯中，几乎没有发现像网络爬虫这样的编程实践，能够同时吸引程序员和门外汉的注意。本文由浅入深的把爬虫技术和盘托出，为初学者提供一种轻松的入门方式。请跟随咱们一块儿踏上爬虫学习的打怪升级之路吧！程序员

介绍数据库

什么是爬虫？编程

先看看百度百科的定义:浏览器

简单的说网络爬虫（Web crawler）也叫作网络铲（Web scraper）、网络蜘蛛（Web spider），其行为通常是先“爬”到对应的网页上，再把须要的信息“铲”下来。cookie

为何学习爬虫？网络

看到这里，有人就要问了：google、百度等搜索引擎已经帮咱们抓取了互联网上的大部分信息了，为何还要本身写爬虫呢？这是由于，需求是多样的。好比在企业中，爬取下来的数据能够做为数据挖掘的数据源。甚至有人为了炒股，专门抓取股票信息。笔者就见过有人为了分析房价，自学编程，爬了绿中介的数据。less

在大数据深刻人心的时代，网络爬虫做为网络、存储与机器学习等领域的交汇点，已经成为知足个性化网络数据需求的最佳实践。还犹豫什么？让咱们开始学习吧！

语言&环境

语言：人生苦短，我用Python。让Python带咱们飞！

urllib.request：这是Python自带的库，不须要单独安装，它的做用是为咱们打开url获取html的内容。Python官方文档的介绍：The urllib.request module defines functions and classes which help in opening URLs (mostly HTTP) in a complex world — basic and digest authentication, redirections, cookies and more.

BeautifulSoup：是一个能够从HTML或XML文件中提取数据的Python库。它可以经过你喜欢的转换器实现惯用的文档导航，查找，修改文档的方式。Beautiful Soup会帮你节省数小时甚至数天的工做时间。安装比较简单：

$pip install beautifulsoup4

验证的方法，进入Python直接import一下，若是没有异常，那就说明安装成功了！

“美味的汤，绿色的浓汤，

在热气腾腾的盖碗里装！

谁不肯意尝一尝，这样的好汤？

晚餐用的汤，美味的汤！”

BeautifulSoup库的名字取自《爱丽丝梦游仙境》里的同名诗歌。

爬取数据

接下来，咱们就用urllib.request获取html内容，再用BeautifulSoup提取其中的数据，完成一次简单的爬取。

把这段代码保存为get_html.py，而后运行，看看输出了什么：

果真，输出了http://jr.jd.com 这个网页的所有HTML代码。

输出的代码简直没法直视，如何方便的找到咱们想抓取数据呢？用Chrome打开url，而后按F12，再按Ctrl + Shift + C。若是咱们要抓导航栏，就用鼠标点击任意一个导航栏的项目，浏览器就在html中找到了它的位置。效果以下：

定位到的html代码：

有了这些信息，就能够用BeautifulSoup提取数据了。升级一下代码：

把这段代码保存为get_data.py，而后运行，看看输出了什么：

没错，获得了咱们想要的数据！

BeautifulSoup提供一些简单的、Python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，经过解析文档为用户提供须要抓取的数据，由于简单，因此不须要多少代码就能够写出一个完整的应用程序。怎么样，是否是以为只要复制粘贴就能够写爬虫了？简单的爬虫确实是能够的！

一个迷你爬虫

咱们先定一个小目标：爬取网易云音乐播放数大于500万的歌单。

打开歌单的url: http://music.163.com/#/discover/playlist，而后用BeautifulSoup提取播放数3715。结果代表，咱们什么也没提取到。难道咱们打开了一个假的网页？

动态网页：所谓的动态网页，是指跟静态网页相对的一种网页编程技术。静态网页，随着html代码的生成，页面的内容和显示效果就基本上不会发生变化了——除非你修改页面代码。而动态网页则否则，页面代码虽然没有变，可是显示的内容倒是能够随着时间、环境或者数据库操做的结果而发生改变的。

值得强调的是，不要将动态网页和页面内容是否有动感混为一谈。这里说的动态网页，与网页上的各类动画、滚动字幕等视觉上的动态效果没有直接关系，动态网页也能够是纯文字内容的，也能够是包含各类动画的内容，这些只是网页具体内容的表现形式，不管网页是否具备动态效果，只要是采用了动态网站技术生成的网页均可以称为动态网页。

如今咱们明白了，这是一个动态网页，咱们获得它的时候，歌单还没请求到呢，固然什么都提取不出来！

咱们以前的技术不能执行那些让页面产生各类神奇效果的JavaScript 代码。若是网站的HTML页面没有运行JavaScript，就可能和你在浏览器里看到的样子彻底不一样，由于浏览器能够正确地执行JavaScript。用Python 解决这个问题只有两种途径：直接从JavaScript 代码里采集内容，或者用Python 的第三方库运行JavaScript，直接采集你在浏览器里看到的页面。咱们固然选择后者。今天第一课，不深究原理，先简单粗暴的实现咱们的小目标。

Selenium：是一个强大的网络数据采集工具，其最初是为网站自动化测试而开发的。近几年，它还被普遍用于获取精确的网站快照，由于它们能够直接运行在浏览器上。Selenium 库是一个在WebDriver 上调用的API。WebDriver 有点儿像能够加载网站的浏览器，可是它也能够像BeautifulSoup对象同样用来查找页面元素，与页面上的元素进行交互（发送文本、点击等），以及执行其余动做来运行网络爬虫。安装方式与其余Python第三方库同样。

$pip install Selenium

验证一下：

Selenium 本身不带浏览器，它须要与第三方浏览器结合在一块儿使用。例如，若是你在Firefox 上运行Selenium，能够直接看到一个Firefox 窗口被打开，进入网站，而后执行你在代码中设置的动做。虽然这样能够看得更清楚，但不适用于咱们的爬虫程序，爬一页就打开一页效率过低，因此咱们用一个叫PhantomJS的工具代替真实的浏览器。

PhantomJS：是一个“无头”（headless）浏览器。它会把网站加载到内存并执行页面上的JavaScript，可是它不会向用户展现网页的图形界面。把Selenium和PhantomJS 结合在一块儿，就能够运行一个很是强大的网络爬虫了，能够处理cookie、JavaScript、header，以及任何你须要作的事情。

PhantomJS并非Python的第三方库，不能用pip安装。它是一个完善的浏览器，因此你须要去它的官方网站下载，而后把可执行文件拷贝到Python安装目录的Scripts文件夹，像这样：

开始干活！

打开歌单的第一页：

http://music.163.com/#/discover/playlist/?order=hot&cat=%E5%85%A8%E9%83%A8&limit=35&offset=0

用Chrome的“开发者工具”F12先分析一下，很容易就看穿了一切。

播放数nb (number broadcast)：29915

封面 msk (mask)：有标题和url

同理，能够找到“下一页”的url，最后一页的url是“javascript:void(0)”。

最后，用18行代码便可完成咱们的工做。

把这段代码保存为get_data.py，而后运行。运行结束后，在程序的目录里生成了一个playlist.csv文件。

看到成果后是否是颇有成就感？若是你感兴趣，还能够按照这个思路，找找评论数最多的单曲，不再用担忧没歌听了！

今天的内容比较浅显，但愿对你有用。就先介绍到这里，咱们下期再见！