不会写Python代码如何抓取豆瓣电影 Top 250

时间 2019-11-06

原文原文链接

说到爬虫，大多数人会想到用Python来作，毕竟简单好用，好比想抓取豆瓣电影top250 的全部电影数据。ps: 我收藏了部分top 250 的电影，能够回复对应电影名试试。 html

简单的代码以下：程序员

import requests
from bs4 import BeautifulSoup

url = 'https://movie.douban.com/top250'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.120 Safari/537.36'}
s = BeautifulSoup(requests.get(url, headers=headers).text, 'html.parser')
for link in s.find_all('span', class_='title'):
    print(link.text)
复制代码

这样就能够输出第一页的全部电影标题，第二页的数据还须要代码处理。 web

但对于非程序员仍是有难度的，有没有不用写代码就能抓取数据的爬虫工具呢，下面介绍几个很是实用的爬虫工具，这里仍是以爬取豆瓣电影top250为例。算法

登山虎采集器

登山虎采集器是一款简单易用的网页数据采集工具，经过智能算法+可视化界面，为所欲为抓取本身想到的数据。先在官网 www.51pashanhu.com/download 下载软件，如今我下载的版本是 v2.4.7.0 ，它已经内置了几个采集设置了，好比百度搜索，淘宝商品等。 chrome

先输入要采集的网址https://movie.douban.com/top250 数据库

点下一步，由于有10页，所以要选择 自动识别分页

而后保存并采集

采集结果：

默认只能导出到txt，须要升级会员才能导出其余格式。

成功导出250条数据。

txt文件内容

后羿采集器

后羿采集器是一款面向零基础用户的，不限制采集和导出采集结果数量，免费不要积分的采集器，只须要输入网址就能智能识别采集结果，简直小白神器！在官网 www.houyicaiji.com/ 下载好软件编程

输入网址 movie.douban.com/top250，它会自动分页加载。

点击开始采集

采集完成

这个相比上面的登山虎采集器能够导出 excel csv text 等格式。

我这里导出到excel，全部电影标题，连接，封面图片，导演，评价人数都抓取下来了。

八爪鱼采集器

八爪鱼数据采集器是一款使用简单、功能强大的网络爬虫工具，彻底可视化操做，无需编写代码，内置海量模板，支持任意网络数据抓取，简易采集模式内置上百种主流网站数据源，如京东、天猫、大众点评等热门采集网站，只需参照模板简单设置参数，就能够快速获取网站公开数据。软件下载地址 www.bazhuayu.com/download ，这个我就不演示了，另外它还有英文版 www.octoparse.com/download 浏览器

集搜客

号称把互联网装进表格和数据库，网址 www.gooseeker.com/ 微信

Web Scraper

Web Scraper 是一款免费的、适用于任何人（没有任何编程基础）的爬虫工具。操做简单，只需鼠标点击和简单的配置，就能快速的爬取 Web 端的数据。网址 webscraper.io，须要先下载Chrome扩展 chrome.google.com/webstore/de… 若是上不了谷歌在公众号回复 谷歌获取扩展。网络

具体使用教程能够参考明白大佬的文章www.jianshu.com/p/cd5124ac0…，做者还专门开了一门课程《不用写代码的爬虫课》。

有了上面这些工具，不会代码的你也能轻松抓取你想要的公开数据。

不会写Python代码如何抓取豆瓣电影 Top 250

登山虎采集器

后羿采集器

八爪鱼采集器

集搜客

Web Scraper

公众号：苏生不惑