Web Scraper 高级用法——如何导入别人已经写好的 Web Scraper 爬虫 | 简易数据分析 06

时间 2020-04-18

标签 web scraper 高级用法如何导入别人已经写好爬虫简易数据分析栏目 HTML 繁體版

原文原文链接

这是简易数据分析系列的第 6 篇文章。html

上两期咱们学习了如何经过 Web Scraper 批量抓取豆瓣电影 TOP250 的数据，内容都太干了，今天咱们说些轻松的，讲讲 Web Scraper 如何导出导入 Sitemap 文件。python

前面也没有说，SItemap 是个什么东西，其实它就是咱们操做 Web Scraper 后生成的爬虫文件，至关于 python 爬虫的源代码，导入 Web Scraper 一运行就能够爬取数据。学习了这一章节，就能够分享咱们的设置好的爬虫文件了。web

导出 Sitemap

导出 Sitemap 很简单，好比说咱们建立的 top250 Sitemap，点击 Sitemap top250，在下拉菜单里选择 Export Sitemap，就会跳到一个新的面板。学习

新的面板里有咱们建立的 top250 的 Sitemap 信息，咱们把它复制下来，再新建一个 TXT 文件，粘贴保存就行了。spa

导入 Sitemap 也很简单，在建立新的 Sitemap 时，点击 Import Sitemap 就行了。3d

在新的面板里，在 Sitemap JSON 里把咱们导出的文字复制进去，Rename Sitemap 里取个名字，最后点击 Import Sitemap 按钮就能够了。code

这期咱们介绍了 Web Scraper 如何导入导出 Sitemap 爬虫文件，下一期咱们对上一期的内容进行扩展，不仅仅抓取 250 个电影名，还要抓取每一个电影对应的排名，名字，评分和一句话影评。htm