Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16

时间 2020-04-18

标签 web scraper 高级用法抓取属性信息简易数据分析栏目 HTML 繁體版

原文原文链接

这是简易数据分析系列的第 16 篇文章。css

这期课程咱们讲一个用的较少的 Web Scraper 功能——抓取属性信息。html

网页在展现信息的时候，除了咱们看到的内容，其实还有不少隐藏的信息。咱们拿豆瓣电影250举个例子：web

电影图片正常显示的时候是这个样子：json

若是网络异常，图片加载失败，就会显示图片的默认文案，这个文案其实就是这个图片的属性信息：网络

咱们查看一下这个结构的 HTML（查看方法可见 CSS 选择器的使用的第一节内容），就会发现图片的默认文案其实就是这个 <img/> 标签的 alt 属性：spa

咱们能够看一下 HTML 文档里对 alt 属性的描述：code

alt 属性是一个必需的属性，它规定在图像没法显示时的替代文本htm

在 web scraper 里，咱们能够利用 Element attribute 属性来抓取这种属性信息。blog

由于此次的内容比较简单，新建 sitemap 这一步我就先省略了，咱们直接上来使用 Element attribute 抓取数据。图片

咱们把 Type 选为 Element attribute，而后用 Selector 选中图片这个元素：

Element attribute 会多一个选项——Attribute name，咱们在这个输入框里输入咱们要抓取的属性名字。

观察一下这个 img 标签的属性，有 alt（替换文本）、width（图片宽度）和 src（图片连接）3 种：

这里我先输入 alt，表示抓取图片的替代文本：

还能够输入 src，表示抓取图片的连接：

也能够输入 width，抓取图片宽度：

经过 Element attribute 这个选择器，咱们就能够抓取一些网页没有直接展现出来的数据信息，很是的方便。

sitemap 分享

{"_id":"douban2","startUrl":["https://movie.douban.com/top250?start=0&filter="],"selectors":[{"id":"ele","type":"SelectorElement","parentSelectors":["_root"],"selector":".grid_view li","multiple":true,"delay":0},{"id":"image_name","type":"SelectorElementAttribute","parentSelectors":["ele"],"selector":"img","multiple":false,"extractAttribute":"alt","delay":0}]}

联系我

由于文章发在各大平台上，帐号较多不能及时回复评论和私信，有问题可关注公众号 ——「卤代烃实验室」，（或 wx 搜索 sky-chx）关注上车防失联。

原文出处：https://www.cnblogs.com/web-scraper/p/web-scraper-element-attribute.html

Web Scraper 高级用法——抓取属性信息 | 简易数据分析 16

sitemap 分享

推荐阅读

联系我