若是你想抓取数据,又懒得写代码了,能够试试 web scraper 抓取数据。web
相关文章:
最简单的数据抓取教程,人人都用得上
web scraper 进阶教程,人人都用得上微信
若是你在使用 web scraper 抓取数据,颇有可能碰到以下问题中的一个或者多个,而这些问题可能直接将你计划打乱,甚至让你放弃 web scraper 。网络
下面列出几种你可能会碰到的问题,并说明解决方案。布局
一、有时候咱们想选择某个连接,可是鼠标点击就出触发页面跳转,如何处理?网站
在咱们选择页面元素的时候,勾选 “Enable key”,而后鼠标滑到要选择的元素上,按下 S 键。code
另外,勾选“Enable key” 后会出现三个字母,分别是 S、P、C,按 S 就是选择当前元素,按 P 就是选择当前元素的父元素,按 C 就是选择当前元素的子元素,当前元素指的是鼠标所在的元素。blog
二、分页数据或者滚动加载的数据,不能彻底抓取,例如知乎和 twitter 等?排序
出现这种问题大部分是由于网络问题,数据还没来得及加载,web scraper 就开始解析数据,可是由于没有及时加载,致使 web scrpaer 误认为已经抓取完毕。教程
因此适当的调大 delay 的大小,延长等待时间,让数据有足够的时间加载。默认的 delay 是 2000,也就是 2 秒,能够根据网速调整。get
可是,当数据量比较大的时候,出现数据抓取不彻底的状况也是常有的。由于只要有一次翻页或者一次下拉加载没有在 delay 的时间内加载完成,那么抓取就结束了。
三、抓取的数据顺序和网页上的顺序不一致?
web scraper 默认就是无序的,能够安装 CouchDB 来保证数据的有序性。
或者采用其余变通的方式,咱们最后会将数据导出到 CSV 格式,CSV 用 Excel 打开以后,能够按照某一列来排序,例如咱们抓取微博数据的时候将发布时间抓取下来,而后再 Excel 中按照发布时间排序,或者知乎上的数据按照点赞数排序。
四、有些页面元素经过 web scraper 提供的 selector 选择器没办法选中?
形成这种状况的缘由多是由于网站页面自己不符合网页布局规范,或者你想要的数据是动态的,例如鼠标滑过才会显示的元素等,遇到这些状况就要借助其余方法了。
其实经过鼠标操做选择元素,最后就是为了找到元素对应的 xpath。xpath 对应到网页上来解释,就是定位某元素的路径,经过元素的种类、惟一标识、样式名称,配合上下级关系来找到某个元素或某一类元素。
若是你没有遇到这个问题,那就没有必要了解 xpath,等到遇到了问题再动手去学一下就能够。
这里只是说了几个使用 web scraper 的过程当中常见的问题,若是你还遇到了其余的问题,能够在文章下面留言。
原文地址:web scraper 抓取网页数据的几个常见问题
还能够加我我的微信号 fengdezitai001
,添加请说明来意以便备注。