(30 hackdays day 22) Import.io - 最简单好用的网页爬虫服务

时间 2019-11-10

标签 hackdays day import.io import 最简单好用网页爬虫服务栏目 HTML 繁體版

原文原文链接

import.io，一个2012年成立的公司。至今已经有3m刀的...种子轮...为毛...程序员

注意，这是一篇由脑残和图片组成的文章。chrome

anyway，import.io是我用过最简单的爬虫，没有之一。简单到...只要输入一个网址（固然其实它能够更简单到不用输入http://），就能够得到一个该页面对应的API。更牛逼的是，这是一个我想寻找付费服务却寻觅不得的产品！segmentfault

两步获得网站API

而后import.io就会给出一个GET API，一个POST API，甚至还有直接从Google sheets取数据的地址！浏览器

这个API足够足够简单吧！也不用[o]auth就直接拿数据！惟一惋惜的一点是，彷佛它有一些延迟，无法很实时得到数据（也正是这时候我开始满页面找pricing...）。cookie

除了GET之外，你还能够往里拽（POST）其余URL，很适合那种同构的多页爬取。app

固然，虽然你以为Http GET已经足够简单了，但import.io不这么认为，它以为你仍是须要SDK的...好吧，其实我是为了展现他的API doc页面...里红色的那部分！想起了一个之前看到过别人分享的注释网站

//Attempt Handshake: Hello? This is London calling. Are we reaching you?
//Handshake Failed: I don't understand...he just hung up.

import.io不光是一个爬网页的平台，它还提供存储，搜索（是的...）等服务。赞一下里面的文档样式。url

一个爬虫用的桌面App？想到了啥？像浏览器同样，圈圈点点？
从这里下载import.io的桌面应用，安装完了去桌面打开（谁知道为啥它不扔launcher里...），splash都cute到死...spa

打开之后呢，发现呢，就是个firefox内核的浏览器...区别就在与在这个app里可使用chrome里没法使用的API from URL 2.0，API from Authenticated URL这些功能。估计就是为了把各类登录cookie都很容易拿到，因此就作了个浏览器的壳吧。firefox

用起来才发现这简直是...简直了...找到要爬的页面，鼠标选择要爬取的内容，搞定之后publish就能够产生一个某类页面的API了，之后只须要把新的文章URL扔给他就ok了。

能够看出import.io其实没有diffbot那么智能，但对于那些懒得写xpath的程序员，import.io真的很方便！说到xpath，彷佛我真的很久没写过了...能够看出import.io也是用xpath来实现的。

好啦，这篇真的是一行代码都没有（这彻底是为了配合import.io的好用好吧）...好吧，我有姿式我自豪~