import.io,一个2012年成立的公司。至今已经有3m刀的...种子轮...为毛...程序员
注意,这是一篇由脑残和图片组成的文章。chrome
anyway,import.io是我用过最简单的爬虫,没有之一。简单到...只要输入一个网址(固然其实它能够更简单到不用输入http://),就能够得到一个该页面对应的API。更牛逼的是,这是一个我想寻找付费服务却寻觅不得的产品!segmentfault
而后import.io就会给出一个GET API,一个POST API,甚至还有直接从Google sheets取数据的地址!浏览器
这个API足够足够简单吧!也不用[o]auth就直接拿数据!惟一惋惜的一点是,彷佛它有一些延迟,无法很实时得到数据(也正是这时候我开始满页面找pricing...)。cookie
除了GET之外,你还能够往里拽(POST)其余URL,很适合那种同构的多页爬取。app
固然,虽然你以为Http GET已经足够简单了,但import.io不这么认为,它以为你仍是须要SDK的...好吧,其实我是为了展现他的API doc页面...里红色的那部分!想起了一个之前看到过别人分享的注释网站
//Attempt Handshake: Hello? This is London calling. Are we reaching you? //Handshake Failed: I don't understand...he just hung up.
import.io不光是一个爬网页的平台,它还提供存储,搜索(是的...)等服务。赞一下里面的文档样式。url
一个爬虫用的桌面App?想到了啥?像浏览器同样,圈圈点点?
从这里下载import.io的桌面应用,安装完了去桌面打开(谁知道为啥它不扔launcher里...),splash都cute到死...spa
打开之后呢,发现呢,就是个firefox内核的浏览器...区别就在与在这个app里可使用chrome里没法使用的API from URL 2.0,API from Authenticated URL这些功能。估计就是为了把各类登录cookie都很容易拿到,因此就作了个浏览器的壳吧。firefox
用起来才发现这简直是...简直了...找到要爬的页面,鼠标选择要爬取的内容,搞定之后publish就能够产生一个某类页面的API了,之后只须要把新的文章URL扔给他就ok了。
能够看出import.io其实没有diffbot那么智能,但对于那些懒得写xpath的程序员,import.io真的很方便!说到xpath,彷佛我真的很久没写过了...能够看出import.io也是用xpath来实现的。
好啦,这篇真的是一行代码都没有(这彻底是为了配合import.io的好用好吧)...好吧,我有姿式我自豪~