(30 hackdays day 2) Diffbot – 问题来啦!(1)

挖掘机技术哪家强?严肃点,咱们来认真讨论这个问题。
假设咱们讨论的是哪家培训挖掘机技术最强。首先,咱们得知道有哪些地方可以学到挖掘机技术。而后,咱们要想个办法定义“强”。最后咱们得能算出来结果。前端

挖掘机技术学校

要知道都有哪些学校教挖掘机,我能想到的就两个来源:技校的黄页,搜索结果。前者可能有专业的技校汇聚网站能够爬取到,后者能够用第三方的搜索服务获取。因而我Google了下“挖掘机技术培训学校列表”。发现前几条结果都是www.peixun360.com他家的,因此我决定先把这个网站的挖掘机学校列表爬下来。算法

Diffbot

Diffbot是一个帮助人们将网页数据转换为结构化信息(其实就是爬虫干的事儿)的在线服务。经过简单的点选网页上的信息,指定到对应的结构化信息。它就能帮你把一个网站的信息转换成一个结构化的API。换句话说就是一个普通用户也能爬京东,把某类产品的网页变成一个“excel”。wordpress

Diffbot的API基本都分为Automatic和Custom两种,前者不用作任何事儿,算法自动帮你提取信息,后者能够有更大的自由度。网站

Product API是Diffbot重要API之一,用处就是帮助你自动分析一个“产品”页面的信息。好比“潞城挖掘机精品班”(是的,我看到28913也惊了,但放心,后面不是连续的...)。扔给Diffbot之后就会分析出下面的信息。spa

img1

是否是挺整齐的了?这仍是我彻底没有控制的状况自动提取的结构信息。下面咱们来用下Custom API,也就是指哪打哪那个。
img2excel

先建立一个Custom API的Rule。能够看到Diffbot提供的Product的基本信息已经有不少了,什么OFFER PRICE,REG. PRICE,SAVE AMT.,BRAND之类的。那咱们来把品牌加上吧。blog

img3

img4

img5

能够看到这里挑选一个域数据的方式很直观,鼠标选择一个Div,Diffbot就会帮你把它赋值过去。这里的小问题是它前端代码对中文的支持还有bug。但Save之后数据是正常的中文。当咱们定制了一个新Field之后,这个自定义的Product的Rule就建立好了。这个Custom API也就能正常提取同类网页数据啦。
而后我就想试试Bulk API和Crawlbot。前者可让你输入一系列的URL,好比几家挖掘机学校的详情页URL列表,后者能够爬取一个网站,从而对某些符合规则的网页调用Custom API。但...但...丫是收费API,并且...并且…我交不起的300刀一个月...因此…因此…不是我偷懒~get

好啦,这就是一个帮助SB也能爬网页的产品啦~(我得想别的办法拿到挖掘机学校列表了...)明天见...产品

相关文章
相关标签/搜索