由Java爬虫所想到的

爬虫,听起来彷佛很高端,然而也就那么回事,有不少爬虫框架,Java实现的有crawler4j,WebCollector,webMagic,Python实现的最著名的应该是Scrapy,工做中用到,可是没用什么爬虫框架,整个工做基于HttpClient和Jsoup。html

  • 流程jquery

    1. HttpClient去模拟get和post请求;web

    2. 获取返回的数据,chrome

      • 若是是json或者XML,直接解析;json

      • 若是是html,使用Jsoup去分析;api

  • 技能要求跨域

    1. 熟悉HTML,JavaScript,jQuery浏览器

    2. 熟悉HttpClient,Jsoup框架

  • 使用工具工具

    1. FireFox(FireBug)/ chrome : 用于观察HTML文档结构

    2. WireShark:抓数据包(不是十分经常使用,在爬取不成功的时用于对比浏览器数据和模拟数据)

    3. 一些插件,如 RESTClient(不经常使用)

  • 额外的一些记录

    1. HttpClient与jsonp

最近在爬取某市图书馆,发现其中有一个jsonp的请求,期初觉得是一个普通的get请求,可是url感受很奇怪,就搜了下,发现是jQuery的jsonp请求

#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349
相关文章
相关标签/搜索