由Java爬虫所想到的

时间 2019-11-07

标签 java 爬虫所想栏目 Java 繁體版

原文原文链接

爬虫，听起来彷佛很高端，然而也就那么回事，有不少爬虫框架，Java实现的有crawler4j，WebCollector，webMagic，Python实现的最著名的应该是Scrapy，工做中用到，可是没用什么爬虫框架，整个工做基于HttpClient和Jsoup。html

流程jquery
1. HttpClient去模拟get和post请求；web
2. 获取返回的数据，chrome
  - 若是是json或者XML，直接解析；json
  - 若是是html，使用Jsoup去分析；api
技能要求跨域
1. 熟悉HTML，JavaScript，jQuery浏览器
2. 熟悉HttpClient，Jsoup框架
使用工具工具
1. FireFox（FireBug）/ chrome : 用于观察HTML文档结构
2. WireShark：抓数据包（不是十分经常使用，在爬取不成功的时用于对比浏览器数据和模拟数据）
3. 一些插件，如 RESTClient（不经常使用）
额外的一些记录
1. HttpClient与jsonp

最近在爬取某市图书馆，发现其中有一个jsonp的请求，期初觉得是一个普通的get请求，可是url感受很奇怪，就搜了下，发现是jQuery的jsonp请求

#host地址已改

api.baidu.com/book/isbn/978-7-5442-4725-2/?glc=P2HBJ0315013&returnType=json&callback=insertAllBookMetaInfo&jsoncallback=jQuery1620053801810543760764_1464099784203&_=1464099796349

也了解了下jsonp，具体请参看：
1. 跨域JSONP原理及调用具体示例
2. jsonp原理：说说JSON和JSONP，也许你会豁然开朗，含jQuery用例