[toc]html
经过示例项目,初步接触spring boot,maven等经常使用工具,熟悉经常使用JAVA环境;使用经过httpclient获取美食杰html数据,使用jsoup来解析html数据并抓取处理目标数据。java
IProcesser
实现类。
示例中会经过咱们的代码获取上图中红色标记的图片并保存在本地;jquery
http://www.meishij.net/zuofa/ganzhematitiantang_1.html
(建议使用chrome),而后打开浏览器的开发者工具
快捷键F12
;elements
页面,而后经过元素选择器选中目标图片,html代码会自动跳到图片的html代码;;在开发者工具console行里实验经过
$("
.cp_headerimg_w img")
获取的元素长度为1,既经过.cp_headerimg_w img
就能够直接获取咱们的目标图片位置;git
本次示例只是简单找到目标,保存目标。具体代码可参考示例代码git地址,如今其实还有不少可优化改进的地方,下次咱们继续。github
简单说来就是如今互联网上通讯http协议应用比较普遍 别人都用,爱用不用,扩展性好;另外java原生包提供基本的http功能,可是很差用,因此产生了HttpClient工具包。
HttpClient支持标准Http1.0/1.1;支持get,post,put,delete,head等http方法;支持https;支持http代理等等;基本上你能想到的关于http的特性,它都支持。
在本示例中,简单使用httpclient来获取html页面字符串内容,后面示例会使用HttpClient的多线程,以及线程池功能。spring
jsoup可以把html的文本内容解析成html Document,经过相似jQuery
选择器的用法,能方便的找到想要html内容。示例中要识别出http地址中的图片地址。
TODO 配合美食节页面, 浏览器查找截图简单说明jQuery selectorchrome
若是刚开始使用maven基本都会遇到一些问题:apache
C:\Users\xxx\.m2\repository
目录下,是否存在pom依赖,或者把对应的依赖删掉从新maven编译下,例如依赖是
groupid
:org.jsoup,artifactid
:jsoup,则对应的jar目录是,既
C:\Users\[xxx]\.m2\repository\[groupid]\[artifactid]\[version]
,指删掉该依赖便可,不要全删掉repository
,否则其它jar也要从新下。segmentfault