刚刚学习爬虫,感受使用jsoup爬虫挺容易的。记录一下本身爬取数据的过程。数组
Jsoup 是一个 Java 的开源HTML解析器,可直接解析某个URL地址、HTML文本内容。使用Jsoup首先须要引入Jsoup.jar包或者添加依赖,能够到Jsoup官网查看。
浏览器
elements类至关于网页元素中的标签,而select()方法用于按必定条件选取符合条件的标签,组成符合条件的标签数组。element支持转成字符串或者文本等。总之功能很强大。只须要了解一下select()方法的过滤规则便可上手用了。可是有了谷歌浏览器!过滤规则都不用管了,直接上手用!学习
爬取一下咱们平时使用百度搜索的网页,首先用谷歌浏览器打开百度网页,打开开发者模式(快捷键ctrl+shift+I)。spa
右键点击代码行,copy–>copy selector code
能够贴出来看看copy到的东西:blog
head > title
代表了目标在网页代码中的位置,每一个>先后面都表明一个检索条件。那么咱们要获得这个标签,只要这样写:element
1 String URL="https://www.baidu.com/"; //目标网址 2 Document doc=Jsoup.connect(URL).get(); 3 //在下载的document里进行检索的语句 4 Elements test=doc.select("head").select("title"); 5 //这样test标签就是咱们最开始右键单击检查的标签 6 String str=test.toString();//将标签转化成字符串 7 String text=test.text();//将标签里的文本提取出来 8 System.out.println(str); 9 System.out.println(text);
运行结果:开发
<title>百度一下,你就知道</title>
百度一下,你就知道