jsoup使用样式class抓取数据时空格的处理

时间 2019-11-12

标签 jsoup 使用样式 class 抓取数据空格处理栏目 Java 繁體版

原文原文链接

最近在研究用android和jsoup抓取小说数据，jsoup的使用能够参照http://www.open-open.com/jsoup/;在抓纵横中文网永生这本书的目录内容时碰到了问题，html

永生的书简介url http://book.zongheng.com/book/48552.html中，我要抓取 <a class="button read" href="http://book.zongheng.com/showchapter/48552.html">点击阅读</a>这个连接的url 再根据这个url到索引页，解析索引页的章节目录和连接。使用jsoup抓取class能够直接这样调用jquery

doc.select(".button read");尝试后发现class中有空格没法抓到对应连接。上百度搜了一圈找到http://hi.baidu.com/chen88358323/item/459090031758c691a3df4389web

这个解决方案不太好。想到jsoup和jquery的selec机制很像，又查到了http://zhidao.baidu.com/question/311666643.html。这篇文章颇有启发。测试

最后通过测试发现带空格的class能够写成两个selecturl

写成 Elements indexEs = doc.select(".button").select(".read");成功抓取该书全部目录和连接。spa

不是抓不到，是你用错方法了：
用：Elements ele=doc.getElementsByClass("classValue");3d

【注：#1楼的这个方法是错误的，里面的参数是className！】orm