JavaShuo
栏目
标签
Htmlparse解析HTML文档(例)
时间 2019-11-24
标签
htmlparse
解析
html
文档
栏目
HTML
繁體版
原文
原文链接
//http://hao861002.javaeye.com/blog/288903
Htmlparse解析HTML文档(例)
关键字: parser
import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;
/**
* JAVA中使用Htmlparse解析HTML文档,使用htmlparse遍历出HTML文档的全部超连接(<a>标记)。
*
* @author YYmmiinngg
*/
public class Test {
public static void main(String[] args) {
try {
/* 首先咱们先使用HttpRequester类和HttpRespons类得到一个HTTP请求中的数据(HTML文档)。 能够从([url]http://download.csdn.net/source/321516[/url])中下载htmlloader,该库中有上述类;或从个人 《JAVA发送HTTP请求,返回HTTP响应内容,实例及应用》一文中摘取上述两JAVA类的代码。htmlparse能够从 ([url]http://download.csdn.net/source/321507[/url])中下载
*/
Map<String, String> map = new HashMap<String, String>();
HttpRequester request = new HttpRequester();
HttpRespons hr = request.sendGet("http://www.baidu.com");
Parser parser = Parser.createParser(hr.getContent(), hr
.getContentEncoding());
try {
// 经过过滤器过滤出<A>标签
NodeList nodeList = parser
.extractAllNodesThatMatch(new NodeFilter() {
//实现该方法,用以过滤标签
public boolean accept(Node node) {
if (node instanceof LinkTag)//标记
return true;
return false;
}
});
// 打印
for (int i = 0; i < nodeList.size(); i++) {
LinkTag n = (LinkTag) nodeList.elementAt(i);
System.out.print(n.getStringText() + " ==>> ");
System.out.println(n.extractLink());
}
} catch (Exception e) {
e.printStackTrace();
}
} catch (Exception e) {
e.printStackTrace();
}
}
}
//转自:
[url]http://hao861002.javaeye.com/blog/288903[/url]
相关文章
1.
HTML文档解析
2.
Requests-HTML,解析 HTML 文档
3.
Jsoup解析Html中文文档
4.
Jsoup解析HTML实例及文档方法详解
5.
Jsoup解析HTML、加载文档等实例
6.
Python解析xml文档实战案例
7.
PDF文档解析:PDFBox和iText实例
8.
解析XML文档
9.
XML文档解析
10.
HTML脱离文档流分析
更多相关文章...
•
TCP报文格式解析
-
TCP/IP教程
•
WSDL 文档
-
WSDL 教程
•
Scala 中文乱码解决
•
三篇文章了解 TiDB 技术内幕——说存储
相关标签/搜索
htmlparse
解析HTML
图文解析
文档
中文文档
解析
解析class文件
Chromium中文文档
技术文档
HTML
PHP教程
Thymeleaf 教程
Spring教程
文件系统
0
分享到微博
分享到微信
分享到QQ
每日一句
每一个你不满意的现在,都有一个你没有努力的曾经。
最新文章
1.
深度学习硬件架构简述
2.
重温矩阵(V) 主成份分析
3.
国庆佳节第四天,谈谈我月收入增加 4K 的故事
4.
一起学nRF51xx 23 - s130蓝牙API介绍
5.
2018最为紧缺的十大岗位,技术岗占80%
6.
第一次hibernate
7.
SSM项目后期添加数据权限设计
8.
人机交互期末复习
9.
现在无法开始异步操作。异步操作只能在异步处理程序或模块中开始,或在页生存期中的特定事件过程中开始...
10.
微信小程序开发常用元素总结1-1
本站公众号
欢迎关注本站公众号,获取更多信息
相关文章
1.
HTML文档解析
2.
Requests-HTML,解析 HTML 文档
3.
Jsoup解析Html中文文档
4.
Jsoup解析HTML实例及文档方法详解
5.
Jsoup解析HTML、加载文档等实例
6.
Python解析xml文档实战案例
7.
PDF文档解析:PDFBox和iText实例
8.
解析XML文档
9.
XML文档解析
10.
HTML脱离文档流分析
>>更多相关文章<<