Htmlparse解析HTML文档（例）

时间 2019-11-24

原文原文链接

//http://hao861002.javaeye.com/blog/288903

Htmlparse解析HTML文档（例）

关键字: parser

import java.util.HashMap;
import java.util.Map;
import org.htmlparser.Node;
import org.htmlparser.NodeFilter;
import org.htmlparser.Parser;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.util.NodeList;
import com.yao.http.HttpRequester;
import com.yao.http.HttpRespons;

/**
* JAVA中使用Htmlparse解析HTML文档，使用htmlparse遍历出HTML文档的全部超连接（<a>标记）。
*
* @author YYmmiinngg
*/
public class Test {
    public static void main(String[] args) {
        try {
/* 首先咱们先使用HttpRequester类和HttpRespons类得到一个HTTP请求中的数据（HTML文档）。能够从([url]http://download.csdn.net/source/321516[/url])中下载htmlloader，该库中有上述类；或从个人《JAVA发送HTTP请求，返回HTTP响应内容，实例及应用》一文中摘取上述两JAVA类的代码。htmlparse能够从 ([url]http://download.csdn.net/source/321507[/url])中下载
*/
            Map<String, String> map = new HashMap<String, String>();
            HttpRequester request = new HttpRequester();
            HttpRespons hr = request.sendGet("http://www.baidu.com");
            Parser parser = Parser.createParser(hr.getContent(), hr
                    .getContentEncoding());
            try {
                // 经过过滤器过滤出<A>标签
                NodeList nodeList = parser
                        .extractAllNodesThatMatch(new NodeFilter() {
                            //实现该方法,用以过滤标签
                            public boolean accept(Node node) {
                                if (node instanceof LinkTag)//标记
                                    return true;
                                return false;
                            }
                        });
                // 打印
                for (int i = 0; i < nodeList.size(); i++) {
                    LinkTag n = (LinkTag) nodeList.elementAt(i);
                    System.out.print(n.getStringText() + " ==>> ");
                    System.out.println(n.extractLink());
                }
            } catch (Exception e) {
                e.printStackTrace();
            }

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

//转自：[url]http://hao861002.javaeye.com/blog/288903[/url]